时时彩娱乐平台

産品廠商資訊招商方案招聘展會品牌下載視頻論壇

  •  
     

    俞棟:多模態是邁向通用人工智能的重要方向

    2019-09-10 雷鋒網

    隨著語音識別、自然語言處理、計算機視覺等人工智能技術日益成熟,並逐漸落地到實際場景中,如何實現大規模應用落地或者說如何通往通用人工智能,越來越成爲這些領域的研究者探索和思考的命題。

    在這種探索和思考下,“多模態”成爲人工智能領域諸領軍式專家和學者重點談及的研究方向,例如,自然語言處理領域專家劉群教授在此前與 AI 科技評論的對話中,就曾談及諾亞方舟語音語義實驗室目前的一大重點研究方向便是多模態;德國漢堡科學院院士張建偉認爲人機交互的未來是多模態共享模式;計算機視覺領域專家賈佳亞教授則在多場演講中提出「多模態是人工智能的未來」這一觀點。

    而腾讯作为业界关注这一研究方向的代表之一,自 2018 年 2 月就开始关注多模态方向的研究,并于 2018 年 11 月宣布探索下一代人机交互方式:多模态智能。

    9 月 2 日,在腾讯 AI Lab 携手 Nature ReseARch(自然科研)及旗下《自然-机器智能》、《自然-生物医学工程》两本期刊联合举办世界首届「Nature Conference - AI 与機器人大会」上,语音识别领域的领头人之一、腾讯 AI Lab 副主任、多模态虚拟人项目负责人俞栋博士更是基于其在多模态技术上的研究成果,带来了《虚拟人中的多模态合成技术》的演讲报告,以虚拟人项目为载体,向大家介绍了多模态的技术优势,并分享了腾讯 AI Lab 在这一方向上的研究和应用探索。

    会后,AI 科技评论还对俞栋博士进行了专访,进一步探讨了多模态的应用探索情况,其中,俞栋博士在将多模态这一研究方向视为迈向通用人工智能的突破口的同时,也以更加冷静的态度指出,多模态会是未来人工智能的一个非常重要的方向,但并不是全部。因为人工智能是一个很广泛的概念,我们目前对它可能只是略知皮毛,通往通用人工智能的这條路到底是怎么样的,大家都还处于一个探索状态。

    与此同时,AI 科技评论也借此机会跟俞栋博士聊了聊他领先将深度学习技术应用到语音识别领域的历史渊源、从微软研究院到腾讯 AI Lab 的职业转变经历以及其对于语音识别领域未来发展的看法。

    我們先來看俞棟博士在本次大會上都分享了什麽。

    爲什麽多模態是人機交互的發展趨勢?

    人機交互走過了鍵盤交互、觸摸交互等若幹階段,目前許多設備采用語音交互的方式。而交互模式經曆每一次變化背後的驅動力,都是對人和機器之間交互的便利性、自然性以及准確性所提出的更高的要求。

    爲了更好地滿足人機交互的這一需求,俞棟博士指出了一個非常重要的研究方向或者說發展趨勢,那就是多模態人機交互。與此同時,俞棟博士也解釋了爲什麽多模態是人機交互的發展趨勢的原因,主要有四點:

    第一,多模態交互能夠讓人類在不同的場景下可以選擇不同的模態組合進行交互,進而從整體上提高人機交互的自然度;第二,在多模態技術下,一個模態可以補充另一個模態的弱點,從而能夠通過融合多個模態的信息,獲得更精確的用戶、情感、場景、和發聲人位置估計;第三,多模態交互具有「互爲監督」的優勢,即當機器無法獲得某個模態的明顯信息時,其他模態可以爲其提供弱監督信息,讓機器能夠持續做系統自適應調整;第四,多模態能夠讓人們在與機器的交互過程中擁有多維感覺,從而能夠從視覺、聽覺、觸覺等多方面體會機器的情感和表達的語義。而除了所具備的這些優勢外,俞棟博士認爲,多模態交互還能夠給業界帶來更多的想象空間,比如可以嘗試使用人機交互技術去做虛擬解說、虛擬前台、虛擬陪伴等。

    正是由于多模態交互所具備的這些優勢以及所帶來的這種想象空間,他也領導團隊開啓了虛擬人的研究項目。下面,俞棟博士也以虛擬人這項研究成果爲載體,對多模態交互技術進行了詳細介紹。

    多模態交互技術詳解及應用成果分享

    俞棟博士首先介紹了多模態交互的系統框架,主要包括三個部分:多模態輸入、中間的認知和決策控制環節以及最後的輸出。

    进一步,俞栋博士向大家展示了多模态技术的阶段性成果——虚拟人的合成技术流程:系统首先从文本中提取各种各样的信息,包括动作、表情、情感、重音位置、和激动程度等;之后将这些信息输入到动作表情模型生成动作和表情,同时输入给多模态合成系统 DurIAN 同步生成语音以及口型和表情参数,进而合成真人或者卡通形象。

    其中,同步合成语音和图像的 DurIAN 模型作为多模态合成技术的核心成果,则是俞栋博士本次要介绍的重点内容。

    据俞栋博士介绍,相较于传统语音合成方法以及目前最新的端到端语音合成方法,应用多模态合成技术DurIAN 模型,无论是在自然度、鲁棒性、可控性、泛化能力以及实时性等方面都取得了更好的效果。

    传统语音合成方法 VS 端到端语音合成方法

    在正式介绍 DurIAN 模型前,俞栋博士先介绍了传统语音合成方法、端到端语音合成方法、以及这两种方法各自的优缺点。

    传统语音合成方法主要基于 BLSTM+WORLD 模型,拥有稳定性和可控性较强的优点,同时也存在合成语音机械感太浓的缺点。不过由于该方法具备较强的稳定性和可控性,在工业界的实用系统中主要还是使用这种框架。

    端到端的语音合成方法优点则在于自然度很高,缺点则是稳定性和可控性比较差,其中最常见的问题是漏字和重复。以从文献中摘录的结果为例,该系统出现漏字或者重复错误的可能性为 1%-5%。因而,该方法在实用系统里没有得到广泛使用。不过近来,该方法取得了很大进展,例如谷歌于 2018 年提出的结合 WaveNet 的 Tacotron 模型。

    相比于传统语音合成方法,端到端语音合成模型 Tacotron 的优势主要有四个改进部分:

    第一,它使用了基于神經網絡的編碼器模型來替換人工設計的語言學特征;第二,它直接預測含有豐富信息的頻率譜,而不是源過濾器聲學特征;第三,它引入了自回歸模型,解決了合成過程中的過度平滑問題;第四,它采用了基于注意力機制的端到端訓練方法。

    不過,這種端到端的注意力機制也帶來了穩定性差的問題。俞棟博士團隊通過分析發現,注意力機制是模型出現漏詞、重複等問題的主要原因。下圖右邊有兩個合成案例,其中標藍的字是被漏掉的。

    应用多模态技术的语音合成系统:DurIAN 模型

    基于对端到端语音合成模型 Tacotron 出现漏词、重复等问题的原因的发现,俞栋博士团队在 DurIAN 模型中提出了解决方案,即保留 Tacotron 模型中对语音合成的自然度有益的部分,也就是上述提到的前三个改进部分,然后使用时长预测模型来替换端到端注意力机制。其基本做法是训练一个音素时长预测模型,然后在给定时长的情况下,对模型进行端到端训练。

    这样的话,DurIAN 模型在能够保证不出现漏字、重复问题的情况下,既能保持端到端语音合成模型自然度高的优势,又能解决系统的稳定性和可控性问题。

    其中,在可控性方面,DurIAN 模型还能进一步实现精细的控制,基本思路是采用监督学习方法,不过不需要对训练语料进行精细标注,比如只需要标注语音是否激动或者语速是快还是慢。在训练时,让每一个控制变量都学习一个指向性矢量;在合成过程中,则只需对相应的矢量做连续值的缩放,便可以实现精细化的风格控制。

    除了稳定性和可控性,DurIAN 模型在鲁棒性和泛化能力、实时化等方面都有较大的提升。

    针对此前端到端语音合成系统存在鲁棒性以及泛化能力弱的问题,DurIAN 模型引入了语言学信息,尤其是标点和韵律边界,即通过充分利用中文语音里的韵律结构来提高模型的泛化性能。具体做法是在 DurIAN 模型中采用 Skip Encoder 来替代 Tacotron 模型中的编码器结构,从而有效引入中文语句里的韵律结构。而Skip Encoder 的基本思想是,在输入时用额外的帧显式表达这些语言学信息,不过由于标点和韵律边界本身是一个时间点而不是一个时间段,因而在编码器输出的地方放弃跳过额外增加的帧,这样每一帧的编码器输出仍然与频率谱的帧相对应。

    在实时化问题上,此前谷歌曾提出了 waveRNN 模型,虽然在运算速度上比神经声码器一开始常用的 wavenet 快很多,经过仔细的工程优化也能够实现实时,然而实时率不佳,且语音合成成本高。对此,俞栋博士团队提出了多频段同步式 waveRNN 技术,其基本做法是把语音信息分频段,每一步用同一个声码器模型同时预测多个频段的值,如果分成 4 个频段,则每一步可以计算 4 个值,计算次数就是原来的四分之一。与此同时,在合成过程中,声码器预测多频段的值后,通过上采样和专门的滤波器设计就能保证恢复没有失真的原始信号。

    语音合成以外,俞栋博士还展示了 DurIAN 模型在同步合成多模态信息上的优势,即该模型中的时长预测模型,可让系统能够同步合成语音、嘴型以及面部表情参数,最终生成卡通形象或者真人形象的虚拟人。

    未來工作展望

    尽管在自然度和鲁棒性、风格可控、实时性以及同步合成语音、嘴型和面部表情等方面,DurIAN 模型已经做得非常不错,但俞栋博士也指出,该技术还有很多探索的空间,未来其团队也还有很多工作要做,主要包括四个方向:

    第一,在模型优化上,需要探索在 DurIAN 结构基础上的端到端训练方法,以更好地支持端到端优化;第二,在控制能力上,需要让模型进一步拥有全方位的控制能力,即能够在不同的场景、情感、音色、语气信息下,合成对应的语音;第三,在训练语料方面,需要能够让系统从低质量的语料中学习韵律,从高质量地语料中学习音质;第四,需要对模型的定制化进行进一步探索,从而在少量的语音语料(<15 分钟)的情况下,也能够训练出新的音色。AI 科技评论专访俞栋博士对话实录:

    多模態在虛擬人項目中的應用探索

    問:本次您的報告主題是《虛擬人中的多模態合成》,您在演講中重點介紹了虛擬人這一最新成果以及多模態在虛擬人中的技術應用,那您一開始研究這個項目的契機是什麽?

    俞棟:第一,我們越來越意識到單一技術能做的事情非常少,因而需要將很多的技術組合起來,這樣才能做出比較有影響力的成果。

    第二,腾讯 AI Lab 创立之初就刚好设立了虚拟人所需要的各个研究方向,包括语音、自然语言处理、机器学习、计算机视觉等等,所以在虚拟人这个项目上,我们目前所具备的條件已经是比较成熟的。

    第三,多模態交互是曆史發展的必然趨勢,我們預估這項技術在接下來的幾年時間裏會變得越來越重要。

    問:目前虛擬人項目的進展如何?

    俞棟:我們去年下半年開始規劃這個項目,今年年初算是真正開始有組織地做這個項目,經過八個月時間的研究,該項目也取得了一些進展。(相關進展見上述報告部分)

    這個項目大概分爲三個核心的部分:第一個是虛擬人的輸出;第二個是虛擬人的輸入,包括看、聽、觸摸等感知方面的東西;第三個是認知和對話的模塊,這個模塊成熟度最低,但也是非常重要的模塊。對于認知模塊,業界研究了很久,目前還不知道正確的做法是什麽。我們現在對于這個部分能夠做到什麽程度也不是很清楚,不過,我們還是要組織力量往這個方向走。

    問:現在人工智能領域,包括騰訊優圖實驗室負責人賈佳亞教授等研究者都在研究多模態這一技術,他還在近期的演講中提出了“多模態是人工智能發展的未來”的觀點,您怎樣看待這一觀點?

    俞棟:我認爲應該說多模態是未來的一個重要方向。人工智能是一個很廣泛的概念,其實我們到目前爲止,可能也只是了解到它的一點皮毛,包括認知推理、因果推理到底是怎麽回事,機器的泛化能力爲什麽這麽弱等這類基礎性問題,我們現在都還沒有搞明白。

    通往通用人工智能的這條路到底是怎麽樣的,大家都還處于一個探索狀態,所以強化學習、多模態交互等都是通往通用人工智能的一種重要的嘗試,但不是全部。

    在若幹年後,說不定大家還會發現另外某項技術才是真正能夠實現通用人工智能的技術。

    學術研究經曆

    问:仅就学术而言,您的简历就已经非常丰富,是首次将深度学习技术应用在语音识别领域的研究领头人之一,与 Geoffrey Hinton、邓力等人都有过深度合作,无论是论文、专著还是研究成果方面,表现都非常突出,那您一开始是基于怎样机缘选择语音识别这一研究方向的呢?

    俞栋:我小学的时候看过一本课外书,叫《奇异的机器狗》,现在里面谈到的很多东西都已经实现了,包括机器能够听懂人说的话,可以跟小朋友交互、帮他们解决学习问题,还能够带小朋友去玩,等等。因此实际上,我在小时候就对这些智能機器人产生了兴趣。

    而真正與語音識別這個方向接觸則是在大學本科期間。我本科在浙大念自動控制專業,當時就讀的班級是浙大設置的一個特殊的班級,叫做「混合班」,進入這一班級的都是當年入學新生中最好的一百個人。這個班的老師將我們這些學生當做將來專門的研究人員來培養,所以我們一入學就開始關心「科技國家隊」的概念。

    大学三年级的时候,我们便进入课题组做研究,当时恰逢人工智能发展的小高峰期(1989 年~1991 年),其中主要有两个比较热门的方向,一个是专家系统,像我当时的学长吴朝晖(现任浙大校长)在这个方向上的研究工作比较多;另一个方向便是当时刚刚开始热起来的神经网络,我当时的一个方向便是神经网络。

    本科畢業後,我打算去中科院,因爲當時在大家的認知中,中科院就是科技國家隊。由于本科專業是自動控制,所以便去自動化所找導師,在此過程中發現了研究方向跟我的興趣比較一致的黃泰翼老師,他研究的是語音識別。比較巧的是,我在「混合班」的學長徐波(現爲自動化所所長),當時也在黃泰翼老師那裏念研究生。所以我最後就去黃泰翼老師那裏讀研,開始進入語音識別這個研究領域。

    問:實際上在深度學習早期階段,這一方法實際上並不被看好,您是在怎樣的背景下開始研究深度學習的?

    俞棟:正如我前面提到,我剛開始接觸神經網絡的時候,神經網絡是當時人工智能的一個熱門研究方向之一。

    後來我到黃泰翼老師那裏讀研究生的時候,黃泰翼老師以及其實驗室的其他老師也采用神經網絡的方法來做語音識別,所以我在自動化所的碩士論文,便是采用神經網絡的方法做語音識別。這就爲我之後將深度學習引入語音識別任務的一系列工作奠定了基礎。

    问:今年,Hinton 等深度学习三巨头摘得 2018 图灵奖,而深度学习给人工智能领域带来的变革性影响早在前几年就已经发生了,您是否认为这是给深度学习的一份迟到的荣誉?另外您怎样评价这三位研究者的工作?

    俞棟:我認爲基本上是適時的。因爲科學發展中的很多進展,在當時剛出來的時候,該領域的人很難看清它們的影響到底有多大,一般都有一個認可延後期,有的可能只需要幾年,有的甚至要等到發明人去世後這項成果才能被認可。所以我認爲他們獲得這項榮譽,還算是比較適時的。

    首先,他們很早就開始研究深度學習,我大學期間首次接觸到這項工作之前,他們就做了很多鋪墊性的工作;其次,他們在這個方向上堅持了很久,即使在低潮時期,他們依舊在堅持,這都是非常值得我們研究者學習的品質。

    問:將深度學習技術應用于語音識別是否是您最具代表性的工作?之後在語音識別這一領域您有哪些主要的研究方向?

    俞棟:我認爲這是一項比較有代表性的工作,當然我們在這個研究方向上做了一系列工作,因而對這個領域起到了一個比較大的推動作用,如果只是單項工作,推動作用也就沒有這麽大了。

    目前我們比較關注的一個研究方向是多模態,這是一項涵蓋視覺、聲音、符號語言、嗅覺和觸覺等信息的技術,而語音部分相關的如語音識別、語音合成、語音增強、語義分離、聲紋識別等技術,在多模態中都有用到。

    从微软研究院到腾讯 AI Lab

    问:学术以外,您在工业界的履历也非常丰富,2017 年 5 月份,您离开微软研究院加入腾讯 AI Lab,在工作内容以及承担的角色方面,有怎样的转变?

    俞栋:原来在微软研究院任职的时候,相对来说会更加专注自己的研究方向和技术层面的东西。加入腾讯 AI Lab 后,我承担的角色不再是纯技术研究型的,除技术研究外,还需要扮演管理者的角色。

    相对来说,刚开始比较难适应的难点有两个:一是自己要花很多时间在管理方面,做技术的时间相对来说就少了,需要我找到更好的平衡;二是由于我负责的团队在西雅图,跟总部这边由于时差等原因,晚上的很多时间需要和国内开会,晚上可自由支配的时间比在 MSR 时少了很多。为了减少沟通问题,我增加了到中国实验室的时间。

    问:目前,国内科技巨头其实都已经先后创建了人工智能相关的实验室,您怎样看待腾讯 AI Lab 在其中的位置?

    俞栋:现在这些企业都成立了人工智能实验室,招了很多很强的科学家,我认为这是一个好的趋势,对整个 AI 的发展會有很好的推动作用。

    相较之下,腾讯 AI Lab 稍有不同的地方在于,我们的研究跟産品的紧密程度,可能没有其他实验室那么高。其他公司的实验室更像是一个工程院,偏向于将一些论文中的技术复现,然后落地到産品中。而我们则更注重是否能够发展前沿技术,跟其他企业的实验室的侧重点不完全一样。

    問:您帶領的團隊對學術界在語音識別領域的進展的關注度如何?除了語音之外,您的團隊還關注其他哪些研究方向?

    俞棟:我們對前沿技術非常關注。我個人每年都至少會參加一次語音相關的會議和一次自然語言處理的會議,同時我團隊中的其他成員也都會參加相關的會議,因此學術界主要的會議,我們基本上都有同事參加。

    語音以外,我們比較關注的方向,還包括自然語言處理、計算機視覺、圖形圖像學以及機器學習和人工智能技術的基礎理論等。

    語音識別領域的現狀和未來發展

    問:在工業落地方面,相比人工智能其他領域,語音識別是跑在前頭的,但是目前暴露出的問題也很多,其中您認爲比較嚴重的問題有哪些?

    俞棟:其實存在的問題,說到底還是魯棒性問題。現在基于深度學習的方法使系統魯棒性已經比之前好很多了,但是還達不到我們期望的效果。

    现在我们的主要做法就是增加训练语料,而训练语料目前存在采集困难的问题,并且即使采集的语料很多,一旦机器在一个此前没有见过的完全新的 mismatch 的环境中,也无法实现太好的效果。

    比較典型的例子是,現在很多語音識別器的錯誤率能夠達到百分之六七,即便在相對比較嘈雜的環境下也能做得比較好,但是如果遇到兩個人同時說話的場景,錯誤率可能達到百分之五六十。另外如果說話人的口音比較重,語音識別器的效果也不會很好。

    此前我們也嘗試了很多解決方案,包括提高模型的泛化能力,做模型的自適應,目前來看,這些方案還有很大的提升空間。

    問:就您看來,語音識別領域的發展經曆了哪些階段,目前處于怎樣的階段,以及理想化的狀態應該是怎樣的?

    俞棟:從難易程度來劃分,語音識別跟人工智能其他領域經曆的階段很相似:一開始做一些非常簡單的任務,比如說音素識別、單字識別;接著是連續語音識別的階段,隱馬科夫模型出來以後,連續語音識別就變得可行,後來到了大詞彙量連續語音識別;再之後是即時語音識別階段,要求機器能夠聽懂人自由聊天。

    現在則是完全真實場景下的語音識別階段,比如目前很多研究者在嘗試研究雞尾酒會場景下的語音識別。這也是下一階段我們要突破的方向,真實場景下的語音識還包括在非常嘈雜的環境下或者說話人口音很重的場景下做語音識別。

    我認爲,機器的理想化狀態應該是能夠比人識別率更高。計算機在未來某一天,應該是能夠在各個場景下的識別率都比人更高的。

    問:未來三到五年,語音識別領域可以尋求突破的方向或者說技術有哪些?

    俞棟:我認爲未來三到五年,語音識別領域可以突破的方向主要有三個:第一是多模態;第二個是具有更強、更快自適應能力的模型;第三,類似雞尾酒會場景下的語音識別也會是一個可以探索的方向。

    分享到:
     
    0相關評論
     
    推荐資訊
    推荐廠商
    • 北京北京力威傳動設備有限公司
    • 浙江浙江鼎力機械股份有限公司
    • 陝西陝西烽火宏声科技有限责任公司
    • 上海新智認知數據服務有限公司
    • 北京北京威視訊達科技有限公司
    • 湖北湖北安心智能科技有限公司
    • 廣東CREATOR-廣州市天譽創高電子科技有限公司
    • 廣東深圳市東微智能科技股份有限公司
    • 廣東照彰實業(東莞)有限公司
    • 北京北京華如科技股份有限公司
     
    關于我們 | 聯系我們 | 版權隱私 | 積分換禮 | 友情鏈接 | 站點導航 | 違規舉報