《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 多模態(tài)學(xué)習(xí),帶來AI全新應(yīng)用場景?

多模態(tài)學(xué)習(xí),,帶來AI全新應(yīng)用場景,?

2020-07-08
來源:與非網(wǎng)

  新的 AI 技術(shù)發(fā)展趨勢有哪些?多模態(tài)學(xué)習(xí)技術(shù)一定是其中之一,。

  最近,,剛剛宣布“自立門戶”的微軟 AI 明星產(chǎn)品小冰改名為“紅棉小冰”。殊不知 2014 年誕生的這一個 AI 對話機器人已經(jīng)在 5 年時間里更新到了第七代了,,據(jù)稱能力上正在“無限接近人類”?,F(xiàn)在的小冰,不僅是那個會作詩的機器人了,,她還會唱歌作曲,、閱讀朗誦、撰寫新聞,,甚至去年還辦了一個虛擬 7 位畫家的個人畫展,。多模態(tài)識別技術(shù)正是小冰越來越像人一樣溝通表達的關(guān)鍵之一。

1.jpg

  多模態(tài)技術(shù)同樣也在視頻網(wǎng)站,、電商物流,、自動駕駛等領(lǐng)域得到廣泛。像愛奇藝推出的“只看 TA”功能,,優(yōu)酷視頻正在使用的視頻幀,、人臉幀的圖向量檢索,都離不開多模態(tài)識別技術(shù)的支持,。而像京東淘寶等電商平臺的“拍照購”,、“拍立淘”的搜索技術(shù)背后也都是在計算機視覺技術(shù)下,使用了圖像,、文本和高層語義屬性等多模態(tài)下的信息融合,,才實現(xiàn)高精度的“以圖搜圖”功能。百度提出的“多模態(tài)深度語義理解”,,則讓 AI 實現(xiàn)從“看清聽清”到“看懂聽懂”的進化,。

  可以說,人工智能在通向人的智能的道路上,,多模態(tài)學(xué)習(xí)就是一個繞不開的發(fā)展方向,。因為人類本身就是一個多模態(tài)學(xué)習(xí)的典范,。

  現(xiàn)在,多模態(tài)學(xué)習(xí)技術(shù)正在帶來眾多全新的應(yīng)用場景,。關(guān)注 AI 技術(shù)和應(yīng)用發(fā)展趨勢的你,,想必也想了解下多模態(tài)學(xué)習(xí)的來龍去脈,以及在這些新應(yīng)用場景中的技術(shù)現(xiàn)狀與問題,。而這些問題也是本文重點探討的內(nèi)容,。

  “多模態(tài)學(xué)習(xí)”,正式認識下

  模態(tài)(Modality),,雖然不是我們的日常用語,,但卻十分容易理解。

  我們每一天都會接觸到各種不同來源和形式的信息,。正如我們有視覺,、聽覺、嗅覺和觸覺等,,那么我們接觸的信息就有視頻,、圖像、文字,、語音,、味道、軟硬度等,,這每一種信息的形式就可以稱作一種模態(tài),。

  模態(tài)的范圍要比我們的感知能力更寬泛。除了視覺,、聽覺獲得的模態(tài)信息,,我們也可以利用傳感器獲得諸如雷達、紅外線等不同感應(yīng)數(shù)據(jù)的模態(tài)信息,。

2.png

  此外,,模態(tài)的類型定義也可以非常寬泛,比如我們可以把兩種不同的語言當(dāng)做是兩種模態(tài),,把不同結(jié)構(gòu)下采集的數(shù)據(jù),,也可以當(dāng)做兩種模態(tài)。比如,,僅僅一個視頻內(nèi)容數(shù)據(jù),,就是一個高維度、多模態(tài)的數(shù)據(jù)信息,,其中包含了標(biāo)題,、簡介、評論,、字幕等文本信息,,也有視頻幀的圖像、聲音,,以及連貫動作視頻片段的視覺,、聲音信息。

  多模態(tài)學(xué)習(xí),,從上世紀(jì) 70 年代就已經(jīng)起步,,幾經(jīng)發(fā)展,現(xiàn)在正進入到機器學(xué)習(xí)特別是深度學(xué)習(xí)的階段,。通常稱為多模態(tài)機器學(xué)習(xí)(Multi-Modal Machine Learning ,,MMML),試圖通過機器學(xué)習(xí)的方法實現(xiàn)對多源模態(tài)信息進行分析和理解,。當(dāng)前主要熱門的研究方向自然是對圖像,、視頻、音頻,、語義之間的多模態(tài)學(xué)習(xí),。

  當(dāng)前,多模態(tài)學(xué)習(xí)主要研究方向有多模態(tài)表示學(xué)習(xí),、模態(tài)間映射,,多模態(tài)對齊、融合,、協(xié)同學(xué)習(xí)等,。

  多模態(tài)表示學(xué)習(xí),研究如何將多個模態(tài)數(shù)據(jù)所蘊含的語義信息數(shù)值化為實值向量,,通俗理解就是對多個模態(tài)的數(shù)據(jù)進行相關(guān)性編碼,,讓不同模態(tài)建立起映射關(guān)系。按多模態(tài)表示共享的方式,,主要分為公共表示學(xué)習(xí)和特異性表示學(xué)習(xí),,后者由于是分別學(xué)習(xí)不同模態(tài)的特征,可以應(yīng)用于諸如零次學(xué)習(xí),、模態(tài)間映射,、跨模態(tài)檢索等任務(wù)中。

3.png

  模態(tài)間映射,,研究如何將某一特定模態(tài)數(shù)據(jù)中的信息映射至另一模態(tài),。例如,給定一幅圖像,,通過機器學(xué)習(xí)得到這副圖像的描述,,或者給定一段文字,生成一幅匹配的圖像,。類似于我們學(xué)習(xí)中遇到的“看圖說話”和“以題作畫”的問題,。模態(tài)間映射早已可以應(yīng)用于語音合成,、圖像視頻描述以及跨模態(tài)檢索等應(yīng)用中。

  此外,,多模態(tài)對齊,,主要研究如何識別不同模態(tài)之間的部件、元素的對應(yīng)關(guān)系,,以促進學(xué)習(xí)到的多模態(tài)表示更加精確,,例如將電影畫面、口型,、語音,、字幕的自動對齊;多模態(tài)融合,,主要致力于不同模態(tài)間的模型與特征的整合,,以獲得更全面的特征,提高模型魯棒性,,并且保證模型在某些模態(tài)缺失時仍能有效工作,;而多模態(tài)協(xié)同學(xué)習(xí),主要考慮如何從信息豐富模態(tài)上學(xué)習(xí)的知識遷移到信息匱乏的模態(tài),,使各個模態(tài)的學(xué)習(xí)互相輔助,。典型的方法包括多模態(tài)的零樣本學(xué)習(xí)、領(lǐng)域自適應(yīng)等,。

  近兩年,,隨著機器學(xué)習(xí)的模型的飛速進展,多模態(tài)學(xué)習(xí)中出現(xiàn)的映射質(zhì)量問題,、對齊的匹配度量以及融合噪聲干擾等問題,,都在實現(xiàn)很好的優(yōu)化解決,為多模態(tài)的落地應(yīng)用做好了準(zhǔn)備,。

  多模態(tài)學(xué)習(xí),,正在豐富哪些應(yīng)用場景?

  通過以上解釋可以知道,,其實很多我們熟知的 AI 技術(shù)都可以歸類到模態(tài)學(xué)習(xí)當(dāng)中,。比如,像機器翻譯,,通過輸入的一種 A 語言即時翻譯為另一種 B 語言,,其實質(zhì)就是一種模態(tài)之間的映射轉(zhuǎn)化。類似的還有唇讀識別和語音翻譯,,也就是分別將唇部視覺和語音信息轉(zhuǎn)換為文本信息,。

4.png

  在圖像識別中,會應(yīng)用到一種“圖片語義分割”,即嘗試給圖片的不同像素區(qū)域?qū)?yīng)到每一種類型標(biāo)簽,,實現(xiàn)視覺和詞匯的對應(yīng),。這就是多模態(tài)對齊在空間維度的應(yīng)用。

  當(dāng)然,,基于多模態(tài)數(shù)據(jù)的豐富表示以及映射,、對齊和融合的應(yīng)用,可以將目前 AI 的三種主要感知模態(tài)——語音交互,、機器視覺、傳感器智能進行多模態(tài)組合,,產(chǎn)生全新的應(yīng)用場景,。

  在語音交互上,“多模態(tài)深度語義理解”技術(shù)正在為其帶來更深度的應(yīng)用場景,。

  對于前幾年的智能音箱,,我們都有這樣的感觸,那就是語音交互只能完成簡單的搜索,,一旦多聊幾句,,就發(fā)現(xiàn)機器人要么只有萬能的“套路”公式,要么就“答非所問”,。這一問題的根源就是人工智能無法更好的理解對話者的深層涵義,,也沒有靈活的應(yīng)答機制和內(nèi)容。此外,,也更難理解人的語氣,、情緒這類情感模態(tài)信息,當(dāng)然因為沒有視覺感知,,更不可能去理解人的表情,、動作、姿態(tài)等信息,。

5.png

  多模態(tài)深度語義理解可以極大改善這類語音交互的語義理解難題,。比如,其中一個應(yīng)用場景是智能汽車的數(shù)字座艙,,正在從原本單一的車載語音識別,,實現(xiàn)融合視覺、語音,、車內(nèi)外場景圖像的多模態(tài)識別的轉(zhuǎn)變,。

  在實際的語音交互中,車載智能助手不僅可以實現(xiàn)語音的識別,,也可以通過攝像頭識別人的表情神態(tài),、動作,比如識別疲勞駕駛、分心,、發(fā)熱等狀況,,以進行即時的語音提醒。語音交互也可以更加以人類的自然語言進行交互,,而不必要使用生硬的指令型語言,。

  而在以機器視覺為主的應(yīng)用中,多模態(tài)學(xué)習(xí)技術(shù)也帶來新的應(yīng)用可能,。

  以電商平臺購物為例,,用戶的一大痛點就是看到一些“心水”的好物或者同款,但不知道名字,,通過拍照識別和檢索,,將為用戶提供最便捷的推薦服務(wù)。另外,,在電商的智能客服,,用戶也希望能夠通過簡單對話或者發(fā)送圖片、視頻的方式處理訂單問題,。在這些場景中,,跨模態(tài)檢索和映射轉(zhuǎn)化技術(shù)就得到了深度應(yīng)用。

  比如,,在商品推薦和信息流廣告中,,就需要結(jié)合海量商品圖像與對應(yīng)的商品語義屬性,學(xué)習(xí)圖像語義特征表達,,以提高符合用戶需求的商品推薦度,。而與智能客服進行的多輪對話中,融入視覺到語言的跨模態(tài)轉(zhuǎn)換技術(shù),,可以自動實現(xiàn)對用戶上傳的圖片或視頻進行自動應(yīng)答,。

  在傳感器智能上,多模態(tài)識別技術(shù)可以應(yīng)用到大量的物聯(lián)網(wǎng)設(shè)備場景中,。通過在大量的智能設(shè)備中增加視覺,、溫度、濕度和光線傳感器,,來實現(xiàn)多模態(tài)的智能交互,。比如在智能空調(diào)中,加入語音交互,、視覺識別指令,,結(jié)合傳感器判斷屋內(nèi)溫度和濕度,可以根據(jù)屋內(nèi)人數(shù),、位置等因素來實現(xiàn)更精準(zhǔn)的控溫方案,。而現(xiàn)在更多智能大屏應(yīng)用,也在將機器視覺、語音交互和一些智能傳感器引入到智能硬件中,,實現(xiàn)對屋內(nèi)光線的調(diào)節(jié),、音量、觀看者狀態(tài)(離得是否太近,,是否有未成年人)等因素的智能識別和調(diào)節(jié),。

6.png

  而近期,華為推出的一款針對辦公場景的智慧屏幕,,可以根據(jù)視頻會議中的發(fā)言對象進行視角跟蹤,,將攝像頭跟蹤、焦點人物識別和身份識別結(jié)合起來,。

  正如開始列舉的,,多模態(tài)學(xué)習(xí)技術(shù)更主要的應(yīng)用還是集中在語音和視覺的多模態(tài)識別上。在愛奇藝的“只看 TA”的功能中,,除了人臉識別要區(qū)分是真人還是卡通人物,還要對人體信息,,甚至還有微表情,、身體語言等識別,多模態(tài)技術(shù)成為視頻場景中不可缺少的技術(shù)支撐,。而在未來的聊天機器人或者智能助手上,,多模態(tài)學(xué)習(xí)將幫助智能機器人綜合處理圖像、聲音和文字信息,,同時可以進行綜合模態(tài),,甚至包括情感等特征信息的輸出與表達。

  技術(shù)尚在中途,,未來仍需努力

  不過,,我們?nèi)匀恍枰赋龅氖牵M管多模態(tài)學(xué)習(xí)技術(shù)已經(jīng)有諸多的應(yīng)用場景,,但其技術(shù)實現(xiàn)仍然有諸多不足,,也會有一些場景仍然是“偽多模態(tài)”的技術(shù)應(yīng)用狀態(tài),導(dǎo)致一些場景體驗仍然不能“盡如人意”,。

  現(xiàn)在的多模態(tài)技術(shù)的結(jié)合多為“松耦合”狀態(tài),,各個模態(tài)可以一起工作,但耦合之下還不夠十分緊密,。也就是現(xiàn)在更多實現(xiàn)的是兩種模態(tài)信息的轉(zhuǎn)化和融合,。而一旦多種模態(tài)數(shù)據(jù)增加,耦合也會增多,,沖突也就會增加,,產(chǎn)生各種噪聲。比如,對于聊天機器人,,如何在回復(fù)的聲音,、文本中增加情感特征,就是一件非常困難的事情,。因此,,我們遇到的一批智能機器人都很容易是冷冰冰的客服腔調(diào),以致于我們確實不好識別對方是真人還是機器人,。

7.png

  多模態(tài)技術(shù)主要還是采用已標(biāo)注的多模態(tài)數(shù)據(jù)來生成深度學(xué)習(xí)模型,,這導(dǎo)致這些模型在真實場景下的泛化能力受到很大限制。現(xiàn)有的多模態(tài)技術(shù)更多要與知識圖譜結(jié)合,,融入專家,、常識等知識,利用數(shù)據(jù)和知識的聯(lián)合來讓多模態(tài)技術(shù)建立其“智能”的作用,。

  此外,,正如一位專家指出的,當(dāng)前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習(xí),,整個訓(xùn)練和測試的過程都是在封閉和靜態(tài)的環(huán)境下進行,,這就和真實世界中開放動態(tài)的應(yīng)用場景存在一定的差異性。這距離人類在真實場景中的泛化的多模態(tài)感知相距甚遠,。

  未來為提高多模態(tài)的泛化感知能力,,可以利用元學(xué)習(xí)的方式來讓模型自己學(xué)會如何認知新的多模態(tài)知識,實現(xiàn)適用于開放動態(tài)場景并具備終生學(xué)習(xí)能力的多模態(tài)模型,。

  而在推動 AI 的推理能力上,,在多模態(tài)模型訓(xùn)練的過程中,可以引入自監(jiān)督,、自學(xué)習(xí)的推理性任務(wù),,“強迫”多模態(tài)模型進行推理和思考,這也能在一定程度上讓機器去慢慢學(xué)會推理,。

  通過多模態(tài)學(xué)習(xí)技術(shù)實現(xiàn) AI 的推理,,看起來難度極大,這一假設(shè)還需要未來更多實驗和驗證,。

8.png

  總的來說,,多模態(tài)技術(shù)已經(jīng)在試圖“復(fù)制”人類在日常生活中的各類場景,盡可能把人類的感知信息進行分析處理和整合,,并實現(xiàn)更全面綜合的理解,,也能結(jié)合“數(shù)據(jù)”和“知識”給出相應(yīng)的回應(yīng)。但這距離真正的人類級別的智能還有質(zhì)的差別,。

  當(dāng)然,,人們對多模態(tài)技術(shù)的發(fā)展前景仍然看好,,相比于只側(cè)重單一模態(tài)的技術(shù),多模態(tài)技術(shù)所構(gòu)建的智能應(yīng)用場景將更多樣化,,也與我們普通人期待的智能生活更近一些,。

  更何況,多模態(tài)技術(shù)仍處在“襁褓狀態(tài)”,,我們應(yīng)該留給它足夠長的成長時間,,等待美好發(fā)生。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected]