教人工智能以“我”的視角看世界-AET-電子技術(shù)應(yīng)用

教人工智能以“我”的視角看世界

日期： 2021-11-02

來(lái)源：中國(guó)新聞網(wǎng)

關(guān)鍵詞： 人工智能 Facebook AR 傳感器

要令arget="_blank">人工智能系統(tǒng)如同人類一樣與世界交互，人工智能領(lǐng)域需要發(fā)展出一種全新的第一人稱感知范式。這意味著人工智能在實(shí)時(shí)運(yùn)動(dòng)、交互時(shí)，要以第一人稱視角理解日常活動(dòng)。

　　世界是多維的，生活中同樣的景物在不同的視角下會(huì)呈現(xiàn)出不同的形態(tài)。若要讓人工智能更像人類，就要讓其視角更接近人。從人類的角度觀察環(huán)境，人工智能或許會(huì)看到一個(gè)新的天地。

　　近日，由臉譜（Facebook）和9個(gè)國(guó)家的13所大學(xué)及實(shí)驗(yàn)室組成的學(xué)術(shù)聯(lián)盟宣布，11月將開(kāi)源讓人工智能擁有以第一人稱視角與世界進(jìn)行交互能力的Ego4D(Egocentric 4D Perception)項(xiàng)目。這個(gè)項(xiàng)目包含超過(guò)3025小時(shí)的第一人稱視頻，涉及來(lái)自73個(gè)城市的700多名參與者的日常生活。這些視頻將有助于使人工智能認(rèn)知世界的方式更加趨向于人類。

　　那么，目前人工智能主要通過(guò)哪種視角認(rèn)知世界，不同視角對(duì)于人工智能認(rèn)知環(huán)境會(huì)產(chǎn)生哪些影響？人工智能感知環(huán)境、認(rèn)識(shí)世界主要通過(guò)哪些技術(shù)？想要認(rèn)知世界的方式更像人類，人工智能還需突破哪些瓶頸？

　　人工智能通常采用第三人稱視角

　　“要令人工智能系統(tǒng)如同人類一樣與世界交互，人工智能領(lǐng)域需要發(fā)展出一種全新的第一人稱感知范式。這意味著人工智能在實(shí)時(shí)運(yùn)動(dòng)、交互時(shí)，要以第一人稱視角理解日常活動(dòng)。”臉譜首席研究科學(xué)家克里斯汀·格勞曼曾言。

　　今天的計(jì)算機(jī)視覺(jué)系統(tǒng)大多是利用數(shù)百萬(wàn)張以第三人稱視角拍攝的照片和視頻進(jìn)行學(xué)習(xí)的。“為了構(gòu)建新的感知范式，我們需要教會(huì)人工智能像人類一樣，從第一人稱角度即‘我’的視角，沉浸式觀察理解世界，并與之交互，這種認(rèn)知方式也可以稱為自我中心認(rèn)知。”10月26日，遠(yuǎn)望智庫(kù)人工智能事業(yè)部部長(zhǎng)、圖靈機(jī)器人首席戰(zhàn)略官譚茗洲在接受科技日?qǐng)?bào)記者采訪時(shí)指出。

　　如何理解人工智能的第一人稱和第三人稱視角？譚茗洲解釋道：“第一人稱視角代入感很強(qiáng)，比如在玩游戲時(shí)，你如身臨其境，看到的游戲畫面就是你真實(shí)世界看到的畫面。第三人稱視角又叫作上帝視角，仿佛你一直飄在角色身邊一樣，如影隨形，可以看到角色本身及周圍的情況。例如，第三人稱視角下藏在掩體后可以看到掩體前面的情況；而在第一人稱視角下，囿于視角范圍，在掩體后則只能看到掩體本身。”

　　“再如自動(dòng)駕駛，其視覺(jué)系統(tǒng)如果只從旁觀者的（如車的角度）收集數(shù)據(jù)，即便通過(guò)數(shù)十萬(wàn)個(gè)基于旁觀視角看到的車輛行進(jìn)圖像或視頻進(jìn)行訓(xùn)練，人工智能可能依然不知道如何去做，很難達(dá)到現(xiàn)在的自動(dòng)駕駛水平。因?yàn)檫@種旁觀者的視角與坐在車內(nèi)方向盤前的視角很不一樣，第一人稱視角下，真人駕駛員做出的反應(yīng)還包括點(diǎn)剎、猛剎等行為，這些數(shù)據(jù)是從旁觀者視角無(wú)法搜集的。”譚茗洲進(jìn)一步說(shuō)。

　　“以前人工智能界很少以第一人稱視角收集數(shù)據(jù)集，這個(gè)項(xiàng)目彌補(bǔ)了人工智能視角體系的短板。未來(lái)AR、VR的發(fā)展十分重要，如果人工智能可以從‘我’出發(fā)，以第一人稱視角來(lái)觀察理解世界，將開(kāi)啟人類和人工智能沉浸式體驗(yàn)的新時(shí)代。”譚茗洲指出。

　　克里斯汀·格勞曼也表示：“下一代人工智能系統(tǒng)需要從一種完全不同的數(shù)據(jù)中學(xué)習(xí)，即從事件中心視覺(jué)而不是邊線視覺(jué)展示世界的視頻中學(xué)習(xí)。”

　　建立真實(shí)世界數(shù)據(jù)集

　　目前讓人工智能感知環(huán)境、認(rèn)識(shí)世界，建立類人化的認(rèn)知體系主要通過(guò)什么“抓手”展開(kāi)？

　　業(yè)內(nèi)專家指出，歷史證明，基準(zhǔn)和數(shù)據(jù)集是人工智能行業(yè)創(chuàng)新的關(guān)鍵催化劑。今天，幾乎可以識(shí)別圖像中任何對(duì)象的計(jì)算機(jī)視覺(jué)系統(tǒng)都是建立在數(shù)據(jù)集和基準(zhǔn)之上的，數(shù)據(jù)集和基準(zhǔn)為研究人員提供了一個(gè)研究真實(shí)世界圖像的實(shí)驗(yàn)臺(tái)。

　　“臉譜日前發(fā)布的這個(gè)項(xiàng)目，其實(shí)本身就是建立一個(gè)數(shù)據(jù)集，旨在訓(xùn)練人工智能模型更像人類。其開(kāi)發(fā)了5個(gè)圍繞第一人稱視覺(jué)體驗(yàn)的基準(zhǔn)挑戰(zhàn)，即把第一人稱視角拆解成5個(gè)目標(biāo)，開(kāi)展相應(yīng)的訓(xùn)練集競(jìng)賽。”譚茗洲指出。

　　Ego4D的5個(gè)基準(zhǔn)是：情景記憶，什么時(shí)候發(fā)生？預(yù)測(cè)，我接下來(lái)可能會(huì)做什么？手—物交互，我在做什么？視聽(tīng)日記，誰(shuí)在什么時(shí)候說(shuō)了什么？社交互動(dòng)，誰(shuí)在和誰(shuí)互動(dòng)？

　　譚茗洲強(qiáng)調(diào)，上述基準(zhǔn)測(cè)試將促進(jìn)開(kāi)發(fā)人工智能助手所必需的構(gòu)建模塊的研究。人工智能助手不僅可以理解現(xiàn)實(shí)世界中的指令并與之交互，同時(shí)可以在元宇宙中實(shí)現(xiàn)對(duì)元宇宙中指令的理解和交互。

　　為了建立這個(gè)數(shù)據(jù)集，與臉譜合作的大學(xué)團(tuán)隊(duì)向研究參與者分發(fā)了現(xiàn)成的頭戴式攝像頭和其他可穿戴傳感器，以便捕獲第一人稱的、未經(jīng)編輯的日常生活視頻。項(xiàng)目的重點(diǎn)是參與者從日常場(chǎng)景中捕獲視頻，比如購(gòu)物、烹飪、邊玩游戲邊聊天，以及與家人和朋友進(jìn)行其他團(tuán)體活動(dòng)等。

　　視頻采集了攝像頭佩戴者在特定環(huán)境中選擇注視的對(duì)象，以及攝像頭佩戴者如何從自我中心角度與人和物互動(dòng)。到目前為止，攝像頭佩戴者已經(jīng)執(zhí)行了數(shù)百項(xiàng)活動(dòng)，并與數(shù)百種不同的對(duì)象進(jìn)行交互，項(xiàng)目的所有數(shù)據(jù)都是公開(kāi)的。

　　“臉譜這項(xiàng)研究能夠更快地推動(dòng)人工智能領(lǐng)域自我中心認(rèn)知研究的進(jìn)步。這將對(duì)我們未來(lái)的生活、工作和娛樂(lè)方式產(chǎn)生積極影響。”譚茗洲表示。

　　讓人工智能認(rèn)知能力更像人

　　人工智能發(fā)展的終極目標(biāo)是讓人類受益，讓我們能夠應(yīng)對(duì)現(xiàn)實(shí)世界中日益復(fù)雜的挑戰(zhàn)。想象一下，通過(guò)AR設(shè)備能夠在琴、棋、書(shū)、畫課堂中準(zhǔn)確顯示如何彈琴、下棋、握筆和勾勒；形象生動(dòng)地指導(dǎo)家庭主婦根據(jù)食譜烘焙燒烤、烹飪菜肴；健忘的老人借以眼前全息圖的幫助回憶過(guò)去……

　　臉譜強(qiáng)調(diào)，希望通過(guò)Ego4D項(xiàng)目為學(xué)術(shù)界和行業(yè)專家開(kāi)辟一條全新的道路，幫助構(gòu)建更智能、更靈活和更具交互性的計(jì)算機(jī)視覺(jué)系統(tǒng)。隨著人工智能越加深入理解人類的日常生活方式，相信將這個(gè)項(xiàng)目能以前所未有的方式對(duì)人工智能的體驗(yàn)進(jìn)行情境化和個(gè)性化。然而，目前的研究還只是觸及自我中心認(rèn)知的皮毛。

　　如何才能讓人工智能的認(rèn)知能力更像人類？“首先是注意力，人工智能的注意力機(jī)制更接近直覺(jué)，而人類的注意力是有選擇性的。目前來(lái)說(shuō)，大部分人工智能注意力機(jī)制，是在訓(xùn)練過(guò)程中重復(fù)告訴人工智能應(yīng)該注意哪些地方，哪些東西是有關(guān)聯(lián)的。未來(lái)也許可以讓參與試驗(yàn)的人戴上特殊的可以捕捉眼球關(guān)注點(diǎn)的裝置，來(lái)進(jìn)一步收集相關(guān)數(shù)據(jù)。”譚茗洲指出。

　　“第二，還需要以事件和行為的關(guān)聯(lián)為研究中心，定義人工智能的行為。一件事情的發(fā)生包括多個(gè)行為，要用人類反饋的方式訓(xùn)練人工智能系統(tǒng)，使人工智能的行為與我們的意圖一致。”譚茗洲進(jìn)一步表示。

　　譚茗洲強(qiáng)調(diào)：“此外，聽(tīng)覺(jué)和視覺(jué)、語(yǔ)言和行為等之間還需要配合、響應(yīng)、聯(lián)動(dòng)，這就要構(gòu)建多模態(tài)交互模型，縱深研究視角為何會(huì)聚焦投向并與意圖識(shí)別相結(jié)合，形成與行為之間聯(lián)動(dòng)的機(jī)制等。”

最后文章空三行圖片.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

教人工智能以“我”的視角看世界

日期： 2021-11-02

來(lái)源：中國(guó)新聞網(wǎng)

相關(guān)內(nèi)容