自動(dòng)駕駛汽車中的人工智能(AI)應(yīng)用已經(jīng)很常見(jiàn),從能夠識(shí)別行人并閱讀交通標(biāo)志的深度卷積神經(jīng)網(wǎng)絡(luò),到可以讓W(xué)aymo自動(dòng)駕駛汽車安全通過(guò)交叉路口的算法,,先進(jìn)的機(jī)器學(xué)習(xí)無(wú)處不在,。相比之下,令人詫異的是目前的傳感器仍然不夠智能,。
傳感器的短板
不過(guò),,不要誤解我的意思,目前的傳感器通過(guò)傳統(tǒng)方法已經(jīng)能夠提供驚人的性能,。高分辨率數(shù)字?jǐn)z像頭正在變得越來(lái)越便宜,,并且在尺寸和可靠性方面也能夠滿足工程師的理想要求。雷達(dá)的探測(cè)范圍和分辨率也一直在提高,。激光雷達(dá)(LiDAR)雖然價(jià)格昂貴,,但卻提供了令人難以置信的3D環(huán)境感知能力,解鎖了各種自動(dòng)駕駛應(yīng)用,。
但是,,所有這些傳感器,通訊大多是單向的,。一旦攝像頭定好位,,它就會(huì)每33毫秒發(fā)送一張它所指向的環(huán)境圖片,直到被命令停止運(yùn)行,。頂級(jí)的機(jī)械旋轉(zhuǎn)LiDAR也是按預(yù)設(shè)方向持續(xù)捕捉并傳輸數(shù)據(jù)流,。目前的雷達(dá)也與此類似。
對(duì)比人類駕駛員“捕捉”周圍環(huán)境的方式,,人類會(huì)不時(shí)掃描道路,,尋找可能進(jìn)入道路的物體。當(dāng)接近十字路口時(shí),,人類可能會(huì)向每個(gè)方向查看,,觀察是否可以安全通過(guò)。人類如果觀察到正在路邊奔跑的孩子,,可能會(huì)把注意力集中在他們身上,,以防突發(fā)情況需要緊急停車。真正智能的自動(dòng)駕駛汽車不僅需要能夠從預(yù)設(shè)的掃描模式中獲取信息,,還要能夠?qū)⑵湫畔⑹占攸c(diǎn)“聚焦”在環(huán)境中最相關(guān)的區(qū)域,。
雖然在傳感器中嵌入人工智能本身具有挑戰(zhàn),但其潛在的效益是巨大的,。用最高效的方式收集數(shù)據(jù),,可以在降低計(jì)算量和材料成本的同時(shí)提高性能,這是Level 4級(jí)和5級(jí)自動(dòng)駕駛走向大眾的迫切需求,。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的研究,,始終要求與人類的認(rèn)知進(jìn)行比較,。因此,近年一種以人類認(rèn)知經(jīng)驗(yàn)為核心的概念正受到越來(lái)越多的關(guān)注,。據(jù)麥姆斯咨詢報(bào)道,,近期一篇關(guān)于“殘差注意力網(wǎng)絡(luò)(Residual Attention Network)”的論文,采用堆疊殘差注意力模塊在標(biāo)準(zhǔn)物體識(shí)別基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能,。
這一突破性研究真正令人驚嘆的是,他們的網(wǎng)絡(luò)層數(shù)不到下一代最佳方案的一半,。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)都是平等地對(duì)待每個(gè)像素,,無(wú)論其包含什么內(nèi)容。相比之下,,在這個(gè)殘差注意力網(wǎng)絡(luò)中,,每個(gè)注意力模塊都執(zhí)行兩項(xiàng)任務(wù):決定看哪里,以及那里有什么,。這種架構(gòu)可使網(wǎng)絡(luò)只關(guān)注每張圖像中最重要的元素,,使其相比競(jìng)爭(zhēng)方案更具優(yōu)勢(shì)。
“Show, Attend and Tell”算法
“Show, Attend and Tell”算法展示了另一種非常令人印象深刻的方案,。以前的工作都是只關(guān)注圖像一次,,然后使用最后一層的全連接層得到圖像最有用的信息。這樣的缺點(diǎn)就是在描述圖像的時(shí)候丟失了很多有用的信息,。
這項(xiàng)研究中所提取的這些矢量來(lái)自于低級(jí)(low-level)的卷積層,,這使得解碼器可以通過(guò)選擇所有特征向量的子集來(lái)選擇性地聚焦于圖像的某些部分,也就是將注意力(Attention)機(jī)制嵌入,。Attention機(jī)制可以學(xué)習(xí)到類似于人類注意力一樣的信息,。
網(wǎng)絡(luò)神經(jīng)元
還有一些研究使用人工神經(jīng)網(wǎng)絡(luò)來(lái)選擇何時(shí)使用哪個(gè)傳感器。在近期發(fā)表的一項(xiàng)研究中,,研究人員為他們被稱為“傳感器轉(zhuǎn)換注意網(wǎng)絡(luò)”開(kāi)發(fā)了一種架構(gòu):將不同類型的傳感器引入一個(gè)共同架構(gòu)的一種神經(jīng)網(wǎng)絡(luò)系統(tǒng),。這項(xiàng)研究探討了他們的算法能夠評(píng)估來(lái)自每個(gè)傳感器的噪聲水平,并忽略它確定為不可靠的傳感器,。
舉例來(lái)說(shuō),,比如從電影中轉(zhuǎn)錄語(yǔ)音。如果音頻非常清晰但視頻很模糊,,則可以完全忽略視頻,,通過(guò)將音頻饋送到長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)來(lái)獲得最佳性能;如果音頻嚴(yán)重失真,,但是視頻清晰,則可以通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)嘗試讀取演講者的嘴唇來(lái)提高性能,。獲悉哪種傳感更可靠,,是建立像人類一樣注意力算法的重要一步。
需要更進(jìn)一步的研究
雖然這些研究成果很喜人,,但它們對(duì)人類注意力的模仿方式還不夠完善,。當(dāng)人類關(guān)注某個(gè)物體時(shí),,會(huì)用眼睛追蹤它,。這是因?yàn)槲覀兊囊曈X(jué)在視野中心最好,而忽略邊緣附近的區(qū)域,。可以想象傳感器也以相同的方式運(yùn)行,,讓它們更多地掃描周圍環(huán)境中的關(guān)鍵區(qū)域,,而對(duì)不感興趣的區(qū)域執(zhí)行快速,、粗略的探測(cè),。
關(guān)于這個(gè)問(wèn)題的一項(xiàng)非常重要的研究由Larochelle和Hinton發(fā)表于2010年,。受人眼功能的啟發(fā),,他們創(chuàng)建了一種模型,在該模型中,,神經(jīng)網(wǎng)絡(luò)會(huì)選擇輸入圖像中需要查看的區(qū)域,。這些區(qū)域?qū)⒁愿叻直媛蕚魉停車鷧^(qū)域的信息將模糊處理,。通過(guò)結(jié)合這些類似人眼的“中央凹視”,可以看到神經(jīng)網(wǎng)絡(luò)以接近人眼的方式掃描圖像,。
雖然上述大部分研究都集中在攝像頭成像上,但對(duì)于自動(dòng)駕駛傳感器來(lái)說(shuō)最有潛力的是固態(tài)模擬雷達(dá),。傳統(tǒng)的數(shù)字波束成形雷達(dá)將寬泛的信號(hào)發(fā)射到周圍環(huán)境中,,然后在仔細(xì)分析反射回波的基礎(chǔ)上,,嘗試識(shí)別環(huán)境中的目標(biāo),。
相比之下,,固態(tài)模擬雷達(dá)將所有能量集中在一個(gè)非常窄的波束中,,像LiDAR一樣對(duì)周圍環(huán)境進(jìn)行掃描。然而,,與LiDAR不同的是,雷達(dá)通常使用一系列調(diào)制脈沖來(lái)測(cè)量其視場(chǎng)中物體的位置和速度,。這種方案提供了無(wú)與倫比的探測(cè)范圍、角分辨率和信噪比,。當(dāng)然,它也提出了一些挑戰(zhàn)和機(jī)遇,。
時(shí)序就是一切
固態(tài)模擬雷達(dá)面臨的一個(gè)主要挑戰(zhàn)是確定所要使用的脈沖序列,。脈沖序列的參數(shù)會(huì)影響最大測(cè)量范圍,、最大可測(cè)量速度以及兩者的分辨率。這些限制是由物理定律決定的,,因此增加其中一個(gè)就會(huì)不可避免地影響另一個(gè),。
對(duì)于擁堵的市中心,,需要盡可能高的分辨率,因?yàn)樵诘退傩旭倳r(shí),,距離非常遠(yuǎn)或運(yùn)動(dòng)非常快的物體影響不大,;相對(duì)來(lái)說(shuō),在高速公路行駛時(shí),,需要更大的探測(cè)范圍,,以便盡早警告駕駛員前方的障礙物,,并需要具有足夠高的最大可測(cè)量速度,,以捕捉迎面駛來(lái)的車輛,。有選擇地最大化雷達(dá)的性能需要算法的支持,,這些算法了解它們的狀況,,并能決定如何最好地探測(cè)、理解周圍的環(huán)境,。
這類雷達(dá)的另一個(gè)挑戰(zhàn)是掃描需要時(shí)間,通常在幾個(gè)毫秒的量級(jí),。雖然這聽(tīng)起來(lái)可能很短,但在每個(gè)方向上都以高分辨率掃描則需要花費(fèi)太長(zhǎng)的時(shí)間,,這對(duì)實(shí)現(xiàn)自動(dòng)駕駛來(lái)說(shuō)不太實(shí)際。與上述注意力機(jī)制神經(jīng)網(wǎng)絡(luò)非常相似,,這樣的系統(tǒng)必須能夠基于先前的掃描對(duì)其環(huán)境的不同區(qū)域進(jìn)行優(yōu)先級(jí)排序,。
Metawave正在這個(gè)方向上努力
汽車?yán)走_(dá)初創(chuàng)公司Metawave正致力于開(kāi)發(fā)硬件和軟件來(lái)解決這些問(wèn)題,。Metawave基于超材料的模擬波束成形雷達(dá),可以在其他傳感器無(wú)法企及的距離捕捉信息,,不過(guò),前提是它需要將“注意力”集中于最緊要的目標(biāo),。雖然Metawave目前的研究主要集中在雷達(dá)領(lǐng)域,但這些技術(shù)還可以在固態(tài)LiDAR甚至攝像頭應(yīng)用中實(shí)現(xiàn)新的性能水平,。
據(jù)麥姆斯咨詢此前報(bào)道,,Metawave的先進(jìn)雷達(dá)已經(jīng)通過(guò)演示驗(yàn)證,,首次實(shí)現(xiàn)300米外的汽車及其速度探測(cè),,以及最遠(yuǎn)可達(dá)180米外的行人和自行車探測(cè)。通過(guò)與Infineon(英飛凌)77GHz雷達(dá)芯片組(包括RXS8160 MMIC和AURIX微控制器)以及NVIDIA(英偉達(dá))AI(人工智能)處理引擎相結(jié)合,,Metawave的開(kāi)發(fā)測(cè)試平臺(tái)性能相比目前現(xiàn)有的汽車傳感器提升了一倍以上,。
像所有新興技術(shù)一樣,很難預(yù)測(cè)這個(gè)領(lǐng)域在五年內(nèi)的發(fā)展方向。盡管如此,,我相信純研究領(lǐng)域興起的“注意力”概念,將成為實(shí)現(xiàn)Level 4級(jí)和Level 5級(jí)自動(dòng)駕駛不可或缺的關(guān)鍵,。對(duì)于大規(guī)模生產(chǎn)的自動(dòng)駕駛汽車來(lái)說(shuō),更是如此,,成本敏感型制造商會(huì)尋求使用更高效的算法,來(lái)降低硬件成本,。