《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > VR,、AI等新技術(shù)如何在機器人控制領(lǐng)域應(yīng)用的

VR、AI等新技術(shù)如何在機器人控制領(lǐng)域應(yīng)用的

2018-06-04
關(guān)鍵詞: 機器人 運動控制 AI

  復(fù)雜機器人運動控制,,一直阻擋機器人產(chǎn)業(yè)發(fā)展的老大難問題,遲遲沒有得到很好的解決,。即便是代表機器人最高水平的波士頓動力,,其機器人離實用也還遠。近兩年發(fā)展迅猛的AI,,儼然如萬金油般,,被用在各種地方,,自然也包括機器人控制領(lǐng)域,而且似乎取得了不錯的效果,。前端時間,,UCberkely的強化學(xué)習(xí)專家Pieter Abbeel創(chuàng)辦了Embodied Intelligence,業(yè)務(wù)更是直接涵蓋了VR,、AI,、機器人三大熱點。

  為了搞清楚VR,、AI等新技術(shù)如何在機器人控制領(lǐng)域應(yīng)用,,本文根據(jù)一些相關(guān)論文和公開資料,包括Pieter Abbeel的演講,,對VR和AI在機器人控制方面的應(yīng)用進行了簡單梳理,,發(fā)現(xiàn)AI和VR等在機器人控制等方面還是有實在的應(yīng)用,只不過離取得實質(zhì)性突破,,還有相當(dāng)長的距離,。

  機器人控制的幾種類型

  很多機器人的研究目標(biāo)很多是模擬人的智能,所以研究人的控制系統(tǒng),,對于機器人有很大的借鑒意義,。人體的神經(jīng)系統(tǒng)由大腦、小腦,、腦干,、脊髓、神經(jīng)元等共同構(gòu)成,,復(fù)雜而又完善,。人體神經(jīng)系統(tǒng)包括中樞神經(jīng)系統(tǒng)和周圍神經(jīng)系統(tǒng)。中樞神經(jīng)系統(tǒng)由腦和脊髓組成,,是人體神經(jīng)系統(tǒng)的最主體部分,。周圍神經(jīng)系統(tǒng)是從腦和脊髓發(fā)出的分布到全身各處的神經(jīng)。無數(shù)的神經(jīng)元存在于神經(jīng)系統(tǒng)各處,,構(gòu)成神經(jīng)網(wǎng)絡(luò),。

d51906200d9634ae77bc947d34844643.png

  AI在機器人運動控制領(lǐng)域應(yīng)用盤點

  中樞神經(jīng)網(wǎng)絡(luò)負責(zé)運動控制,主要分成三層:

  大腦:居于最高層,,負責(zé)運動的總體策劃,,各種任務(wù)的下達。

  小腦:居于中間層,,負責(zé)運動的協(xié)調(diào)組織和實施。人體平衡由小腦控制,。

  腦干和脊髓:屬于最低層,,負責(zé)運動的執(zhí)行,具體控制肌肉的骨骼的運動,由腦干和脊髓完成,。

  三層對運動的調(diào)控作用不同,,由高到低,低層接收高層的下行控制指令并具體實現(xiàn),。大腦可直接也可間接的通過腦干控制脊髓運動神經(jīng),。

  如果把機器人與人進行類比,機械臂控制器就類似于人的脊髓,,負責(zé)控制電機(肌肉)和機械機構(gòu)(骨骼)的具體運動,,多足機器人的運動控制器,就類似于人的小腦,,負責(zé)控制平衡和協(xié)調(diào),。而機器人的操作系統(tǒng)層,則類似于人的大腦,,感知和認知世界,,并下達各種復(fù)雜的運動目標(biāo)。

  基于以上類比,,參照目前的各類機器人的情況,,機器人的運動控制大概可以分成4種任務(wù):

  脊髓控制——機械臂運動的基礎(chǔ)控制。工業(yè)機器人,,各類機械臂,,無人機的底層運動控制等面臨的主要是這類問題。

  小腦控制——多足機器人的平衡和運動協(xié)調(diào)控制,。這塊目前是機器人控制仍未突破的難點,,目前做的最好的顯然是波士頓動力。

  大腦控制——環(huán)境的感知,。主要是掃地機器人,、無人機等底層運動控制已經(jīng)封裝好的機器人的導(dǎo)航和路徑規(guī)劃。需要通過環(huán)境感知,,對自身和目標(biāo)進行定位,、導(dǎo)航和運動規(guī)劃。

  大腦控制——環(huán)境的認知和交互,,也就是機器人具體執(zhí)行交互任務(wù),,如控制機械臂抓取物體,執(zhí)行操作等,。這是服務(wù)機器人需要突破的重要問題,。

  幾種具體控制的AI應(yīng)用情況

  1.脊髓控制類

  脊髓控制的兩種典型的應(yīng)用是機械臂路徑規(guī)劃和無人機的飛行控制。這類問題屬于傳統(tǒng)自動控制理論,,以數(shù)學(xué)和動力學(xué)建模為基礎(chǔ),,發(fā)展了很多年,,已經(jīng)有了非常完備的理論和實踐基礎(chǔ),也取得了很好的效果,。雖然深度學(xué)習(xí)在最近很熱,,理論上也可以用于這類控制。但目前在這類基礎(chǔ)控制領(lǐng)域,,并沒有應(yīng)用,。主要原因可能有:

  1)工業(yè)機器人高精度重復(fù)特定動作等,基于自動控制理論已經(jīng)能從數(shù)學(xué)上很好的解決,,且由于了解原理,,屬于白盒系統(tǒng)。既然有可靠的白盒方案,,沒必要換成黑盒的神經(jīng)網(wǎng)絡(luò)控制系統(tǒng),。

  2)工業(yè)機器人等應(yīng)用領(lǐng)域,對控制算法穩(wěn)定性要求很高,。而作為黑盒方案的神經(jīng)網(wǎng)絡(luò)控制系統(tǒng),,數(shù)據(jù)上還無法證明其穩(wěn)定性。神經(jīng)網(wǎng)絡(luò)控制器一旦發(fā)生問題,,難以進行解釋和改進,。

  3)神經(jīng)網(wǎng)絡(luò)算法基于大量數(shù)據(jù)訓(xùn)練,而現(xiàn)有的運動控制中,,比如飛控,,拿到實際實驗數(shù)據(jù)的成本高,大量數(shù)據(jù)的獲取非常困難,。

  2.小腦控制類

  小腦控制典型問題是類人型雙足和多足機器人的平衡和運動協(xié)調(diào)控制問題,。這方面一直是基于傳統(tǒng)控制理論在進行研究,不過由于相比于機械臂或無人機,,其運動的自由度高很多,,難度很大。雙足類人機器人給人大多數(shù)的印象還是運動遲緩,、僵硬,、站不穩(wěn)。波士頓動力的Altas,、大狗等已經(jīng)是在這方面最先進的,,波士頓動力學(xué)公司并未公布他們使用的技術(shù),但谷歌工程師Eric Jang表示,,根據(jù)從演講得來的信息,,BD的機器人控制策略使用基于模型的控制器,并不涉及神經(jīng)網(wǎng)絡(luò)相關(guān)算法,。

  3.環(huán)境感知類

  主要的場景是服務(wù)機器人的路徑規(guī)劃,、無人機目標(biāo)追蹤,、工業(yè)機器人的視覺定位等,通過感知環(huán)境,,給封裝好的運動控制系統(tǒng)下達目標(biāo)運動指令。

  目標(biāo)識別

  環(huán)境感知過程中的目標(biāo)識別,,如無人機目標(biāo)的識別和追蹤等,,有神經(jīng)網(wǎng)絡(luò)的幫助,可以識別的更準(zhǔn)確,,已經(jīng)在大疆等無人機上應(yīng)用,。

  定位導(dǎo)航和路徑規(guī)劃

  目前機器人的定位導(dǎo)航,主要基于流行的vSLAM或激光雷達SLAM技術(shù),。主流的激光雷達方案大概可以分三步,,中間部分環(huán)節(jié)可能涉及到一些深度學(xué)習(xí),大部分內(nèi)容并不涉及深度學(xué)習(xí)相關(guān),。

  第一步:SLAM,,構(gòu)建場景地圖,用激光雷達構(gòu)建場景的2D或3D點云,,或者重建出3D場景。

  AI在機器人運動控制領(lǐng)域應(yīng)用盤點

  第二步:構(gòu)建語義地圖,,可能會對物體進行識別和分割,,對場景中的物體進行標(biāo)記,。(有的可能略過這一步)

5be3d4a481020db5cddae3c3b6c83c8d.png

  第三部:基于算法進行路徑規(guī)劃,,并驅(qū)動機器人的運動。

7470b2e65ec414943a32e992778be3f8.png

  AI在機器人運動控制領(lǐng)域應(yīng)用盤點

  4.環(huán)境交互

  典型應(yīng)用場景:機械臂抓取目標(biāo)物體等,。與環(huán)境的交互,,一直是傳統(tǒng)自動控制難以解決的問題。近年來,,以強化學(xué)習(xí)為基礎(chǔ),AI相關(guān)技術(shù)用在了這類問題上,,取得了一定的研究進展,但是否是未來的主流方向,,仍存在很大爭議,。

  1)強化學(xué)習(xí)

  強化學(xué)習(xí)框架中,有一個包含神經(jīng)網(wǎng)絡(luò)的Agent負責(zé)決策,。Agent以當(dāng)前機器人傳感器所采集到的環(huán)境為輸入,,輸出控制機器人的行動命令action,機器人行動后,,再觀察新的環(huán)境狀態(tài)和行動帶來的結(jié)果Reward,,決定下一步新的行動action,。Reward根據(jù)控制目標(biāo)進行設(shè)置,并有正反向之分,。例如,,如果以自動駕駛為目標(biāo),正向的Reward的就是到達目的地,,反向就是不能達到目的地,更不好的Reward就是出車禍,。然后重復(fù)這個過程,,目標(biāo)是最大化Reward。

ee477ec5a7fa90df0472e324fb3a96ff.png

  AI在機器人運動控制領(lǐng)域應(yīng)用盤點

  強化學(xué)習(xí)的控制過程,本來就是個正向反饋的控制過程,,是AI用于機器人控制的基礎(chǔ)。以此為基礎(chǔ),,強化學(xué)習(xí)在機器人控制方面出現(xiàn)了一些研究成果,。

  2)環(huán)境中尋找目標(biāo)

  16年,李飛飛組放出了一篇論文,基于深度強化學(xué)習(xí),,在以目標(biāo)圖像為輸入的情況下,,不建圖去找東西。大致思路是:根據(jù)機器看到的圖,,決定怎么走,然后再看圖,,再決定新走的一步,直到找到東西,。論文將目標(biāo)圖像作為輸入,,訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)具有通用性,。

1fbf53a118c7039c829a1d0a6ddda778.png

  AI在機器人運動控制領(lǐng)域應(yīng)用盤點

  這種方式找東西更接近人的思維,。訓(xùn)練出的控制器并沒有記住物體的位置,,更不知道房屋的結(jié)構(gòu),。但它記住了在每一個位置,通向各個物體應(yīng)該怎么走,。

  3)機器人抓取

  傳統(tǒng)的機器人學(xué)研究認為,需要非常清楚要抓取的物體的三維幾何形狀,,分析受力位置和力的大小,,再反向計算機器手如何一步步移動到這些位置,。但這種方式抓取不規(guī)則形狀和柔性物體會很困難,。例如毛巾,,可能需要看成一系列剛體的鏈接,,再進行動力學(xué)建模分析,,但是計算量比較大,。而小黃鴨那樣的橡膠,外部并不能看出彈性程度,,難以計算出需要施加的正確的力。

  Pieter Abbeel,、DeepMind和OpenAI關(guān)于機器人控制的研究,,都以此深度強化學(xué)習(xí)為基礎(chǔ),?;趶娀瘜W(xué)習(xí)進行機器人抓取,以機器視角看到的圖像為輸入,,以機器最終抓到物體為目標(biāo),,不斷對機器進行訓(xùn)練,,從而在不建模和不做受力分析的情況下,,實現(xiàn)對物體的抓取。Pieter Abbeel已經(jīng)展示過機器人疊毛巾,,開瓶蓋,裝玩具等復(fù)雜的動作,。

  不過基于強化學(xué)習(xí)也仍有很多問題,如效率低,、推理過程長、任務(wù)難以描述,、不能終身學(xué)習(xí)、不能最大限度從真實世界獲取信息等,。其中一些通過meta學(xué)習(xí),,one-shot學(xué)習(xí),,遷移學(xué)習(xí),,VR示教等方法的引入得到了改善,,有些則還暫時難以解決。

  5.Dexterity Network

  鑒于深度強化學(xué)習(xí)的各種問題,,Pieter Abbeel在UCBerkeley的同事Ken Goldberg,則采用了叫做Dexterity Network(Dex-Net)的研究思路,。首先通過傳統(tǒng)機器人學(xué)中分析受力和建模的思路,建立一個包含大量數(shù)據(jù)的數(shù)據(jù)集,,這個數(shù)據(jù)集里的每一項數(shù)據(jù)包含一個物體的模型和這個物體在不同姿態(tài)下可以被穩(wěn)定抓起來的施力方式,,這些施力方式是通過物體模型計算出來的。有了數(shù)據(jù)之后,,用這些數(shù)據(jù)訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)。然后給出一個新物體,,通過神經(jīng)網(wǎng)絡(luò)判斷這個物體和數(shù)據(jù)集里哪個物體最相似,然后根據(jù)最相似的物體的數(shù)據(jù)集里包含的施力方式計算出這個新物體的最穩(wěn)定施力方式,。

  Ken Goldberg的方案的一個重要弊端,,是計算量過于龐大,。整個算法占用了Google云服務(wù)器上的1500臺虛擬機的計算量。此方法也讓“云機器人”這個概念受到了關(guān)注,。

  目前Pieter Abbeel和Ken Goldberg的兩種方法還處于學(xué)術(shù)爭議階段,,新的研究成果還在不斷出現(xiàn),,也還有很多問題沒有解決,,尤其是穩(wěn)定性和魯棒性是各方爭議的焦點,。不同于語音識別音箱出了錯,無非是鬧個笑話,,機器人系統(tǒng)對穩(wěn)定性和可靠性的要求非常高,,系統(tǒng)一旦出錯,輕則毀物,,重則造成人類的生命危險,。Pieter Abbeel也承認目前還沒考慮魯棒性和穩(wěn)定性問題,似乎整體還沒達到商用產(chǎn)品級,。

  總結(jié)

  總體而言,以強化學(xué)習(xí)為代表,,AI在機器人控制領(lǐng)域近兩年取得了一些進展,,尤其是在過去研究方法難以突破的環(huán)境交互問題方面取得了進展,。但基于神經(jīng)網(wǎng)絡(luò)的控制系統(tǒng),,在魯棒性等方面短期似乎難以得到解決,因此離實際應(yīng)用還有很遠的距離,。在多種研究方法的共同努力下,我們也期待機器人控制問題能夠早日有所突破,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]