2012年,,多倫多大學(xué)首次使用深度學(xué)習(xí)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型在ImageNet的測(cè)試表現(xiàn)中取得突破性進(jìn)展,并引發(fā)了一連串的基于卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化并不斷大幅提升ImageNet的測(cè)試表現(xiàn),。在2015年,,通過(guò)深度學(xué)習(xí)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,在ImageNet的測(cè)試表現(xiàn)中,,錯(cuò)誤率已經(jīng)降到了2.3%,,超越了人類的識(shí)別準(zhǔn)確率,就此推動(dòng)了在圖像識(shí)別領(lǐng)域進(jìn)行深度學(xué)習(xí)的大規(guī)模產(chǎn)業(yè)化應(yīng)用的熱潮,。
(深度學(xué)習(xí)技術(shù)在2015年超越了人類)
以2012年為起點(diǎn),各大互聯(lián)網(wǎng)巨頭開(kāi)始落地深度學(xué)習(xí)技術(shù),。2013年,,Google通過(guò)深度學(xué)習(xí)來(lái)進(jìn)行街景地圖的門牌號(hào)OCR識(shí)別,;2014年,F(xiàn)acebook將其基于卷積神經(jīng)網(wǎng)絡(luò)模型的人臉識(shí)別技術(shù)DeepFace大規(guī)模地應(yīng)用于其照片應(yīng)用之中,,識(shí)別準(zhǔn)確率達(dá)到97.3%。目前深度學(xué)習(xí)被大規(guī)模應(yīng)用于人臉識(shí)別、自動(dòng)駕駛汽車等領(lǐng)域,,取得了非常矚目的成績(jī),。作為一種首先在消費(fèi)互聯(lián)網(wǎng)領(lǐng)域廣泛應(yīng)用的技術(shù),,是否可以有效融入到工業(yè)視覺(jué)領(lǐng)域呢,?
工業(yè)機(jī)器視覺(jué)需要處理什么任務(wù)
機(jī)器視覺(jué)作為一種基于2D或者3D相機(jī)傳感器的工業(yè)自動(dòng)化技術(shù),,在工業(yè)視覺(jué)領(lǐng)域具有廣泛而成熟的應(yīng)用。3C,、半導(dǎo)體,、汽車等行業(yè)大量使用機(jī)器視覺(jué)技術(shù)進(jìn)行異常識(shí)別、標(biāo)簽識(shí)別等,、物料定位等工作,。
工業(yè)自動(dòng)化離不開(kāi)感知技術(shù)和運(yùn)動(dòng)控制技術(shù),就像人離不開(kāi)眼和手,。而人體所獲得的信息,,80%來(lái)自于視覺(jué),可想而知,,視覺(jué)感知技術(shù)一定是工業(yè)自動(dòng)化領(lǐng)域最重要的技術(shù)之一,。
而傳統(tǒng)機(jī)器視覺(jué),是存在明顯局限的,。
傳統(tǒng)機(jī)器視覺(jué)存在什么局限
傳統(tǒng)機(jī)器視覺(jué)的圖像處理系統(tǒng),其工作原理簡(jiǎn)單理解起來(lái)是這樣:
1,、在圖像中找到邊,、角等人為定義的目標(biāo)特征;
2,、基于目標(biāo)特征在圖像中存在與否,、多個(gè)目標(biāo)特征之間的距離的數(shù)值進(jìn)行邏輯判斷來(lái)完成視覺(jué)任務(wù)。
使用這套技術(shù),,需要由視覺(jué)工程師基于視覺(jué)任務(wù)的特定需求,,進(jìn)行目標(biāo)特征的定義以及數(shù)值判斷的閥值定義,設(shè)計(jì)好了之后形成程序由機(jī)器執(zhí)行,。
而傳統(tǒng)機(jī)器視覺(jué)邏輯簡(jiǎn)單的局限性,,則體現(xiàn)在無(wú)法適用于隨機(jī)性強(qiáng)、特征復(fù)雜的工作任務(wù),。典型任務(wù)如:
?。S機(jī)出現(xiàn)的復(fù)雜外觀缺陷檢測(cè))
由于只能從有限的特征中進(jìn)行排列組合,視覺(jué)工程師無(wú)法通過(guò)”邊“,、”角”來(lái)表達(dá)“密集的點(diǎn)狀凹凸不平”這種綜合的,、復(fù)雜的判斷目標(biāo)?;蛘弑磉_(dá)能力很差,,導(dǎo)致識(shí)別準(zhǔn)確度不好。因此,,傳統(tǒng)機(jī)器視覺(jué)是無(wú)法解決以上問(wèn)題的,。
而這樣的復(fù)雜特征問(wèn)題,,恰恰是深度學(xué)習(xí)技術(shù)最擅長(zhǎng)解決的問(wèn)題。
深度學(xué)習(xí)如何解決復(fù)雜特征問(wèn)題
相比傳統(tǒng)機(jī)器視覺(jué)通過(guò)視覺(jué)工程師來(lái)設(shè)計(jì)算法模型,,深度學(xué)習(xí)技術(shù)最大的不同在于,,程序能夠自主發(fā)現(xiàn)需要用什么特征,通過(guò)什么樣的邏輯關(guān)系來(lái)完成圖像分析任務(wù),,實(shí)現(xiàn)由程序來(lái)設(shè)計(jì)算法模型,。
以樂(lè)高積木來(lái)類比的話,在傳統(tǒng)機(jī)器視覺(jué)里,,人類的工作是從100個(gè)樂(lè)高元素里挑出數(shù)十個(gè),,組裝起來(lái)執(zhí)行人類設(shè)計(jì)好的邏輯動(dòng)作,完成相關(guān)任務(wù),;而深度學(xué)習(xí)里,,人類告訴機(jī)器需要完成的任務(wù),由機(jī)器從1億個(gè)樂(lè)高元素里,,挑出數(shù)萬(wàn)個(gè),,組裝起來(lái)并選擇需要執(zhí)行的邏輯動(dòng)作來(lái)完成該任務(wù)。其表達(dá)能力遠(yuǎn)遠(yuǎn)高于人類專家,。
?。ㄉ疃葘W(xué)習(xí)技術(shù)具有遠(yuǎn)超人類專家的表達(dá)能力)
由于深度學(xué)習(xí)可以從更多的特征可能性中進(jìn)行選擇,并自行決定特征之間的邏輯關(guān)系,,深度學(xué)習(xí)就具備了通過(guò)從海量像素點(diǎn)中,,選擇一組特征,并通過(guò)這組特征表達(dá)‘密集的點(diǎn)狀凹凸不平’的能力,。
?。ㄓ绍浖灾鬟x擇特征以及邏輯組合方式)
在實(shí)際應(yīng)用中,使用深度學(xué)習(xí)訓(xùn)練的模型可以準(zhǔn)確地對(duì)圖片中的隨機(jī)缺陷進(jìn)行識(shí)別,,并可以準(zhǔn)確地將指定的缺陷有效地標(biāo)識(shí)出來(lái),,真正實(shí)現(xiàn)了隨機(jī)性強(qiáng)、特征復(fù)雜的隨機(jī)缺陷的檢測(cè),。
?。ㄍㄟ^(guò)深度學(xué)習(xí)可以識(shí)別并標(biāo)識(shí)圖像中的隨機(jī)缺陷)
正是由于具備了處理這種隨機(jī)性強(qiáng)、特征復(fù)雜的圖像識(shí)別問(wèn)題的能力,,深度學(xué)習(xí)就具備了突破傳統(tǒng)機(jī)器視覺(jué)技術(shù)的局限的可能性,。
深度學(xué)習(xí)能否達(dá)到工業(yè)精度要求
我們通常會(huì)認(rèn)為,工業(yè)應(yīng)用對(duì)于技術(shù)精度和穩(wěn)定性的要求要高于民用技術(shù),。所以,,在消費(fèi)領(lǐng)域火熱的深度學(xué)習(xí)技術(shù),是否能夠滿足工業(yè)指標(biāo)呢,?我們以外觀缺陷檢測(cè)為例,,看看工業(yè)檢測(cè)具體需要考慮哪些指標(biāo),。
(檢測(cè)任務(wù)的準(zhǔn)確率考核矩陣)
漏判率:漏判會(huì)直接造成不良品流向終端客戶,。所以漏判率要求通常低于 100 PPM,。
誤判率:誤判會(huì)直接對(duì)工業(yè)企業(yè)的良率造成影響,會(huì)造成物料的浪費(fèi),。企業(yè)對(duì)誤判率的要求通常要求在1%-5%之間,。在漏判率達(dá)標(biāo)的前提下,只有大幅降低誤判率,,才能達(dá)到減人的目標(biāo),。
節(jié)拍:不同行業(yè)有較大差異,如電子行業(yè)的節(jié)拍要求在5秒以內(nèi),,機(jī)械加工行業(yè)的節(jié)拍要求在幾十秒以內(nèi),。
一方面,深度學(xué)習(xí)目前的行業(yè)普遍技術(shù)水平已經(jīng)能夠達(dá)到95%以上的判定準(zhǔn)確率,。通過(guò)平衡漏判率和誤判率,,更加嚴(yán)格地控制漏判,可以讓漏判率降到100PPM以下,,而誤判率降到5%以下,。
另一方面,針對(duì)節(jié)拍的要求,,由于目前GPU顯卡可以達(dá)成每秒80禎的圖像處理速度,5秒內(nèi)可以完成400張圖片的判定,。而一般3C行業(yè)的產(chǎn)品較小,,只需要10張以內(nèi)的照片就可以完成產(chǎn)品的覆蓋,比如大的機(jī)加工產(chǎn)品,,也只需不到100張圖片進(jìn)行產(chǎn)品表面的全覆蓋,。圖像處理的速度完成可以滿足節(jié)拍的要求。
所以總體來(lái)看,,我們認(rèn)為深度學(xué)習(xí)技術(shù)已經(jīng)成熟到可以完成復(fù)雜工業(yè)視覺(jué)任務(wù),。
事實(shí)上,深度學(xué)習(xí)已經(jīng)產(chǎn)品化了
是的,。UnitX正是基于這樣的一個(gè)技術(shù)判斷,,將深度學(xué)習(xí)技術(shù)融合到傳統(tǒng)機(jī)器視覺(jué)領(lǐng)域,解決復(fù)雜表觀外觀缺陷檢測(cè)問(wèn)題,。目前,,UnitX已經(jīng)成功在復(fù)雜機(jī)加工產(chǎn)品的外觀缺陷檢測(cè)、高反光塑料件產(chǎn)品的外觀缺陷檢測(cè)等領(lǐng)域?qū)崿F(xiàn)了產(chǎn)品化,,檢測(cè)效果大幅優(yōu)于傳統(tǒng)目檢人員,,完成了連續(xù)超過(guò)30W件物料無(wú)漏判,,檢測(cè)節(jié)拍提升40%,實(shí)現(xiàn)了外觀缺陷檢測(cè)工作的自動(dòng)化,,用事實(shí)證明了深度學(xué)習(xí)技術(shù)可以滿足工業(yè)檢測(cè)需求,。