文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.180564
中文引用格式: 林付春,,張榮芬,,何倩倩,等. 機器視覺中的智能無人零售系統(tǒng)設(shè)計[J].電子技術(shù)應(yīng)用,,2018,,44(9):96-98,103.
英文引用格式: Lin Fuchun,,Zhang Rongfen,,He Qianqian,et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique,,2018,,44(9):96-98,,103.
0 引言
零售行業(yè)是距離消費者最近的行業(yè),,也是對體驗和性能要求最高的行業(yè)。隨著人工智能和深度學(xué)習(xí)技術(shù)的快速發(fā)展,,計算機視覺被廣泛應(yīng)用到各個領(lǐng)域,。其中在無人零售中,計算機視覺將前端人貨關(guān)系重構(gòu)表現(xiàn)得淋漓盡致,。傳統(tǒng)的無人售貨機只能銷售少量類別的商品,,或者采用RFID技術(shù)為每件商品貼上標(biāo)簽,浪費資源和人力物力[1],。除此之外,,需要購買者彎腰去拿,對顧客很不尊重,。而新型無人售貨機購物者可以開門自己拿想買的各種商品,。在國內(nèi),阿里巴巴開設(shè)無人超市,,人們隨意自由購物,。繽果盒子無人超市內(nèi)置專業(yè)掃描識別機器,用于快速識別和結(jié)算,,效率很高,,但成本也很高[2]。市場上也有一些智能售貨柜企業(yè)以視覺方案切入,,不過大多數(shù)產(chǎn)品都還停留在概念階段,,并且產(chǎn)品成本非常高,無法解決零售的實際問題,。
本系統(tǒng)在無人售貨柜中裝有各種傳感器模塊組與攝像頭,,攝像頭會對顧客的動作進(jìn)行捕捉,通過運用人工智能(AI)圖像檢測和圖像處理技術(shù)識別出顧客拿走的商品,,同時配合各種傳感器數(shù)據(jù)與服務(wù)器數(shù)據(jù)進(jìn)行比對,,從而得出最終的結(jié)果,。這種方式不僅可以大幅度地節(jié)省消費者的購物時間,還可以根據(jù)不同場景快速變化銷售物品種類,,解決了目前無人零售的痛點,。在人工智能潮流的趨勢下,新零售行業(yè)被推到風(fēng)口浪尖,。人工智能應(yīng)用在新零售行業(yè)是將來零售行業(yè)的大趨勢,。
1 智能無人零售系統(tǒng)的總體設(shè)計
整體無人零售系統(tǒng)工作流程:顧客掃描,服務(wù)器收到顧客開門通知,,服務(wù)器通知前端硬件開門,。顧客在無人零售柜自由選擇各種商品,顧客選擇完商品關(guān)門,,同時前端采集商品圖像數(shù)據(jù),,各種傳感器數(shù)據(jù)上傳服務(wù)器,服務(wù)器對圖像和數(shù)據(jù)進(jìn)行處理,,并與后臺數(shù)據(jù)庫比對,,得到顧客購買的商品,并進(jìn)行自動結(jié)算,。
本文主要介紹視覺系統(tǒng)部分設(shè)計,,系統(tǒng)由基于嵌入式技術(shù)的前端采集、通信傳輸系統(tǒng),、遠(yuǎn)程云服務(wù)器識別與數(shù)據(jù)庫計算系統(tǒng)組成,。前端硬件采集傳輸采用基于三星Cortex-A9架構(gòu)的核心板,搭載攝像頭模塊組,、壓力傳感器模塊組,、紅外傳感器模塊組、WiFi通信模塊和4G通信模塊構(gòu)建智無人零售系統(tǒng)的硬件平臺,。攝像頭分別拍攝動態(tài)和靜態(tài)商品的圖像,,由主控芯片用預(yù)先板載的壓縮算法對采集的圖像進(jìn)行壓縮,壓縮后的圖像在WiFi或者4G模塊作用下傳送到云服務(wù)器上[3],。采用云平臺服務(wù)器作為智能無人零售系統(tǒng)的數(shù)據(jù)處理中心,,在服務(wù)器上同時對前端靜態(tài)和動態(tài)圖像進(jìn)行識別與分析,然后將結(jié)果返回給數(shù)據(jù)庫,。智能無人零售系統(tǒng)的總體設(shè)計如圖1所示,。
2 智能無人零售系統(tǒng)硬件系統(tǒng)設(shè)計
本系統(tǒng)硬件采用基于嵌入式的四核ARM9作為前端圖像采集控制器,利用它實現(xiàn)對整個智能無人零售系統(tǒng)各個單元模塊上的數(shù)據(jù)信息進(jìn)行匯總分析和處理,,對各個功能模塊發(fā)出控制指令,,協(xié)調(diào)整個系統(tǒng)穩(wěn)定運行。每個無人售貨柜的結(jié)構(gòu)分為4層2列共8個格子,,每個格子放一類商品,。在每個格子上方安裝一個500萬像素的CMOS攝像頭,,用來靜態(tài)采集每個格子里商品的數(shù)量。每個格子下面各安裝一個壓力傳感器,,用來判斷顧客拿走了哪一類商品,,然后將這個格子的圖像傳到服務(wù)器進(jìn)行識別和計數(shù),以此來精確判斷顧客拿走了幾個商品,。同時壓力傳感器的數(shù)據(jù)發(fā)送給服務(wù)器數(shù)據(jù)庫進(jìn)行分析比對,。柜子內(nèi)部頂端安裝一個1 000萬像素攝像頭,用來動態(tài)采集商品種類,。同時柜子每一層格子前方安裝兩對紅外傳感器,當(dāng)紅外傳感器檢測到顧客拿完商品之后,,柜子頂端攝像頭對顧客手中的商品進(jìn)行動態(tài)拍攝,,中央控制器對采集的圖像在前端進(jìn)行壓縮,通過WiFi或者4G模塊上傳到服務(wù)器,。硬件系統(tǒng)流程圖如圖2所示,。
3 智能無人零售系統(tǒng)軟件系統(tǒng)設(shè)計
近幾年來,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法在圖像檢測,、分割和識別上表現(xiàn)出越來越卓越的效果,,因此,許多優(yōu)秀的深度學(xué)習(xí)算法被應(yīng)用在工業(yè)界,。本系統(tǒng)軟件設(shè)計由兩部分組成,,分別是對商品靜態(tài)識別和對商品動態(tài)識別。采用的是目前流行的深度學(xué)習(xí)框架——Caffe框架[4],,主要采用C++/CUDA高級語言來實現(xiàn)對深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練和圖像的識別,。商品靜態(tài)識別算法基于經(jīng)典的YOLO(You Only Look Once)網(wǎng)絡(luò)模型優(yōu)化[5];商品動態(tài)識別算法基于典型的Alexlet網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,。
3.1 對商品進(jìn)行靜態(tài)識別
靜態(tài)識別是服務(wù)器從每個格子得到壓力傳感器的數(shù)據(jù),,通過數(shù)據(jù)分析質(zhì)量格子質(zhì)量變化,得到顧客取出的是哪個格子的那種物品,。同時前端攝像頭拍攝這個格子的圖像,,在前端處理后上傳到服務(wù)器。在服務(wù)器上通過深度學(xué)習(xí)算法(YOLO)對圖像進(jìn)行檢測,、定位和識別,。基于卷積神經(jīng)網(wǎng)絡(luò)的YOLO模型在2015年被提出,,能夠?qū)崟r地對物體進(jìn)行檢測和識別,,是對物體進(jìn)行位置檢測準(zhǔn)確率和識別準(zhǔn)確率綜合最好的網(wǎng)絡(luò)模型之一,同時也是實時性最好的網(wǎng)絡(luò)模型,,模型采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),。模型的卷積層提取圖像特征,,全連接層預(yù)測輸出概率。模型結(jié)構(gòu)類似于GoogleNet網(wǎng)絡(luò)模型,,最終輸出為其網(wǎng)絡(luò)模型,,如圖3所示。本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對其進(jìn)行優(yōu)化,,分別在其全連接層和卷積層進(jìn)行修改,,減少卷積層和filter,最終輸出為7×7×18的tensor,。其網(wǎng)絡(luò)模型如圖4所示,。
3.2 對商品動態(tài)識別
動態(tài)識別算法由兩部分組成,當(dāng)紅外傳感器檢測到信號,,1 000萬像素攝像頭拍攝的圖像經(jīng)過壓縮上傳到服務(wù)器后,,在OpenCV庫平臺下,先采用傳統(tǒng)視覺算法通過手勢識別裁剪出商品圖像,,然后將圖像放入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,,以此來提高這個系統(tǒng)識別準(zhǔn)確性。
基于卷積神經(jīng)網(wǎng)絡(luò)的Alexlet網(wǎng)絡(luò)模型是2012年的Imagnet比賽的冠軍[6],。其網(wǎng)絡(luò)模型如圖5所示,,本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對其進(jìn)行優(yōu)化,分別對其全連接層和卷積層進(jìn)行修改,,為了減少過擬合,,優(yōu)化Dropout值為0.5,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練測試[7],。其網(wǎng)絡(luò)模型如圖6所示,。
4 系統(tǒng)測試
在智能無人售貨系統(tǒng)中挑選日常生活中常見的可口可樂、加多寶,、壓縮餅干,、酸奶、香皂,、泡面,、洗衣液和茶杯8種商品,對其進(jìn)行數(shù)據(jù)集采集,。靜態(tài)識別中多采用多個物品在一張圖片上,,共80 000張圖片,其中10 000張圖片做測試集,,70 000張圖片作為訓(xùn)練集,。動態(tài)識別中采用每類10 000張圖片作為訓(xùn)練集,共80 000張圖片。每類1 000張圖片作為測試,。在靜態(tài)測試中,,運用圖4網(wǎng)絡(luò)模型在Caffe框架上對其進(jìn)行訓(xùn)練和測試,得到如圖7所示的準(zhǔn)確率和loss值,。當(dāng)?shù)螖?shù)達(dá)到27 000左右時,,靜態(tài)測試準(zhǔn)確率達(dá)到99%的準(zhǔn)確率。同時在迭代次數(shù)達(dá)到31 000左右時,,靜態(tài)測試值損失值減到最小,,并且趨于穩(wěn)定。
動態(tài)測試中,,運用圖6網(wǎng)絡(luò)模型在Caffe框架上對其進(jìn)行訓(xùn)練和測試,,得到如圖8所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到23 000左右時,,動態(tài)測試準(zhǔn)確率達(dá)到99%,。同時,在迭代次數(shù)達(dá)到30 000左右時,,動態(tài)測試值損失值減到最小,并且趨于穩(wěn)定,。
5 結(jié)論
本文完成了智能無人零售視覺系統(tǒng)的軟件和硬件設(shè)計,;實現(xiàn)了前端硬件攝像頭模塊組對圖像的靜態(tài)和動態(tài)拍攝、壓力傳感器組的數(shù)據(jù)傳輸,、紅外傳感器組的數(shù)據(jù)采集以及各個模塊之間的通信,;軟件上完成了神經(jīng)網(wǎng)絡(luò)對圖像的檢測定位與識別;通過與前端APP和后臺數(shù)據(jù)庫結(jié)合,,可實現(xiàn)新的智能無人新零售系統(tǒng),。本文將人工智能視覺系統(tǒng)應(yīng)用到新零售行業(yè),能使顧客擁有掃描開門,、自己取貨,、關(guān)門自動結(jié)算的新體驗,方便了顧客,,也節(jié)約了產(chǎn)品成本,。未來智能無人新零售將取代傳統(tǒng)售貨機,分布在城市的各個角落,。
參考文獻(xiàn)
[1] 王汝傳,,馬守明,葉寧,,等.基于射頻識別標(biāo)簽和傳感器網(wǎng)絡(luò)的智能零售市場構(gòu)建方法:中國,,CN 103714465 B[P].2014-04-09.
[2] 宋杰.無人智能零售店來了[J].中國經(jīng)濟(jì)周刊,2017(28):86-87.
[3] 何騰鵬,,張榮芬,,劉超,,等.基于機器視覺的智能導(dǎo)盲眼鏡設(shè)計[J].電子技術(shù)應(yīng)用,2017,,43(4):58-61.
[4] JIA Y,,SHELHAMER E,DONAHUE J,,et al.Caffe:convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM,,2014:675-678.
[5] REDMON J,DIVVALA S,,GIRSHICK R,,et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE,2016:779-788.
[6] KRIZHEVSKY A,,SUTSKEVER I,,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.,2012:1097-1105.
[7] HINTON G E,,SRIVASTAVA N,,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,,2012,,3(4):212-223.
作者信息:
林付春,張榮芬,,何倩倩,,劉宇紅
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽550025)