機器視覺中的智能無人零售系統(tǒng)設計-AET-電子技術應用

機器視覺中的智能無人零售系統(tǒng)設計

2018年電子技術應用第9期

林付春，張榮芬，何倩倩，劉宇紅

貴州大學大數(shù)據(jù)與信息工程學院，貴州貴陽550025

摘要： 提出了一種基于機器視覺和深度學習的智能無人零售系統(tǒng)。采用嵌入式的ARM9和各種傳感器模塊組成前端采集系統(tǒng)，在服務器上用訓練好的卷積神經網絡模型分別對物品進行動態(tài)和靜態(tài)檢測識別，然后將識別信息反饋給數(shù)據(jù)庫，由數(shù)據(jù)庫整理所有信息，最終確定顧客訂單信息。本系統(tǒng)使用前端硬件在無人售貨柜上進行圖像采集并在服務器的Caffe框架上進行測試，結果表明該系統(tǒng)的實時準確率達到99%。

關鍵詞： 新零售機器視覺深度學習卷積神經網絡 Cortex-A9

中圖分類號： TP181
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.180564
中文引用格式： 林付春，張榮芬，何倩倩，等. 機器視覺中的智能無人零售系統(tǒng)設計[J].電子技術應用，2018，44(9)：96-98，103.
英文引用格式： Lin Fuchun，Zhang Rongfen，He Qianqian，et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique，2018，44(9)：96-98，103.

Design of intelligent unmanned vending system in machine vision

Lin Fuchun，Zhang Rongfen，He Qianqian，Liu Yuhong

College of Big Data and Information Engineering，Guizhou University，Guiyang 550025，China

Abstract： This paper proposes an intelligent automated vending system based on machine vision and deep learning. The embedded ARM9 and various sensors are used to form the front-end acquisition system. The trained convolutional neural network is used to detect and identify the goods dynamically and statically on the server. Then the identifying information will be fed back to the databases, and the databases will integrate all the information. Finally it will determine the order information of customers. This system uses front-end hardware to acquire images on the automated vending counter and test them on the server's Caffe framework, and the result shows that the accuracy of this system can reach 99% in real time.

Key words : new retail；machine vision；deep learning；convolutional neural network；Cortex-A9

0 引言

零售行業(yè)是距離消費者最近的行業(yè)，也是對體驗和性能要求最高的行業(yè)。隨著人工智能和深度學習技術的快速發(fā)展，計算機視覺被廣泛應用到各個領域。其中在無人零售中，計算機視覺將前端人貨關系重構表現(xiàn)得淋漓盡致。傳統(tǒng)的無人售貨機只能銷售少量類別的商品，或者采用RFID技術為每件商品貼上標簽，浪費資源和人力物力^[1]。除此之外，需要購買者彎腰去拿，對顧客很不尊重。而新型無人售貨機購物者可以開門自己拿想買的各種商品。在國內，阿里巴巴開設無人超市，人們隨意自由購物。繽果盒子無人超市內置專業(yè)掃描識別機器，用于快速識別和結算，效率很高，但成本也很高^[2]。市場上也有一些智能售貨柜企業(yè)以視覺方案切入，不過大多數(shù)產品都還停留在概念階段，并且產品成本非常高，無法解決零售的實際問題。

本系統(tǒng)在無人售貨柜中裝有各種傳感器模塊組與攝像頭，攝像頭會對顧客的動作進行捕捉，通過運用人工智能(AI)圖像檢測和圖像處理技術識別出顧客拿走的商品，同時配合各種傳感器數(shù)據(jù)與服務器數(shù)據(jù)進行比對，從而得出最終的結果。這種方式不僅可以大幅度地節(jié)省消費者的購物時間，還可以根據(jù)不同場景快速變化銷售物品種類，解決了目前無人零售的痛點。在人工智能潮流的趨勢下，新零售行業(yè)被推到風口浪尖。人工智能應用在新零售行業(yè)是將來零售行業(yè)的大趨勢。

1 智能無人零售系統(tǒng)的總體設計

整體無人零售系統(tǒng)工作流程：顧客掃描，服務器收到顧客開門通知，服務器通知前端硬件開門。顧客在無人零售柜自由選擇各種商品，顧客選擇完商品關門，同時前端采集商品圖像數(shù)據(jù)，各種傳感器數(shù)據(jù)上傳服務器，服務器對圖像和數(shù)據(jù)進行處理，并與后臺數(shù)據(jù)庫比對，得到顧客購買的商品，并進行自動結算。

本文主要介紹視覺系統(tǒng)部分設計，系統(tǒng)由基于嵌入式技術的前端采集、通信傳輸系統(tǒng)、遠程云服務器識別與數(shù)據(jù)庫計算系統(tǒng)組成。前端硬件采集傳輸采用基于三星Cortex-A9架構的核心板，搭載攝像頭模塊組、壓力傳感器模塊組、紅外傳感器模塊組、WiFi通信模塊和4G通信模塊構建智無人零售系統(tǒng)的硬件平臺。攝像頭分別拍攝動態(tài)和靜態(tài)商品的圖像，由主控芯片用預先板載的壓縮算法對采集的圖像進行壓縮，壓縮后的圖像在WiFi或者4G模塊作用下傳送到云服務器上^[3]。采用云平臺服務器作為智能無人零售系統(tǒng)的數(shù)據(jù)處理中心，在服務器上同時對前端靜態(tài)和動態(tài)圖像進行識別與分析，然后將結果返回給數(shù)據(jù)庫。智能無人零售系統(tǒng)的總體設計如圖1所示。

2 智能無人零售系統(tǒng)硬件系統(tǒng)設計

本系統(tǒng)硬件采用基于嵌入式的四核ARM9作為前端圖像采集控制器，利用它實現(xiàn)對整個智能無人零售系統(tǒng)各個單元模塊上的數(shù)據(jù)信息進行匯總分析和處理，對各個功能模塊發(fā)出控制指令，協(xié)調整個系統(tǒng)穩(wěn)定運行。每個無人售貨柜的結構分為4層2列共8個格子，每個格子放一類商品。在每個格子上方安裝一個500萬像素的CMOS攝像頭，用來靜態(tài)采集每個格子里商品的數(shù)量。每個格子下面各安裝一個壓力傳感器，用來判斷顧客拿走了哪一類商品，然后將這個格子的圖像傳到服務器進行識別和計數(shù)，以此來精確判斷顧客拿走了幾個商品。同時壓力傳感器的數(shù)據(jù)發(fā)送給服務器數(shù)據(jù)庫進行分析比對。柜子內部頂端安裝一個1 000萬像素攝像頭，用來動態(tài)采集商品種類。同時柜子每一層格子前方安裝兩對紅外傳感器，當紅外傳感器檢測到顧客拿完商品之后，柜子頂端攝像頭對顧客手中的商品進行動態(tài)拍攝，中央控制器對采集的圖像在前端進行壓縮，通過WiFi或者4G模塊上傳到服務器。硬件系統(tǒng)流程圖如圖2所示。

3 智能無人零售系統(tǒng)軟件系統(tǒng)設計

近幾年來，深度學習卷積神經網絡算法在圖像檢測、分割和識別上表現(xiàn)出越來越卓越的效果，因此，許多優(yōu)秀的深度學習算法被應用在工業(yè)界。本系統(tǒng)軟件設計由兩部分組成，分別是對商品靜態(tài)識別和對商品動態(tài)識別。采用的是目前流行的深度學習框架——Caffe框架^[4]，主要采用C++/CUDA高級語言來實現(xiàn)對深度學習網絡的訓練和圖像的識別。商品靜態(tài)識別算法基于經典的YOLO(You Only Look Once)網絡模型優(yōu)化^[5]；商品動態(tài)識別算法基于典型的Alexlet網絡模型進行優(yōu)化。

3.1 對商品進行靜態(tài)識別

靜態(tài)識別是服務器從每個格子得到壓力傳感器的數(shù)據(jù)，通過數(shù)據(jù)分析質量格子質量變化，得到顧客取出的是哪個格子的那種物品。同時前端攝像頭拍攝這個格子的圖像，在前端處理后上傳到服務器。在服務器上通過深度學習算法(YOLO)對圖像進行檢測、定位和識別。基于卷積神經網絡的YOLO模型在2015年被提出，能夠實時地對物體進行檢測和識別，是對物體進行位置檢測準確率和識別準確率綜合最好的網絡模型之一，同時也是實時性最好的網絡模型，模型采用卷積神經網絡結構。模型的卷積層提取圖像特征，全連接層預測輸出概率。模型結構類似于GoogleNet網絡模型，最終輸出為其網絡模型，如圖3所示。本系統(tǒng)在此網絡模型基礎上對其進行優(yōu)化，分別在其全連接層和卷積層進行修改，減少卷積層和filter，最終輸出為7×7×18的tensor。其網絡模型如圖4所示。

3.2 對商品動態(tài)識別

動態(tài)識別算法由兩部分組成，當紅外傳感器檢測到信號，1 000萬像素攝像頭拍攝的圖像經過壓縮上傳到服務器后，在OpenCV庫平臺下，先采用傳統(tǒng)視覺算法通過手勢識別裁剪出商品圖像，然后將圖像放入訓練好的卷積神經網絡進行識別，以此來提高這個系統(tǒng)識別準確性。

基于卷積神經網絡的Alexlet網絡模型是2012年的Imagnet比賽的冠軍^[6]。其網絡模型如圖5所示，本系統(tǒng)在此網絡模型基礎上對其進行優(yōu)化，分別對其全連接層和卷積層進行修改，為了減少過擬合，優(yōu)化Dropout值為0.5，對網絡進行訓練測試^[7]。其網絡模型如圖6所示。

4 系統(tǒng)測試

在智能無人售貨系統(tǒng)中挑選日常生活中常見的可口可樂、加多寶、壓縮餅干、酸奶、香皂、泡面、洗衣液和茶杯8種商品，對其進行數(shù)據(jù)集采集。靜態(tài)識別中多采用多個物品在一張圖片上，共80 000張圖片，其中10 000張圖片做測試集，70 000張圖片作為訓練集。動態(tài)識別中采用每類10 000張圖片作為訓練集，共80 000張圖片。每類1 000張圖片作為測試。在靜態(tài)測試中，運用圖4網絡模型在Caffe框架上對其進行訓練和測試，得到如圖7所示的準確率和loss值。當?shù)螖?shù)達到27 000左右時，靜態(tài)測試準確率達到99%的準確率。同時在迭代次數(shù)達到31 000左右時，靜態(tài)測試值損失值減到最小，并且趨于穩(wěn)定。

動態(tài)測試中，運用圖6網絡模型在Caffe框架上對其進行訓練和測試，得到如圖8所示的準確率和loss值。當?shù)螖?shù)達到23 000左右時，動態(tài)測試準確率達到99%。同時，在迭代次數(shù)達到30 000左右時，動態(tài)測試值損失值減到最小，并且趨于穩(wěn)定。

5 結論

本文完成了智能無人零售視覺系統(tǒng)的軟件和硬件設計；實現(xiàn)了前端硬件攝像頭模塊組對圖像的靜態(tài)和動態(tài)拍攝、壓力傳感器組的數(shù)據(jù)傳輸、紅外傳感器組的數(shù)據(jù)采集以及各個模塊之間的通信；軟件上完成了神經網絡對圖像的檢測定位與識別；通過與前端APP和后臺數(shù)據(jù)庫結合，可實現(xiàn)新的智能無人新零售系統(tǒng)。本文將人工智能視覺系統(tǒng)應用到新零售行業(yè)，能使顧客擁有掃描開門、自己取貨、關門自動結算的新體驗，方便了顧客，也節(jié)約了產品成本。未來智能無人新零售將取代傳統(tǒng)售貨機，分布在城市的各個角落。

參考文獻

[1] 王汝傳，馬守明，葉寧，等.基于射頻識別標簽和傳感器網絡的智能零售市場構建方法：中國，CN 103714465 B[P].2014-04-09.

[2] 宋杰.無人智能零售店來了[J].中國經濟周刊，2017(28)：86-87.

[3] 何騰鵬，張榮芬，劉超，等.基于機器視覺的智能導盲眼鏡設計[J].電子技術應用，2017，43(4)：58-61.

[4] JIA Y，SHELHAMER E，DONAHUE J，et al.Caffe：convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM，2014：675-678.

[5] REDMON J，DIVVALA S，GIRSHICK R，et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE，2016：779-788.

[6] KRIZHEVSKY A，SUTSKEVER I，HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.，2012：1097-1105.

[7] HINTON G E，SRIVASTAVA N，KRIZHEVSKY A，et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science，2012，3(4)：212-223.

作者信息:

林付春，張榮芬，何倩倩，劉宇紅

（貴州大學大數(shù)據(jù)與信息工程學院，貴州貴陽550025）

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容