文獻標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.022
中文引用格式: 蔣兆軍,,成孝剛,彭雅琴,,等. 基于深度學(xué)習(xí)的無人機識別算法研究[J].電子技術(shù)應(yīng)用,,2017,43(7):84-87.
英文引用格式: Jiang Zhaojun,,Cheng Xiaogang,,Peng Yaqin,et al. A novel UAV recognition algorithm based on deep learning approach[J].Application of Electronic Technique,,2017,,43(7):84-87.
0 引言
無人機技術(shù)的發(fā)展十分迅速,。從美軍無人機的使用,到現(xiàn)在無人機在研究,、民用等多方面的普及,,無人機已成為一種新的潮流[1-2]。隨之而來也帶來很多新問題,,此前無人機險撞戰(zhàn)機事件的發(fā)生,,就給人們敲響了警鐘。因此,,無人機警察系統(tǒng)的搭建勢在必行,。本文的研究重點為:建立視覺傳感網(wǎng),用于無人機的圖像捕捉和信息存儲,;引入深度學(xué)習(xí)對無人機進行識別,,及時發(fā)現(xiàn)“黑飛無人機”,并采取相應(yīng)報警措施,,實現(xiàn)對無人機的全面監(jiān)管,。
1 視覺傳感網(wǎng)
整個視覺傳感網(wǎng)(Visual Sensor Networks,VSNs)由多個節(jié)點組成,,每個節(jié)點都將由攝像機陣列構(gòu)成,,這將作為整個系統(tǒng)的基礎(chǔ)部分[3],,如圖1,。
城市環(huán)境下一個節(jié)點的安置示意圖如圖2。
為了減輕對居民的干擾,,可以修改攝像機焦距參數(shù),,從而限制攝像機的拍攝范圍。通過多臺攝像機交叉覆蓋,,成功地將中間的空地區(qū)域全方位地納入監(jiān)控之中,。
考慮到多節(jié)點所提供的龐大數(shù)據(jù)量以及優(yōu)化控制結(jié)構(gòu)的需要,將數(shù)據(jù)網(wǎng)絡(luò)設(shè)計成三層結(jié)構(gòu),。位于最底層的第三層由數(shù)量不等的節(jié)點構(gòu)成一系列簇組成,,每個簇內(nèi)的節(jié)點統(tǒng)一將數(shù)據(jù)發(fā)往一臺次級處理服務(wù)器。整個網(wǎng)絡(luò)內(nèi)的次級處理服務(wù)器構(gòu)成網(wǎng)絡(luò)的第二層,,將數(shù)據(jù)送往位于第一層的中央高級服務(wù)器,。
2 基于深度學(xué)習(xí)的圖像識別中心
無人機警察系統(tǒng)中關(guān)鍵組成是圖像識別中心,其任務(wù)是將視覺傳感網(wǎng)中的圖像信息進行分析和處理,,從圖像中識別出無人機,,從而實現(xiàn)對無人機的監(jiān)控,屬于目標(biāo)識別領(lǐng)域,。目前這一領(lǐng)域已經(jīng)有了大量的優(yōu)秀成果出現(xiàn),。最常見有行人檢測問題,,可用的特征包括:Haar、HOG,、CSS,、LBP等多種,這些特征表達了人體的各個重要部分,,并且充分考慮了遮擋等情形,。王曉剛和歐陽萬里更提出了基于深度學(xué)習(xí)的行人檢測手段,通過聯(lián)合學(xué)習(xí)行人檢測中的4個重要組成部分——特征提取,、人體部件形變處理,、遮擋處理和分類,最大化了各自的作用[4],。他們在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,,加入了形變處理層,最終習(xí)得的特征具有很強的判別力,,優(yōu)于HOG等特征,。王曉剛團隊的方案,是深度學(xué)習(xí)在目標(biāo)識別領(lǐng)域的成功應(yīng)用,,給本文的研究提供了研究參考,。再比如人臉識別問題[5-6],則具有更復(fù)雜的變化,,因為人臉受種族,、膚色、表情,、情緒,、光照環(huán)境、物體遮擋等眾多因素的影響,。推廣到各種特定物體的識別乃至場景識別,、深度學(xué)習(xí)也有很多方案[7]。由于無人機警察系統(tǒng)中圖片信息量豐富,,且無人機的飛行狀態(tài)多樣,,因此識別難度較大。為此,,本文將引入深度學(xué)習(xí)算法,,并以卷積神經(jīng)網(wǎng)絡(luò)作為圖像識別中心。
2.1 卷積神經(jīng)網(wǎng)絡(luò)
2006年,,Hinton等人首次提出深度學(xué)習(xí)的概念[8],,并開啟了深度學(xué)習(xí)的研究浪潮,其認(rèn)為:多隱層的人工神經(jīng)網(wǎng)絡(luò)能夠更好地模擬人腦的思考過程,,具有更加優(yōu)異的學(xué)習(xí)能力,,能夠?qū)?shù)據(jù)進行更本質(zhì)的刻畫,,從而提高可視化或者分類的能力。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中第一個真正多層結(jié)構(gòu)學(xué)習(xí)算法,,其在圖像識別領(lǐng)域優(yōu)勢明顯,。它利用感受野、局部連接等概念極大地減少了參數(shù)量,,降低了網(wǎng)絡(luò)模型的復(fù)雜度,,提高了訓(xùn)練效率,且網(wǎng)絡(luò)對于平移,、縮放的各種變形都具備高度不變性,。
卷積神經(jīng)網(wǎng)絡(luò)屬于前饋多層神經(jīng)網(wǎng)絡(luò)的一種,每層由多個二維平面組成,,多個神經(jīng)元組成了每個平面,,其結(jié)構(gòu)如圖3所示。
卷積神經(jīng)網(wǎng)絡(luò)利用了一系列的卷積層,,降采樣層構(gòu)建了多層網(wǎng)絡(luò),,來模擬人腦感知視覺信號的逐層處理機制,從而提取圖像的多層次特征,。
通過加入卷積層,,可以實現(xiàn)局部連接網(wǎng)絡(luò),有效減少了需要訓(xùn)練的網(wǎng)絡(luò)參數(shù),。例如,,對一張大的圖片輸入,其尺寸為r×c,,隨機采樣為a×b的小圖片,,如果隱含節(jié)點為k個,那么最終學(xué)習(xí)到的特征數(shù)為:
池化層是為了解決網(wǎng)絡(luò)輸出維數(shù)過大,、造成分類器難以設(shè)計的問題。同樣是根據(jù)統(tǒng)計結(jié)果的相似性原理,,池化操作對卷積得到的結(jié)果進行統(tǒng)計計算,,減少了需要訓(xùn)練的系統(tǒng)參數(shù)。
權(quán)值更新采用BP反向傳播算法,。反向傳播的誤差可看做每個神經(jīng)元的基的靈敏度(即誤差E對基b變化率的偏導(dǎo)函數(shù)),,然后利用以下關(guān)系式:
最后的分類應(yīng)用了Logistic Regression擴展的一種多分類器:Softmax Regression。其系統(tǒng)方程及系統(tǒng)損失函數(shù)分別為:
2.2 基于深度學(xué)習(xí)的無人機識別流程
由于視覺傳感網(wǎng)獲得的一系列圖像中,,關(guān)注的對象可能只占其中的一小部分像素區(qū)域,,又由于對象具有運動性,故在識別中心操作之前將采取幀差法提取感興趣的對象,,作為算法的正式輸入[10-11],。二幀差法基本原理如下:
其中i(t),、i(t-1)分別為t、t-1時刻對應(yīng)像素點的像素值,,T為閾值,。
基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的無人機識別流程如下所示。
步驟一:數(shù)據(jù)預(yù)處理
(1)幀差法提取目標(biāo)區(qū)域,;
(2)數(shù)據(jù)格式轉(zhuǎn)換,;
(3)預(yù)定義標(biāo)簽;
步驟二:深度網(wǎng)絡(luò)訓(xùn)練,、測試
(1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),,確定網(wǎng)絡(luò)層次結(jié)構(gòu)和權(quán)重參數(shù)等;
(2)數(shù)據(jù)依次進入卷積層,、池化層,、全連接層,進行計算,;
(3)采用Backpropagation Pass反向傳播,,進行參數(shù)調(diào)整;
(4)當(dāng)誤差滿足或者迭代次數(shù)滿足時,,網(wǎng)絡(luò)停止訓(xùn)練,,進入Accuracy層計算準(zhǔn)確率并輸出(只在測試階段執(zhí)行,訓(xùn)練時不執(zhí)行),。
3 識別性能與結(jié)果分析
首先構(gòu)建了視覺傳感網(wǎng),,設(shè)置了2個節(jié)點,目前系統(tǒng)僅限于白天工作,。
輸入2 848張圖片進行訓(xùn)練,,基礎(chǔ)學(xué)習(xí)率設(shè)置為0.001,迭代5 000次后獲得的模型用于之后的測試分析,。測試時輸入712張圖片,,模型正確分類的情形共有634例,可得:
由于目前無人機識別方面沒有其他現(xiàn)成的模型可供比較,,因此本文分析了ROC曲線參數(shù),。在信號檢測理論中,接收者操作特征(Receiver Operating Characteristic,,ROC)是一種對靈敏度進行描述的功能圖像,,該圖像稱為ROC曲線。應(yīng)用ROC曲線來表示分類器的性能非常直觀,。同時為了定量且簡潔地表達這種性能,,Area Under roc Curve(AUC)被提出。AUC的值等于ROC曲線正下方的面積,AUC的數(shù)值越大,,分類器的性能越好,。圖4表示的是與ROC曲線繪制相關(guān)的一些量,依次為TP(True Positive),、FP(False Positive),、FN(False Negative)、TN(True Negative),。
在隨機分類模型,,對于任一樣本輸入,模型對其的預(yù)測score是完全隨機的,,假設(shè)預(yù)測score落在區(qū)間[0,,1]上,則預(yù)測概率數(shù)學(xué)表達為:
因此本文的ROC曲線圖結(jié)果如圖5所示,。圖中整個曲線越向點(0,,1)逼近,模型的性能就越好,。
4 結(jié)論
本文較好地將深度學(xué)習(xí)的方法應(yīng)用到了無人機警察系統(tǒng)這個新穎的概念上,,對無人機的識別率比較高。在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計上,,可能存在冗余,,導(dǎo)致模型收斂速度不夠快,訓(xùn)練效率有所損失,。后期將繼續(xù)對網(wǎng)絡(luò)結(jié)構(gòu)的進行研究,,希望能夠進一步提高模型的質(zhì)量,并使其具有更廣的適應(yīng)性,。
參考文獻
[1] 閆玉巧.面向無人機的自動檢測系統(tǒng)設(shè)計與實現(xiàn)[D].西安:西安電子科技大學(xué),,2011.
[2] 胡占雙.無人機飛行姿態(tài)檢測及控制研究[D].沈陽:沈陽航空航天大學(xué),2013.
[3] AHMAD N.Modelling and optimization of sky surveillance visual sensor network[D].Mid Sweden University,,2012.
[4] OuYang Wanli,,Wang Xiaogang.Joint deep learning for pedestrian detection[C].ICCV,2013.
[5] Li Ming,,Yu Chengyang,,Nian Fuzhong,et al.A face detection algorithm based on deep learning[C].IJHIT,,2015.
[6] Nagpal Shruti,Singh Maneet,,Singh Richa,,et al.Regularized deep learning for face recognition with weight variations[J].IEEE Access,2015,,3:3010-3018.
[7] Yuan Yuan,,Mou Lichao,,Lu Xiaoqiang.Scene recognition by manifold regularized deep learning architecture[J].IEEE Transactions on Networks & learning,2015,,16(10):2222.
[8] HINTON G E,,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,,313:504-507.
[9] SAXE A M,,KOH P W.On random weights and unsupervised feature learing[C].International Conference on Machine Learing,2011:1089-1096.
[10] 王鑫.檢測不規(guī)則圖形的改進廣義Hough變換[D].北京:首都師范大學(xué),,2012.
[11] 唐俐勒.視頻監(jiān)控中運動圖像檢測與測距技術(shù)的研究[D].西安:西安科技大學(xué),,2010.
作者信息:
蔣兆軍1,成孝剛2,,彭雅琴3,,王 俊1,李 智2
(1.無錫職業(yè)技術(shù)學(xué)院 汽車與交通學(xué)院,,江蘇 無錫 214121,;
2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京210003,;3.三江學(xué)院 計算機科學(xué)與工程學(xué)院,,江蘇 南京 210012)