文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190082
中文引用格式: 張杰,隋陽,,李強,,等. 基于卷積神經(jīng)網(wǎng)絡的火災視頻圖像檢測[J].電子技術應用,2019,,45(4):34-38,,44.
英文引用格式: Zhang Jie,Sui Yang,,Li Qiang,,et al. Fire video image detection based on convolutional neural network[J]. Application of Electronic Technique,2019,,45(4):34-38,,44.
0 引言
在早期火災檢測的過程中,,主要是火焰的檢測,火焰主要有以下三大特征:運動特征,、顏色模型和輪廓特征,,研究主要通過這些特征來達到火焰識別的效果。顏色檢測是火焰檢測最早用的方法,,目前仍有使用,。研究人員為了提高火焰識別的準確率,試圖探索用于火焰檢測的顏色和運動特征。CHEN T H等人[1]研究了火焰的RGB和HSI顏色空間中的火焰的動態(tài)行為和不規(guī)則性檢測,。CELIK T和DEMIREL H[2]使用YCbCr空間色度分量與亮度分離的特性設計分類規(guī)則,,該方法有可能以較高的精度檢測火焰,但需要檢測距離較小,,火災的尺寸較大,。MUELLER M等人[3]研究了火焰的形狀和剛性物體的運動,提出使用光流信息和火焰行為來智能地提取特征向量,,基于該特征向量可以區(qū)分火焰和移動的剛性對象,。FOGGIA P等人[4]融合了形狀、顏色和運動屬性,,形成了一個多專家框架進行實時火焰檢測,。雖然這種方法是目前占主導地位且最先進的火焰檢測算法,但仍然存在誤報率高的問題,。隨著深度學習技術的不斷發(fā)展,,設計自學習分類器,從更深層次自動挖掘特征并分析,,已經(jīng)成為火災視頻檢測領域的新思路,。FRIZZI S[5]等人設計了一個9層卷積神經(jīng)網(wǎng)絡,能分類出火焰,、煙霧或無火災,。ZHANG Q[6]等人設計了一種級聯(lián)卷積神經(jīng)網(wǎng)絡,第一級為全幅圖像分類,,第二級為疑似火焰區(qū)域分類,,這種兩級結構令火災識別更加精細。傅天駒[7]等人設計了一種用于森林火災識別的12層卷積神經(jīng)網(wǎng)絡,,針對網(wǎng)絡訓練過程中訓練樣本較少這一情況,,采用替換隨機初始化參數(shù)方法,獲得了比較好的分類效果,。
為了進一步提高火災檢測的準確率并實現(xiàn)火災定位,,本文應用深度學習的方法提出了一種有效的卷積神經(jīng)網(wǎng)絡火焰檢測結構,避免了特征提取繁瑣而耗時的過程,,自動地從原始火災數(shù)據(jù)中學習豐富的特征,。本文利用遷移學習的思想,訓練并微調(diào)了深度卷積神經(jīng)網(wǎng)絡的權重,,成功實現(xiàn)了火災的檢測和定位。本文的方法相對于單純判斷有無火焰的方法,,實現(xiàn)了火災的定位,,為后期滅火的定位提供便利條件,針對識別過程中類似火災場景對火災檢測產(chǎn)生干擾的問題,,利用火災的運動特性,,提出結合火災視頻前后幀火災坐標位置變化,,排除燈光等類似火災場景對檢測的干擾。
1 火災視頻圖像檢測流程
基于卷積神經(jīng)網(wǎng)絡火災視頻檢測主要分為模型的訓練和模型的評估兩個主要的部分,。首先收集大量的火災圖片進行模型訓練,,利用深度卷積神經(jīng)網(wǎng)絡獲得更深層次的火災特征表達,得到大量的火災檢測模型,;然后利用測試數(shù)據(jù)集對得到的模型進行評估以尋求最優(yōu)模型,;最后就可以利用最優(yōu)模型對新輸入的照片進行火災和非火的判斷?;诰矸e神經(jīng)網(wǎng)絡的火災視頻圖像檢測流程圖如圖1所示,。
1.1 卷積神經(jīng)網(wǎng)絡
CNN(Convolutional Neural Networks)是一個受生物視覺感知機制啟發(fā)的深度學習網(wǎng)絡結構。自從第一個深度學習網(wǎng)絡LeNet用于手寫的數(shù)字分類,,它已顯示出可觀的解決各種問題的能力,,包括行動識別[8]、姿態(tài)估計,、圖像分類[9],、視覺顯著性檢測、對象跟蹤,、圖像分割,、場景標注、對象定位[10],。典型的CNN結構如圖2所示,。
1.2 火災視頻圖像檢測深度神經(jīng)網(wǎng)絡結構
本文火災目標檢測受SSD(Single Shot MultiBox Detector)[11]思想的啟發(fā),使用sigmod激活函數(shù)替換原網(wǎng)絡softmax的激活函數(shù),,以適應火災識別的二分類問題,,并通過訓練獲得所需要的火災檢測模型。本文算法定位方法與滑窗法不同,,它使用單個深度神經(jīng)網(wǎng)絡即可進行圖像檢測,,該算法在中間層特征圖的像素點上,基于不同的比例和大小生成一系列默認框來進行定位,。在預測的過程中,,網(wǎng)絡會生成每一個存在的目標類別的分數(shù)同時按定位權重生成定位框,更加精準地匹配對象的形狀,。此外,,該網(wǎng)絡將來自具有不同分辨率的多個特征圖的預測組合在一起來處理各種尺寸的物體。本文算法的主要優(yōu)勢是在不犧牲準確率的同時,,具有相當快的處理速度,,這為火災的及時識別提供了有利條件。
本文的火災視頻圖像深度神經(jīng)網(wǎng)絡結構如圖3所示,輸入圖像為3通道,、寬高為300×300的火災圖像,。主網(wǎng)絡結構是VGG16,其中兩個卷積層是由全連接層改成的,,同時增加了4個卷積層來獲得特征圖,,以便更精準地定位。此網(wǎng)絡檢測火災分為兩個部分,,一方面是預測輸入圖片的類別以及屬于該類別的得分,,另一方面在特征圖上使用小的卷積核,去預測一系列默認框的默認框偏移量,。為了得到高精度的檢測結果,,如圖3所示,在不同層次的特征圖上去預測物體以及默認框的偏移,,檢測和分類器1輸入特征圖大小為38×38,,每個特征圖元周圍4個默認框,因此默認框的數(shù)量為38×38×4,,其余默認框以此類推,。最后經(jīng)過非極大值抑制NMS(Non-Maxinum Suppression)排除冗余的干擾項,得出最后的檢測位置,。
在訓練過程中,,設置了不同的超參數(shù)訓練了大量的模型,這些參數(shù)取決于收集的訓練數(shù)據(jù),、數(shù)據(jù)的質量以及在訓練過程中對結果的分析,,通過調(diào)節(jié)學習率、閾值等超參數(shù)改進模型,,并在最后使用準確率最高的模型,。訓練過程中采用了遷移學習策略,因為預訓練模型是由大規(guī)模數(shù)據(jù)集訓練得到的,,其中各個層的權重基本體現(xiàn)了圖像物體的特征選擇,,所以通過微調(diào)策略,使用預訓練模型進行初始化,,準確率會上升得更快,,并達到更好的效果。實驗通過運行100 000次微調(diào)迭代過程,,得到了最終的模型,,在檢測室內(nèi)外火焰方面表現(xiàn)出可觀的準確率。
2 識別結果討論分析
2.1 實驗條件與數(shù)據(jù)生成
本文的實驗操作系統(tǒng)為Ubuntu16.04(Linux),,GPU為1080Ti,,內(nèi)存為8 GB,,CPU為i5-4590,所用的數(shù)據(jù)集來自互聯(lián)網(wǎng)上各大研究機構公開的視頻,。從視頻中截取所需圖片創(chuàng)建火災圖片數(shù)據(jù)集,之后用labelimg標框軟件進行標框處理,,生成xml文件,,從標記的圖片中隨機抽取其中的90%組成訓練集,剩余的10%組成測試集,,并將訓練集和測試集轉換為Caffe框架所支持的lmdb格式,。轉換過程中將圖片寬高調(diào)整為300×300,并加入了數(shù)據(jù)增強的方法,,進行了鏡像,、翻轉等數(shù)據(jù)擴充的操作,隨后進行預處理和歸一化,。Slover參數(shù)設置:權衰量為0.0005,,初始學習率為0.0001,學習率變化的比率為0.1,,網(wǎng)絡沖量為0.9,,網(wǎng)絡優(yōu)化方法為SGD,學習率衰減策略為multistep,。
2.2 訓練曲線及模型性能指標對比分析
對訓練數(shù)據(jù)集進行訓練,,并記錄樣本的損失函數(shù)(loss)值,輸出訓練過程中總loss曲線以及定位loss曲線分別如圖4,、圖5所示,。隨著迭代次數(shù)iters的增多,網(wǎng)絡訓練總loss(train_loss)和定位loss(mbox_loss)逐漸收斂,,呈現(xiàn)出持續(xù)下降,、趨近平穩(wěn)的狀態(tài),符合訓練要求,,可以達到學習的目標,,在60 000次迭代以后趨于平穩(wěn),訓練的損失函數(shù)曲線如圖4,、圖5所示,。本文算法的損失函數(shù)計算使用以下公式:
其中,N是匹配的默認框個數(shù),,x表示匹配的框是否屬于某個類別,,取值{0,1},;l是預測框,,g是真實值,;c為所框選目標屬于某類別的置信度。
火災的識別屬于二分類問題,,可將樣例根據(jù)其真實類別與學習器預測類別的組合劃分為真正例,、假正例、真反例,、假反例4種情形,,令TP、FP,、TN,、FN分別表示其對應的樣例數(shù)[12],評估模型預測是否為火的混淆矩陣如表1所示,。
漏報率:
誤報率:
查準率:
查全率:
準確率:
為了測試本文模型的表現(xiàn),,進一步豐富了測試數(shù)據(jù)集,共177張圖片,,其中火災圖片100張,,非火災圖片77,檢測模型在該數(shù)據(jù)集上的表現(xiàn)如表2所示,。
2.3 不同場景的火災圖片實驗結果
選取不同場景的火災圖片和非火圖片,,如圖6所示。對于火災圖片,,本文模型成功實現(xiàn)識別及定位,;對于類似火災圖片,本文模型成功判斷為非火圖片,,這些圖像的概率值如表3所示,。
2.4 利用火焰運動特征抗干擾實驗
在應用大量的火災數(shù)據(jù)集進行測試的過程中,發(fā)現(xiàn)會有部分燈光較亮的圖片會對識別產(chǎn)生干擾,,如圖7(f)所示,。針對這個問題,本文利用火災的運動特征,,計算視頻前后幀的位置距離d,,以區(qū)分幾乎靜止不動的干擾源。只有位置坐標不為0,,且前后兩幀位置坐標距離不為0,,才判定為有火,這種方法巧妙地排除了靜止類火場景對火災識別的影響,。表4中(xmin,,ymin)、(xmax,,ymax)分別為矩形框左上角和右下角的坐標值,。其中d的計算公式為:
對不同的數(shù)據(jù)進行了測試的結果如表4所示,,其中圖7(a)、圖7(b),、圖7(c)是連續(xù)3幀有火的圖片輸出位置坐標,,計算前后兩幀距離,分別為2.41 px和13.15 px,。干擾圖片圖7(f)也輸出相應位置坐標和前后兩幀的距離,,前后兩幀的距離為圖7(d)、圖7(e)兩張非火災圖片為視頻中運動的人,,檢測模型直接可以判斷出這兩幀為非火圖片,不生成定位框,,因此無坐標值,,距離為默認值0。
3 結論
隨著智能監(jiān)控的處理能力的提升,,在監(jiān)控系統(tǒng)中識別出火災對于控制火災帶來的損失具有積極意義,,本文提出了一個兼顧準確率和計算復雜性的深度學習火災檢測模型。該模型的靈感來自SSD算法,,針對火災識別問題對其進行改進,。通過實驗證明,本文的識別模型能夠實現(xiàn)火災圖片的識別和定位,,對不同的火災場景進行檢測都有很好的識別效果,,具有很好的泛化能力。針對識別過程中類似火災場景對火災檢測產(chǎn)生干擾的問題,,本文利用火災的運動特性,,提出結合火災視頻前后幀火災坐標位置變化的方法,排除了燈光等類似火災靜止場景對檢測的干擾,。在之后的研究中,,可以對當前的火焰檢測模型進行進一步調(diào)整,以檢測煙霧和火焰,,處理更復雜的情況,。
參考文獻
[1] CHEN T H,WU P H,,CHIOU Y C.An early fire-detection method based on image processing[C].International Conference on Image Processing.IEEE,,2005,3:1707-1710.
[2] CELIK T,,DEMIREL H.Fire detection in video sequences using a generic color model[J].Fire Safety,,2009,44(2):147-158.
[3] MUELLER M,,KARASEV P,,KOLESOV I,,et al.Optical flow estimation for flame detection in videos[J].IEEE Trans.Image Process,2013,,22(7):2786-2797.
[4] FOGGIA P,,SAGGESE A,VENTO M.Real-time fire detection for video-surveillance applications using a combination of experts based on color,,shape,,and motion[J].IEEE Trans. on Circuits and Syst. for Video Technol.,2015,,25(9):1545-1556.
[5] FRIZZI S,,KAABI R,BOUCHOUICHA M,,et al.Convolutional neural network for video fire and smoke detection[C].Industrial Electtonics Society,,IECON 2016 Conference of the IEEE.IEEE,2016:877-882.
[6] ZHANG Q,,XU J,,XU L,et al.Deep convolutional neural networks for forest fire detection[C].International Forum on Management,,Education and Information Technology Application,,2016.
[7] 傅天駒,鄭嫦娥,,田野,,等.復雜背景下基于深度卷積神經(jīng)網(wǎng)絡的森林火災識別[J].計算機與現(xiàn)代化,2016(3):52-57.
[8] SHAO L,,LIU L,,LI X.Feature learning for image classification via multiobjective genetic programming[J].IEEE Trans. on Neural Netw. and Learn. Syst.,2014,,25(7):1359-1371.
[9] 林付春,,劉宇紅,張達峰,,等.基于深度學習的智能路牌識別系統(tǒng)設計[J].電子技術應用,,2018,44(6):68-71.
[10] 馬治楠,,韓云杰,,彭琳鈺,等.基于深層卷積神經(jīng)網(wǎng)絡的剪枝優(yōu)化[J].電子技術應用,,2018,,44(12):119-122,126.
[11] Liu Wei,,ANGUELOV D,,ERHAN D.SSD:single shot multibox detector[J].Computer Vision-ECCV,,2016,2016,,99(5):21-37.
[12] 周志華.機器學習[M].北京:清華大學出版社,,2016.
作者信息:
張 杰,隋 陽,,李 強,,李 想,董 瑋
(吉林大學 電子科學與工程學院,,吉林 長春130012)