基于卷積神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測-AET-電子技術(shù)應(yīng)用

基于卷積神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測

2019年電子技術(shù)應(yīng)用第4期

張杰，隋陽，李強，李想，董瑋

吉林大學(xué) 電子科學(xué)與工程學(xué)院，吉林長春130012

摘要： 隨著計算機技術(shù)的發(fā)展，融合計算機視覺、機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的火災(zāi)圖像處理技術(shù)得到了廣泛的研究和應(yīng)用。針對傳統(tǒng)圖像處理方法預(yù)處理過程復(fù)雜且誤報率高等問題，提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)模型進行火災(zāi)檢測的方法，其減少了復(fù)雜的預(yù)處理環(huán)節(jié)，將整個火災(zāi)識別過程整合成一個單深度神經(jīng)網(wǎng)絡(luò)，便于訓(xùn)練與優(yōu)化。針對識別過程中類似火災(zāi)場景對火災(zāi)檢測產(chǎn)生干擾的問題，利用火災(zāi)的運動特性，創(chuàng)新性地提出利用火災(zāi)視頻前后幀火災(zāi)坐標位置變化來排除燈光等類似火災(zāi)場景對檢測的干擾。對比了眾多深度學(xué)習(xí)開源框架后，選擇Caffe框架進行訓(xùn)練及測試，實驗結(jié)果表明，該方法實現(xiàn)了對火災(zāi)圖像的識別和定位，適應(yīng)于不同的火災(zāi)場景，具有很好的泛化能力和抗干擾能力。

關(guān)鍵詞： 深度學(xué)習(xí) 火災(zāi)識別 Caffe框架卷積神經(jīng)網(wǎng)絡(luò) 泛化能力

中圖分類號： TP391
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.190082
中文引用格式： 張杰，隋陽，李強，等. 基于卷積神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測[J].電子技術(shù)應(yīng)用，2019，45(4)：34-38，44.
英文引用格式： Zhang Jie，Sui Yang，Li Qiang，et al. Fire video image detection based on convolutional neural network[J]. Application of Electronic Technique，2019，45(4)：34-38，44.

Fire video image detection based on convolutional neural network

Zhang Jie，Sui Yang，Li Qiang，Li Xiang，Dong Wei

College of Electronic Science and Engineering，Jilin University，Changchun 130012，China

Abstract： With the development of computer technology, fire image processing technology combining computer vision, machine learning, deep learning and other technologies has been widely studied and applied. Aiming at the complex preprocessing process and high false positive rate of traditional image processing methods, this paper proposes a method based on deep convolutional neural network model for fire detection, which reduces complex preprocessing links and integrates the whole fire identification process into one single depth neural network for easy training and optimization. In view of the problem of fire detection caused by similar fire scenes in the identification process, this paper uses the motion characteristics of fire to innovatively propose the combination of fire frame position changes before and after the fire video to eliminate the interference of lights and other similar fire scenes. After comparing many open learning open source frameworks, this paper chooses Caffe framework for training and testing. The experimental results show that the method realizes the recognition and localization of fire images. This method is suitable for different fire scenarios and has good generalization ability and anti-interference ability.

Key words : deep learning；fire identification；Caffe framework；convolutional neural network；generalization ability

0 引言

在早期火災(zāi)檢測的過程中，主要是火焰的檢測，火焰主要有以下三大特征：運動特征、顏色模型和輪廓特征，研究主要通過這些特征來達到火焰識別的效果。顏色檢測是火焰檢測最早用的方法，目前仍有使用。研究人員為了提高火焰識別的準確率，試圖探索用于火焰檢測的顏色和運動特征。CHEN T H等人^[1]研究了火焰的RGB和HSI顏色空間中的火焰的動態(tài)行為和不規(guī)則性檢測。CELIK T和DEMIREL H^[2]使用YCbCr空間色度分量與亮度分離的特性設(shè)計分類規(guī)則，該方法有可能以較高的精度檢測火焰，但需要檢測距離較小，火災(zāi)的尺寸較大。MUELLER M等人^[3]研究了火焰的形狀和剛性物體的運動，提出使用光流信息和火焰行為來智能地提取特征向量，基于該特征向量可以區(qū)分火焰和移動的剛性對象。FOGGIA P等人^[4]融合了形狀、顏色和運動屬性，形成了一個多專家框架進行實時火焰檢測。雖然這種方法是目前占主導(dǎo)地位且最先進的火焰檢測算法，但仍然存在誤報率高的問題。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，設(shè)計自學(xué)習(xí)分類器，從更深層次自動挖掘特征并分析，已經(jīng)成為火災(zāi)視頻檢測領(lǐng)域的新思路。FRIZZI S^[5]等人設(shè)計了一個9層卷積神經(jīng)網(wǎng)絡(luò)，能分類出火焰、煙霧或無火災(zāi)。ZHANG Q^[6]等人設(shè)計了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)，第一級為全幅圖像分類，第二級為疑似火焰區(qū)域分類，這種兩級結(jié)構(gòu)令火災(zāi)識別更加精細。傅天駒^[7]等人設(shè)計了一種用于森林火災(zāi)識別的12層卷積神經(jīng)網(wǎng)絡(luò)，針對網(wǎng)絡(luò)訓(xùn)練過程中訓(xùn)練樣本較少這一情況，采用替換隨機初始化參數(shù)方法，獲得了比較好的分類效果。

為了進一步提高火災(zāi)檢測的準確率并實現(xiàn)火災(zāi)定位，本文應(yīng)用深度學(xué)習(xí)的方法提出了一種有效的卷積神經(jīng)網(wǎng)絡(luò)火焰檢測結(jié)構(gòu)，避免了特征提取繁瑣而耗時的過程，自動地從原始火災(zāi)數(shù)據(jù)中學(xué)習(xí)豐富的特征。本文利用遷移學(xué)習(xí)的思想，訓(xùn)練并微調(diào)了深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重，成功實現(xiàn)了火災(zāi)的檢測和定位。本文的方法相對于單純判斷有無火焰的方法，實現(xiàn)了火災(zāi)的定位，為后期滅火的定位提供便利條件，針對識別過程中類似火災(zāi)場景對火災(zāi)檢測產(chǎn)生干擾的問題，利用火災(zāi)的運動特性，提出結(jié)合火災(zāi)視頻前后幀火災(zāi)坐標位置變化，排除燈光等類似火災(zāi)場景對檢測的干擾。

1 火災(zāi)視頻圖像檢測流程

基于卷積神經(jīng)網(wǎng)絡(luò)火災(zāi)視頻檢測主要分為模型的訓(xùn)練和模型的評估兩個主要的部分。首先收集大量的火災(zāi)圖片進行模型訓(xùn)練，利用深度卷積神經(jīng)網(wǎng)絡(luò)獲得更深層次的火災(zāi)特征表達，得到大量的火災(zāi)檢測模型；然后利用測試數(shù)據(jù)集對得到的模型進行評估以尋求最優(yōu)模型；最后就可以利用最優(yōu)模型對新輸入的照片進行火災(zāi)和非火的判斷。基于卷積神經(jīng)網(wǎng)絡(luò)的火災(zāi)視頻圖像檢測流程圖如圖1所示。

1.1 卷積神經(jīng)網(wǎng)絡(luò)

CNN(Convolutional Neural Networks)是一個受生物視覺感知機制啟發(fā)的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。自從第一個深度學(xué)習(xí)網(wǎng)絡(luò)LeNet用于手寫的數(shù)字分類，它已顯示出可觀的解決各種問題的能力，包括行動識別^[8]、姿態(tài)估計、圖像分類^[9]、視覺顯著性檢測、對象跟蹤、圖像分割、場景標注、對象定位^[10]。典型的CNN結(jié)構(gòu)如圖2所示。

1.2 火災(zāi)視頻圖像檢測深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文火災(zāi)目標檢測受SSD(Single Shot MultiBox Detector)^[11]思想的啟發(fā)，使用sigmod激活函數(shù)替換原網(wǎng)絡(luò)softmax的激活函數(shù)，以適應(yīng)火災(zāi)識別的二分類問題，并通過訓(xùn)練獲得所需要的火災(zāi)檢測模型。本文算法定位方法與滑窗法不同，它使用單個深度神經(jīng)網(wǎng)絡(luò)即可進行圖像檢測，該算法在中間層特征圖的像素點上，基于不同的比例和大小生成一系列默認框來進行定位。在預(yù)測的過程中，網(wǎng)絡(luò)會生成每一個存在的目標類別的分數(shù)同時按定位權(quán)重生成定位框，更加精準地匹配對象的形狀。此外，該網(wǎng)絡(luò)將來自具有不同分辨率的多個特征圖的預(yù)測組合在一起來處理各種尺寸的物體。本文算法的主要優(yōu)勢是在不犧牲準確率的同時，具有相當快的處理速度，這為火災(zāi)的及時識別提供了有利條件。

本文的火災(zāi)視頻圖像深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，輸入圖像為3通道、寬高為300×300的火災(zāi)圖像。主網(wǎng)絡(luò)結(jié)構(gòu)是VGG16，其中兩個卷積層是由全連接層改成的，同時增加了4個卷積層來獲得特征圖，以便更精準地定位。此網(wǎng)絡(luò)檢測火災(zāi)分為兩個部分，一方面是預(yù)測輸入圖片的類別以及屬于該類別的得分，另一方面在特征圖上使用小的卷積核，去預(yù)測一系列默認框的默認框偏移量。為了得到高精度的檢測結(jié)果，如圖3所示，在不同層次的特征圖上去預(yù)測物體以及默認框的偏移，檢測和分類器1輸入特征圖大小為38×38，每個特征圖元周圍4個默認框，因此默認框的數(shù)量為38×38×4，其余默認框以此類推。最后經(jīng)過非極大值抑制NMS(Non-Maxinum Suppression)排除冗余的干擾項，得出最后的檢測位置。

在訓(xùn)練過程中，設(shè)置了不同的超參數(shù)訓(xùn)練了大量的模型，這些參數(shù)取決于收集的訓(xùn)練數(shù)據(jù)、數(shù)據(jù)的質(zhì)量以及在訓(xùn)練過程中對結(jié)果的分析，通過調(diào)節(jié)學(xué)習(xí)率、閾值等超參數(shù)改進模型，并在最后使用準確率最高的模型。訓(xùn)練過程中采用了遷移學(xué)習(xí)策略，因為預(yù)訓(xùn)練模型是由大規(guī)模數(shù)據(jù)集訓(xùn)練得到的，其中各個層的權(quán)重基本體現(xiàn)了圖像物體的特征選擇，所以通過微調(diào)策略，使用預(yù)訓(xùn)練模型進行初始化，準確率會上升得更快，并達到更好的效果。實驗通過運行100 000次微調(diào)迭代過程，得到了最終的模型，在檢測室內(nèi)外火焰方面表現(xiàn)出可觀的準確率。

2 識別結(jié)果討論分析

2.1 實驗條件與數(shù)據(jù)生成

本文的實驗操作系統(tǒng)為Ubuntu16.04（Linux），GPU為1080Ti，內(nèi)存為8 GB，CPU為i5-4590，所用的數(shù)據(jù)集來自互聯(lián)網(wǎng)上各大研究機構(gòu)公開的視頻。從視頻中截取所需圖片創(chuàng)建火災(zāi)圖片數(shù)據(jù)集，之后用labelimg標框軟件進行標框處理，生成xml文件，從標記的圖片中隨機抽取其中的90%組成訓(xùn)練集，剩余的10%組成測試集，并將訓(xùn)練集和測試集轉(zhuǎn)換為Caffe框架所支持的lmdb格式。轉(zhuǎn)換過程中將圖片寬高調(diào)整為300×300，并加入了數(shù)據(jù)增強的方法，進行了鏡像、翻轉(zhuǎn)等數(shù)據(jù)擴充的操作，隨后進行預(yù)處理和歸一化。Slover參數(shù)設(shè)置：權(quán)衰量為0.0005，初始學(xué)習(xí)率為0.0001，學(xué)習(xí)率變化的比率為0.1，網(wǎng)絡(luò)沖量為0.9，網(wǎng)絡(luò)優(yōu)化方法為SGD，學(xué)習(xí)率衰減策略為multistep。

2.2 訓(xùn)練曲線及模型性能指標對比分析

對訓(xùn)練數(shù)據(jù)集進行訓(xùn)練，并記錄樣本的損失函數(shù)(loss)值，輸出訓(xùn)練過程中總loss曲線以及定位loss曲線分別如圖4、圖5所示。隨著迭代次數(shù)iters的增多，網(wǎng)絡(luò)訓(xùn)練總loss（train_loss）和定位loss（mbox_loss）逐漸收斂，呈現(xiàn)出持續(xù)下降、趨近平穩(wěn)的狀態(tài)，符合訓(xùn)練要求，可以達到學(xué)習(xí)的目標，在60 000次迭代以后趨于平穩(wěn)，訓(xùn)練的損失函數(shù)曲線如圖4、圖5所示。本文算法的損失函數(shù)計算使用以下公式：

其中，N是匹配的默認框個數(shù)，x表示匹配的框是否屬于某個類別，取值{0，1}；l是預(yù)測框，g是真實值；c為所框選目標屬于某類別的置信度。

火災(zāi)的識別屬于二分類問題，可將樣例根據(jù)其真實類別與學(xué)習(xí)器預(yù)測類別的組合劃分為真正例、假正例、真反例、假反例4種情形，令TP、FP、TN、FN分別表示其對應(yīng)的樣例數(shù)^[12]，評估模型預(yù)測是否為火的混淆矩陣如表1所示。

漏報率：

誤報率：

查準率：

查全率：

準確率：

為了測試本文模型的表現(xiàn)，進一步豐富了測試數(shù)據(jù)集，共177張圖片，其中火災(zāi)圖片100張，非火災(zāi)圖片77，檢測模型在該數(shù)據(jù)集上的表現(xiàn)如表2所示。

2.3 不同場景的火災(zāi)圖片實驗結(jié)果

選取不同場景的火災(zāi)圖片和非火圖片，如圖6所示。對于火災(zāi)圖片，本文模型成功實現(xiàn)識別及定位；對于類似火災(zāi)圖片，本文模型成功判斷為非火圖片，這些圖像的概率值如表3所示。

2.4 利用火焰運動特征抗干擾實驗

在應(yīng)用大量的火災(zāi)數(shù)據(jù)集進行測試的過程中，發(fā)現(xiàn)會有部分燈光較亮的圖片會對識別產(chǎn)生干擾，如圖7(f)所示。針對這個問題，本文利用火災(zāi)的運動特征，計算視頻前后幀的位置距離d，以區(qū)分幾乎靜止不動的干擾源。只有位置坐標不為0，且前后兩幀位置坐標距離不為0，才判定為有火，這種方法巧妙地排除了靜止類火場景對火災(zāi)識別的影響。表4中(x_min，y_min)、(x_max，y_max)分別為矩形框左上角和右下角的坐標值。其中d的計算公式為：

對不同的數(shù)據(jù)進行了測試的結(jié)果如表4所示，其中圖7(a)、圖7(b)、圖7(c)是連續(xù)3幀有火的圖片輸出位置坐標，計算前后兩幀距離，分別為2.41 px和13.15 px。干擾圖片圖7(f)也輸出相應(yīng)位置坐標和前后兩幀的距離，前后兩幀的距離為圖7(d)、圖7(e)兩張非火災(zāi)圖片為視頻中運動的人，檢測模型直接可以判斷出這兩幀為非火圖片，不生成定位框，因此無坐標值，距離為默認值0。

3 結(jié)論

隨著智能監(jiān)控的處理能力的提升，在監(jiān)控系統(tǒng)中識別出火災(zāi)對于控制火災(zāi)帶來的損失具有積極意義，本文提出了一個兼顧準確率和計算復(fù)雜性的深度學(xué)習(xí)火災(zāi)檢測模型。該模型的靈感來自SSD算法，針對火災(zāi)識別問題對其進行改進。通過實驗證明，本文的識別模型能夠?qū)崿F(xiàn)火災(zāi)圖片的識別和定位，對不同的火災(zāi)場景進行檢測都有很好的識別效果，具有很好的泛化能力。針對識別過程中類似火災(zāi)場景對火災(zāi)檢測產(chǎn)生干擾的問題，本文利用火災(zāi)的運動特性，提出結(jié)合火災(zāi)視頻前后幀火災(zāi)坐標位置變化的方法，排除了燈光等類似火災(zāi)靜止場景對檢測的干擾。在之后的研究中，可以對當前的火焰檢測模型進行進一步調(diào)整，以檢測煙霧和火焰，處理更復(fù)雜的情況。

參考文獻

[1] CHEN T H，WU P H，CHIOU Y C.An early fire-detection method based on image processing[C].International Conference on Image Processing.IEEE，2005，3：1707-1710.

[2] CELIK T，DEMIREL H.Fire detection in video sequences using a generic color model[J].Fire Safety，2009，44(2)：147-158.

[3] MUELLER M，KARASEV P，KOLESOV I，et al.Optical flow estimation for flame detection in videos[J].IEEE Trans.Image Process，2013，22(7)：2786-2797.

[4] FOGGIA P，SAGGESE A，VENTO M.Real-time fire detection for video-surveillance applications using a combination of experts based on color，shape，and motion[J].IEEE Trans. on Circuits and Syst. for Video Technol.，2015，25(9)：1545-1556.

[5] FRIZZI S，KAABI R，BOUCHOUICHA M，et al.Convolutional neural network for video fire and smoke detection[C].Industrial Electtonics Society，IECON 2016 Conference of the IEEE.IEEE，2016：877-882.

[6] ZHANG Q，XU J，XU L，et al.Deep convolutional neural networks for forest fire detection[C].International Forum on Management，Education and Information Technology Application，2016.

[7] 傅天駒，鄭嫦娥，田野，等.復(fù)雜背景下基于深度卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)識別[J].計算機與現(xiàn)代化，2016(3)：52-57.

[8] SHAO L，LIU L，LI X.Feature learning for image classification via multiobjective genetic programming[J].IEEE Trans. on Neural Netw. and Learn. Syst.，2014，25(7)：1359-1371.

[9] 林付春，劉宇紅，張達峰，等.基于深度學(xué)習(xí)的智能路牌識別系統(tǒng)設(shè)計[J].電子技術(shù)應(yīng)用，2018，44(6)：68-71.

[10] 馬治楠，韓云杰，彭琳鈺，等.基于深層卷積神經(jīng)網(wǎng)絡(luò)的剪枝優(yōu)化[J].電子技術(shù)應(yīng)用，2018，44(12)：119-122，126.

[11] Liu Wei，ANGUELOV D，ERHAN D.SSD：single shot multibox detector[J].Computer Vision-ECCV，2016，2016，99(5)：21-37.

[12] 周志華.機器學(xué)習(xí)[M].北京：清華大學(xué)出版社，2016.

作者信息:

張杰，隋陽，李強，李想，董瑋

(吉林大學(xué) 電子科學(xué)與工程學(xué)院，吉林長春130012)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容