文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.033
中文引用格式: 白艷宇,,申超群,,楊新鋒. 結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法[J].電子技術(shù)應(yīng)用,2017,,43(7):130-134,,139.
英文引用格式: Bai Yanyu,Shen Chaoqun,,Yang Xinfeng. An object classification method combing with SIFT features and neural network pool[J].Application of Electronic Technique,,2017,43(7):130-134,,139.
0 引言
基于圖像的物體分類是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)研究課題,,在人工智能,、自動(dòng)化生成等領(lǐng)域應(yīng)用廣泛[1]。物體分類的關(guān)鍵是提取圖像特征和設(shè)計(jì)分類器,。這兩個(gè)方面目前的成果都比較多,,如特征提取方面,目前應(yīng)用比較成熟的有Haar特征[2],、方向梯度直方圖(Histograms of Oriented Gradients,,HOG)特征[3]、局部二元模式(Local Binary Pattern,,LBP)特征[4],、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征[5]等,。在分類器設(shè)計(jì)方面,,目前常用的有Adaboost分類器,、支持向量機(jī)(Support Vector Machine,SVM)分類器,、決策樹,、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等[6-7],。針對(duì)不同的圖像內(nèi)容,,特征的表述能力也不盡相同。文獻(xiàn)[8]提出一種基于Kolmogorov-Sinai熵的分類方法,,通過構(gòu)建模糊集進(jìn)行物體分類,。文獻(xiàn)[9]采用圖像局部區(qū)域的梯度特征來描述特征,,并采用稀疏分布構(gòu)建圖像描述子,,能有效提高物體的分類效果。文獻(xiàn)[10]結(jié)合近似Fisher核特征和詞袋模型,,實(shí)現(xiàn)物體的有效分類,。
為了進(jìn)一步提高物體分類的性能,本文提出了一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法,,主要?jiǎng)?chuàng)新是提出了神經(jīng)網(wǎng)絡(luò)池的特征分類方法,。該方法采用徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建基元分類器,通過重復(fù)迭代方式構(gòu)建基元分類器集合,,結(jié)合增強(qiáng)技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,,采用樸素貝葉斯分類器預(yù)測(cè)特征分類結(jié)果,有效提高了物體分類性能,。
1 本文方法
本文提出一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法,。對(duì)于不同物體的圖像集合,首先提取圖像的SIFT特征,,然后構(gòu)建神經(jīng)網(wǎng)絡(luò)池分類器,,實(shí)現(xiàn)物體的分類。其中,,SIFT特征是目前非常成熟的特征提取方法,,本文將在實(shí)驗(yàn)部分對(duì)不同特征提取方法進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證SIFT方法在物體分類領(lǐng)域的優(yōu)勢(shì),?;究蚣苋鐖D1所示。
由圖1可見,,神經(jīng)網(wǎng)絡(luò)池的構(gòu)建過程主要分為三個(gè)階段:(1)基元分類器的構(gòu)建,,本文采用徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)來構(gòu)造基元分類器,;(2)神經(jīng)網(wǎng)絡(luò)池的組建,,本文采用重復(fù)迭代和增強(qiáng)技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,;(3)最終分類器的構(gòu)建,本文采用樸素貝葉斯分類器作為最終的分類器,,對(duì)神經(jīng)網(wǎng)絡(luò)池中各個(gè)基元分類器集合的預(yù)測(cè)結(jié)果進(jìn)行融合,,得到最終的預(yù)測(cè)結(jié)果。
1.1 基元分類器
目前,,基元分類器有很多種,,如Adaboost、SVM,、決策樹,、神經(jīng)網(wǎng)絡(luò)等。本文采用徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建基元分類器,。RBF神經(jīng)網(wǎng)絡(luò)是一種3層的前向網(wǎng)絡(luò),,由輸入層、隱含層和輸出層組成,。對(duì)于特征分類而言,,輸入層為特征向量,輸出層為分類結(jié)果,。中間的隱含層的變換函數(shù)采用徑向基函數(shù),。該函數(shù)是一種非負(fù)非線性函數(shù),對(duì)中心點(diǎn)徑向?qū)ΨQ且衰減,。輸入層與隱含層之間采用權(quán)重向量,,相當(dāng)于一種非線性映射。同樣地,,隱含層與輸出層之間也是一種非線性映射,,采用不同的權(quán)重相連接。在徑向基神經(jīng)網(wǎng)絡(luò)中,,激活函數(shù)采用徑向基函數(shù),,以輸入向量與權(quán)值向量之間的距離作為自變量,調(diào)整神經(jīng)元的靈敏度,。隨著權(quán)值與輸入向量之間距離的減少,,網(wǎng)絡(luò)輸出是遞增的。
1.2 神經(jīng)網(wǎng)絡(luò)池
本文將多個(gè)基元分類器構(gòu)建成一個(gè)基元分類器集合,,由各個(gè)類別的基元分類器集合組建神經(jīng)網(wǎng)絡(luò)池,。具體方法是:在基元分類器構(gòu)建階段,將K個(gè)二元神經(jīng)網(wǎng)絡(luò){BNNi|i=1,,2,,…,K}應(yīng)用于數(shù)據(jù)集合D,得到K個(gè)基元分類器,,記為{Ci|i=1,,2,…,,K},。將這一過程重復(fù)執(zhí)行T次,可以對(duì)每一個(gè)類別ci生成T個(gè)基元分類器集合,,記為{ECi|i=1,,2,…,,T},。
在構(gòu)建神經(jīng)網(wǎng)絡(luò)池中的每一個(gè)基元分類器集合時(shí),本文采用了一對(duì)多的分類策略,。在二元策略中,,分類器對(duì)未知樣本x的預(yù)測(cè)是二元的,也即該樣本x的預(yù)測(cè)結(jié)果只有兩個(gè),,即屬于某一類別或者不屬于某一類別,。對(duì)于未知樣本x,基元分類器C中的K個(gè)預(yù)測(cè)結(jié)果可以組合生成一個(gè)基元分類器集合,。每一個(gè)基元分類器集合對(duì)未知樣本x的預(yù)測(cè)結(jié)果可以用類別出現(xiàn)的概率表示為:
其中,S(x)表示基元分類器集合的預(yù)測(cè)結(jié)果,,其值為0或1,,由設(shè)定的概率閾值θ1決定。因此,,二元策略允許每一個(gè)獨(dú)立的基元分類器集合接受或者拒絕某一個(gè)類別的出現(xiàn),。該策略將一個(gè)復(fù)雜的多元分類問題轉(zhuǎn)化為多個(gè)簡(jiǎn)單的二元分類的子問題。P(x)表示類別ci出現(xiàn)的概率,,由基元分類器{Ci|i=1,,2,…,,K}預(yù)測(cè)得到,,表示為:
其中,hi表示第i個(gè)基元分類器判斷x屬于類別ci的分類結(jié)果,,取值為0或1,,0表示x不屬于類別ci,1表示x屬于類別ci,。
為了分類一個(gè)未知樣本x,,N個(gè)基元分類器集合對(duì)樣本x給出N個(gè)預(yù)測(cè)結(jié)果,本文采用樸素貝葉斯模型作為最終的預(yù)測(cè)器,對(duì)這N個(gè)預(yù)測(cè)結(jié)果進(jìn)行綜合,。這部分內(nèi)容在下一節(jié)介紹,,下面先介紹神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程。
作為一個(gè)分類器,,基元分類器集合依靠徑向基神經(jīng)網(wǎng)絡(luò)的輸出來計(jì)算概率,,用于估計(jì)某一類別是否存在。某一類別是否存在的概率同樣在每一個(gè)基元分類器集合分類器的訓(xùn)練階段計(jì)算,,后續(xù)用于計(jì)算樸素貝葉斯分類器的先驗(yàn)概率,。先驗(yàn)概率分布用于估計(jì)未知樣本的特征向量所對(duì)應(yīng)的類別的出現(xiàn)概率。因此,,樣本的特征向量輸入到神經(jīng)網(wǎng)絡(luò)池的多個(gè)基元分類器集合之后,,最終得到一個(gè)概率值,作為樣本分類的依據(jù),。本文采用增強(qiáng)技術(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)池,,最后采用樸素貝葉斯分類器構(gòu)建最終的預(yù)測(cè)器。
本文通過為二元神經(jīng)網(wǎng)絡(luò)隨機(jī)選擇訓(xùn)練樣本進(jìn)行重復(fù)訓(xùn)練來解決過擬合問題,。在訓(xùn)練基元分類器集合時(shí),,借鑒詞袋的思想,隨機(jī)從整體訓(xùn)練數(shù)據(jù)中選取一定數(shù)量的子樣本集,,每一個(gè)樣本子集用于訓(xùn)練一個(gè)基元分類器,。
基元分類器集合通過對(duì)大量的二元神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)得到。因此,,每一個(gè)基元分類器集合很難確定一個(gè)最優(yōu)的二元神經(jīng)網(wǎng)絡(luò)數(shù)量,。本文訓(xùn)練了許多冗余的二元神經(jīng)網(wǎng)絡(luò),以此來實(shí)現(xiàn)最優(yōu)的分類性能,。得到許多基元分類器集合之后,,即構(gòu)建了神經(jīng)網(wǎng)絡(luò)池。
本文將增強(qiáng)技術(shù)引入到神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程,,由增強(qiáng)技術(shù)組合多個(gè)基元分類器集合,。這些基元分類器集合通過多次迭代構(gòu)建,每一個(gè)新的基元分類器集合都受上一級(jí)基元分類器集合的預(yù)測(cè)誤差的影響,。增強(qiáng)技術(shù)鼓勵(lì)新的基元分類器集合對(duì)前一級(jí)分類錯(cuò)誤的樣本盡可能正確分類,,方法是依據(jù)它們的分類性能來調(diào)整權(quán)重。初始時(shí),,為所有訓(xùn)練樣本(樣本數(shù)為N)分配相同的權(quán)重,,表示為:
然后,隨機(jī)選取一個(gè)訓(xùn)練樣本子集來訓(xùn)練一個(gè)二元神經(jīng)網(wǎng)絡(luò),,用于構(gòu)建基元分類器集合,。并依據(jù)基元分類器集合的性能來修改每一個(gè)樣本的權(quán)重,正確分類樣本的權(quán)重降低,誤分類樣本的權(quán)重增加,。
本文將訓(xùn)練數(shù)據(jù)劃分為兩組:低權(quán)重組和高權(quán)重組,。然后,依據(jù)該基元分類器集合的性能來增加或者減少訓(xùn)練樣本的權(quán)重,。結(jié)果是,,部分樣本擁有很高的權(quán)重,而部分樣本可能擁有很低的權(quán)重,。權(quán)重值反映了訓(xùn)練樣本被誤分類的頻率,。本文方法通過維護(hù)權(quán)重的變化率,構(gòu)造了一種有效的基元分類器集合生成策略,。其中,,權(quán)重變化率主要依賴于當(dāng)前基元分類器集合的分類錯(cuò)誤率。實(shí)現(xiàn)流程為:
首先,,從整個(gè)訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇訓(xùn)練樣本子集Se,,用于訓(xùn)練二元神經(jīng)網(wǎng)絡(luò),構(gòu)造基元分類器集合,。每一個(gè)基元分類器集合的輸出用于量化輸入特征向量與輸出類別之間的關(guān)系,,可以采用類別出現(xiàn)的概率來表示,如式(1)所示,。其中,,每一個(gè)基元分類器集合的權(quán)重的計(jì)算方法為:
其中,εt表示基元分類器集合的分類錯(cuò)誤率,。對(duì)于特征分類而言,,在訓(xùn)練樣本上的分類正確率的期望值應(yīng)當(dāng)大于零。如果該值不大于零,,則丟棄對(duì)應(yīng)的基元分類器集合。每一個(gè)基元分類器集合的錯(cuò)誤率可以表示為:
在更新了訓(xùn)練樣本的權(quán)重之后,,將權(quán)重歸一化到N,。對(duì)于每一類圖像,權(quán)重更新過程執(zhí)行T次,,構(gòu)建T個(gè)增強(qiáng)的基元分類器集合,,組建神經(jīng)網(wǎng)絡(luò)池。
綜上所述,,神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程偽代碼如下:
輸入:訓(xùn)練樣本集{x1,,y1,w1},、{x2,,y2,w2}、…,、{xN,,yN,wN},,類別數(shù)E,,基元分類器集合數(shù)量T,基元分類器數(shù)量K,,閾值θ1,、θ2,以及隨機(jī)選取的樣本子集中的樣本數(shù)量M,。
輸出:神經(jīng)網(wǎng)絡(luò)池{SBNNi},。
過程:
1.3 樸素貝葉斯分類器
目前常采用投票的方式來融合多個(gè)分類器的預(yù)測(cè)結(jié)果,而本文提出一種新的融合思路,,采用概率分布來融合神經(jīng)網(wǎng)絡(luò)池中各個(gè)基元分類器集合的預(yù)測(cè)結(jié)果,,減少個(gè)別基元分類器奇異的問題。具體地,,本文采用樸素貝葉斯模型來組合多個(gè)基元分類器,,提供了一個(gè)最終預(yù)測(cè)器與基元分類器之間的橋梁。樸素貝葉斯分類器作為最終的預(yù)測(cè)器,,依據(jù)預(yù)測(cè)誤差最小準(zhǔn)則,,在神經(jīng)網(wǎng)絡(luò)池中進(jìn)行學(xué)習(xí)和預(yù)測(cè)。
考慮到基元分類器集合是二元分類器,,其輸出的決策值是二值形式,。因此,本文采用傳統(tǒng)的樸素貝葉斯分類器來分類這些二值數(shù)據(jù),,具體是采用多維伯努利(Bernoulli)分布的形式,。對(duì)于一個(gè)D維的輸入特征向量d,其對(duì)應(yīng)的類別c可以表示為:
2 仿真實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)說明
本文采用神經(jīng)網(wǎng)絡(luò)池進(jìn)行物體分類實(shí)驗(yàn),,選擇國際上公開的VOC-2007數(shù)據(jù)集對(duì)算法性能進(jìn)行評(píng)測(cè),。該數(shù)據(jù)集共包含20個(gè)物體類別。其中,,訓(xùn)練集中圖像樣本5 011幅,,測(cè)試集中圖像樣本4 952幅。
2.2 神經(jīng)網(wǎng)絡(luò)池訓(xùn)練過程的參數(shù)說明
在訓(xùn)練基元分類器時(shí),,涉及一些對(duì)訓(xùn)練結(jié)果影響較大的參數(shù),。一是基元分類器集合的錯(cuò)誤率上限θ2。在訓(xùn)練過程中,,可以通過估算每一個(gè)基元分類器的分類類別,,計(jì)算分類錯(cuò)誤率指標(biāo),,如果基元分類器的分類錯(cuò)誤率大于設(shè)定的錯(cuò)誤率上限θ2,則丟棄該基元分類器,,重新構(gòu)建一個(gè)新的基元分類器,。錯(cuò)誤率上限越大,丟棄的基元分類器越少,,訓(xùn)練速度越快,,但最終的錯(cuò)誤率就可能提高,本文取θ2為0.01,。
另外,,學(xué)習(xí)速率對(duì)訓(xùn)練速度和分類錯(cuò)誤率的影響也比較大。學(xué)習(xí)速率太小會(huì)導(dǎo)致過擬合,,且導(dǎo)致訓(xùn)練效率降低,。然而,學(xué)習(xí)速率過大盡管會(huì)加快訓(xùn)練速度,,但也有可能導(dǎo)致分類錯(cuò)誤率提高,。本文設(shè)定的學(xué)習(xí)速率參數(shù)為0.4。
最大迭代次數(shù)閾值用于作為基元分類器訓(xùn)練的一個(gè)終止條件,,當(dāng)?shù)螖?shù)大于該閾值時(shí),,停止基元分類器的訓(xùn)練過程。在本文中,,最大迭代次數(shù)設(shè)置為1 000,。
隨機(jī)選取一定數(shù)量的隱含神經(jīng)元可能導(dǎo)致過擬合或者欠擬合問題。這里,,采用不同數(shù)量的隱含層神經(jīng)元來訓(xùn)練各種基元分類器,。實(shí)驗(yàn)中,當(dāng)隱含層數(shù)量達(dá)到9時(shí)識(shí)別結(jié)果最好,。因此,,本文的徑向基神經(jīng)網(wǎng)絡(luò)的隱含層數(shù)量設(shè)為9。
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)池時(shí)涉及的參數(shù)取值為:E=20,、T=100,、N=5 011、M=2 000,、K=20、θ1=0.5,。
2.3 特征提取方法對(duì)比與選擇
常用的圖像特征有Haar,、HOG、LBP和SIFT,,下面分別采用這4種圖像特征,,結(jié)合本文的神經(jīng)網(wǎng)絡(luò)池進(jìn)行物體分類實(shí)驗(yàn),。以分類正確率為評(píng)價(jià)指標(biāo)來選取最優(yōu)的圖像特征。分類正確率定義為分類正確的圖像數(shù)量與圖像總數(shù)的比值,。
圖2顯示了不同特征對(duì)應(yīng)的分類正確率,。很明顯,SIFT特征的分類正確率明顯高于其他3種特征,。故本文選擇SIFT特征和神經(jīng)網(wǎng)絡(luò)池分類器結(jié)合的方法進(jìn)行物體分類,。
2.4 不同物體分類方法的實(shí)驗(yàn)結(jié)果與分析
本文選擇文獻(xiàn)[8]、[9]和[10]所述的物體分類方法進(jìn)行對(duì)比實(shí)驗(yàn),,實(shí)驗(yàn)所用訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集都是相同的,,計(jì)算機(jī)處理平臺(tái)也是相同的,具體為:CPU四核 3.6 GHz,、內(nèi)存16 GB,。實(shí)驗(yàn)結(jié)果如圖3所示。
由圖3可見,,采用本文所述的SIFT特征和神經(jīng)網(wǎng)絡(luò)池分類器相結(jié)合的方法取得了最高的分類正確率指標(biāo),,比排名第2的文獻(xiàn)[10]方法高2.3%。
表1給出了4種方法的物體分類時(shí)間指標(biāo),,該時(shí)間是指從輸入一幅圖像到輸出分類結(jié)果所需要的平均時(shí)間,,不包括訓(xùn)練過程所耗費(fèi)的時(shí)間。由表1可見,,本文方法的分類時(shí)間最短,,說明本文方法的運(yùn)算效率最高。綜合評(píng)價(jià),,本文方法的分類性能優(yōu)于所對(duì)比的3種方法,。
3 結(jié)束語
本文提出了一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法。該方法選擇經(jīng)典的SIFT特征描述特征,,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)池分類器實(shí)現(xiàn)特征分類,。其關(guān)鍵是構(gòu)建神經(jīng)網(wǎng)絡(luò)分類器,設(shè)計(jì)思想是采用隨機(jī)采樣方式選擇樣本子集,,采用徑向基神經(jīng)網(wǎng)絡(luò)為每一個(gè)樣本子集構(gòu)建基元分類器,,通過重復(fù)迭代方式得到許多基元分類器集合,再結(jié)合增強(qiáng)技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,,最后采用樸素貝葉斯分類器進(jìn)行融合預(yù)測(cè),。實(shí)驗(yàn)表明,本文方法分類正確率高且分類耗時(shí)少,。
參考文獻(xiàn)
[1] 黃凱奇,,任偉強(qiáng),譚鐵牛.圖像物體分類與檢測(cè)算法綜述[J].計(jì)算機(jī)學(xué)報(bào),,2014,,37(6):1225-1240.
[2] CHANG Z,,BAN X,WANG Y.Fatigue driving detection based on Haar feature and extreme learning machine[J].Journal of China Universities of Posts & Telecommunications,,2016,,23(4):91-100.
[3] 陸星家.基于HOG和Haar特征的行人追蹤算法研究[J].計(jì)算機(jī)科學(xué),2013,,40(s1):199-203.
[4] SATPATHY A,,JIANG X,ENG H L.LBP-based edgetexture features for object recognition[J].IEEE Transactions on Image Processing,,2014,,23(5):1953-1964.
[5] WANG Y,BAN X,,CHEN J,,et al.License plate recognition based on SIFT feature[J].Optik-International Journal for Light and Electron Optics,2015,,126(21):2895-2901.
[6] 許劍,,張洪偉.Adaboost算法分類器設(shè)計(jì)及其應(yīng)用[J].四川理工學(xué)院學(xué)報(bào):自然科學(xué)版,2014,,27(1):28-31.
[7] WANG Y,,YANG M,WEI G,,et al.Improved PLS regression based on SVM classification for rapid analysis of coal properties by near-infrared reflectance spectroscopy[J].Sensors & Actuators B Chemical,,2014,193(3):723-729.
[8] PHAM T D.The Kolmogorov-Sinai entropy in the setting of fuzzy sets for image texture analysis and classification[J].Pattern Recognition,,2016,,38(53):229-237.
[9] SUDHAKARAN S,JAMES A P.Sparse distributed localized gradient fused features of objects[J].Pattern Recognition,,2014,,46(4):1538-1546.
[10] CINBIS R G,VERBEEK J,,SCHMID C.Approximate Fisher Kernels of non-iid image models for image categorization[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,,2015,38(6):1084-1098.
作者信息:
白艷宇1,,申超群2,,楊新鋒3
(1.中原工學(xué)院信息商務(wù)學(xué)院 信息技術(shù)系,河南 鄭州451191,;
2.河南機(jī)電職業(yè)學(xué)院,,河南 鄭州451191;3.南陽理工學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,河南 南陽473004)