文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.174976
中文引用格式: 陳凡健. 面向特殊人群行為識別的主動學(xué)習(xí)與預(yù)測方法[J].電子技術(shù)應(yīng)用,,2018,44(11):116-120.
英文引用格式: Chen Fanjian. Active learning and prediction method for activity recognition of special populations[J]. Application of Electronic Technique,,2018,,44(11):116-120.
0 引言
空巢老人的護(hù)理問題是目前社會的焦點問題之一,針對這類特殊群體的智能看護(hù)系統(tǒng)需求迫切,?;谟嬎銠C(jī)視覺的人體行為識別技術(shù)可以實現(xiàn)人體行為的智能識別,對于特殊群體的智能看護(hù)有著重要意義,。鑒于此,,特殊人群的智能護(hù)理成為目前人體行為識別研究的新方向。人體行為識別是計算機(jī)視覺學(xué)科的研究熱點,,在視頻監(jiān)控,、電影分級、人工智能領(lǐng)域已有廣泛應(yīng)用[1],。人體行為常用一個特定的時間和空間模型來描述,,行為識別需要獲取充分的時空信息來區(qū)分不同的行為類別,同時還需要處理復(fù)雜的外界環(huán)境因素干擾,。然而,,人體行為本身極其復(fù)雜,環(huán)境干擾也復(fù)雜多變,,因此從視頻中自動識別人體行為還面臨著很大挑戰(zhàn)[2],。目前的人體行為識別方法主要依據(jù)低層和中層的行為特征來區(qū)分不同行為,譬如全局時空特征[3-4],、局部時空特征[5-6],、深度感興趣點特征[7]和梯度直方圖特征[8-9]等。這些方法在KTH,、WEIZANN等簡單行為數(shù)據(jù)集上可以達(dá)到較高的識別率,,然而對特殊群體行為的區(qū)分能力有限[10]。Action Bank[10]是一種高層的行為特征表示方法,,該方法采用許多獨立的行為檢測子進(jìn)行行為檢測,,然后再將檢測輸出轉(zhuǎn)化為特征向量,采用支持向量機(jī)(Support Vector Machines,,SVM)對其進(jìn)行分類,,可以有效提高行為識別性能。但是,,此方法的識別性能依賴于構(gòu)建的行為模型,,而模型構(gòu)建需要人工標(biāo)記大量樣本,人工標(biāo)記難度和工作量很大,。詞袋模型(Bag-of-Words,,BoW)[11]是目前比較流行的行為識別方法之一,該方法的主要優(yōu)點是魯棒性強(qiáng),計算效率高,。但是,,該模型只關(guān)注行為的局部特征,難以區(qū)分局部行為類似而整體行為差異巨大的人體行為,,譬如采用手部向外用力的特征難以區(qū)分用手推門的動作和用手推人的動作,。
為了提高行為識別算法對特殊群體行為識別的識別率,同時降低人工標(biāo)記樣本的難度和工作量,,本文提出一種主動學(xué)習(xí)與預(yù)測的特殊群體行為識別方法,。在現(xiàn)有采用局部時空特征描述行為的基礎(chǔ)上,構(gòu)建包含行為類別,、行為屬性,、目標(biāo)屬性、幀內(nèi)特征和幀間特征的行為圖模型及各條邊的勢能函數(shù),,結(jié)合信任傳播算法進(jìn)行行為的類標(biāo)簽預(yù)測,依據(jù)行為頂點的熵和各行為頂點之間的互信息量進(jìn)行主動學(xué)習(xí),,可以有效提高行為識別率和降低人工標(biāo)記樣本的工作量,。
1 主動學(xué)習(xí)與預(yù)測方法
本文提出一種面向特殊群體行為識別的主動學(xué)習(xí)與預(yù)測方法,采用無向圖模型作為行為描述子,,依據(jù)信任傳播方法進(jìn)行類標(biāo)簽預(yù)測,,依據(jù)信息熵和互信息量構(gòu)建目標(biāo)函數(shù),主動學(xué)習(xí)行為樣本集,,自動生成需要人工標(biāo)記的樣本子集,,詳細(xì)描述如下。
1.1 行為描述子
圖模型(Graph Model,,GM)[12]是采用圖的形式來描述條件獨立的概率分布,,這樣可以將概率分布表示成多個因子的乘積形式,從而簡化概率分布的計算,。圖模型包含有向圖和無向圖兩類,,有向圖模型中各個節(jié)點的連接是有方向的,而無向圖模型中各個節(jié)點的連接沒有方向,。在描述行為時,,行為各種特征構(gòu)成的節(jié)點之間的連接并沒有明確的方向,故本文采用無圖模型來描述行為,,記為G=(V,,E)。其中,,V表示圖的頂點集合,,E表示圖的邊的集合[13]。
在本文中,圖模型的頂點分為五類:
(1)行為類別頂點:簡記為C,,用于描述行為的類別,,如奔跑行為、行走行為,;
(2)行為屬性頂點:簡記為A,,用于描述行為的屬性,可以由行為分類器的分類得分表示,;
(3)目標(biāo)屬性頂點:簡記為O,,用于描述目標(biāo)的屬性,可以由目標(biāo)分類器的分類得分表示,;
(4)幀內(nèi)特征頂點:簡記為X,,用于描述行為的單幀特征,如方向梯度直方圖(Histogram of Oriented Gradient,,HOG)特征,;
(5)幀間特征頂點:簡記為Y,用于描述行為的視頻相關(guān)性特征,,如光流直方圖(Histogram of Optical Flow,,HOF)特征。
這樣,,圖模型的頂點集合可以表示為V={C,,A,O,,X,,Y},如圖1所示,。
E表示圖的邊的集合,。本文的設(shè)計思想是,幀內(nèi)特征輸入分類器Px后得到目標(biāo)屬性信息,,故幀內(nèi)特征頂點X與目標(biāo)屬性頂點O相連接,;幀間特征輸入分類器Py得到行為屬性信息,故幀間特征頂點Y與行為屬性頂點A相連接,;行為分類時需要參考目標(biāo)屬性信息和行為屬性信息,,故行為類別頂點C與目標(biāo)屬性頂點O和行為屬性頂點A相連接;另外,,考慮到不同行為之間可能存在相關(guān)性,,故不同的行為類別頂點C也可以相互連接。于是,,行為圖模型邊的集合可以表示為E={C-C,,C-A,,C-O,A-Y,,O-X},,如圖1所示。
對于一個視頻片段vi,,本文提取每一幀圖像中時空興趣點的HOG特征作為幀內(nèi)特征,,提取HOF特征作為幀間特征,具體特征提取過程詳見文獻(xiàn)[6],。特征的訓(xùn)練與分類采用SVM方法,,詳見文獻(xiàn)[10],這里不再贅述,。本文主要闡述如何采用圖模型對行為和目標(biāo)屬性之間的內(nèi)在關(guān)系進(jìn)行建模,,目的是在判定行為類別時既利用視頻的相關(guān)性信息,又利用目標(biāo)的屬性信息,,這樣可以降低各種干擾目標(biāo)的運動對行為判決的影響,,從而降低行為識別的虛警率。譬如,,在利用光流的激烈變化屬性確定了可疑的斗毆行為后,,如果發(fā)現(xiàn)可疑斗毆區(qū)域中有多個人體目標(biāo)出現(xiàn),那么此處發(fā)生斗毆行為的可信度很大,;但如果在可疑斗毆區(qū)域內(nèi)未發(fā)現(xiàn)人體目標(biāo)出現(xiàn)(譬如只有車輛等其他非人體目標(biāo)),,那么該區(qū)域發(fā)生斗毆行為的可信度就降低了,,此處的激烈光流變化可能是由車輛,、樹葉等其他運動目標(biāo)的激烈運動引起的,故可以判定該區(qū)域未發(fā)生斗毆行為,。
無向圖模型常采用各條邊的勢能函數(shù)來描述,,對于本文的行為圖模型G=(V,E),,下面定義各條邊的勢能函數(shù),。
(1)邊O-X的勢
對于一個目標(biāo)屬性頂點oi,對應(yīng)的HOG特征向量記為xi,,HOG特征的SVM分類器記為Px,。這樣,目標(biāo)屬性頂點O的勢可以用相應(yīng)特征分類器的分類得分代替,,表示為:
(3)邊C-O的勢
邊C-O的勢用于描述行為類別和目標(biāo)屬性的內(nèi)在關(guān)系,,可以用行為類別與目標(biāo)屬性同時出現(xiàn)的頻率(簡記為同現(xiàn)頻率)來表示,為:
其中,,α為權(quán)重,。為便于計算,,同現(xiàn)頻率可以簡單地用行為類別與目標(biāo)屬性同時出現(xiàn)的次數(shù)代替,此時α取值為0.01,,且φ(ci,,oi)的最大值為1,也即當(dāng)φ(ci,,oi)大于1時將其置為1,。同現(xiàn)頻率越高,表明行為類別與目標(biāo)屬性的關(guān)聯(lián)度越大,。譬如,,對于騎馬行為常伴隨著人和馬兩類目標(biāo),也即這兩類目標(biāo)與騎馬行為的同現(xiàn)頻率很高,。這樣,,對于一個未知的行為,如果行為分類為騎馬行為的得分較高,,同時又伴隨有人和馬兩類目標(biāo),,那么該行為為騎馬行為的可信度很高。
(4)邊C-A的勢
邊C-A的勢用于描述行為類別和行為屬性的內(nèi)在關(guān)系,,也可以用行為類別與行為屬性的同現(xiàn)頻率來表示,,為:
其中,β為權(quán)重,。同現(xiàn)頻率也用行為類別與行為屬性同時出現(xiàn)的次數(shù)代替,,此時β取值為0.02,同樣地,,φ(ci,,ai)的最大值也為1。需要說明的是,,此處權(quán)重β的取值大于權(quán)重α的取值,,主要是考慮到與目標(biāo)屬性相比,行為屬性對行為分類的貢獻(xiàn)更大,。
(5)邊C-C的勢
邊C-C的勢用于描述兩個行為類別頂點之間的連通性,。假設(shè)在一個時空距離上的行為是相互關(guān)聯(lián)的,行為類別頂點之間的勢主要由時間和空間上的距離來描述,,表示為:
1.2 類標(biāo)簽預(yù)測
信任傳播(Belief Propagation,,BP)算法采用局部消息傳遞來擴(kuò)散信任度,可以很好地解決標(biāo)簽離散情況下的樣本標(biāo)記問題,。本文采用BP算法計算行為類別頂點C的后驗概率,,預(yù)測類標(biāo)簽。具體地,,在每一次迭代過程中,,信任頂點依據(jù)其鄰居頂點收到的消息進(jìn)行更新,。對于任一頂點ci∈C,其鄰居頂點集合記為CN(ci),,從頂點ci到其鄰居頂點的消息可以表示為:
其中:
選擇邊緣概率最大的類標(biāo)簽作為頂點ci預(yù)測的類標(biāo)簽,。
1.3 主動學(xué)習(xí)與預(yù)測
考慮到特殊群體行為的多樣性和場景的多變性,在訓(xùn)練階段人工標(biāo)記行為類別是非常困難的,。本文采用主動學(xué)習(xí)策略來降低人工標(biāo)記的難度,。
給定一組已標(biāo)記的樣本集L和一組未標(biāo)記的樣本集U,以及行為類別數(shù)N,。為降低人工標(biāo)記難度,,已標(biāo)記樣本集中的元素數(shù)量遠(yuǎn)遠(yuǎn)小于未標(biāo)記樣本集中元素數(shù)量。對于未標(biāo)記樣本集中的元素,,結(jié)合圖模型和主動學(xué)習(xí)策略從中主動選取需要人工標(biāo)記的樣本子集S*,。基本思路是:首先,,按照前述方法構(gòu)建圖模型G,,并計算任一ci∈U的邊緣分布p(ci);然后,,計算ci的熵,,表示為:
在信息論中,熵越大說明信息的不確定性越大,,對應(yīng)的信息量越豐富,。很明顯,信息量越豐富的樣本越需要專家進(jìn)行標(biāo)記,。因此,,本文將熵最大作為選取需人工標(biāo)記的子集S*的依據(jù)之一。
另外,,考慮到在許多應(yīng)用中,,各行為樣本可能相互關(guān)聯(lián),,這樣,,ci的邊緣分布可能受鄰居頂點集合中的其他頂點影響。本文采用互信息量來描述兩個頂點之間的相互影響,,表示為:
互信息量越大,,說明兩個頂點之間的相互影響越大。這樣情況下,,如果知道其中一個頂點的標(biāo)簽,,另一個頂點的標(biāo)簽受其影響很大,可以依據(jù)其標(biāo)簽在圖模型上進(jìn)行可靠的預(yù)測,。換言之,,不需要同時人工標(biāo)記兩個相互影響的頂點,。因此,本文將互信息量最小作為選取需人工標(biāo)記的子集S*的另一依據(jù),。
綜合所述,,本文依據(jù)熵最大和互信息量最小兩個準(zhǔn)則選取需人工標(biāo)記的子集S*?;静襟E為:
(1)給定擬選取的S*的元素個數(shù)K,,S*初始為空;
(2)對任一ci∈U,,計算熵H(ci),,并按由大到小的順序進(jìn)行排序,排序后的集合記為As,;
(3)如果S*中元素個數(shù)小于K,,選取As中第一位數(shù)據(jù)對應(yīng)的頂點cx,加入集合S*,;否則,,結(jié)束S*的搜索過程,輸出S*,;
(4)計算cx與其所有相鄰頂點的互信息量M(cx,cy),,選取信息量最小的頂點cy,加入集合S*,。
對于得到的最優(yōu)子集S*,,需要專家進(jìn)行標(biāo)記。標(biāo)記之后,,再針對S*上的頂點進(jìn)行類別預(yù)測,,這樣與這些頂點相鄰的頂點得到的標(biāo)簽可信度更高。
2 實驗結(jié)果與分析
本節(jié)對本文方法和目前主流的行為識別方法進(jìn)行對比分析,,首先介紹實驗數(shù)據(jù)集和對比算法,,然后展示和分析實驗結(jié)果。
2.1 實驗數(shù)據(jù)集與對比算法
目前公開的行為識別數(shù)據(jù)集中,,與特殊群體智能看護(hù)相關(guān)的行為識別數(shù)據(jù)集只有一個,,是ADL數(shù)據(jù)集[13]。該數(shù)據(jù)集是由Rirsiavash建立的人體日常行為數(shù)據(jù)集,,主要用于研究特殊人群的智能輔助系統(tǒng),。該數(shù)據(jù)集包含10個類別的日常行為,詳見表1,。其中,,每類行為都由5個不同的人體完成,且每個行為重復(fù)進(jìn)行3次,。部分行為示例如圖2所示,。
目前在該數(shù)據(jù)集下測試結(jié)果排名靠前的算法見文獻(xiàn)[13]-[17],。本文直接引用相應(yīng)文獻(xiàn)中的識別率指標(biāo)進(jìn)行對比分析。
2.2 實驗結(jié)果與分析
本文采用該領(lǐng)域常用的識別率和分類混淆矩陣來評價算法性能,。表2展示了ADL數(shù)據(jù)集下不同算法的識別率指標(biāo),,圖3展示了ADL數(shù)據(jù)集下本文算法的分類混淆矩陣。其中,,對比算法的性能指標(biāo)取自相應(yīng)文獻(xiàn),。
需要指出的是,本文算法在訓(xùn)練時,,每類行為選擇4個視頻片段進(jìn)行學(xué)習(xí),,主動學(xué)習(xí)階段的參數(shù)K取值為2,也即每類行為只選擇2個視頻片段進(jìn)行人工標(biāo)記,,其余視頻片段采用本文的主動學(xué)習(xí)方法進(jìn)行訓(xùn)練,。
分析以上實驗結(jié)果,可以得出以下結(jié)論:
(1)從表2可以看出,,本文算法在ADL行為數(shù)據(jù)集下的識別率都是最高的,,比相應(yīng)數(shù)據(jù)集下現(xiàn)有測試算法高出一個百分點以上??梢?,本文方法提高了特殊群體行為識別的識別率指標(biāo)。
(2)從圖3可以看出,,在ADL數(shù)據(jù)集下的10個行為類別中,,本文方法僅在2個行為類別上存在錯分現(xiàn)象,低于識別率次高的文獻(xiàn)[16]所述方法,??梢姡疚姆椒▍^(qū)分不同行為的能力強(qiáng),,對群體復(fù)雜行為的混淆率低,。
(3)對于ADL行為數(shù)據(jù)集,本文方法在識別率高于其他對比算法的情況下,,人工標(biāo)記的樣本數(shù)量小于其他對比算法,,如識別率次高的文獻(xiàn)[16]中每類行為需要標(biāo)記16個樣本。這樣在實際應(yīng)用過程中,,本文方法可以從海量視頻中主動學(xué)習(xí)行為類別,,大幅降低人工標(biāo)記樣本的難度和工作量,。
綜上所述,,本文方法不僅提高了特殊群體行為識別的識別率,而且增強(qiáng)了不同行為的區(qū)分能力,,同時需要人工標(biāo)記的樣本數(shù)量少,。
3 結(jié)束語
本文提出了一種基于主動學(xué)習(xí)與預(yù)測的特殊群體行為識別方法,,主要設(shè)計思路包括兩個方面:(1)在行為描述方面,將視頻的幀內(nèi)特征,、幀間特征,、目標(biāo)屬性、行為屬性和行為類別組合在一起,,構(gòu)建成行為的無向圖模型,,這樣在行為識別時可以綜合利用多層次的關(guān)聯(lián)性特征,減少了單純依靠部分特征引起的虛警現(xiàn)象,,增強(qiáng)了特征的區(qū)分能力,,提高了行為識別算法對特殊群體行為識別的識別率;(2)在學(xué)習(xí)過程中采用主動學(xué)習(xí)方法,,以行為類別頂點的熵最大和行為類別頂點之間的互信息量最小為準(zhǔn)則進(jìn)行主動學(xué)習(xí),,降低了人工標(biāo)記樣本的數(shù)量和難度。通過在國際上通用的ADL行為數(shù)據(jù)集上進(jìn)行對比實驗,,證實本文方法可以提高行為識別算法對特殊群體行為識別的識別率,,降低不同行為間的分類混淆現(xiàn)象,同時降低了需人工標(biāo)記的樣本數(shù)量,。
參考文獻(xiàn)
[1] 楊帥,,于忠清,蘇博群,,等.基于軌跡分割的老人行為識別方法[J].青島大學(xué)學(xué)報(自然科學(xué)版),,2017(1):103-107.
[2] 李瑞峰,王亮亮,,王珂.人體動作行為識別研究綜述[J].模式識別與人工智能,,2014(1):35-48.
[3] KIHL O,PICARD D,,GOSSELIN P H.Local polynomial space-time descriptors for action classification[J].Machine Vision & Applications,,2016,27(3):351-361.
[4] MA S,,ZHANG J,,IKIZLER-CINBIS N,et al.Action recognition and localization by hierarchical space-time segments[C].IEEE International Conference on Computer Vision.IEEE,,2014:2744-2751.
[5] 王泰青,,王生進(jìn).基于中層時空特征的人體行為識別[J].中國圖象圖形學(xué)報,2015,,20(4):520-526.
[6] EVERTS I,,GEMERT J C V,GEVERS T.Evaluation of color spatio-temporal interest points for human action recognition[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,,23(4):1569-1580.
[7] Wang Yangyang,,Li Yibo,Ji Xiaofei.Human action recognition based on normalized interest points and super-interest points[J].International Journal of Humanoid Robotics,,2014,,11(1):145005.
[8] LI Y,YE J,,WANG T,,et al.Augmenting bag-of-words:a robust contextual representation of spatiotemporal interest points for action recognition[J].Visual Computer,2015,,31(10):1383-1394.
[9] WANG P,,LI W,GAO Z,,et al.Action recognition from depth maps using deep convolutional neural networks[J].IEEE Transactions on Human-Machine Systems,,2016,46(4):498-509.
[10] SADANAND S.Action bank:a high-level representation of activity in video[C].IEEE Conference on Computer Vision & Pattern Recognition,,2012:1234-1241.
[11] AGUSTI P,,TRAVER V J,PLA F.Bag-of-words with aggregated temporal pair-wise word co-occurrence for human action recognition[J].Pattern Recognition Letters,,2014,,49(49):224-230.
[12] Pu Songtao,Zha Hongbin.Video object segmentation via two-frame graph model[J].Beijing Daxue Xuebao Ziran Kexue Ban/acta Scientiarum Naturalium Universitatis Pekinensis,,2015,,51(3):409-417.
[13] FEICHTENHOFER C,PINZ A,,ZISSERMAN A.Convolutional two-stream network fusion for video action recognition[C].Computer Vision and Pattern Recognition.IEEE,,2016:1933-1941.
[14] FERNANDO B,GAVVES E,,ORAMAS M J,,et al.Modeling video evolution for action recognition[C].Computer Vision and Pattern Recognition.IEEE,2015:5378-5387.
[15] WANG H,,DAN O,,VERBEEK J,et al.A robust and efficient video representation for action recognition[J].International Journal of Computer Vision,,2016,,119(3):219-238.
[16] SINGH S,VELASTIN S A,,RAGHEB H.MuHAVi:a multicamera human action video dataset for the evaluation of action recognition methods[C].Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance.IEEE,,2010:48-55.
[17] GUO K,,ISHWAR P,KONRAD J.Action recognition from video using feature covariance matrices[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,,2013,,22(6):2479-2494.
作者信息:
陳凡健
(茂名職業(yè)技術(shù)學(xué)院 計算機(jī)工程系,,廣東 茂名525000)