基于時空注意力金字塔卷積的動作識別-AET-電子技術(shù)應用

基于時空注意力金字塔卷積的動作識別

網(wǎng)絡安全與數(shù)據(jù)治理 2期

馮雨威，吳麗君

(福州大學物理與信息工程學院，福建福州350108)

摘要： 動作識別算法需要從視頻中提取空間和時域特征，對計算存儲資源要求較高。基于2D CNN的網(wǎng)絡更為輕量，但從視頻中提取時域特征的能力較弱，動作識別性能通常受到限制。S-TPNet提出時空金字塔模塊以獲取圖像序列的時間粒度特征，有效提升了基于2D CNN的動作識別網(wǎng)絡的性能。基于S-TPNet，設計了時空注意力模型以凸顯空間和時間上的重要特征。為降低輸入數(shù)據(jù)量，通常抽取局部視頻幀作為輸入，為降低采樣幀與整體視頻之間的不穩(wěn)定差異，設計了自適應等間隔采樣策略。實驗表明，在未預訓練的情況下，本網(wǎng)絡在UCF-101和HMDB-51數(shù)據(jù)集上分別將Top-1精度提高了5.1%和3.3%，并且不會大幅增加所需參數(shù)。

關鍵詞： 時空注意力動作識別自適應采樣 2DCNN 時空金字塔

中圖分類號： TP391
文獻標識碼： A
DOI： 10.19358/j.issn.2097-1788.2023.02.012
引用格式：馮雨威，吳麗君. 基于時空注意力金字塔卷積的動作識別[J].網(wǎng)絡安全與數(shù)據(jù)治理，2023，42(2)：76-82，88.

Action recognition based on spatial-temporal attention pyramid convolution

Feng Yuwei，Wu Lijun

(College of Physics and Information Engineering，F(xiàn)uzhou University，F(xiàn)uzhou 350108，China)

Abstract： Action recognition algorithms need to extract spatial and temporal features from video, which requires high computing and storage resources. The network based on 2D CNN is lighter, but the ability to extract time-domain features from video is weak, and the performance of action recognition is usually limited. S-TPNet proposes a spatial-temporal pyramid module to obtain the time granularity features of image sequences, which effectively improves the performance of the action recognition network based on 2D CNN. Based on S-TPNet, this paper designs a spatial-temporal attention model to highlight the important features of space and time. In order to reduce the amount of input data, local video frames are usually extracted as input. In order to reduce the unstable difference between the sampled frames and the overall video, this paper designs an adaptive equal interval sampling strategy. The experiment shows that without pre training, the network improves Top-1 accuracy by 5.1% and 3.3% on UCF-101 and HMDB-51 datasets, respectively, and does not significantly increase the required parameters.

Key words : spatial-temporal attention；action recognition；adaptive sampling；2D CNN；spatial-temporal pyramid

0 引言

動作識別是從視頻片段中提取有效的空間和時間特征以分辨人的動作類型，在視頻檢索、異常檢測、智能監(jiān)控、人機交互和自動駕駛等領域逐漸興起。早期算法主要依賴人工提取人體關節(jié)點和時空興趣點特征。近年來，基于深度學習的算法可有效提取特征、實現(xiàn)端到端訓練，極大提升了動作識別精度和速度。根據(jù)提取特征的方式不同，動作識別算法大致可歸納為基于3D CNN、雙/多流網(wǎng)絡、CNN(2D或3D)與時間特征聚合模塊的組合三種類型。3D CNN[1-2]可直接提取時空特征，但是其采用固定大小的3D卷積核，不能充分挖掘時間粒度特征，并且相比2D卷積核含有更多參數(shù)。雙流網(wǎng)絡[3]的輸入通常為RGB幀和光流圖像，提取光流較為繁瑣且易造成延遲。基于CNN與時間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征，然后使用LSTM或時間池化從多個幀或片段間提取時間特征。LSTM隨著時間跨度增大、網(wǎng)絡深度增加，計算成本將急劇增加。

基于2D CNN與時間池化的S-TPNet[6]提出了空間金字塔模塊，利用CNN固有的平移和尺度不變性充分提取空間特征，并使用不同尺寸的時間池重復利用片段級數(shù)據(jù)以獲得時間粒度特征。相比于3D CNN的算法，S-TPNet網(wǎng)絡參數(shù)大大減少，但在動作識別精度上相對較低。因此，本文在S-TPNet基礎上引入輕量級的時空注意力模型，以提高算法精度。

除網(wǎng)絡結(jié)構(gòu)外，視頻采樣策略也會影響動作識別精度。為減少輸入信息的冗余數(shù)量，降低運算量，一般會提取原視頻的部分幀來作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種。密集采樣對設備的計算和存儲要求都很高。最近，微軟在視頻和語言學習任務研究[8]中提出“少即是多”的稀疏采樣。在每次訓練中僅使用單個或幾個稀疏采樣片段，獲得了不輸于密集采樣訓練所得的網(wǎng)絡性能。稀疏采樣包含隨機采樣和預定義間隔采樣。隨機采樣易導致采樣后的相鄰幀之間具有不穩(wěn)定的差異，無法有效表達原始視頻的語義內(nèi)容。預定義間隔采樣不適合數(shù)據(jù)集中視頻段持續(xù)時間差距較大的情況。因此，本文提出了一種自適應等間隔采樣策略，根據(jù)每段視頻的總幀數(shù)和指定的最小采樣數(shù)動態(tài)調(diào)整采樣間隔，使采樣后序列可以更好地表示原視頻。

本文詳細內(nèi)容請下載：http://wldgj.com/resource/share/2000005217

作者信息：

馮雨威，吳麗君

(福州大學物理與信息工程學院，福建福州350108)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關內(nèi)容