基于擠壓激勵(lì)網(wǎng)絡(luò)的惡意代碼家族檢測(cè)方法-AET-電子技術(shù)應(yīng)用

基于擠壓激勵(lì)網(wǎng)絡(luò)的惡意代碼家族檢測(cè)方法

信息技術(shù)與網(wǎng)絡(luò)安全 6期

申高寧1，2，陳志翔3，王輝3，陳姮1，2

(1.閩南師范大學(xué) 計(jì)算機(jī)學(xué)院，福建漳州363000； 2.數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高校重點(diǎn)實(shí)驗(yàn)室，福建漳州363000； 3.閩南師范大學(xué) 物理與信息工程學(xué)院，福建漳州363000)

摘要： 惡意代碼已經(jīng)成為威脅網(wǎng)絡(luò)安全的重要因素。基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法已經(jīng)取得較好的效果，但面對(duì)相似的惡意代碼家族，往往效果不佳。對(duì)此，提出了一種基于擠壓激勵(lì)網(wǎng)絡(luò)的檢測(cè)算法，由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)與擠壓和激勵(lì)(Squeeze-and-Excitation，SE)模塊構(gòu)成。CNN先快速提取惡意代碼的圖像特征，SE模塊對(duì)多通道特征圖進(jìn)行全局平均池化，將全局信息壓縮，然后通過(guò)全連接層自適應(yīng)學(xué)習(xí)，并將每個(gè)通道特征圖賦予不同的權(quán)重來(lái)表示不同的重要程度，指導(dǎo)激勵(lì)或抑制特征信息。實(shí)驗(yàn)結(jié)果表明，該方法相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)方法有更好的檢測(cè)效果，與深度學(xué)習(xí)算法相比檢測(cè)效果也有一定的提升且參數(shù)量大大減少。

關(guān)鍵詞： 惡意代碼機(jī)器學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 擠壓和激勵(lì)網(wǎng)絡(luò)

中圖分類號(hào)： TP393
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2096-5133.2022.06.001
引用格式：申高寧，陳志翔，王輝，等. 基于擠壓激勵(lì)網(wǎng)絡(luò)的惡意代碼家族檢測(cè)方法[J].信息技術(shù)與網(wǎng)絡(luò)安全，2022，41(6)：1-9.

A family detection method for malicious code based on squeezed-and-excitation networks

Shen Gaoning1，2，Chen Zhixiang3，Wang Hui3，Chen Heng1，2

(1.School of Computer Science，Minnan Normal University，Zhangzhou 363000，China； 2.Key Laboratory of Data Science and Intelligent Applications，Zhangzhou 363000，China； 3.School of Physics and Information Engineering，Minnan Normal University，Zhangzhou 363000，China)

Abstract： Malicious code has become an important factor threatening cyber security.Machine learning-based malicious code detection methods have achieved good results, but often poorly in the face of similar malicious code families. In this paper, a detection algorithm based on extrusion excitation network was proposed，which consists of Convolutional Neural Network(CNN) and squeeze-and-excitation(SE) module. Fristly，the CNN quickly extracts the image features of the malicious code, and the SE module carries out global average pooling of multi-channel feature map to compress the global information, then learns adaptively through the full connection layer, and weights each channel feature graph to represent different degrees of importance, guiding motivating or suppressing the feature information.The experimental results show that the proposed method has a better detection effect compared with the traditional machine learning methods, and the detection effect is improved and the number of parameters is greatly reduced compared with the deep learning algorithm.

Key words : malicious code；machine learning；convolutional neural network；squeeze and excitation network

0 引言

在過(guò)去幾年里隨著互聯(lián)網(wǎng)的飛速發(fā)展，惡意代碼數(shù)量也呈爆發(fā)式增長(zhǎng)。2020年瑞星“云安全”系統(tǒng)共截獲病毒樣本總量1.48億個(gè)[1]，病毒感染次數(shù)為3.52億次，病毒總體數(shù)量比2019年同期上漲43.71%，惡意代碼已經(jīng)成為網(wǎng)絡(luò)安全的重要威脅之一[2]。惡意軟件作者經(jīng)常會(huì)重用代碼用來(lái)生成具有相似特征的其他惡意變體，而這些惡意變體通常可以歸類為同一個(gè)惡意軟件家族。因此，識(shí)別惡意軟件家族的能力變得十分重要，通過(guò)對(duì)惡意代碼的分類，可以更好防范惡意代碼攻擊。

近年來(lái)，惡意軟件檢測(cè)分類出現(xiàn)了靜態(tài)分析和動(dòng)態(tài)分析。靜態(tài)分析側(cè)重于統(tǒng)計(jì)特征，例如API調(diào)用、操作碼序列等。Wang[3]等人通過(guò)提取權(quán)限、硬件功能和接收者動(dòng)作等122個(gè)特征，使用多種機(jī)器學(xué)習(xí)分類器進(jìn)行訓(xùn)練和測(cè)試，并使用隨機(jī)森林(Random Forest)分類器獲得較高的分類準(zhǔn)確率。動(dòng)態(tài)分析則是使用虛擬的環(huán)境來(lái)分析惡意應(yīng)用程序的行為[4]。但是這些技術(shù)大多數(shù)需要提取大量特征，檢測(cè)效率不高，對(duì)特征的選擇需要一些專家知識(shí)，并且有一定的主觀性。

為了降低特征工程成本和領(lǐng)域?qū)＜抑R(shí)，一些研究人員使用可視化方法來(lái)解決惡意軟件家族分類問(wèn)題。例如，Nataraj等人[5]提出把惡意代碼二進(jìn)制文件轉(zhuǎn)化為灰度圖，然后利用k近鄰算法對(duì)惡意代碼進(jìn)行分類，這種方法相比于之前未轉(zhuǎn)換灰度圖，直接分類的方法準(zhǔn)確率有一定提高，但是該方法用GIST提取圖片特征需要耗費(fèi)大量時(shí)間，導(dǎo)致效率不高。

隨著深度學(xué)習(xí)在圖像分類領(lǐng)域的快速發(fā)展，有學(xué)者將深度學(xué)習(xí)引入到惡意代碼檢測(cè)領(lǐng)域。Choi等人[6]把惡意代碼二進(jìn)制文件轉(zhuǎn)化為灰度圖像，運(yùn)用深度學(xué)習(xí)的技術(shù)，在12 000個(gè)樣本中達(dá)到了95.66%的準(zhǔn)確率。Su等人[7]用light-weight DL技術(shù)進(jìn)行惡意代碼家族分類，取得94.00%的成績(jī)，但是他們提出的網(wǎng)絡(luò)只對(duì)兩類家族進(jìn)行分類，有一定的局限性。Cui等人利用卷積神經(jīng)網(wǎng)絡(luò)在圖像分類的出色表現(xiàn)，并分別利用蝙蝠算法[8]和NSGA-Ⅱ算法[9]處理惡意代碼樣本數(shù)量不均的問(wèn)題，該方法準(zhǔn)確率明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法，且算法復(fù)雜度較低。隨著更深網(wǎng)絡(luò)的提出，Rezende等人提出將VGG16網(wǎng)絡(luò)[10]以ResNet網(wǎng)絡(luò)[11]運(yùn)用在惡意代碼檢測(cè)分類上，該方法準(zhǔn)確率有所提升，但是參數(shù)量變得巨大，分類效率有待提升。

基于上述方法產(chǎn)生的問(wèn)題，本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)[12]的分類方法SE-CNN，實(shí)現(xiàn)惡意代碼家族分類。首先將惡意代碼的二進(jìn)制文件轉(zhuǎn)化成灰度圖得到灰度圖像數(shù)據(jù)集，然后構(gòu)建SE-CNN網(wǎng)絡(luò)模型對(duì)灰度圖像數(shù)據(jù)集進(jìn)行訓(xùn)練，最后實(shí)現(xiàn)對(duì)惡意代碼的檢測(cè)分類。該方法采用CNN對(duì)灰度圖像自動(dòng)提取特征，解決了特征提取慢且耗時(shí)的問(wèn)題；通過(guò)結(jié)合SE模塊自適應(yīng)學(xué)習(xí)通道重要程度信息，并賦予特征通道權(quán)重，從而激勵(lì)有用特征信息，同時(shí)抑制無(wú)用信息，提升了模型分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，本文方法準(zhǔn)確率高于傳統(tǒng)機(jī)器學(xué)習(xí)方法，且參數(shù)量相較于先進(jìn)的深度學(xué)習(xí)方法更低。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://wldgj.com/resource/share/2000004527

作者信息：

申高寧1，2，陳志翔3，王輝3，陳姮1，2

(1.閩南師范大學(xué) 計(jì)算機(jī)學(xué)院，福建漳州363000；

2.數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高校重點(diǎn)實(shí)驗(yàn)室，福建漳州363000；

3.閩南師范大學(xué) 物理與信息工程學(xué)院，福建漳州363000)

微信圖片_20210517164139.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容