文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.012
引用格式: 劉向宇,,燕瑋,孟星妤,,等. 一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的網(wǎng)絡(luò)安全用戶發(fā)現(xiàn)方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2022,41(1):78-82.
0 引言
發(fā)現(xiàn)社交媒體中的網(wǎng)絡(luò)安全用戶可以有效追蹤網(wǎng)絡(luò)安全動(dòng)態(tài),對(duì)網(wǎng)絡(luò)安全防護(hù)具有重要意義,。實(shí)際上,,識(shí)別社交網(wǎng)絡(luò)中的網(wǎng)絡(luò)安全用戶也是對(duì)社交網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行分類發(fā)現(xiàn)。
現(xiàn)實(shí)生活中,,人們傾向于與類似的人發(fā)展社會(huì)關(guān)系,,所以社交用戶的好友會(huì)分享更多的屬性,如種族,、民族,、宗教和職業(yè)——這就是所謂的“同質(zhì)性原則”[1]。這導(dǎo)致了在Twitter上相互關(guān)注的人通常有共同的話題興趣,,可以通過相互關(guān)注關(guān)系來推斷社交媒體用戶的屬性,。另外,社交用戶還具備其他可以獲取的數(shù)據(jù),,如社交文本和用戶資料,,這些資料構(gòu)成新的用戶屬性,,也有助于推斷用戶的興趣或者職業(yè),與用戶的社交關(guān)系形成互補(bǔ),。
當(dāng)前已經(jīng)有大量的用戶分類工作都是基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行節(jié)點(diǎn)的分類,。比如,網(wǎng)絡(luò)表示學(xué)習(xí)方法直接對(duì)網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行學(xué)習(xí)提取,,將得到的特征用于分類可以取得不錯(cuò)的效果,。然而,現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法缺乏對(duì)社交文本和社交基本資料特征的學(xué)習(xí),,極大地限制了其分類效果,。相對(duì)于單純利用社交網(wǎng)絡(luò)結(jié)構(gòu)對(duì)用戶進(jìn)行分類,當(dāng)前主流的圖神經(jīng)網(wǎng)絡(luò)算法創(chuàng)新性地融入了網(wǎng)絡(luò)節(jié)點(diǎn)的其他屬性特征,,獲得了更高的分類準(zhǔn)確率,。本文針對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)方法缺乏社交文本特征的問題,通過改進(jìn)Node2vec[2]方法,,使其融合多種網(wǎng)絡(luò)屬性特征而更加有利于分類,,從而識(shí)別出社交媒體中的網(wǎng)絡(luò)安全用戶。
本文的創(chuàng)新性工作包括:
(1)利用網(wǎng)絡(luò)表示學(xué)習(xí)模型Node2vec來進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)的特征表示,,將結(jié)構(gòu)特征向量和相應(yīng)用戶節(jié)點(diǎn)的文本特征向量進(jìn)行拼接,,形成社交用戶節(jié)點(diǎn)的向量表示。
(2)標(biāo)注了部分網(wǎng)絡(luò)安全用戶,,初步形成網(wǎng)絡(luò)安全用戶資料庫,。對(duì)于每個(gè)用戶節(jié)點(diǎn),生成其網(wǎng)絡(luò)安全文本特征,。
(3)利用自監(jiān)督學(xué)習(xí)方法進(jìn)行分類模型的訓(xùn)練樣本擴(kuò)充,,提升了分類效果。
結(jié)果表明,,在已經(jīng)收集的Twitter數(shù)據(jù)集上,,所提方法的平均識(shí)別準(zhǔn)確率為96.37%,比現(xiàn)有常用的算法平均高出0.48%~3.67%,。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://wldgj.com/resource/share/2000004615
作者信息:
劉向宇,,燕 瑋,孟星妤,,侯開茂
(華北計(jì)算機(jī)系統(tǒng)工程研究所,,北京100083)