文獻(xiàn)標(biāo)識碼:A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式:裴卓雄,,楊敏,楊婧.基于TextCNN-Bert融合模型的不良信息識別技術(shù)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2023,,42(8):72-76.
0 引言
隨著互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展,,網(wǎng)絡(luò)上不良信息的泛濫引發(fā)了諸多社會問題,特別是歷史,、時政新聞等敏感領(lǐng)域的不良信息,,通過編排、篡改,、杜撰,、偽造的方式,具有極強(qiáng)的迷惑性和欺騙性,,腐蝕人們的思想,,影響人們的價值觀和判斷能力,危害社會安全[1],。文本作為主要傳播方式,,研究敏感領(lǐng)域不良信息的識別技術(shù)具有深遠(yuǎn)意義。
自然語言處理技術(shù)( Natural Language Processing, NLP)能夠?qū)ξ谋具M(jìn)行深入分析和理解,,從而實(shí)現(xiàn)文本的分類和識別,。Kim[2]提出一種用于文本分類的卷積神經(jīng)網(wǎng)絡(luò)模型TextCNN,可以在一定程度上避免梯度消失的問題,,而且在處理短文本和固定長度文本時表現(xiàn)良好,。Lai[3]提出了文本分類模型RCNN,同時結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),。Wang[4]比較不同循環(huán)神經(jīng)網(wǎng)絡(luò)模型在文本分類任務(wù)中的性能,,表明了LSTM模型在文本分類的優(yōu)勢。Devlin[5]提出了BERT模型,,該模型是一種基于Transformer網(wǎng)絡(luò)的預(yù)訓(xùn)練模型,,可用于自然語言處理任務(wù),如文本分類,、語言推斷等,。Chen[6]提出了一種基于雙向情感表情符號嵌入和基于注意力的LSTM的Twitter情感分析方法,該方法使用雙向LSTM來學(xué)習(xí)句子中的上下文信息,,使用注意力機(jī)制來加強(qiáng)對重要信息的關(guān)注,,使用情感表情符號來增強(qiáng)情感分類的精度。李志杰[7]提出一種基于 LSTM 和 TextCNN 的聯(lián)合模型,,捕捉文本中的上下文關(guān)系和局部特征,,提高短文本分類的準(zhǔn)確性。Sanagavarapu[8]提出BiLSTM和人工神經(jīng)網(wǎng)絡(luò)ANN組成的混合模型,通過上下位詞的概念獲取新聞的語義并映射到ANN模型上,,提升對新聞文章分類的準(zhǔn)確性,。Rehman[9]提出了一種基于CNNLSTM的混合模型,用于提高電影評論情感分析的準(zhǔn)確性,。該模型利用CNN提取局部特征,,LSTM則用于學(xué)習(xí)序列信息,從而結(jié)合了兩種模型的優(yōu)點(diǎn),。
敏感領(lǐng)域?qū)儆趯I(yè)領(lǐng)域,,不良信息的識別技術(shù)研究十分有限,通用的識別技術(shù)可以直接應(yīng)用于識別,,但存在以下問題:一是領(lǐng)域特定語言和術(shù)語問題,。敏感領(lǐng)域具有豐富的領(lǐng)域特定語言和術(shù)語,這些語言和術(shù)語可能對于通用模型不易理解,,從而導(dǎo)致文本識別準(zhǔn)確率下降,。二是背景知識問題。敏感領(lǐng)域涉及敏感事件,、人物和背景等方面的知識,,這些知識對于模型來說可能是未知的,需要進(jìn)行特殊的處理才能進(jìn)行識別和理解,。三是文本復(fù)雜性的問題,。敏感領(lǐng)域文本非常復(fù)雜,包含大量的隱喻,、比喻和引申意義,,這些都需要模型具備識別和理解的能力。
因此,,本文將敏感領(lǐng)域不良信息的識別問題轉(zhuǎn)化為敏感領(lǐng)域主題識別任務(wù)和情感隱喻識別任務(wù),,提出一種基于TextCNNBert融合模型,既利用TextCNN對關(guān)鍵詞和局部特征更加敏感的優(yōu)勢,,準(zhǔn)確識別敏感領(lǐng)域的特定語言和術(shù)語,;又能利用Bert的預(yù)訓(xùn)練能力和自注意力機(jī)制,提升對隱喻,、比喻和引申意的識別。實(shí)驗(yàn)結(jié)果表明,,本模型在準(zhǔn)確率,、召回率、精確率等方面識別效果良好,。
本文詳細(xì)內(nèi)容請下載:http://wldgj.com/resource/share/2000005470
作者信息:
裴卓雄1,,楊敏2,楊婧2
(1.國家計算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100032,;2.國家計算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心山西分中心,,山西太原044400)