安全類文章的多文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-AET-電子技術(shù)應(yīng)用

安全類文章的多文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

《信息技術(shù)與網(wǎng)絡(luò)安全》2020年第7期

吳習(xí)沫，朱廣宇，張雷

華北計(jì)算機(jī)系統(tǒng)工程研究所，北京100083

摘要： 目前安全類網(wǎng)站信息的分類標(biāo)簽各不相同，沒有統(tǒng)一分類標(biāo)準(zhǔn)，使安全類網(wǎng)站無(wú)法準(zhǔn)確地向用戶展示特定類別的安全信息。面對(duì)大量的安全類網(wǎng)站的技術(shù)類文章信息，用戶需要花費(fèi)大量的時(shí)間來(lái)識(shí)別文本類別。因此，設(shè)計(jì)一個(gè)多文本分類系統(tǒng)對(duì)于提高安全類網(wǎng)站的用戶體驗(yàn)和使用效率具有重要意義。開發(fā)了一套基于CNN和LSTM混合模型的安全類文章多文本分類系統(tǒng)，本系統(tǒng)采用基于Scrapy框架的網(wǎng)絡(luò)爬蟲，該網(wǎng)絡(luò)爬蟲支持定制化配置提取不同布局的頁(yè)面數(shù)據(jù)，支持?jǐn)?shù)據(jù)持久化存儲(chǔ)。并在 CNN和 LSTM混合模型基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了多文本自動(dòng)標(biāo)注模塊，實(shí)現(xiàn)了網(wǎng)站安全類信息的自動(dòng)分類，相對(duì)傳統(tǒng)的CNN和LSTM模型分類準(zhǔn)確率分別提升1.79%和1.54%，F(xiàn)1值分別提升1.02%和0.32%。

關(guān)鍵詞： 深度學(xué)習(xí) 文本分類爬蟲系統(tǒng)

中圖分類號(hào)： TP391.1
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2096-5133.2020.07.009
引用格式：吳習(xí)沫，朱廣宇，張雷. 安全類文章的多文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與網(wǎng)絡(luò)安全，2020，
39(7)：52-56，60.

Design and implementation of multi-text classification system for security articles

Wu Ximo，Zhu Guangyu，Zhang Lei

North China Institute of Computer Systems Engineering，Beijing 100083，China

Abstract： At present, the classification labels of security website information are different, and there is no unified classification standard, so that security websites cannot accurately display specific types of security information to users. Faced with a large number of technical article information of security websites, users need to spend a lot of time to identify text categories. So, it′s significant to design a multi-text classification system to advance the user experience and make use of security websites′ efficiency. This paper develops a security text multi-text classification system based on a hybrid model of CNN and LSTM. Based on the Scrapy framework, a web crawler, which supports both customized configuration to extract page data in different layouts and data persistence storage, is used in this system. Based on the mixed model of CNN and LSTM, a multi-text automatic labeling module is designed and implemented to realize the automatic classification of website security information. The rate of classification accuracy has increased by 1.79% and 1.54% in comparison with the traditional CNN and LSTM models respectively. Meanwhile,the F1 value has increased by 1.02% and 0.32%.

Key words : in-depth learning；text categorization；crawler；system

互聯(lián)網(wǎng)已成為信息傳播的普遍途徑，然而，由于互聯(lián)網(wǎng)中的冗余信息過(guò)多，各網(wǎng)站提供的標(biāo)簽沒有統(tǒng)一的分類標(biāo)準(zhǔn)，使得整合某一特定類的文章信息所消耗的時(shí)間成本和人力成本增加。但目前為止，針對(duì)網(wǎng)絡(luò)安全類網(wǎng)站的技術(shù)類文章，還沒有一套系統(tǒng)能夠很好地解決上述對(duì)應(yīng)問題。

為迅速掌握最新的網(wǎng)絡(luò)安全信息，本文設(shè)計(jì)并實(shí)現(xiàn)了基于CNN和LSTM混合模型的安全類文章多文本分類系統(tǒng)，該系統(tǒng)從多種來(lái)源收集安全類技術(shù)文本，并將它們以特定格式匯總，自動(dòng)標(biāo)記匯總后的文章內(nèi)容。就信息收集而言，系統(tǒng)主要采集近一年的安全類技術(shù)文本，收集的目標(biāo)內(nèi)容主要包括文章內(nèi)容和網(wǎng)頁(yè)自帶的標(biāo)簽，對(duì)于各網(wǎng)站自定義的文章標(biāo)簽，可作為多標(biāo)簽的一部分，供用戶參考。安全類文本與普通文本對(duì)比需要由多個(gè)標(biāo)簽對(duì)其進(jìn)行標(biāo)記分類處理。因此安全類文本的分類要難于普通文本分類處理。

面向網(wǎng)絡(luò)安全數(shù)據(jù)高并發(fā)的安全類網(wǎng)站，本文設(shè)計(jì)和實(shí)現(xiàn)了信息采集模塊，該模塊主要實(shí)現(xiàn)了基于Scrapy框架的分布式爬蟲程序設(shè)計(jì)，完成了多個(gè)安全類網(wǎng)站技術(shù)類文章的文本信息數(shù)據(jù)采集。

本文設(shè)計(jì)并實(shí)現(xiàn)了信息分類模塊，它負(fù)責(zé)對(duì)所獲得的數(shù)據(jù)進(jìn)行預(yù)處理、文本表示以及文本分類，其中文本分類模塊具體提出了一種基于CNN和LSTM的混合分類模型，它綜合了CNN與LSTM的優(yōu)點(diǎn)，提高了模型的特征提取能力。實(shí)驗(yàn)結(jié)果表明，基于CNN和LSTM的混合分類模型達(dá)到了比較高的準(zhǔn)確率，CNN和LSTM的混合模型的準(zhǔn)確率為91.99%。CNN-LSTM與CNN、LSTM相比分類準(zhǔn)確率提高了1.79%和1.54%。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://wldgj.com/resource/share/2000003231

作者信息：

吳習(xí)沫，朱廣宇，張雷

(華北計(jì)算機(jī)系統(tǒng)工程研究所，北京100083)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容