文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.04.011
引用格式: 侯開茂,,韓慶敏,吳云峰,,等. 一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,,2022,,41(4):71-76.
0 引言
隨著電子信息技術(shù)的發(fā)展,,各行各業(yè)都產(chǎn)生了大量的數(shù)據(jù)信息,,根據(jù)國際數(shù)據(jù)公司(International Data Corporation,IDC)的最新預(yù)測:到2023年,,中國的數(shù)據(jù)量將達到40 ZB,,并且隨著5G技術(shù)的普及,數(shù)據(jù)量增長將會迎來又一個新的高潮[1],。有研究發(fā)現(xiàn),這些數(shù)據(jù)中超過60%都是重復(fù)冗余數(shù)據(jù)[2],,傳輸和存儲這些冗余數(shù)據(jù)不僅造成了存儲資源和網(wǎng)絡(luò)資源的嚴重浪費,也降低了使用數(shù)據(jù)的效率,。并且隨著時間推移,,這些數(shù)據(jù)帶來的冗余問題會越來越嚴重。域名[3](Domain Name)作為互聯(lián)網(wǎng)中頻繁使用的數(shù)據(jù)類型之一,,是一種特殊的數(shù)據(jù)形式,,其對字符的變化敏感度極高,一個字符的變化往往會對使用結(jié)果產(chǎn)生嚴重的影響,。因此,,處理重復(fù)域名數(shù)據(jù)需要采用精確而且高效的去重技術(shù)。
已有重復(fù)數(shù)據(jù)處理技術(shù)中,,完全文件檢測(Whole File Detection,,WFD)技術(shù)[4]無法對內(nèi)容進行查重處理,固定分塊(Fixed-Sized Partition,,F(xiàn)SP)檢測技術(shù),、可變分塊檢測技術(shù)和滑動塊檢測技術(shù)都是針對數(shù)據(jù)共有特征的粗粒度去重,直接用于重復(fù)域名的處理效果并不理想,。因此,本文在已有重復(fù)數(shù)據(jù)檢測技術(shù)的基礎(chǔ)上,,引入Simhash算法,,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,,改進計算文本特征值的方式,提出了一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法,。經(jīng)過實驗對比看出,,該方法對于處理重復(fù)域名數(shù)據(jù)效果更好,同時在時間開銷上也和原有技術(shù)差別不大,,對于處理重復(fù)域名數(shù)據(jù)具有比傳統(tǒng)去重技術(shù)更好的實用價值,。
本文詳細內(nèi)容請下載:http://wldgj.com/resource/share/2000004102
作者信息:
侯開茂,韓慶敏,,吳云峰,,黃 兵,張久發(fā),,柴處處
(中國電子信息產(chǎn)業(yè)集團有限公司第六研究所,,北京100083)