一種結(jié)合TF-IDF和Simhash的科技項(xiàng)目文本相似性度量方法 | |
所屬分類(lèi):技術(shù)論文 | |
上傳者:zhoubin333 | |
文檔大?。?span>3591 K | |
標(biāo)簽: 科技項(xiàng)目文本 文本相似度 TF-IDF | |
所需積分:0分積分不夠怎么辦,? | |
文檔介紹:為了提高科技項(xiàng)目文本相似性度量的準(zhǔn)確性和性能,將TF-IDF和Simhash相結(jié)合,,提出了一種新的科技項(xiàng)目文本相似性度量方法,。首先,,該方法對(duì)科技項(xiàng)目文本進(jìn)行預(yù)處理得到詞項(xiàng)集合,,再使用TF-IDF計(jì)算詞項(xiàng)集合中每個(gè)詞項(xiàng)的權(quán)重值,并選取具有較高權(quán)重值的重要詞項(xiàng),;其次,,使用Simhash把重要詞項(xiàng)映射為固定長(zhǎng)度的二進(jìn)制串,并求和得到文本的Simhash簽名,;最后,,使用漢明距離計(jì)算兩個(gè)Simhash簽名間的相似性。實(shí)驗(yàn)結(jié)果表明,,所提方法在查準(zhǔn)率,、召回率和F度量值方面優(yōu)于傳統(tǒng)的Simhash算法和TF-IDF方法。 | |
現(xiàn)在下載 | |
VIP會(huì)員,,AET專(zhuān)家下載不扣分,;重復(fù)下載不扣分,本人上傳資源不扣分,。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2