改進的TF-IDF算法在文本分類中的研究
所屬分類:技術(shù)論文
上傳者:zhoubin333
文檔大?。?span>491 K
標簽: 文本分類 VSM TF-IDF
所需積分:0分積分不夠怎么辦,?
文檔介紹:企業(yè)數(shù)字化建設(shè)過程中,對大量日常經(jīng)營活動文本的數(shù)字化處理通常是多任務(wù)的,,需要對文本數(shù)據(jù)同時完成信息抽取和文本分類任,。在此應(yīng)用場景下,為了實現(xiàn)更加精準的分類效果,,提出一種改進的TF-IDF算法,,將文本信息抽取結(jié)果也作為文本重要類別區(qū)分特征。通過引入信息增益方法得到改進的權(quán)重計算公式,進而得到改進的文本特征向量空間表示,,再構(gòu)建文本分類模型,。實驗以石油行業(yè)中文文本為例,選取測試文本2 006條進行文本分類對比實驗,,實驗結(jié)果表明改進的TF-IDF算法精確率P達到99.3%,,召回率R達到98.7%,相比于傳統(tǒng)TF-IDF算法文本分類效果得到顯著提高,。
現(xiàn)在下載
VIP會員,,AET專家下載不扣分;重復(fù)下載不扣分,,本人上傳資源不扣分,。