一種基于成詞率和譜聚類的電力文本領(lǐng)域詞發(fā)現(xiàn)方法
所屬分類:技術(shù)論文
上傳者:aetmagazine
文檔大?。?span>544 K
標簽: 成詞率 譜聚類 領(lǐng)域詞發(fā)現(xiàn)
所需積分:0分積分不夠怎么辦,?
文檔介紹:考慮到當前電力行業(yè)仍缺少有效的領(lǐng)域詞發(fā)現(xiàn)方法,以電力行業(yè)科技項目文本為原始語料庫,,將基于互信息與左右熵的統(tǒng)計特征與傳統(tǒng)語言構(gòu)詞規(guī)則特征相融合,,提出了電力文本成詞率的概念。所提方法首先利用成詞率對電力文本進行無監(jiān)督篩選得到初始候選詞集,,然后對候選詞集進行文本切片算法和常用詞過濾操作,,最后進行詞嵌入和譜聚類得到最終所需的電力文本領(lǐng)域詞。實驗結(jié)果表明,,所提出的方法準確有效,,為電力文本的領(lǐng)域詞發(fā)現(xiàn)提供了一種新方法。
現(xiàn)在下載
VIP會員,,AET專家下載不扣分,;重復下載不扣分,,本人上傳資源不扣分。