基于網頁分割的Web信息提取算法
所屬分類:技術論文
上傳者:aet
文檔大小:238 K
所需積分:0分積分不夠怎么辦,?
文檔介紹:針對網頁非結構化信息抽取復雜度高的問題,,提出了一種基于網頁分割的Web信息提取算法。對網頁噪音進行預處理,,根據網頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,,根據數據塊中的嵌套結構獲取網頁文本提取模板,。對不同類型網站的實驗結果表明,該算法運行速度快,、準確度高,。
現在下載
VIP會員,AET專家下載不扣分,;重復下載不扣分,,本人上傳資源不扣分,。