文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.009
引用格式: 王慶才,劉貴全. 基于混合表征學習的專利分類方法研究[J].信息技術與網(wǎng)絡安全,,2021,,40(12):51-59.
0 引言
專利分類是專利挖掘和管理中重要的基礎任務,。其主要目的是通過自然語言處理等方法提取專利文檔中的重要特征,,然后將這些特征輸入分類器中,其輸出結果表示專利文檔所屬的標簽,。通常一個專利具有一個或多個標簽,。面對每年快速增長的專利申請數(shù)量,實現(xiàn)高效的,、自動化的專利分類算法可以大大減少專利機構的人工成本和時間成本,。目前,自動化專利分類算法已被專利機構廣泛使用,,為專利檢索[1],、專利價值評估[2]、專利訴訟風險評估[3]等專利智能服務提供支持,。
因此,,這吸引了許多研究人員來研究自動專利分類問題[4-6],并且這些方法中的大多數(shù)將其視為多標簽文本分類任務[4-5],。專利的主要內(nèi)容為其組件和創(chuàng)新的詳細說明文檔,,該任務的目標是針對專利自動化預測一組標準化的類別。傳統(tǒng)的專利分類方法大多基于統(tǒng)計學和自然語言處理方法人工構造特征信息,,輸入到機器學習模型中進行訓練,,然后預測未知專利的類別信息。這些方法大多屬于淺層模型,,僅僅學習了專利文本簡單的詞義信息,,無法獲取深層的上下文語義信息。而且專利中包含了大量的非結構化信息,如專利之間的引用信息,,通常將專利作為網(wǎng)絡節(jié)點構建專利引用網(wǎng)絡,,然后基于網(wǎng)絡分析的方法對專利節(jié)點進行分類。此類方法專注于學習網(wǎng)絡的結構信息,,忽略了專利文本信息對預測專利類別的影響,。
本文詳細內(nèi)容請下載:http://wldgj.com/resource/share/2000003896.
作者信息:
王慶才1,2,,劉貴全1,,2
(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥230027,;
2.大數(shù)據(jù)分析與應用安徽省重點實驗室,,安徽 合肥230027)