文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.233824
中文引用格式: 陳曉晉,唐球,,王耀君. 面向農(nóng)業(yè)知識圖譜構(gòu)建的文本實體標注準則構(gòu)建及應用[J]. 電子技術(shù)應用,,2023,49(5):1-7.
英文引用格式: Chen Xiaojin,,Tang Qiu,,Wang Yaojun. Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction[J]. Application of Electronic Technique,2023,,49(5):1-7.
0 引言
近年來,,隨著大數(shù)據(jù)技術(shù)的發(fā)展,,各個領(lǐng)域的數(shù)值、圖像、文本,、語音視頻等多源大數(shù)據(jù)增長迅速,。以農(nóng)業(yè)領(lǐng)域為例,農(nóng)業(yè)新聞,、農(nóng)資信息,、農(nóng)業(yè)政策法規(guī)等與農(nóng)業(yè)生產(chǎn)生活息息相關(guān)的信息通過互聯(lián)網(wǎng)發(fā)布和傳播,構(gòu)成了農(nóng)業(yè)文本大數(shù)據(jù)的主要組成部分,。農(nóng)業(yè)從業(yè)者及研究者主要通過網(wǎng)絡中的文本信息來獲取農(nóng)業(yè)資訊,,有效分析文本數(shù)據(jù)不僅可以幫助農(nóng)業(yè)從業(yè)者了解最新的實踐和趨勢,還可以為農(nóng)業(yè)從業(yè)者,、專家在農(nóng)業(yè)任務管理中做出決策提供支持,。農(nóng)業(yè)資訊中蘊含著大量的專業(yè)農(nóng)業(yè)知識及豐富的農(nóng)業(yè)信息,且主要以非結(jié)構(gòu)化的形式存在,。農(nóng)業(yè)領(lǐng)域的命名實體識別的任務是從非結(jié)構(gòu)化的文本中識別與農(nóng)業(yè)領(lǐng)域相關(guān)的實體,,例如作物名稱、病蟲害,、農(nóng)藥,、肥料等,是作為農(nóng)業(yè)知識圖譜構(gòu)建和問答等下游任務不可或缺的基本組成部分,。
針對命名實體識別任務的主要方法為,,基于規(guī)則和字典匹配、基于機器學習的方法以及兩者混合的方法,。但存在不足,無法滿足復雜文本需求,,仍有局限性,。
近年來隨著深度學習的快速發(fā)展,其實現(xiàn)了無需復雜的特征工程和豐富的領(lǐng)域知識就可以學習復雜的隱藏表示,。目前,,基于深度學習的模型已被廣泛應用于完成命名實體識別任務,并已廣泛應用于醫(yī)學,、金融等領(lǐng)域,,但是目前,在農(nóng)業(yè)領(lǐng)域仍存在挑戰(zhàn),。
農(nóng)業(yè)文本實體存在著領(lǐng)域特殊性,、實體命名方式繁多、實體邊界模糊,、特征提取不充分,、實體邊界標注不一致、數(shù)據(jù)庫不足等問題,。這在一定程度上增加了識別農(nóng)業(yè)文本中實體的成本和難度,。
為了解決上述問題,,并促進基于農(nóng)業(yè)文本命名實體識別任務及其后續(xù)應用的完成,本文將構(gòu)建農(nóng)業(yè)文本數(shù)據(jù)實體標注準則,,并以此建立農(nóng)業(yè)實體標注語料庫,。為農(nóng)業(yè)領(lǐng)域相關(guān)從業(yè)人員提供實體標注準則,便于其開展農(nóng)業(yè)文本研究,,例如知識圖譜構(gòu)建及問答等相關(guān)工作,。
本文詳細內(nèi)容請下載:http://wldgj.com/resource/share/2000005299
作者信息:
陳曉晉1,唐球2,,王耀君1
(1.中國農(nóng)業(yè)大學 信息與電氣工程學院,,北京 100083;2.中國電子信息產(chǎn)業(yè)集團有限公司第六研究所,,北京 100083)