文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,,黃永峰. 一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用,,2018,44(1):118-120,,124.
英文引用格式: Li Gang,,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,,44(1):118-120,,124.
0 引言
命名實(shí)體識(shí)別(Named Entity Recognition)是指識(shí)別文本中的各種實(shí)體,如人名,、地名,、機(jī)構(gòu)名或其他特有標(biāo)識(shí)[1],是自然語(yǔ)言處理(Natural Language Processing,,NLP)中非常重要的一項(xiàng)基礎(chǔ)性技術(shù),。近年來(lái),Twitter,、新浪微博等新型社交平臺(tái)發(fā)展迅速,,成為命名實(shí)體識(shí)別的新方向。RITTER A[2]等人設(shè)計(jì)了一個(gè)應(yīng)用于Twitter上的T-NER系統(tǒng),,重構(gòu)了命名實(shí)體識(shí)別的流程,。TURIAN J等人[3]利用半監(jiān)督的系統(tǒng)進(jìn)行命名實(shí)體識(shí)別,大大減少了識(shí)別的成本,。Liu Xiaohua等人[4]在一個(gè)半監(jiān)督的框架下把K近鄰分類器和CRF模型結(jié)合起來(lái),,識(shí)別Twitter中的命名實(shí)體,取得了較好的效果,。
上述工作都是基于Twitter的,,沒(méi)有考慮中文的深層語(yǔ)義,且多使用有限自建數(shù)據(jù)集,,沒(méi)有考慮人工標(biāo)記的代價(jià)和不足,,因此需要加以改進(jìn)。本文研究面向中文微博的命名實(shí)體識(shí)別,,將識(shí)別視為一個(gè)序列標(biāo)注問(wèn)題,,通過(guò)改進(jìn)的基于概率模型的算法優(yōu)化識(shí)別效果,。針對(duì)微博文本短小、信息量少和文體不正規(guī),、語(yǔ)意含糊的特點(diǎn),,引入外部數(shù)據(jù)源提取深層語(yǔ)義特征;針對(duì)微博數(shù)據(jù)集人工處理代價(jià)大的問(wèn)題,,引入主動(dòng)學(xué)習(xí)算法,,以較小的人工代價(jià)獲得識(shí)別效果的提升。
1 面向微博的命名實(shí)體識(shí)別方法
參照CoNLL2003的標(biāo)準(zhǔn),,給定一條微博,,需要識(shí)別出其中的人名、地名,、機(jī)構(gòu)名和其他實(shí)體共4類命名實(shí)體[5],。
研究的基礎(chǔ)模型采用了CRF[6]模型。
1.1 特征選取
基礎(chǔ)特征采用當(dāng)前詞和前后位置詞的詞型和詞性特征,,這也是大多數(shù)CRF模型會(huì)采用的特征,。由此生成的模型作為基礎(chǔ)模型,對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果作為基線,。
1.1.1 主題特征
(Latent Dirichlet Allocation,,LDA)模型[7]是一種無(wú)監(jiān)督的概率主題模型。每個(gè)主題下都分布著出現(xiàn)概率較高的詞語(yǔ),,這些詞都與這個(gè)主題有很強(qiáng)的相關(guān)性,,利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問(wèn)題,。模型的訓(xùn)練使用了外部數(shù)據(jù)源,,主題個(gè)數(shù)k可以事先指定。
獲得LDA模型后,,對(duì)于給定k個(gè)主題,,通過(guò)p(w|t),將每個(gè)主題視為一個(gè)特征,,將訓(xùn)練集中的每個(gè)詞看作是由k個(gè)特征表示的K維向量,,則每個(gè)詞都可以表示成一個(gè)k維向量,即:
其中,,vi表示第i個(gè)詞的向量,,λk表示該詞在第k個(gè)主題上的權(quán)重,N是詞表的大小,。
1.1.2 詞向量特征
詞向量源于HINTON G E[8]提出的Distributed Representation。一個(gè)流行的詞向量訓(xùn)練工具是word2vec,,由MIKOLOV T[9]于2013年提出,。word2vec能把詞映射到d維的向量空間,,用向量空間的相似度表示文本語(yǔ)義上的相似度,有利于解決微博語(yǔ)義含糊的問(wèn)題,。
詞向量一般有200~500維,,如果直接將詞向量作為特征引入CRF模型,則計(jì)算量過(guò)大,。這里需要利用的是其相似性,,因此可以用聚類的方法進(jìn)行簡(jiǎn)化。實(shí)驗(yàn)中選擇將詞語(yǔ)表示為200~500維的詞向量,,再利用k-means進(jìn)行聚類,,將類別作為特征輸入模型。特別需要指出的是,,相比采用單一的聚類結(jié)果,,更好的辦法是多層聚類(multi-layer cluster)。
1.2 模型強(qiáng)化
人工處理微博語(yǔ)料人工處理代價(jià)高昂,,為了以最小的人工代價(jià)獲得最大的系統(tǒng)性能提升,,研究采用了主動(dòng)學(xué)習(xí)算法。主動(dòng)學(xué)習(xí)算法包含兩部分,,一個(gè)是分類器,,另一個(gè)是抽樣策略[10]。分類器采用前文所述的改進(jìn)型CRF模型,。抽樣策略可采用如下方法,。
抽樣不確定度是一中常見(jiàn)的衡量樣本信息含量的方法,在序列標(biāo)注模型中,,可以根據(jù)最小置信度(Least Confidence)φLC(x)來(lái)確定抽樣不確定度,。
其中,x表示一個(gè)樣本,,y*是對(duì)應(yīng)概率最大的標(biāo)記,。對(duì)于一個(gè)訓(xùn)練好的CRF模型,可以在對(duì)每條微博進(jìn)行標(biāo)記的同時(shí)輸出對(duì)應(yīng)概率P?,F(xiàn)給出整個(gè)算法框架,。
算法1:基于置信度的主動(dòng)學(xué)習(xí)算法
輸入:有標(biāo)記語(yǔ)料DL、未標(biāo)記語(yǔ)料DU
輸出:分類器C
用DL訓(xùn)練分類器C(CRF classifier)
重復(fù):
2 實(shí)驗(yàn)
實(shí)驗(yàn)用到了3個(gè)數(shù)據(jù)集,,分別是訓(xùn)練集,、擴(kuò)展集和測(cè)試集。其中3 000條標(biāo)記語(yǔ)料作為訓(xùn)練集,,2 000條標(biāo)記語(yǔ)料作為測(cè)試集,。另外2 000條作為擴(kuò)展集用于主動(dòng)學(xué)習(xí),不需標(biāo)注。另有500萬(wàn)條經(jīng)過(guò)除重去噪的微博作為外部源,,分別用于LDA模型訓(xùn)練和詞向量模型訓(xùn)練,,供抽取外部特征使用。
2.1 評(píng)價(jià)標(biāo)準(zhǔn)
本文采用的評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率P(Precision),、召回率R(Recall)和F1值(F1-measure)3個(gè)指標(biāo),。F1是準(zhǔn)確率和召回率的調(diào)和平均值,是一個(gè)綜合性的指標(biāo),。
2.2 實(shí)驗(yàn)數(shù)據(jù)及分析
(1)使用訓(xùn)練集提取基礎(chǔ)特征,,建立基礎(chǔ)模型,在測(cè)試集上進(jìn)行評(píng)估,。結(jié)果如表1所示,。此結(jié)果將作為基線與后續(xù)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。
(2)引入外部特征進(jìn)行了多組實(shí)驗(yàn),。圖1左側(cè)是引入主題特征后的提升效果,,雖然有效果但不明顯。圖1右側(cè)是將400維的詞向量進(jìn)行聚類后作為特征引入模型的效果,。F1值在聚類個(gè)數(shù)為400時(shí)達(dá)到了63.96%,,較基線有明顯提升。究其原因,,主要是詞向量的分量中隱含了豐富的上下文語(yǔ)法和語(yǔ)義信息,,而LDA模型內(nèi)部采用了詞袋模型,僅考慮了詞的共現(xiàn)關(guān)系而沒(méi)有考慮上下文關(guān)系,,這樣簡(jiǎn)化了模型,,但不可避免地帶來(lái)了信息的損失。
多層聚類的實(shí)驗(yàn)效果如圖2所示,,每個(gè)維度下前4個(gè)柱圖表示單層聚類(分別是聚成200,、300、400,、500個(gè)類簇)時(shí)的效果,,最后一個(gè)表示同時(shí)使用前4個(gè)聚類結(jié)果作為多層聚類時(shí)的效果,顯然效果比單層聚類更好,。
同時(shí)將所有的外部特征添加到基礎(chǔ)模型進(jìn)行實(shí)驗(yàn),,F(xiàn)1值提高到65.41%。
(3)采用主動(dòng)學(xué)習(xí)的方法進(jìn)一步強(qiáng)化模型,。提升效果如圖3所示,。詳細(xì)的數(shù)據(jù)參見(jiàn)表2。曲線Model_ba表示僅用外部特征而不進(jìn)行主動(dòng)學(xué)習(xí)的模型效果,。曲線Model_la表示把一次性把包括訓(xùn)練集DL和擴(kuò)展集DU在內(nèi)的所有語(yǔ)料都進(jìn)行標(biāo)記(label all)并用于模型訓(xùn)練,。Model_al1,、Model_al2和model_al3是使用主動(dòng)學(xué)習(xí)策略但閾值不同的模型??傮w看,,無(wú)論是取哪個(gè)閾值,相比不進(jìn)行主動(dòng)學(xué)習(xí),,主動(dòng)學(xué)習(xí)都能提高F1值,且收斂速度很快,。
表2進(jìn)一步說(shuō)明了主動(dòng)學(xué)習(xí)的優(yōu)點(diǎn),。Model_la需要標(biāo)記微博2 080條,約9萬(wàn)個(gè)詞,,人工代價(jià)太大,。相比之下,3個(gè)主動(dòng)學(xué)習(xí)模型能明顯降低人工標(biāo)記量,。其中Model_al2比Model_al3的F1值要高0.25%,,標(biāo)記量?jī)H提升了12.9%;而Model_al1與Model_al2相比,,F(xiàn)1值僅提升了0.1%,,但代價(jià)是標(biāo)記量提升了17%,且多迭代了兩次,。綜合考慮,,取Model_al2作為最終的實(shí)驗(yàn)結(jié)果。此時(shí)僅需標(biāo)記457條微博,,約37 000個(gè)標(biāo)記,,F(xiàn)1值達(dá)到67.23%,相較最初的模型提升4.54%,。
3 結(jié)語(yǔ)
本文提出了一種面向中文微博的命名實(shí)體識(shí)別方法,,先引入外部特征訓(xùn)練CRF模型,再采用主動(dòng)學(xué)習(xí)算法強(qiáng)化訓(xùn)練結(jié)果,。實(shí)際工作中發(fā)現(xiàn),,中文分詞效果不佳影響了后續(xù)的工作,主動(dòng)學(xué)習(xí)仍然引入了二次標(biāo)記,,不利于大規(guī)模的識(shí)別任務(wù),。這些都需要在以后的工作中加以改進(jìn)。
參考文獻(xiàn)
[1] NADEAU D,,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,,2007,30(1):3-26.
[2] RITTER A,,CLARK S,,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,,2011:1524-1534.
[3] TURIAN J,RATINOV L,,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,,2010:384-394.
[4] Liu Xiaohua,Zhang Shaodian,,Wei Furu,,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.
[5] TJONG KIM SANG E F,,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,,2003:142-147.
[6] LAFFERTY J D,MCCALLUM A,,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,,2001:282-289.
[7] BLEI D M,NG A Y,,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,,2003,3:993-1022.
[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,,1986,,1:12.
[9] MIKOLOV T,SUTSKEVER I,,CHEN K,,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.
[10] WU Y,,KOZINTSEV I,,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,,2006 IEEE International Conference on.IEEE,,2006:529-532.