一種面向微博文本的命名實(shí)體識(shí)別方法-AET-電子技術(shù)應(yīng)用

一種面向微博文本的命名實(shí)體識(shí)別方法

2018年電子技術(shù)應(yīng)用第1期

李剛，黃永峰

清華大學(xué) 電子工程系NGN實(shí)驗(yàn)室，北京100084

摘要： 命名實(shí)體識(shí)別是自然語言處理領(lǐng)域的一項(xiàng)基礎(chǔ)性技術(shù)。近年來微博等網(wǎng)絡(luò)社交平臺(tái)發(fā)展迅速，其獨(dú)特的形式對(duì)傳統(tǒng)的命名實(shí)體識(shí)別技術(shù)提出了新的挑戰(zhàn)。故提出一種基于條件隨機(jī)場模型的改進(jìn)方法，針對(duì)微博文本短小、語義含糊等特點(diǎn)，引入外部數(shù)據(jù)源提取主題特征和詞向量特征來訓(xùn)練模型，針對(duì)微博數(shù)據(jù)規(guī)模大、人工標(biāo)準(zhǔn)化處理代價(jià)大的特點(diǎn)，采取一種基于最小置信度的主動(dòng)學(xué)習(xí)算法，以較小的人工代價(jià)強(qiáng)化模型的訓(xùn)練效果。在新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)證明，該方法與傳統(tǒng)的條件隨機(jī)場方法相比F值提高了4.54%。

關(guān)鍵詞： 命名實(shí)體識(shí)別微博條件隨機(jī)場詞向量主動(dòng)學(xué)習(xí)

中圖分類號(hào)： TP391
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.179024
中文引用格式： 李剛，黃永峰. 一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用，2018，44(1)：118-120，124.
英文引用格式： Li Gang，Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique，2018，44(1)：118-120，124.

An approach to named entity recognition towards micro-blog

Li Gang，Huang Yongfeng

NGN Laboratory，Department of Electronics Engineering，Tsinghua University，Beijing 100084，China

Abstract： Named entity recognition is a fundamental technology in natural language processing(NLP). In recent years, rapid development of social network platforms such as microblog presents new challenges to the traditional named entity recognition(NER) technology because of the unique form. In this paper, an improved method based on the conditional random field(CRF) model is proposed for microblog texts. Due to the short texts and semantic ambiguity, external data resources are introduced to generate the topic feature and word representation feature for training the model. Due to the large-scale of microblog data and the high cost of manual standardization, an active learning algorithm based on least confidence is adopted to enhance the training effect at a lower cost of labor. Experiments on a Sina weibo data set show that this method improves the F-score by 4.54% compared to the traditional CRF methods.

Key words : named entity recognition；micro-blog；conditional random field；word representation；active learning

0 引言

命名實(shí)體識(shí)別（Named Entity Recognition）是指識(shí)別文本中的各種實(shí)體，如人名、地名、機(jī)構(gòu)名或其他特有標(biāo)識(shí)^[1]，是自然語言處理（Natural Language Processing，NLP）中非常重要的一項(xiàng)基礎(chǔ)性技術(shù)。近年來，Twitter、新浪微博等新型社交平臺(tái)發(fā)展迅速，成為命名實(shí)體識(shí)別的新方向。RITTER A^[2]等人設(shè)計(jì)了一個(gè)應(yīng)用于Twitter上的T-NER系統(tǒng)，重構(gòu)了命名實(shí)體識(shí)別的流程。TURIAN J等人^[3]利用半監(jiān)督的系統(tǒng)進(jìn)行命名實(shí)體識(shí)別，大大減少了識(shí)別的成本。Liu Xiaohua等人^[4]在一個(gè)半監(jiān)督的框架下把K近鄰分類器和CRF模型結(jié)合起來，識(shí)別Twitter中的命名實(shí)體，取得了較好的效果。

上述工作都是基于Twitter的，沒有考慮中文的深層語義，且多使用有限自建數(shù)據(jù)集，沒有考慮人工標(biāo)記的代價(jià)和不足，因此需要加以改進(jìn)。本文研究面向中文微博的命名實(shí)體識(shí)別，將識(shí)別視為一個(gè)序列標(biāo)注問題，通過改進(jìn)的基于概率模型的算法優(yōu)化識(shí)別效果。針對(duì)微博文本短小、信息量少和文體不正規(guī)、語意含糊的特點(diǎn)，引入外部數(shù)據(jù)源提取深層語義特征；針對(duì)微博數(shù)據(jù)集人工處理代價(jià)大的問題，引入主動(dòng)學(xué)習(xí)算法，以較小的人工代價(jià)獲得識(shí)別效果的提升。

1 面向微博的命名實(shí)體識(shí)別方法

參照CoNLL2003的標(biāo)準(zhǔn)，給定一條微博，需要識(shí)別出其中的人名、地名、機(jī)構(gòu)名和其他實(shí)體共4類命名實(shí)體^[5]。

研究的基礎(chǔ)模型采用了CRF^[6]模型。

1.1 特征選取

基礎(chǔ)特征采用當(dāng)前詞和前后位置詞的詞型和詞性特征，這也是大多數(shù)CRF模型會(huì)采用的特征。由此生成的模型作為基礎(chǔ)模型，對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果作為基線。

1.1.1 主題特征

(Latent Dirichlet Allocation，LDA)模型^[7]是一種無監(jiān)督的概率主題模型。每個(gè)主題下都分布著出現(xiàn)概率較高的詞語，這些詞都與這個(gè)主題有很強(qiáng)的相關(guān)性，利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問題。模型的訓(xùn)練使用了外部數(shù)據(jù)源，主題個(gè)數(shù)k可以事先指定。

獲得LDA模型后，對(duì)于給定k個(gè)主題，通過p(w|t)，將每個(gè)主題視為一個(gè)特征，將訓(xùn)練集中的每個(gè)詞看作是由k個(gè)特征表示的K維向量，則每個(gè)詞都可以表示成一個(gè)k維向量，即：

其中，v_i表示第i個(gè)詞的向量，λ_k表示該詞在第k個(gè)主題上的權(quán)重，N是詞表的大小。

1.1.2 詞向量特征

詞向量源于HINTON G E^[8]提出的Distributed Representation。一個(gè)流行的詞向量訓(xùn)練工具是word2vec，由MIKOLOV T^[9]于2013年提出。word2vec能把詞映射到d維的向量空間，用向量空間的相似度表示文本語義上的相似度，有利于解決微博語義含糊的問題。

詞向量一般有200～500維，如果直接將詞向量作為特征引入CRF模型，則計(jì)算量過大。這里需要利用的是其相似性，因此可以用聚類的方法進(jìn)行簡化。實(shí)驗(yàn)中選擇將詞語表示為200~500維的詞向量，再利用k-means進(jìn)行聚類，將類別作為特征輸入模型。特別需要指出的是，相比采用單一的聚類結(jié)果，更好的辦法是多層聚類（multi-layer cluster）。

1.2 模型強(qiáng)化

人工處理微博語料人工處理代價(jià)高昂，為了以最小的人工代價(jià)獲得最大的系統(tǒng)性能提升，研究采用了主動(dòng)學(xué)習(xí)算法。主動(dòng)學(xué)習(xí)算法包含兩部分，一個(gè)是分類器，另一個(gè)是抽樣策略^[10]。分類器采用前文所述的改進(jìn)型CRF模型。抽樣策略可采用如下方法。

抽樣不確定度是一中常見的衡量樣本信息含量的方法，在序列標(biāo)注模型中，可以根據(jù)最小置信度（Least Confidence）φ^LC(x)來確定抽樣不確定度。

其中，x表示一個(gè)樣本，y^*是對(duì)應(yīng)概率最大的標(biāo)記。對(duì)于一個(gè)訓(xùn)練好的CRF模型，可以在對(duì)每條微博進(jìn)行標(biāo)記的同時(shí)輸出對(duì)應(yīng)概率P。現(xiàn)給出整個(gè)算法框架。

算法1：基于置信度的主動(dòng)學(xué)習(xí)算法

輸入：有標(biāo)記語料D_L、未標(biāo)記語料D_U

輸出：分類器C

用D_L訓(xùn)練分類器C（CRF classifier）

重復(fù)：

2 實(shí)驗(yàn)

實(shí)驗(yàn)用到了3個(gè)數(shù)據(jù)集，分別是訓(xùn)練集、擴(kuò)展集和測試集。其中3 000條標(biāo)記語料作為訓(xùn)練集，2 000條標(biāo)記語料作為測試集。另外2 000條作為擴(kuò)展集用于主動(dòng)學(xué)習(xí)，不需標(biāo)注。另有500萬條經(jīng)過除重去噪的微博作為外部源，分別用于LDA模型訓(xùn)練和詞向量模型訓(xùn)練，供抽取外部特征使用。

2.1 評(píng)價(jià)標(biāo)準(zhǔn)

本文采用的評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率P（Precision）、召回率R（Recall）和F₁值（F₁-measure）3個(gè)指標(biāo)。F₁是準(zhǔn)確率和召回率的調(diào)和平均值，是一個(gè)綜合性的指標(biāo)。

2.2 實(shí)驗(yàn)數(shù)據(jù)及分析

(1)使用訓(xùn)練集提取基礎(chǔ)特征，建立基礎(chǔ)模型，在測試集上進(jìn)行評(píng)估。結(jié)果如表1所示。此結(jié)果將作為基線與后續(xù)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。

(2)引入外部特征進(jìn)行了多組實(shí)驗(yàn)。圖1左側(cè)是引入主題特征后的提升效果，雖然有效果但不明顯。圖1右側(cè)是將400維的詞向量進(jìn)行聚類后作為特征引入模型的效果。F₁值在聚類個(gè)數(shù)為400時(shí)達(dá)到了63.96%，較基線有明顯提升。究其原因，主要是詞向量的分量中隱含了豐富的上下文語法和語義信息，而LDA模型內(nèi)部采用了詞袋模型，僅考慮了詞的共現(xiàn)關(guān)系而沒有考慮上下文關(guān)系，這樣簡化了模型，但不可避免地帶來了信息的損失。

多層聚類的實(shí)驗(yàn)效果如圖2所示，每個(gè)維度下前4個(gè)柱圖表示單層聚類（分別是聚成200、300、400、500個(gè)類簇）時(shí)的效果，最后一個(gè)表示同時(shí)使用前4個(gè)聚類結(jié)果作為多層聚類時(shí)的效果，顯然效果比單層聚類更好。

同時(shí)將所有的外部特征添加到基礎(chǔ)模型進(jìn)行實(shí)驗(yàn)，F(xiàn)₁值提高到65.41%。

(3)采用主動(dòng)學(xué)習(xí)的方法進(jìn)一步強(qiáng)化模型。提升效果如圖3所示。詳細(xì)的數(shù)據(jù)參見表2。曲線Model_ba表示僅用外部特征而不進(jìn)行主動(dòng)學(xué)習(xí)的模型效果。曲線Model_la表示把一次性把包括訓(xùn)練集D_L和擴(kuò)展集D_U在內(nèi)的所有語料都進(jìn)行標(biāo)記（label all）并用于模型訓(xùn)練。Model_al1、Model_al2和model_al3是使用主動(dòng)學(xué)習(xí)策略但閾值不同的模型。總體看，無論是取哪個(gè)閾值，相比不進(jìn)行主動(dòng)學(xué)習(xí)，主動(dòng)學(xué)習(xí)都能提高F₁值，且收斂速度很快。

表2進(jìn)一步說明了主動(dòng)學(xué)習(xí)的優(yōu)點(diǎn)。Model_la需要標(biāo)記微博2 080條，約9萬個(gè)詞，人工代價(jià)太大。相比之下，3個(gè)主動(dòng)學(xué)習(xí)模型能明顯降低人工標(biāo)記量。其中Model_al2比Model_al3的F₁值要高0.25%，標(biāo)記量僅提升了12.9%；而Model_al1與Model_al2相比，F(xiàn)₁值僅提升了0.1%，但代價(jià)是標(biāo)記量提升了17%，且多迭代了兩次。綜合考慮，取Model_al2作為最終的實(shí)驗(yàn)結(jié)果。此時(shí)僅需標(biāo)記457條微博，約37 000個(gè)標(biāo)記，F(xiàn)₁值達(dá)到67.23%，相較最初的模型提升4.54%。

3 結(jié)語

本文提出了一種面向中文微博的命名實(shí)體識(shí)別方法，先引入外部特征訓(xùn)練CRF模型，再采用主動(dòng)學(xué)習(xí)算法強(qiáng)化訓(xùn)練結(jié)果。實(shí)際工作中發(fā)現(xiàn)，中文分詞效果不佳影響了后續(xù)的工作，主動(dòng)學(xué)習(xí)仍然引入了二次標(biāo)記，不利于大規(guī)模的識(shí)別任務(wù)。這些都需要在以后的工作中加以改進(jìn)。

參考文獻(xiàn)

[1] NADEAU D，SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes，2007，30(1)：3-26.

[2] RITTER A，CLARK S，ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics，2011：1524-1534.

[3] TURIAN J，RATINOV L，BENGIO Y.Word representations：a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics，2010：384-394.

[4] Liu Xiaohua，Zhang Shaodian，Wei Furu，et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics：Human Language Technologies-Volume 1. Association for Computational Linguistics，2011：359-367.

[5] TJONG KIM SANG E F，DE MEULDER F.Introduction to the CoNLL-2003 shared task：Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics，2003：142-147.

[6] LAFFERTY J D，MCCALLUM A，PEREIRA F C N.Conditional random fields：probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.，2001：282-289.

[7] BLEI D M，NG A Y，JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research，2003，3：993-1022.

[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society，1986，1：12.

[9] MIKOLOV T，SUTSKEVER I，CHEN K，et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems，2013：3111-3119.

[10] WU Y，KOZINTSEV I，BOUGUET J Y，et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo，2006 IEEE International Conference on.IEEE，2006：529-532.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容