基于詞典和語素的交集型歧義消除模型-AET-電子技術(shù)應(yīng)用

基于詞典和語素的交集型歧義消除模型

來源：微型機(jī)與應(yīng)用2013年第4期

李春雨1，王勇2

(1. 浙江機(jī)電職業(yè)技術(shù)學(xué)院，浙江杭州 310053； 2. 杭州茂亨自控儀表有限公司，浙江杭州

摘要： 提出了一種消除中文分詞中交集型歧義的模型。首先通過正向最大匹配法和逆向最大匹配法對中文文本信息進(jìn)行分詞，然后使用不單獨(dú)成詞語素表對分詞結(jié)果進(jìn)行分析對比消歧，得到符合漢語語境的結(jié)果。整個過程分為歧義識別、歧義分析、歧義消除三個階段。實(shí)驗(yàn)結(jié)果表明，該模型可以有效降低由交集型歧義引起的中文文本切分錯誤率。

關(guān)鍵詞： 軟件自然語言處理分詞交集型歧義

Abstract：

Key words :

    在英文和其他西方語言系統(tǒng)中，文本書寫時(shí)通常是詞與詞之間用空格隔開，但中文的書寫形式卻是連續(xù)的字串，詞與詞之間沒有任何標(biāo)志。而對于中文來說，如果不進(jìn)行詞語的有意義切分，句子將沒有任何的意義[1] 。分詞是中文信息處理的第一步，就目前來說，較為常用的中文分詞方法主要分為兩類：基于規(guī)則的方法和基于統(tǒng)計(jì)的方法[2]。基于規(guī)則的分詞方法的核心在于建立一個完備的詞典，然后通過該詞典對句子中的切分片段進(jìn)行匹配，以完成分詞過程。較常用的基于詞典的中文分詞方法有正向最大匹配法、逆向最大匹配法和最佳匹配法；基于統(tǒng)計(jì)的分詞法的基本原理是對語料庫中相鄰字的組合頻度進(jìn)行統(tǒng)計(jì)，根據(jù)一定的頻度計(jì)算公式來決定字符串成為詞的可能性進(jìn)行分詞。字詞共現(xiàn)的頻度高低體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閥值時(shí)，便可認(rèn)為此字符串可能已經(jīng)構(gòu)成了一個詞[3-5]。這些方法有效地促進(jìn)了中文分詞研究的進(jìn)一步發(fā)展，但在實(shí)際應(yīng)用中仍然有很多因素影響著分詞的準(zhǔn)確率，其中較常見的就是分詞的歧義問題。
   本文建立了一個中文分詞的模型來減少中文分詞中的歧義問題，以提高分詞的準(zhǔn)確率。該模型基于正向最大匹配法和逆向最大匹配法來完成分詞過程，通過對兩種分詞方法產(chǎn)生的分詞序列進(jìn)行比較分析，最終通過基于罰分機(jī)制的歧義消除算法選出正確的序列來完成分詞。
1 最大匹配法與交集型歧義
   最大匹配法有正向最大匹配法MM法(Maximum Matching Method)和逆向最大匹配法RMM法(Reverse Maximum Matching Method)兩種基本方法。它們具有原理簡單、時(shí)間復(fù)雜度低、易于實(shí)現(xiàn)等優(yōu)點(diǎn)，但是不足之處在于往往不能識別出切分歧義而導(dǎo)致文本切分錯誤[6]。而中文語言環(huán)境中歧義的存在是一個很普遍的現(xiàn)象，據(jù)統(tǒng)計(jì)，MM法對于文本的錯誤切分率為1/169，RMM法對于文本的錯誤切分率為1/245[7]。
   導(dǎo)致分詞錯誤的切分歧義主要有組合型歧義和交集型歧義兩種。在所有的歧義現(xiàn)象中，普通的交集型歧義現(xiàn)象所占的比例為85%以上[8]，所以交集型歧義在中文文本中是極為常見的。以文本“他的確切地址在這兒”為例，通過MM法進(jìn)行切分的結(jié)果為“他/的確/切/地址/在/這兒”，用RMM法得到的結(jié)果為“他/的/確切/地址/在/這兒”，可見兩種方法得到了不一樣的分詞結(jié)果，而有差別的“的確切”部分存在的歧義就是交集型歧義。
2 交集型歧義消除模型
2.1 歧義分詞
   歧義消除的過程通常是與分詞結(jié)合在一起的，對于中文文本來說，如果存在歧義，分別通過MM法和RMM法所得到分詞結(jié)果是一樣的，反之則不一樣。對于存在交集型歧義的文本，交集型歧義消除模型首先需要將文本用MM法和RMM法分別進(jìn)行切分以得到兩個不同的切分結(jié)果。除此之外還可以通過其他的分詞方法得到更多的切分結(jié)果，但實(shí)驗(yàn)證明MM法和RMM法的結(jié)合分詞能夠識別出絕大多數(shù)的交集型歧義，基于此點(diǎn)以及效率上的考慮，本文的模型中只保留使用MM法和RMM法兩種切分方法來進(jìn)行對比分析。
    以文本“他明白天為什么下雨”為例，可以通過MM法和RMM法分別得到結(jié)果(1)和結(jié)果(2)：
   結(jié)果（1）：他/明白/天/為什么/下雨
   結(jié)果（2）：他/明/白天/為什么/下雨
2.2 不單獨(dú)成詞語素表
   在本文所研究的交集型歧義消除模型中還需要用到一個不單獨(dú)成詞語素表。該表包含了一些在中文語境中單獨(dú)出現(xiàn)通常沒有意義的一些字，比如“第”，當(dāng)“第”單獨(dú)出現(xiàn)時(shí)基本上沒有任何意義，但是“第”通過與其他字的組合卻能具有很多不同的意義，例如“及第”，“第一”等。在交集型歧義消除模型中，不單獨(dú)成詞語素表所包含的不單獨(dú)成詞的語素完備性對分詞的模型在實(shí)際應(yīng)用當(dāng)中的文本切分準(zhǔn)確性是緊密聯(lián)系在一起的，語素表完備性越高則文本切分越準(zhǔn)確,反之則越不準(zhǔn)確。
2.3 消歧算法
   交集型歧義消除模型中所使用的用來確保能夠消除歧義的算法主要原理是通過引入針對切分結(jié)果賦予權(quán)值，然后對權(quán)值進(jìn)行統(tǒng)計(jì)的方法來進(jìn)行歧義消除的。
   定義：ABC為文本，A、B、C均為切分單元，即ABC可被切為A/B/C，A、B、C分別被賦予初始權(quán)值R(A)=R(B)=R(C)=1。
   現(xiàn)假設(shè)切分結(jié)果“A/B/C”中只有切分單元B屬于2.2節(jié)所構(gòu)建的不單獨(dú)成詞語素表，則切分單元B的權(quán)值會增加，即R(B)=2。
   然后對切分結(jié)果“A/B/C”的權(quán)值進(jìn)行統(tǒng)計(jì)，R(A)+R(B)+R(C)=1+2+1=4，通過不同的方法可以得到不同的切分結(jié)果,不同的切分結(jié)果的權(quán)值統(tǒng)計(jì)也會有區(qū)別。交集型歧義消除模型會將各個結(jié)果的權(quán)值統(tǒng)計(jì)進(jìn)行比較分析,選出統(tǒng)計(jì)值較小的一個為消除歧義后的切分結(jié)果。
     對于文中2.1節(jié)分別通過MM法和RMM法獲得的結(jié)果(1)和結(jié)果(2)，分別對切分單元賦予初始權(quán)值：
　結(jié)果(1)：R(他)=R(明白)=R(天)=R(為什么)=R(下雨)=1；
　結(jié)果(2)：R(他)=R(明)=R(白天)=R(為什么)=R(下雨)=1；
　通過將結(jié)果(1)和結(jié)果(2)與不單獨(dú)成詞語素表進(jìn)行匹配，可以判斷結(jié)果(2)中的“明”字屬于不單獨(dú)成詞語素，即R(明)=2，通過結(jié)果權(quán)值統(tǒng)計(jì)：
　結(jié)果(1)：R(他)+R(明白)+R(天)+R(為什么)+R(下雨)=1+1+1+1+1=5；
　結(jié)果(2)：R(他)+R(明)+R(白天)+R(為什么)+R(下雨)=1+2+1+1+1=6；
　然后通過對結(jié)果進(jìn)行比較，交集型歧義消除模型選取權(quán)值統(tǒng)計(jì)較小的結(jié)果(1)為消歧后的正確結(jié)果，同時(shí)該結(jié)果也完全符合中文語境下的正確的表達(dá)意義。
2.4 模型示意圖
　通過以上的分析描述，交集型歧義消除模型消歧的過程主要分為三個步驟：發(fā)現(xiàn)歧義、分析歧義、消除歧義。發(fā)現(xiàn)歧義是通過MM法和RMM法對文本進(jìn)行切分對比來識別歧義的存在；分析歧義的過程是以不單獨(dú)成詞語素表為基礎(chǔ)，通過對文本切分單元進(jìn)行權(quán)值賦予與統(tǒng)計(jì)來完成的；最后的消除歧義步驟則是對分析歧義的結(jié)果進(jìn)行對比,剔除切分錯誤文本來消除歧義。圖1是交集型歧義消除的示意圖。

3 實(shí)驗(yàn)及結(jié)果
     對于中文分詞來說,分詞的高效性和準(zhǔn)確性是極其重要的。在相同的條件下，更準(zhǔn)確、更高效的分詞方法就意味著更好的分詞性能以及更快的分詞速度。
   (1) 效率分析
     根據(jù)本文中的分詞策略，對于一個中文句子來說，分別用正向最大匹配法和逆向最大匹配法得到兩個分詞結(jié)果序列，然后通過不單獨(dú)成詞語素表來對兩個結(jié)果序列進(jìn)行分析，整個分析過程不涉及到其他的分詞方法。而正向最大匹配法和逆向最大匹配法基于其實(shí)現(xiàn)原理分詞效果是非常理想的，在所有的中文分詞系統(tǒng)中基本上都可以找到這兩種方法的身影，所以本文中的分詞過程基于正向最大匹配法和逆向最大匹配法這兩種基本方法，然后再結(jié)合不單獨(dú)成詞語素表，使分詞的效率得到了保證。
   (2) 準(zhǔn)確性分析
在中文自然語言處理領(lǐng)域，正向最大匹配法和逆向最大匹配法是兩個最基本的分詞方法，不幸的是這兩種方法都不能很好地解決中文語言環(huán)境中的分詞歧義問題。因此，針對于這一系列因素，本文中提到的交集型歧義消除模型利用對切分結(jié)果進(jìn)行基于不單獨(dú)成詞語素表的權(quán)值統(tǒng)計(jì)來選出相對權(quán)值較小的切分結(jié)果，進(jìn)而保證中文分詞中的交集型歧義的發(fā)現(xiàn)與消除。
   (3) 實(shí)驗(yàn)結(jié)果分析
基于以上的規(guī)則，本文中開發(fā)了一個交集型歧義消除系統(tǒng)，其中不單獨(dú)成詞語素表包含了4 871個不單獨(dú)成詞語素,同時(shí)從2012年的人民日報(bào)中選取了6篇文章作為實(shí)驗(yàn)的原始語料庫。通過用交集型歧義消除模型獲得的消歧結(jié)果與單獨(dú)使用正向最大匹配法和逆向最大匹配法所得到的結(jié)果進(jìn)行對比來分析系統(tǒng)的效率和準(zhǔn)確度。
    表1和表2分別為單獨(dú)使用MM法和RMM法進(jìn)行文本切分時(shí)的切分準(zhǔn)確率。表3為采用交集型歧義消除模型進(jìn)行切分的準(zhǔn)確率，從中可以看到交集型歧義消除模型針對于同一語料庫的文本切分準(zhǔn)確率最高。

圖2為MM法、RMM法和交集型歧義消除模型切分準(zhǔn)確率的對比。從圖2中可以看出，交集型歧義消除模型對文本切分中的交集型歧義消除準(zhǔn)確率比單獨(dú)使用正向最大匹配法和逆向最大匹配法的切分準(zhǔn)確率要高。

    圖3是交集型歧義消除模型與MM法、RMM法在文本切分效率上的對比。從圖3中可以看出，交集型歧義消除模型雖然較MM法和RMM法額外使用了不單獨(dú)成詞語素表，但在效率上并沒有明顯的降低。
    通過以上的實(shí)驗(yàn)可以看出，交集型歧義消除模型可以很好地發(fā)現(xiàn)并解決中文語言環(huán)境下的交集型歧義問題，并且具有較高的效率和準(zhǔn)確率。根據(jù)實(shí)驗(yàn)數(shù)據(jù)可知，本系統(tǒng)的分詞結(jié)果準(zhǔn)確率比單純使用正向最大匹配法和逆向最大匹配法高得多；另一方面，由于使用了不單獨(dú)成詞語素表，本文算法的分詞效率較原始的正向最大匹配法和逆向最大匹配法有略微的降低。但結(jié)合效率和準(zhǔn)確性來進(jìn)行整體分析，可以看到交集型歧義消除模型對于解決中文分詞中的交集型歧義是非常有價(jià)值的。
   本文基于不單獨(dú)成詞語素表及常用的分詞方法提供了一個中文分詞中的交集型歧義的解決方案。實(shí)驗(yàn)結(jié)果表明，交集型歧義消除模型能夠很好地解決中文分詞中的交集型歧義問題，希望本文的研究成果能夠?qū)χ形姆衷~歧義消除領(lǐng)域的發(fā)展起到一定的推動作用。
參考文獻(xiàn)
[1] 孫茂松，鄒嘉彥. 漢語自動分詞研究評述[J]. 當(dāng)代語言學(xué)，2001(1):22-32.
[2] 麥范金，王挺.基于雙向最大匹配和HMM 的分詞消歧模型[J].現(xiàn)代圖書情報(bào)技術(shù),2008(8):37-41.
[3] 施彤年，盧忠良，榮融，等.多類多標(biāo)簽漢語文本自動分類的研究[J]. 情報(bào)學(xué)報(bào), 2003,22(3):306-309.
[4] 鄒海山，吳勇，吳月珠，等.中文搜索引擎中的中文信息處理技術(shù)[J]. 計(jì)算機(jī)應(yīng)用研究, 2000(12).
[5] 趙偉，戴新宇，尹存燕，等.一種規(guī)則與統(tǒng)計(jì)相結(jié)合的漢語分詞方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2004(3):23-25.
[6] 劉穎．計(jì)算語言學(xué)[M]．北京：清華大學(xué)出版社，2002．
[7] 梁南元．書面漢語自動分詞系統(tǒng)——CDWS[J]．中文信息學(xué)報(bào)，1987(2)：44-52．
[8] 一種Hash高速分詞算法[J].解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版)，2004,5(2):40-42.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容