摘 要: 為非結(jié)構(gòu)化的Web頁(yè)面標(biāo)注事件語(yǔ)義信息,,可以豐富Web頁(yè)面結(jié)構(gòu)化信息,加深對(duì)Web頁(yè)面內(nèi)容的理解,。選取新聞?lì)愋偷腤eb頁(yè)面,,遵照事件語(yǔ)義標(biāo)注規(guī)范對(duì)選取的未標(biāo)注Web頁(yè)面進(jìn)行事件語(yǔ)義標(biāo)注。對(duì)標(biāo)注了事件語(yǔ)義的語(yǔ)料實(shí)例進(jìn)行抽象得到事件語(yǔ)義結(jié)構(gòu)模式,;利用層次聚類算法,,將所得的事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行聚類分析,得到不同類別的事件語(yǔ)義模式,。實(shí)驗(yàn)結(jié)果表明,,在已標(biāo)注事件語(yǔ)義的語(yǔ)料實(shí)例的基礎(chǔ)上,利用聚類算法進(jìn)行分析,,獲取各種類別的事件語(yǔ)義模式,,對(duì)Web頁(yè)面內(nèi)容分析與理解是非常必要的。
關(guān)鍵詞: 事件語(yǔ)義角色,;事件語(yǔ)義結(jié)構(gòu)模式,;聚類分析
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文本數(shù)據(jù)迅猛增加,。要實(shí)現(xiàn)人機(jī)間相互理解,,就意味著首先要讓計(jì)算機(jī)理解自然語(yǔ)言語(yǔ)義。而自然語(yǔ)言語(yǔ)義一般又是由底層的事件語(yǔ)義組成的,,因而基于已標(biāo)注事件語(yǔ)義的語(yǔ)言語(yǔ)料,,進(jìn)行事件語(yǔ)義結(jié)構(gòu)模式獲取是非常必要的。近年來(lái),,事件研究在自然語(yǔ)言處理領(lǐng)域成為了熱點(diǎn),,事件在很多語(yǔ)義計(jì)算理論和自動(dòng)文摘、問(wèn)答系統(tǒng)等應(yīng)用領(lǐng)域中都很重要,,因此,,使用聚類分析獲取事件語(yǔ)義結(jié)構(gòu)模式是值得探索的。
語(yǔ)料實(shí)例指為語(yǔ)言研究收集的,、用電子形式保存的語(yǔ)言材料,,由自然出現(xiàn)的書面語(yǔ)或口語(yǔ)的樣本匯集而成,用來(lái)代表特定的語(yǔ)言或語(yǔ)言變體,。經(jīng)過(guò)科學(xué)選材和標(biāo)注,,具有適當(dāng)規(guī)模的語(yǔ)料庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用情況。語(yǔ)料實(shí)例已經(jīng)成為語(yǔ)言學(xué)理論研究,、應(yīng)用研究和語(yǔ)言工程不可缺少的基礎(chǔ)資源,。
事件語(yǔ)義結(jié)構(gòu)是語(yǔ)法和語(yǔ)義界面的結(jié)合。它充分考慮了事件的時(shí)間結(jié)構(gòu)特性和內(nèi)部構(gòu)成關(guān)系對(duì)謂詞句法表現(xiàn)的影響,有效地克服了以動(dòng)詞為核心的投射在句法解釋方面的理論缺陷,。
聚類分析是數(shù)據(jù)挖掘的核心部分,。所謂聚類,就是將物理或抽象對(duì)象的集合組成由類似的對(duì)象組成的多個(gè)類或簇的過(guò)程,。聚類生成的簇是一組數(shù)據(jù)對(duì)象的集合,,同一簇中的對(duì)象應(yīng)盡可能相似,,而不同簇中的對(duì)象盡可能相異,。聚類是在預(yù)先不知道目標(biāo)數(shù)據(jù)到底有多少類的情況下,希望將所有的記錄組成不同的類或者說(shuō)“聚類”,。
目前國(guó)內(nèi)外對(duì)這方面的研究還在不斷深入,。JAMES提出了事件結(jié)構(gòu)的配價(jià)理論,,并從詞匯語(yǔ)義學(xué)的角度分析了事件結(jié)構(gòu)中的語(yǔ)義角色[1];CHANG基于事件謂詞對(duì)事件結(jié)構(gòu)內(nèi)部的論元連接原則進(jìn)行了討論[2],;JOOST在通過(guò)情景語(yǔ)義分析事件路徑的基礎(chǔ)上,提出了事件輪廓與軌跡的概念[3],;ELENA從事件分類,、語(yǔ)義角色、事體以及因果角度對(duì)事件結(jié)構(gòu)進(jìn)行了分析[4-5],。這些研究工作都是以事件謂語(yǔ)為中心,,采用句法分析方法得到的。袁毓林等從認(rèn)知角度研究了漢語(yǔ)的論元結(jié)構(gòu)和描述框架,,并進(jìn)行了真實(shí)文本語(yǔ)義標(biāo)注的實(shí)踐[6-7],;吳平對(duì)特殊句式的事件語(yǔ)義結(jié)構(gòu)進(jìn)行了分析與研究[8-10];李世奇等提出了一種基于特征組合和支持向量機(jī)的中文語(yǔ)義角色標(biāo)注方法[11],;郝秀蘭等提出了事件類定義角色語(yǔ)義表方法,,將HowNet的事件類與語(yǔ)義解釋聯(lián)接起來(lái)[12]。
本文基于事件語(yǔ)義標(biāo)注規(guī)范,,使用事件語(yǔ)義標(biāo)注工具,,對(duì)Web上收集的未標(biāo)注文本語(yǔ)料,進(jìn)行嘗試性標(biāo)注和聚類分析,,進(jìn)而得到更加抽象的事件語(yǔ)義結(jié)構(gòu)模式,。
1 系統(tǒng)流程
文本選取新聞?lì)愋偷腤eb頁(yè)面,遵照事件語(yǔ)義標(biāo)注規(guī)范對(duì)選取的未標(biāo)注Web頁(yè)面進(jìn)行事件語(yǔ)義標(biāo)注,。對(duì)標(biāo)注了事件語(yǔ)義的語(yǔ)料實(shí)例進(jìn)行抽象得到事件語(yǔ)義結(jié)構(gòu)模式,;利用層次聚類算法,將所得到的事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行聚類分析,,得到不同類別的事件語(yǔ)義模式,。整個(gè)系統(tǒng)的處理流程[9-10]如圖1所示。
其中,對(duì)于未處理的Web頁(yè)面,,頁(yè)面預(yù)處理的主要功能是將未標(biāo)注的Web頁(yè)面中涉及到的事件進(jìn)行拆分,,如例1所示。
例1 原句:2010年樸文垚在日本首奪世界冠軍,,榮升中國(guó)第30位九段圍棋手,。
拆分后事件E1:2010年樸文垚在日本首奪世界冠軍
拆分后事件E2:榮升中國(guó)第30位九段圍棋手
對(duì)選取的Web頁(yè)面進(jìn)行處理將獲得事件集合,遵照事件語(yǔ)義標(biāo)注規(guī)范對(duì)預(yù)處理后的Web頁(yè)面進(jìn)行事件語(yǔ)義標(biāo)注,。標(biāo)注結(jié)果的語(yǔ)料實(shí)例如例2所示,。
例2 標(biāo)注后事件E1:<EVENT id="E1">[2010年 T][樸文垚 A]在[日本 L][首 Ra][奪 EP][世界冠軍 P] </EVENT>
標(biāo)注后事件E2:<EVENT id="E2">[榮升 EP][中國(guó) Ra][第30位 Ra][九段圍棋手 Re] </EVENT>
對(duì)此標(biāo)注了事件語(yǔ)義的語(yǔ)料實(shí)例進(jìn)行抽象得到事件語(yǔ)義結(jié)構(gòu)模式,如事件E1抽象后的結(jié)果為“T,,A,,L,Ra,,EP,,P”。
其中A表示施事,,P表示受事,,T表示時(shí)間,EP表示謂詞,,L表示地點(diǎn)等,。通過(guò)分析,對(duì)抽取的某個(gè)事件進(jìn)行人工的事件語(yǔ)義標(biāo)注,,得到該事件的語(yǔ)義結(jié)構(gòu)模式,。最后,將大量的事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行聚類即可得到不同類別的事件語(yǔ)義結(jié)構(gòu)模式集合,。
2 聚類算法
聚類[4]是將數(shù)據(jù)分類到不同的類或者簇的一個(gè)過(guò)程,,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性,。聚類是搜索簇的無(wú)監(jiān)督學(xué)習(xí)過(guò)程,。與分類具有類別標(biāo)記不同,無(wú)監(jiān)督學(xué)習(xí)不依賴預(yù)先定義的類或帶類標(biāo)記的訓(xùn)練實(shí)例,,需要由聚類學(xué)習(xí)算法自動(dòng)確定標(biāo)記,。聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,,集中對(duì)特定的聚簇集合作進(jìn)一步的分析,。
層次聚類方法通過(guò)將數(shù)據(jù)組織為若干組并形成樹(shù)形結(jié)構(gòu)來(lái)進(jìn)行聚類,可以分為自上而下和自下而上兩種,。自上而下策略是將所有對(duì)象置于一個(gè)類中,然后漸漸分為越來(lái)越小的類,,直到每個(gè)對(duì)象自成一類,或者達(dá)到了某個(gè)終結(jié)條件,;自下而上策略是最初將每個(gè)對(duì)象(自身)作為一個(gè)基本類,然后將這些基本類進(jìn)行聚合以構(gòu)造越來(lái)越大的類,,直到所有對(duì)象均聚合為一個(gè)類,,或滿足一定終止條件為止。自上而下和自下而上基本思想如圖2所示,。
本文采用自下而上的層次聚類算法對(duì)得到的事件模式集合進(jìn)行處理,。層次聚類算法的基本思想是:初始狀態(tài)下屬于數(shù)據(jù)集的每個(gè)數(shù)據(jù)對(duì)象自成一類,它們的合并代價(jià)初始值為0,;然后,,假定任意兩個(gè)簇合并,利用離差平方和的增量來(lái)度量?jī)蓚€(gè)簇合并后所需要付出的代價(jià),,在計(jì)算完所有的兩個(gè)簇合并的代價(jià)后,,選擇合并代價(jià)最小的兩個(gè)簇進(jìn)行合并;算法反復(fù)迭代,,直到所有的簇合并成一個(gè)簇或者達(dá)到預(yù)先設(shè)定的簇的數(shù)目k為止,。Ward層次聚類算法通常采用離差平方和函數(shù)做為目標(biāo)函數(shù),如式(1)和式(2)所示,。
其中,,St為合并的兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式中所有語(yǔ)義角色成分的離差平方和,S為各個(gè)事件語(yǔ)義結(jié)構(gòu)模式中所有語(yǔ)義角色成分的離差平方和的總和,,k為預(yù)先設(shè)定的需要最終凝聚成的事件語(yǔ)義結(jié)構(gòu)模式的數(shù)目。假設(shè)兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式要合并成一個(gè)事件語(yǔ)義結(jié)構(gòu)模式At,,Nt為合并后的事件語(yǔ)義結(jié)構(gòu)模式的語(yǔ)義角色成分的個(gè)數(shù),,xit為At中的第i個(gè)語(yǔ)義角色成分,xt為At中所有語(yǔ)義角色成分的平均值,。
算法描述如下:
(1)設(shè)定最終要凝聚的事件語(yǔ)義結(jié)構(gòu)模式的數(shù)目k,;
(2)根據(jù)式(1)計(jì)算兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式之間的距離,建立鄰近度矩陣,;
(3)根據(jù)之前的計(jì)算結(jié)果,,合并兩個(gè)距離最近的事件語(yǔ)義結(jié)構(gòu)模式,生成新的事件語(yǔ)義結(jié)構(gòu)模式At,;
(4)更新鄰近度矩陣,,反映出新的事件語(yǔ)義結(jié)構(gòu)模式At與原來(lái)的事件語(yǔ)義結(jié)構(gòu)模式之間的鄰近性;
(5)直到事件語(yǔ)義結(jié)構(gòu)模式的數(shù)目等于或者小于預(yù)先設(shè)定的數(shù)目k為止,,否則轉(zhuǎn)向步驟(2),。
3 實(shí)驗(yàn)結(jié)果與分析
在網(wǎng)絡(luò)上選取新聞?lì)愋偷腤eb頁(yè)面,通過(guò)對(duì)30多篇Web頁(yè)面語(yǔ)料的標(biāo)注和分析,,得出5 000個(gè)事件語(yǔ)義結(jié)構(gòu)基本模式,。將不同的基本事件模式進(jìn)行初步整理之后,,得出如圖3所示的基本事件模式分布柱狀圖。
從圖3中得出:最多的兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式是“A,,EP,,P”和“EP,P”,,即“施事,,謂詞,受事”和“謂詞,,受事”,,這主要是因?yàn)樵诂F(xiàn)實(shí)生活中描寫主體成分動(dòng)作的情況非常普遍。而這兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式的差別就在于后者缺少施事,,也就是通常所謂的主體語(yǔ)義角色成分,。在交流雙方都明確知道的前提下,通常會(huì)省略掉“施事”,。因此,,缺少施事這一語(yǔ)義角色成分和補(bǔ)全這個(gè)語(yǔ)義角色成分的區(qū)別不大。
當(dāng)然存在一些事件語(yǔ)義結(jié)構(gòu)模式出現(xiàn)的頻率很低,,如“A,,T,Rn,,EP,,P”。這一類的事件語(yǔ)義結(jié)構(gòu)模式,,即“施事,,時(shí)間,原因,,謂詞,,受事”,除了包括事件語(yǔ)義結(jié)構(gòu)模式中最重要的主體,、謂詞,、客體成分,還涵蓋了憑借成分,、環(huán)境成分這些附加的事件成分,,使得這一類的事件語(yǔ)義結(jié)構(gòu)模式的語(yǔ)義角色成分比較多。事件語(yǔ)義角色成分越多,,事件語(yǔ)義結(jié)構(gòu)模式的限定也就越多,,所表達(dá)的含義就越明確,而通常在使用時(shí)會(huì)省去時(shí)間語(yǔ)義角色成分,,所以這一類的事件語(yǔ)義結(jié)構(gòu)模式就很少見(jiàn)了,。
對(duì)一些看似是兩個(gè)不同的事件語(yǔ)義結(jié)構(gòu)模式,,而實(shí)際上表達(dá)了相同含義,模式相似度達(dá)到50%的兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行合并,,合并之后事件模式的分布直方圖如圖4所示,。
例3 事件語(yǔ)義結(jié)構(gòu)模式M:“A,EP,,P”,。事件語(yǔ)義結(jié)構(gòu)模式N:“P,EP,,A”,。
例3中M包含的3個(gè)語(yǔ)義角色成分與N中包含的語(yǔ)義角色成分是完全相同的,唯一不同點(diǎn)在于語(yǔ)義角色的排列順序,。在漢語(yǔ)中,,由于對(duì)句子進(jìn)行了倒裝處理或者是將某些語(yǔ)義角色成分前置改變事件語(yǔ)義角色成分的順序,但是這種情況并沒(méi)有增加或減少事件語(yǔ)義結(jié)構(gòu)模式中語(yǔ)義角色成分的數(shù)目,,更沒(méi)有改變?cè)惺录暮x,。如例4所示。
例4 (1)我被老師夸獎(jiǎng)了,。(2)老師夸獎(jiǎng)了我,。
在例4中,句(1)得到的事件語(yǔ)義結(jié)構(gòu)模式是“P,,A,,EP”,而句(2)得到的事件語(yǔ)義結(jié)構(gòu)是“A,,EP,,P”,但句(1)和句(2)的句子成分和句子所表達(dá)的客觀含義是一致的,,因此可以認(rèn)為這兩個(gè)句子是相同的。類似的情況還有很多,,如“EP,,P”與“P,EP”,、“Th,,EP,P”與“P,,EP,,Th”等。因此,,這樣的兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式是可以合并的,,也就是說(shuō),,這樣的兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式可以視為同一個(gè)事件語(yǔ)義結(jié)構(gòu)模式。
圖5是對(duì)不同的事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行聚類分析之后得到的分析柱狀圖,。根據(jù)某個(gè)語(yǔ)義角色成分在規(guī)定的語(yǔ)料范圍內(nèi)出現(xiàn)的頻率決定其加權(quán)值,。利用聚類算法對(duì)事件語(yǔ)義結(jié)構(gòu)模式相似度高的兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行合并,得到一個(gè)事件語(yǔ)義結(jié)構(gòu)模式,,經(jīng)過(guò)多次聚類將得出事件中最普遍的事件語(yǔ)義結(jié)構(gòu)模式集合,。
例如,事件語(yǔ)義結(jié)構(gòu)模式“A,,EP,,P”和事件語(yǔ)義結(jié)構(gòu)模式“A,Rn,,EP,,P”,其中“A,,Rn,,EP,P”中事件語(yǔ)義角色成分“原因(Rn)”相對(duì)于事件語(yǔ)義結(jié)構(gòu)模式“A,,EP,,P”這個(gè)整體所造成的影響是可忽略的。因此這兩個(gè)事件語(yǔ)義結(jié)構(gòu)模式在某種程度上達(dá)到了一致,。事件語(yǔ)義結(jié)構(gòu)模式中往往還含有一些對(duì)整體模式的影響可以被忽略的語(yǔ)義角色成分,,如“使用工具”、“環(huán)境成分”等,。這些語(yǔ)義角色成分對(duì)事件語(yǔ)義結(jié)構(gòu)模式中那些主要的成分進(jìn)行修飾或者補(bǔ)充說(shuō)明,。例如事件語(yǔ)義結(jié)構(gòu)模式“A,Rn”中的“(原因)Rn”語(yǔ)義角色成分,,可以適當(dāng)忽略該成分對(duì)整體事件語(yǔ)義結(jié)構(gòu)模式的影響,,將其與事件語(yǔ)義結(jié)構(gòu)模式“A,EP,,P”進(jìn)行合并操作,。
本文基于事件語(yǔ)義標(biāo)注規(guī)范,使用事件語(yǔ)義標(biāo)注工具,,對(duì)從Web上收集的未標(biāo)注文本語(yǔ)料,,進(jìn)行嘗試性標(biāo)注和聚類分析,進(jìn)而得到更抽象的事件語(yǔ)義結(jié)構(gòu)模式,。實(shí)驗(yàn)結(jié)果表明,,在已標(biāo)注事件語(yǔ)義的語(yǔ)料實(shí)例基礎(chǔ)上,利用聚類算法進(jìn)行分析,,獲取各種類別的事件語(yǔ)義模式,,對(duì)Web頁(yè)面內(nèi)容分析與理解是非常必要的,。本文利用上述的聚類算法,對(duì)獲得的事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行分析,,雖然實(shí)驗(yàn)結(jié)果還存在一定的問(wèn)題,,如聚類算法不夠完善等,但是實(shí)驗(yàn)結(jié)果說(shuō)明對(duì)事件語(yǔ)義結(jié)構(gòu)模式進(jìn)行研究還是很有意義的,。
參考文獻(xiàn)
[1] JAMES P.The syntax of event structure[J].Journal of Cognition,,1991,41:47-81.
[2] CHANG Jung-hsing.Event structure and argument linking in Chinese[J].Language And Linguistics,,2003,,4(2):317-351.
[3] JOOST Z.Event shape:paths in the semantics of verbs[EB/OL].Ms.Radboud University Nijmegen & Utrecht University.http://www.let.uu.nl/users/Joost.Zwarts/personal/EventShape.pdf,2006.
[4] ELENA P.Event structure in russian:semantic roles,,aspect,,causation[J].Journal of The Prague Bulletin of Mathematical Linguistics,2009(92):5-20.
[5] ELENA P.Event structure:taxonomy,,semantic roles,,aspect,causation[J].Journal of Automatic Documentation and Mathematical Linguistics,,2009,,43(3):196-202.
[6] 袁毓林.基于認(rèn)知的漢語(yǔ)計(jì)算語(yǔ)言學(xué)研究[M].北京:北京大學(xué)出版社,2008.
[7] 袁毓林.用動(dòng)詞的論元結(jié)構(gòu)跟事件模板相匹配——一種由動(dòng)詞驅(qū)動(dòng)的信息抽取方法[J].中文信息學(xué)報(bào),,2005,,19(5):37-43.
[8] 吳平.漢語(yǔ)特殊句式的事件語(yǔ)義分析與計(jì)算(第1版)[M]. 北京:中國(guó)社會(huì)科學(xué)出版社,2009:67-85.
[9] 吳平.論元控制謂詞與非論元控制謂詞的邏輯語(yǔ)義分析與計(jì)算[J].外語(yǔ)與外語(yǔ)教學(xué),,2006(3):5-10.
[10] 吳平.“使”字句事件結(jié)構(gòu)的語(yǔ)義分析[J].浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),,2009,39(3):157-164.
[11] 李世奇,,趙鐵軍,,李晗靜,等.基于特征組合的中文語(yǔ)義角色標(biāo)注[J].軟件學(xué)報(bào),,2011,,22(2):222-232.
[12] 郝秀蘭,楊爾弘,,舒鑫柱.基于HowNet的事件角色語(yǔ)義特征提取[J].中文信息學(xué)報(bào),,2001,,15(5):26-32.