摘 要: 為了能夠充分地挖掘,、分享和重復(fù)利用本體中的知識,提出一種基于映射關(guān)系的分簇方法,,先通過已存在的高質(zhì)量的本體映射關(guān)系,,對原本體和目標(biāo)本體分別進行分簇,再挖掘出實體間潛在的關(guān)系,。通過實驗證明,,采用改進的映射方法提高了本體映射的質(zhì)量,采用具有完善實體關(guān)系的映射結(jié)果提高了檢索系統(tǒng)的準(zhǔn)確率和查全率,。
關(guān)鍵詞: 分簇,;本體映射;實體關(guān)系發(fā)現(xiàn)
隨著越來越多的本體被開發(fā),,以及持續(xù)性和高效性的知識訪問需求不斷提高,,本體知識的充分挖掘、分享和重復(fù)利用已成為本體庫優(yōu)化的重要研究內(nèi)容,。由于本體的獨立開發(fā)性,,導(dǎo)致在相同或者重疊領(lǐng)域本體中實體的定義和實體間的關(guān)系有所不同,即本體間的互操作性較低,。本體映射已成為當(dāng)今本體研究中的熱點,,它是解決并促進本體間互操作性問題的重要方法。但是要更充分地挖掘,、分享和重復(fù)利用本體知識,,該方法還需要不斷地改進和優(yōu)化。本體映射過程中存在以下兩個問題:
(1)基于特征低相似性進行本體映射的質(zhì)量不高,。目前對語義,、詞匯和結(jié)構(gòu)特性相似度較高的本體進行映射,在一定范圍內(nèi)其映射質(zhì)量是較高的,但是大部分本體的建模粒度都不相同,,導(dǎo)致本體中實體表示的詞匯和結(jié)構(gòu)特性都不相同,,即本體中實體的特征相似度較低,,所以采用基于詞匯和結(jié)構(gòu)特征的相似性進行本體映射的質(zhì)量不高,。
(2)映射結(jié)果中實體關(guān)系不夠完善。目前大量本體映射方法在建立了本體映射關(guān)系后不會對實體關(guān)系進行分析和處理,,導(dǎo)致本體映射結(jié)果的實體關(guān)系不夠完善,,應(yīng)用質(zhì)量較低。
1 相關(guān)工作
目前大多數(shù)的本體映射方法(例如ASMOV[1-2]和RiMOM[3]等)是基于詞匯和結(jié)構(gòu)特征的相似性進行本體映射的,,在一定范圍內(nèi)映射質(zhì)量較高,,但當(dāng)兩個本體的建模粒度不相同時,采用基于這些特征相似性進行本體映射的質(zhì)量就較低,。例如,,石灰在原本體中包括氧化鈣和氫氧化鈣,在目標(biāo)本體中包括煅燒石灰,、熟石灰,、石灰乳和消石灰,這兩個本體中用不同的術(shù)語描述相同的信息石灰,,采用傳統(tǒng)的本體映射方法測量得到的映射準(zhǔn)確度低于1%,,本體映射時就無法建立實體間高質(zhì)量的映射關(guān)系。為解決這一問題,,可以重復(fù)利用已存在的高質(zhì)量本體映射關(guān)系,,提高本體映射的質(zhì)量。調(diào)查本體映射關(guān)系重復(fù)利用的目的在于利用多對一或者一對多的實體映射關(guān)系實現(xiàn)分簇的過程,,從而獲取準(zhǔn)確的匹配信息,。
本文以最新的ASMOV映射系統(tǒng)[4]為基礎(chǔ)。它是一種半自動化本體映射過程,,聯(lián)合了元素級和結(jié)構(gòu)級的相似度測量,,使用本體中四種不同特征相似度的加權(quán)平均值作為實體間的總相似度,采用了語義驗證要求遵守的規(guī)則來判斷是否建立映射鏈接的技術(shù),,以確保建立的映射鏈接不包含語義矛盾,,但是其映射匹配的準(zhǔn)確率和查全率還有待提高。針對本體映射過程中存在的問題以及ASMOV在映射匹配質(zhì)量方面的不足,,提出了一種基于分簇的本體映射方法OMMC(Ontology Mapping Method based on Clumping),,該方法有助于建立本體間高質(zhì)量的映射關(guān)系,通過高質(zhì)量的映射關(guān)系再進行實體間關(guān)系的再發(fā)現(xiàn),,從而提高了本體映射的應(yīng)用質(zhì)量,。
2 基于分簇的本體映射
基于分簇的本體映射的流程是:先將原本體和目標(biāo)本體分別進行分簇,再將分簇后的原本體和目標(biāo)本體應(yīng)用于ASMOV映射系統(tǒng)中的本體映射,主要包括分簇和建立映射鏈接兩個模塊,。
2.1 分簇
定義1 簇,。利用已存在的高質(zhì)量的本體映射關(guān)系,在多對一的映射場景下,,一個本體O中的多個實體和另一個本體中的相同實體匹配,,則將這多個實體看做是一個簇,本體O可劃分為多個簇,。
對原本體和目標(biāo)本體分別進行分簇,,原本體和目標(biāo)本體都被劃分為多個簇,得到一個原本體的劃分和一個目標(biāo)本體的劃分,。以農(nóng)業(yè)領(lǐng)域的本體S和本體T為例,,原本體S是PWP(Prism Web Pages)定義的一個中文本體,包含1 028個實體,,S和本體PWP1已存在本體映射關(guān)系,,通過它們之間的映射關(guān)系進行分簇,可將S劃分為196個簇,,S中一個簇的映射關(guān)系如表1所示,;目標(biāo)本體T是FAO(Food and Agriculture Organization)定義的一個中文本體,包含2 420個實體,,T和本體FAO1已存在本體映射關(guān)系,,通過它們之間的映射關(guān)系進行分簇,將T劃分為357個簇,,T中一個簇的映射關(guān)系如表2所示,。
2.2 建立映射鏈接
對原本體S和目標(biāo)本體T分別進行分簇,得到了兩個穩(wěn)定性劃分PS和PT后,,直接進入本體映射匹配階段,,在ASMOV系統(tǒng)中,對本體S和目標(biāo)本體T采用OMMC方法進行映射的過程如圖1所示,。
本體映射的核心模塊是相似度計算,,改進的ASMOV映射過程在相似度計算時要優(yōu)先考慮在一個簇中的實
運行改進后的ASMOV系統(tǒng)步驟如下:
(1)數(shù)據(jù)準(zhǔn)備。準(zhǔn)備好已經(jīng)分簇的原本體和目標(biāo)本體,。
(2)預(yù)處理階段進行詞匯匹配,。利用一個詞庫來計算概念、屬性和個體的詞匯相似度,。
(3)進行相似度計算,。包括外部關(guān)系、內(nèi)部匹配和個體匹配相似度的計算,,并將計算結(jié)果放入相似度矩陣中,。
(4)從相似矩陣中提取兩個本體中相似度最高的匹配對實體集,,依據(jù)這些實體集找到對應(yīng)的簇,建立簇中實體間多對多的映射關(guān)系,,并放入預(yù)映射模塊中,。
(5)對預(yù)映射模塊中的映射關(guān)系集進行語義驗證,即通過一些已定義的規(guī)則進行驗證并修剪無效的映射關(guān)系,,且將連接無效映射關(guān)系的實體間相似度置零,。循環(huán)執(zhí)行步驟(3)~步驟(5),直到本體S或T中所有簇都執(zhí)行一遍迭代過程,。
(6)提取最終的本體映射關(guān)系,。
3 實體關(guān)系的再發(fā)現(xiàn)
在建立了高質(zhì)量的本體映射關(guān)系后,連接每一條映射關(guān)系的兩個實體間都可發(fā)現(xiàn)新的關(guān)系,,主要包括父類關(guān)系發(fā)現(xiàn)、子類關(guān)系發(fā)現(xiàn)和等價類關(guān)系發(fā)現(xiàn),。
規(guī)則1 父類關(guān)系發(fā)現(xiàn)是指若連接一條映射關(guān)系的兩個實體的父類不同,,那么這兩個實體的父類可以合并,同時對合并后的父類消除重復(fù),,最后這兩個實體得到了相同的新的父類集合,,依此類推應(yīng)用于每一條映射關(guān)系中。如圖2所示,,建立實體C4和實體E2的映射關(guān)系以后,,C4和E2的父類都為C1和E1,若C1與E1重復(fù),,那么去除重復(fù)后C4和E2的父類都為C1或者E1,。
規(guī)則2 子類關(guān)系發(fā)現(xiàn)是指若連接一條映射關(guān)系的兩個實體的子類不同,那么這兩個實體的子類可以合并,,同時對合并后的子類消除重復(fù),,最后這兩個實體得到了相同的新的子類集合,依此類推應(yīng)用于每一條映射關(guān)系中,。如圖3所示,,建立C4和E2的映射關(guān)系以后,C4和E2的子類都為C5,、C6,、C7和E4,若E4與C5,、C6和C7其中一個重復(fù),,那么去除重復(fù)后C4和E2的子類都為C5、C6和C7,。
在合并父類,、子類及等價類關(guān)系時,,以T為目標(biāo),且需互相說明彼此之間的關(guān)系,,如果發(fā)生沖突,,則調(diào)用以下沖突處理規(guī)則進行解決。
規(guī)則 4 類層次結(jié)構(gòu)沖突處理[6],。以目標(biāo)本體中類層次結(jié)構(gòu)為基準(zhǔn),,刪除原本體的沖突結(jié)構(gòu),保證關(guān)系合并中類層次結(jié)構(gòu)的完整性,。例如在本體S中的C2和C3是等價類,,在本體T中的E1是E2的父類,若C2和E1建立了映射關(guān)系,,C3和E2建立了映射關(guān)系,,則先合并E2,然后合并E1,,本體中C2和C3既是父子關(guān)系又是等價關(guān)系,,此時就存在類層次沖突問題,以本體T層次結(jié)構(gòu)為基準(zhǔn),,把C2和C3的等價類關(guān)系刪除,。
4 實驗評估
4.1 改進ASMOV前后映射質(zhì)量比較實驗
在ASMOV的測試場景中,逐步對本體S和本體T進行映射檢測,,獲取的參數(shù)包括標(biāo)準(zhǔn)配對數(shù)x,、配對總數(shù)量n和配對總數(shù)n中準(zhǔn)確的配對數(shù)r,通過獲取的參數(shù)值來計算匹配的準(zhǔn)確率P和查全率R,,其計算公式為P=r/n和R=r/x,。經(jīng)過多次測試改進前后的方法,證明采用OMMC方法得到的映射匹配質(zhì)量均明顯提高,,相對于傳統(tǒng)方法,,在相同條件下采用OMMC方法使得匹配的準(zhǔn)確率和查全率均提高了約0.2。比較結(jié)果如表3和圖5所示,。
4.2 關(guān)系再發(fā)現(xiàn)前后映射結(jié)果應(yīng)用的質(zhì)量比較實驗
本文提出的分簇方法是在已存在的高質(zhì)量的本體映射關(guān)系中發(fā)現(xiàn)本體內(nèi)部結(jié)構(gòu),,即將本體劃分為若干個簇。在映射匹配時采用以簇為單位替換以實體為單位的ASMOV方法,,建立高質(zhì)量的本體映射關(guān)系,,然后對實體關(guān)系進行再發(fā)現(xiàn),完善了映射結(jié)果的實體關(guān)系,。將實體關(guān)系完善前后的映射結(jié)果應(yīng)用于海量農(nóng)業(yè)信息語義檢索系統(tǒng)中,,用多組請求信息分別進行檢索,比較檢索結(jié)果的準(zhǔn)確率和查全率,。
海量農(nóng)業(yè)信息語義檢索系統(tǒng)總體框架主要包括本體管理,、數(shù)據(jù)獲取,、請求管理、請求信息匹配,、海量農(nóng)業(yè)信息處理及語義請求客戶端6個部分,。通過網(wǎng)絡(luò)爬蟲工具采集海量農(nóng)業(yè)信息,并對爬下的網(wǎng)頁進行信息的抽取和整理,,抽取和整理后的網(wǎng)頁可保存在海量農(nóng)業(yè)信息數(shù)據(jù)庫中作為檢索時的資源庫,。為使實驗?zāi)軌蚋鼫?zhǔn)確和更快速得出結(jié)論,選擇了整理好的10萬個網(wǎng)頁作為資源庫,,運用該系統(tǒng)進行實驗的具體步驟如下:
(1)清除本體庫中已經(jīng)存在的本體信息,,將本體及映射結(jié)果添加到本體庫中。
(2)將本體庫中的本體信息與海量農(nóng)業(yè)信息相關(guān)聯(lián),,即運行信息標(biāo)注與詞頻計算,、倒排表建立和農(nóng)業(yè)信息聚類3個模塊,并將關(guān)聯(lián)信息存入海量農(nóng)業(yè)信息數(shù)據(jù)庫中,。
(3)通過配置文件管理接口設(shè)置配置文件信息,,如本體庫中等價類、父類和子類各自所占的權(quán)重等,。
(4)啟動系統(tǒng)服務(wù)器,在用戶檢索接口輸入用戶需要檢索的信息,。
(5)計算檢索結(jié)果的準(zhǔn)確率和查全率,。
在建立高質(zhì)量的本體映射鏈接后得到映射結(jié)果M1,在完善映射結(jié)果M1中的實體關(guān)系后得到映射結(jié)果M2,,將M1和M2分別應(yīng)用于海量農(nóng)業(yè)信息語義檢索系統(tǒng)中,,運行該系統(tǒng)進行實驗,輸入多組檢索數(shù)據(jù),,計算檢索結(jié)果的準(zhǔn)確率和查全率,,如圖6所示。通過比較分析可知,,對采用了M2的系統(tǒng)進行檢索,,得到了較高的準(zhǔn)確率和查全率,從而表明了完善映射結(jié)果中的實體關(guān)系對本體映射應(yīng)用的重要性,。
本文提出一種基于映射關(guān)系的分簇方法,,首先通過各自已有的映射關(guān)系,對原本體和目標(biāo)本體分別進行分簇,,再采用改進的ASMOV映射系統(tǒng),,建立高質(zhì)量的映射關(guān)系,并完善實體間的關(guān)系,。通過對比采用OMMC方法和傳統(tǒng)方法的ASMOV系統(tǒng)的映射質(zhì)量,,可知采用OMMC方法具有一定的優(yōu)越性,,即匹配結(jié)果更準(zhǔn)確和全面;通過對比完善實體關(guān)系前后本體映射結(jié)果應(yīng)用的質(zhì)量,,可知完善了實體關(guān)系的映射結(jié)果應(yīng)用于檢索系統(tǒng)中,,提高了檢索系統(tǒng)的準(zhǔn)確率和查全率。
參考文獻
[1] Jérme Euzenat,,MEILICKE C,,STUCKENSCHMIDT H,et al.Ontology alignment evaluation initiative:six years of experience[C].Proceedings of the Journal on Data Semantics XV.Berlin Heidelberg:Springer,,2011:158-192.
[2] JEAN-MARY Y R,,SHIRONOSHITA E P,KABUKA M R. Ontology matching with semantic verification[J].Web Semantics,,2009,,7(3):235-251.
[3] Wang Zhichun,Zhang Xiao,,Hou Lei,,et al.RiMOM results for OAEI 2010[C].Proceedings of the 5th International Workshop on Ontology Matching(OM-2010) collocated with the 9th International Semantic Web Conference(ISWC-2010).Shanghai:CEUR-WS,2010:195-202.
[4] ASMOV Results for OAEI 2007[EB/OL].[2012-06-30].http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-304/paper12.pdf,,2007.
[5] 張釙.基于語義的網(wǎng)絡(luò)服務(wù)匹配機制的研究與實現(xiàn)[D]. 北京:清華大學(xué),,2005.
[6] 羅正海.面向語義Web服務(wù)的本體合并研究[D].大連:大連海事大學(xué),2009.