摘 要: 介紹一個智能輔助學習平臺的設計理念、功能和結構,。它根據相同領域的電子資料集合自動學習領域本體,,基于所學本體自動建立不同資料之間的語義關聯,應用語義關聯自動實現學習資料之間的參考關系,。其結果是將相同領域的原來相互獨立的多種資料自動按語義融合為一個整體,,以提高學習和研究工作的資料應用效率。
關鍵詞: 領域本體,;電子學習,;本體學習
目前在網上和電子圖書館已有海量的知識資源,而如何更高效地應用這些電子知識資源已成為一個熱門研究和應用領域,。與傳統(tǒng)紙質知識資源相比,,電子知識資源幾乎不受容量的限制,能夠用計算機對它們進行快速訪問和處理,。
在學習一門新知識時通常需要對一個主題參考多種資料才能夠透徹地理解,,在研究工作中,甚至需要分析能夠找到的全部知識資源,。對紙質知識進行這種資料的查詢和引用是一個費時費力,、效率低下的工作。本文介紹一個智能輔助學習工具,,它幫助用戶在學習一份資料的某個知識點時能夠自動快速定位其他資料的相同或相近知識點,省去學習時查找資料的時間,。
1 系統(tǒng)基本設計理念與功能概述
本節(jié)對文中系統(tǒng)用到的本體(ontology)知識點,、知識項和等核心概念進行定義,并闡明本設計的基本理念,,并簡要介紹系統(tǒng)實現的核心功能,。
1.1 系統(tǒng)的基本概念和設計理念
(1)本體
本體是知識工程領域一個非常重要的概念,它源于哲學的本體論(ontology),,在人工智能中被借用過來表示特定領域知識體系中的概念體系,。許多研究者對它有不同的定義,得到公認的是Tom Gruber定義:本體是關于共享概念的協議,。
本體在實際應用中表現為特定領域中專業(yè)術語和術語之間語義關系的集合,,是支持本系統(tǒng)知識項之間基于語義自動關聯的核心組件。例如在數據庫領域,“數據庫”,、“鎖”,、“數據庫管理系統(tǒng)”、“DBMS”等都是術語,,術語之間存在多種語義關系,,如同義關系、對義關系,、反義關系,、同位關系、上下位關系,、部分整體關系等,。在本體中,“數據庫管理系統(tǒng)”與“DBMS”就是同義關系,。而概念是以文字形式的術語所描述的超出文字的意義,,同義的術語表示相同的概念。
(2)知識點,、知識的形態(tài)與知識項
知識點是教學中常用的一個概念,,它是從教育和學習的角度對一個領域知識進行標志和處理的基本單位。一般在教材編寫中將一個小節(jié)作為一個知識點,。在概念上,,本系統(tǒng)也以知識點作為知識處理的單位之一。
知識還有不同的形態(tài),,文字,、圖形、表格,、視頻等是知識表示的不同形態(tài),。本系統(tǒng)將知識的不同形態(tài)分別進行存儲和處理。
知識項是知識點的具體化,,是知識點與知識形態(tài)的結合,。本系統(tǒng)中知識點和知識形態(tài)都是抽象的概念,對于給定的知識點只有通過具體的形態(tài)表示出來才被具體化,。知識項是本系統(tǒng)對知識處理的最小單位,。
(3)設計理念
將領域知識分為3個層次:最高層用本體實現領域概念知識的橫向(關聯)和縱向(層次化)語義關系網,在第二層用知識點描述領域概念知識的有效組合,,第三層通過知識項表示知識的具體形態(tài),。這三層實現了由整體到局部、由抽象到具體領域知識的語義關聯和層次化框架,。
在語義層面,,應用本體作為領域知識的概念骨架,通過本體建立系統(tǒng)中各個知識項之間的語義聯系,基于此語義聯系幫助讀者/研究者動態(tài)檢索相關的知識項,。在數據的存儲層面,,將整體的文檔知識按知識點和知識形態(tài)存放在數據庫中。在實現層,,將自動化技術和人工處理相結合,,應用自然語言處理技術自動地識別和提取領域專業(yè)詞匯,并應用互信息等技術識別領域詞匯之間的聚類關系,,再輔以人工的鑒別和修正,,達到效率和質量的折衷。
1.2 系統(tǒng)基本功能
為讓讀者對系統(tǒng)有一個整體了解,,先從外觀上介紹系統(tǒng)的功能,。系統(tǒng)可視為一個服務系統(tǒng),在功能上可分為服務準備和服務實現2個部分,。本文以數據庫領域為例介紹本系統(tǒng)功能,。
服務準備部分的主要功能是根據不同主題或領域建立服務項目,針對每個服務項目選擇和導入相關的電子文檔(知識資源),,根據所選領域中導入的知識資源自動學習和創(chuàng)建領域本體,,包括領域詞匯和詞匯之間關系的確認。在對領域詞匯關系的精確度要求不高的情況下,,這一部分工作可由普通系統(tǒng)維護和管理工作人員進行,,當要求精確地確定詞匯間關系時,需要領域的專業(yè)人士進行人工調整和修正,。
圖1是對所導入數據庫領域的電子文檔進行自動識別領域詞匯后,,由領域專家(或教師)對它們之間的語義關系作進一步確定和編輯的用戶界面。
服務實現部分由學習者操作,,學習者選取要學習的領域,,以該領域某個知識源為主線查看其中的知識點,而可用相關資源的鏈接將自動出現在導航窗口中,,實現同時閱讀和參考多個知識資源,。在圖2中,學習者選取了《數據庫基礎及應用》這一本書作為學習主線,,在學習‘數據模型’的主要數據模型這一小節(jié)時,,相關的內容在主窗口顯示(圖形和文字分開),,在主窗口下方的導航欄顯示了在其他書本和章節(jié)中相關內容的鏈接,。任意選取其中一個鏈接,將顯示其中的詳細內容,。
2 基于語料庫自動學習領域本體
本設計應用基于語料庫的自然語言處理技術從電子文檔資源中識別領域專業(yè)詞匯,,用互信息技術分析領域詞匯之間的可能關系,再輔以人工鑒別和修正。圖3說明了用計算機輔助本體構造過程的3個基本步驟:選擇和準備知識資源,、提取領域術語詞匯,、建立詞匯術語之間語義關系。圖中以圓角矩形表示的步驟由系統(tǒng)自動完成,;用橢圓表示的步驟由系統(tǒng)提供人機交互界面,,以人工操作完成;虛線的人機操作在精度要求不高時可以省略,。
2.1 知識資源預處理
領域本體學習的第一步是準備電子知識資源,,電子版的教程是較理想的。這一步的基本任務是導入電子版的知識資源,,并對導入的資源格式進行規(guī)范化處理,,轉換為系統(tǒng)可識別和處理的知識項單元。文字部分被轉換為text格式,,圖形部分統(tǒng)一為通用的jpg/bpm等格式并加上圖形的標題存入數據庫中,。這一步不需要深入的領域專業(yè)知識,可由一般系統(tǒng)服務人員進行,。
2.2 識別領域詞匯
第二步主要實現從所導入的文本知識資源中識別領域詞匯,,并最終確認。這一步主要是取得領域詞匯的詞干,,即構成領域術語的最基礎元素,。一般文本挖掘方法在識別詞匯時事先篩選某些常用詞匯作為高頻詞,它們在識別過程中被排除,。這里不采用此方法,,因為中文的領域詞匯通常也會使用某些常用字/詞,對它們賦予新的領域含義,。本系統(tǒng)應用基于語料庫[2]的自然語言技術,,先對文本的知識資源進行中文分詞處理[3],再對所出現的詞匯進行詞頻分析,,將資源文檔中的詞頻與語料庫詞頻進行對比,,頻率顯著高于語料庫中的頻率時,推斷它為領域詞匯,。由自動系統(tǒng)識別出領域詞匯后,,可由領域專家再進行確認和修正。
2.3 識別詞匯關系及組合術語
第三步的目的是識別并確認領域詞匯之間的關系,,根據它們之間的有效組合并得到領域術語集合,。
從構詞法上看,專業(yè)領域中的詞匯有3種基本構成形式:給普通詞匯賦予新的領域含義,;創(chuàng)建一個全新的詞,;以前兩種形式為詞干加上前綴或后綴形成新詞,。
第一種領域詞匯通過分詞系統(tǒng)自動劃分為一個獨立的詞,在語料庫中也會出現,,它可通過上一步的詞頻對比分析識別得到,。第二種領域詞匯在自動分詞系統(tǒng)中無法分出,在語料庫中也沒有該詞,。它由若干單字或常用詞組合而成,。第二種和第三種可應用信息論中的互信息,自動地從樣本文檔中識別,。信息論中互信息反映了一種信息與另一種信息相關聯的程度,,用下式表示:
M(a,b)=log2(P(a|b)/P(a))
其中P(a),、P(b)分別表示事件a和b出現的概率,,P(a|b)為事件a相對于事件b的條件概率。在本系統(tǒng)中,,以樣本文檔中總詞數cntTotal為基數,,以詞出現的次數c除以總詞數作為概率估計值。P(a|b)用a與b同現次數除以b出現次數作為估計值,。僅對文檔中先后同現2次以上的詞進行互信息統(tǒng)計分析,,應用互信息計算公式通過編程計算得到詞匯兩兩組合的相關度表。以詞匯之間的組合關系為邊,,以相關度為權值構造一個有向加權多圖,。圖4就是對數據庫電子文檔應用互信息計算得到的加權圖之一。根據它就可以在一定置信度范圍內獲得詞匯之間的可能組合關系,。
詞匯的組合關系蘊含著語義關系,。基本的語義關系包括同義,、上下位,、反義、對義,、部分與整體關系等,。對這些關系還分別賦以一個相關度值,以反映它們之間關聯程度,。自動建立了所識別詞匯之間的組合關系后,,賦予詞匯之間默認的關系和相關度值。有領域經驗的人可對這些關系和相關度值進行編輯,,在實際的輔助學習平臺應用中由教師進行操作,。圖1就是實現此功能的操作界面。
本文介紹了一個應用所構造本體的智能輔助學習系統(tǒng)的功能,、設計想念和實現方法,。通過該系統(tǒng)它可將一個學科(領域)的多種資源存入數據庫中,實現學習某一主題的知識時,,可以同時對比閱讀多種相同或相關主題的內容,,省去手工查閱多種資料的麻煩,還可直接跳轉到另一種資源,,以它為主繼續(xù)學習,,這給學習和研究帶來很大方便。下一步的工作是將該技術應用到企業(yè)知識管理中,。
參考文獻
[1] 周寧,,張玉峰,張李義,,等.信息可視化與知識檢索[M].北京:科學出版社,,2005.
[2] 北京大學計算語言學研究所.人民日報語料庫[DB/OL].
[2001-05-10].http://www.icl.pku.edu.cn/icl_groups/corpus/dwldform1.asp.
[3] 張華平,劉群.計算所漢語詞法分析系統(tǒng)ICTCLAS,,http://sewm.pku.edu.cn/QA/reference/ICTCLAS/FreeICTCLAS/,,2002.