《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 智能電網(wǎng)(輸變電部分)領(lǐng)域知識體系構(gòu)建和語義研究與應(yīng)用

智能電網(wǎng)(輸變電部分)領(lǐng)域知識體系構(gòu)建和語義研究與應(yīng)用

2017-12-09

  如今,隨著電力技術(shù)的發(fā)展日新月異,用戶對電能質(zhì)量的要求也逐漸提高,,多個國家陸續(xù)提出了各自關(guān)于智能電網(wǎng)建設(shè)的方案。國家電網(wǎng)公司作為國有特大型央企,提出了建設(shè)堅強智能電網(wǎng),,以實現(xiàn)電網(wǎng)中電力流,、業(yè)務(wù)流、信息流的高度融合,。智能電網(wǎng)的發(fā)展必將使電力系統(tǒng)各環(huán)節(jié)的聯(lián)系更加緊密,、數(shù)據(jù)與信息交互更加頻繁,也正因為如此,,各級電網(wǎng)工作人員對知識的需求也更加迫切,。

1512739115453994.jpg

  1、當(dāng)前智能電網(wǎng)領(lǐng)域知識服務(wù)存在的問題

  1 )知識資源組織管理體系結(jié)構(gòu)落后?,F(xiàn)有的智能電網(wǎng)知識資源組織管理體系結(jié)構(gòu)比較單一,,缺乏知識點間的關(guān)聯(lián)性,層級簡單,,體系結(jié)構(gòu)仍以圖書形式為主,,分類單一,知識點僅遵循“用,、代,、屬、分,、參”關(guān)系,,顯示方法比較扁平化,已經(jīng)不能滿足高性能、大容量知識服務(wù)的建構(gòu),、處理與運行的要求,。如何描述、存儲,、管理,、處理、分析和使用海量分布的知識資源進行知識服務(wù),,是智能電網(wǎng)領(lǐng)域知識服務(wù)應(yīng)用的重要問題 ,。

  2 )知識服務(wù)開發(fā)成本高、更新維護困難,。智能電網(wǎng)領(lǐng)域的專家系統(tǒng)和知識服務(wù)應(yīng)用雖然可以較好地滿足用戶對知識服務(wù)的需求,,但受到知識本身時效性強、更新速度快等特點的影響,,導(dǎo)致此類知識服務(wù)的開發(fā)成本高,,重用難度大,使得其實現(xiàn)和推廣的難度相對較大,。

  3 )知識服務(wù)同用戶需求本身存在一定的差距,。當(dāng)前智能電網(wǎng)的知識服務(wù)檢索結(jié)果往往沒有考慮檢索者本身的實際情況,以及用戶難以用計算機能理解的方式描述出其希望了解的內(nèi)容,。

  造成這些問題的原因,,一方面在于激增的數(shù)據(jù)超過了現(xiàn)有用戶和系統(tǒng)所能承受、處理和利用的范圍,,導(dǎo)致數(shù)據(jù)無法被及時,、合理地組織,決策者未能從中得到應(yīng)有的啟示;另一方面,,知識的表現(xiàn)形式使其不能被有效利用,,這是因為目前的知識表示方法不利于電網(wǎng)知識的發(fā)現(xiàn),進而導(dǎo)致不能形式化地表示電網(wǎng)領(lǐng)域知識,。

  因此,,本文研究基于語義網(wǎng)技術(shù),并以輸變電圖書為樣例,,對智能電網(wǎng)(輸變電部分)領(lǐng)域知識開展研究,,完成智能電網(wǎng)(輸變電部分)知識體系構(gòu)建,以期更好地為國家電網(wǎng)公司提供知識服務(wù),。另外,,通過本文研究成果對國家電網(wǎng)公司企業(yè)級知識管理系統(tǒng)進行優(yōu)化,有利于實現(xiàn)知識整理和標引,、知識協(xié)同構(gòu)建,、資源自動檢索和標注、知識服務(wù)模型以及知識資源個性化推送等目標 。以智能電網(wǎng)(輸變電部分)領(lǐng)域知識為研究范圍,,以10 kV 配網(wǎng)不停電作業(yè)知識為突破口,,著力做好該領(lǐng)域知識收集、概念抽取,、語義研究和本體設(shè)計,,研究知識體系構(gòu)建以及知識庫搭建工作。

  本文內(nèi)容包含系統(tǒng)梳理智能電網(wǎng)(輸變電部分)領(lǐng)域的主題詞條,,闡明詞條之間的相互聯(lián)系和相互作用;基于本體語言的知識表示方法和原則,,開發(fā)專用的本體工具,構(gòu)建智能電網(wǎng)(輸變電部分)知識體系;并以語義檢索應(yīng)用為目的完成智能電網(wǎng)(輸變電部分)專業(yè)知識庫的建立,,為整個智能電網(wǎng)領(lǐng)域知識體系的構(gòu)建提供理論依據(jù)及技術(shù)支持,,同時可對智能電網(wǎng)領(lǐng)域知識挖掘、發(fā)現(xiàn)與利用進行有益的探索 ,。

  基于本體設(shè)計,、語義標引技術(shù),在電力領(lǐng)域?qū)<业闹笇?dǎo)和配合下,,對智能電網(wǎng)(輸變電部分)領(lǐng)域知識開展研究,,研究該領(lǐng)域知識收集、概念抽取,、本體設(shè)計,、語義標引、概念體系構(gòu)建的關(guān)鍵技術(shù)路徑,,并完成了最終的知識庫搭建工作。所完成的專業(yè)知識庫系統(tǒng)提供了網(wǎng)站作為檢索接口,,集成了本體工具,、數(shù)據(jù)加工模型的圖書文獻檢索等技術(shù) , 實現(xiàn)了智能電網(wǎng)(輸變電部分)知識的語義檢索應(yīng)用。系統(tǒng)除了處理常規(guī)的文本檢索之外,,還提供了本體的交互式圖形可視系統(tǒng),、自然語言及問句式查詢系統(tǒng)、語義增強搜索系統(tǒng)以及相關(guān)詞條推薦系統(tǒng),,可以智能化地協(xié)助用戶提高檢索效率 ,。

  2、領(lǐng)域知識收集

  領(lǐng)域知識收集工作包括對793 本與輸變電專業(yè)相關(guān)圖書,、《電力名詞(第二版送審稿)》中指定書目以及《電力主題詞表》的計算機自動處理,,并結(jié)合專家所提供的分類體系開展工作。

  2.1自動分詞

  對這些圖書進行自動分詞,,即將一本書,、一段話看作一個漢字序列,通過計算機將其切分成一個個單獨的詞,以便進行下一步的理解和分析,。

  在 本 文 研 究 中,,對 開 源 工 具Ikanalyzer 、Rwordseg進行了調(diào)研和試驗,。Ikanalyzer提供了可供Java使用的jar包,,以及面向全文檢索工具Lucene的接口,使用方便,,主要用它來建立索引,、本體以及對搜索語句進行分詞,準確率可達95% ,,其分詞示例分詞前的整個段落:“在電力系統(tǒng)中,,除應(yīng)采取各項積極措施消除或減少發(fā)生故障的可能性外,故障一旦發(fā)生,,必須迅速而有選擇地切除故障元件,,這是保證電力系統(tǒng)安全運行的最有效方法之一,而繼電保護裝置就是能反映電力系統(tǒng)中電氣元件發(fā)生故障或不正常運行的狀態(tài),,并動作于斷路器跳閘或發(fā)出信號的一種自動裝置,。”

  計算機分詞和自動去除無實意的詞后的效果如下:“電力系統(tǒng)中因各項措施消除減少發(fā)生故障可能性外,,故障發(fā)生而有選擇切除故障元件這是保證電力系統(tǒng)安全運行最有效方法之一,,而繼電保護裝置電力系統(tǒng)中電氣元件發(fā)生故障不正常運行狀態(tài)動作斷路器跳閘發(fā)出信號一種自動裝置”,可以達到建立索引的要求,。

  Rwordseg是一個R環(huán)境下的中文分詞工具,,使用rJava調(diào)用Java分詞工具Ansj。Ansj基于Apache License ,,是一個完全開源,、免費的Java中文薦分詞工具。它的實現(xiàn)原理基于Google語義模型和條件隨機場模型,。分詞速度可達每秒約200萬字(在Mac Air下測試),,準確率能達到96%以上。通過研究,,重寫了一個Java 版本,,并且全部開源,使得 Ansj可用于人名識別,、地名識別,、組織機構(gòu)名識別、多級詞性標注,、關(guān)鍵詞提取,、指紋提取等領(lǐng)域,,支持行業(yè)詞典、用戶自定義詞典,。

  2.2詞向量訓(xùn)練

  詞向量訓(xùn)練是利用深度學(xué)習(xí)的思想把單詞表示

  成向量的一種方式,,語義越相近的詞,形成的向量相似度越高,。本文采用Google word2vec工具(基于Apache License 2 .0 的開源工具,,提供continuou sbag-of-words和skip-gram architectures等算法對詞向量進行訓(xùn)練)進行詞向量訓(xùn)練,得到詞向量之后,,可以進一步得出這些詞向量的聚類,。

  2.3詞語篩選

  根據(jù)停用詞表,去除“的”,、“比如”,、“別的”等無實意、頻繁出現(xiàn)的但對專業(yè)語義分析無實際幫助的詞,,編寫程序去除無關(guān)的標點符號,、亂碼字符及其他短字符。在此基礎(chǔ)上,,研究人員通過人工對得到的詞語進行篩選,,得出重要的名詞和動詞以及相關(guān)概念的英文名和中文描述信息,作為本體分析的對象 ,。其中,,名詞集用來構(gòu)建領(lǐng)域本體的相關(guān)概念,動詞集用來描述領(lǐng)域本體概念之間的關(guān)系,。

  3,、概念抽取

  本文研究根據(jù)專家提供的輸變電專業(yè)概念分類,對領(lǐng)域知識中的相關(guān)名詞集進行總結(jié)歸納,,以半自動的方式從相關(guān)的圖書和詞典中提取出相關(guān)概念,,并將其結(jié)構(gòu)化,形成分類體系 ,。

  專家提供的輸變電專業(yè)概念分類主要包含資產(chǎn),、作業(yè),、文檔的大體框架分類結(jié)構(gòu),,但不涉及每個具體詞條的歸屬。其中資產(chǎn)可以在EnterpriseArchitecture軟件中查看,。其他分類體系通過專家口述,,研究人員進行記錄,專家進行核對的形式提供,。

  在領(lǐng)域知識收集之后,,使用Apache Jena(Apche的開源項目,,提供了Java接口,可使用Java編程對本體進行創(chuàng)建,、修改,、讀入、保存,、查詢,、推理等操作)將概念體系導(dǎo)入本體,將詞條進行粗分類;在此基礎(chǔ)上,,多次征求高校電氣學(xué)院領(lǐng)域?qū)<业囊庖?,使用Stanford Protégé工具(本體開發(fā)工具,具有導(dǎo)入,、可視化編輯和保存本體的功能)進行交互展示,,供專家審核、修改,,并進行細分類 ,。Protégé(本體開發(fā)工具)中對本體進行展示及審核修改的工作界面如圖1所示。

  4,、本體設(shè)計

  在此階段中,,根據(jù)相關(guān)圖書及專家所提供的頂層概念模型,使用Apache提供的開源工具Jena創(chuàng)建本體,,并使用Protégé 和Word文檔相結(jié)合的方式進行人工核對,。

  存儲了中英文名的類如圖2所示,其中每個類均存儲了中英文名,、所屬詞典以及簡介,。

  具體建立過程如下:

  1 )根據(jù)字符串匹配的方式得出父類與子類的關(guān)系;

  2 )根據(jù)詞典中的描述信息建立等價類關(guān)系;

  3 )根據(jù)詞典中的描述信息得出包含關(guān)系,如:根據(jù)U型掛環(huán)的描述信息得出結(jié)論“U型掛環(huán)有連接件”;

  4 )根據(jù)詞典中的描述信息定義反關(guān)系,,如:“有連接件關(guān)系的反關(guān)系是組成U型掛環(huán)”;

  5 )根據(jù)名稱定義包含關(guān)系及其反關(guān)系;

  6 )根據(jù)詞典中的描述信息建立相關(guān)關(guān)系,,如:鋼管塔的描述信息及其所建立的關(guān)系,圖3顯示了從鋼管塔的描述信息中建立其與金具,、導(dǎo)線和絕緣子的關(guān)系;

  7 )根據(jù)詞典中的描述信息建立數(shù)值型屬性,,如:塔高的數(shù)值屬性;

  8 )建立實例,如:以中原變電站為例,,變電站類有地址屬性,,屬性用string表示,中原變電站作為其中一個具體的變電站,,地址在鄭州,,將鄭州作為中原變電站的地址屬性的值。

  根據(jù)Protégé軟件的自動統(tǒng)計信息,,本次研究所建成的本體的規(guī)模共有8094個類,、21657個Object型屬性,、7511個父類–子類關(guān)系以及757個等價類。

  5,、語義標引

  在此階段,,利用已有的本體對該領(lǐng)域中的文檔資源進行標引,從而實現(xiàn)語義推理的目的,,最終實現(xiàn)語義信息檢索 ,。

  在語義標引過程中,對屬于本體中的實例,,如:“巡視”,、“維護”、“sub station”等加上html的標簽,,在前端通過處理與其他未標注文本進行區(qū)別顯示,,點擊時可自動查詢相應(yīng)本體。

  使用Jena 和Java 對本體進行標注,。首先,,將本體中類的中文名和英文名用Jena 導(dǎo)出,并根據(jù)詞條長度進行由長到短的排序,,排序后,,“電子互感器”排在“互感器”之前。使用Java 遍歷排序后的數(shù)組,,為文本中匹配處依次加上 標簽,,避免了重復(fù)地將“電子互感器”標注為“電子互感器”和“互感器”。

  專業(yè)詞匯如“變電站”,、“互感器”等的標注基本無誤,。本體中的其他相關(guān)詞匯中含有一些多義詞,人工篩選了“條件”,、“單元”,、“連結(jié)”等多義詞進行剔除。

  6,、概念體系設(shè)計

  在專家的幫助下,,將智能電網(wǎng)的中英文名、描述信息,、層次結(jié)構(gòu)及其關(guān)系等知識進行整合,,得到智能電網(wǎng)(輸變電部分)領(lǐng)域中的一個概念體系。

  概念體系包含了智能電網(wǎng)領(lǐng)域(輸變電部分)中前面提到的所有信息(即概念分類體系以及詞條的中英文名,、釋義,、等價類,、屬性等),。以光纜為例,,光纜示例如圖4 所示。

  圖4中303.3.8 是“光纜”在本文概念體系中的編號,,“optical fiber cable ”是英文名,,“18.307 ”是“光纜”在《電力名詞(第二版送審稿)》中的編號,“以光纖為傳輸元件……”這句話是“光纜”的描述信息,,“相關(guān)材料”,,表示“光纜”與“材料”這個概念相關(guān)。

  7,、知識庫檢索系統(tǒng)

  本文研究基于領(lǐng)域知識的語義標引技術(shù),,通過對本體工具、數(shù)據(jù)加工模型的圖書文獻檢索等技術(shù)的研究,,完成了以語義檢索應(yīng)用為目的的智能電網(wǎng)(輸變電部分)專業(yè)知識庫系統(tǒng)研究,。系統(tǒng)除處理常規(guī)的文本檢索之外,還提供了本體的交互式圖形可視系統(tǒng),、自然語言及問句式查詢系統(tǒng),、語義增強搜索系統(tǒng)以及相關(guān)詞條推薦系統(tǒng),智能化地協(xié)助用戶提高檢索效率 ,,主要支持的查詢功能如下,。

  7.1拼音提示

  用Jena 將本體中的中文信息全部導(dǎo)出成為詞典,對詞條的拼音進行關(guān)鍵詞查詢和操作,。以“變壓器”為例:

  1 )在輸入框輸入或粘貼拼音,,則輸出為全拼按從左到右的順序與輸入的拼音相同的一組提示詞,如輸入“biany”時,,提示包括“變壓器”在內(nèi)的10個詞;

  2 )在輸入框輸入或粘貼拼音首字母,,則輸出為拼音首字母按從左到右的順序與輸入相同的一組提示詞,如輸入“byq”時,,提示包括“變壓器”在內(nèi)的10 個詞;

  3 )在輸入框輸入或粘貼漢字,,則輸出根據(jù)該漢字的全拼給出同音詞的輸入提示,如輸入“邊壓氣”時,,提示包括“變壓器”在內(nèi)的10個詞,。

  7.2普通搜索

  普通搜索界面如圖5 所示。

  以“變電站”為例,,在輸入框中輸入搜索詞條,,如變電站,則輸出如下:

  1 )在“您是不是想搜”條目下顯示的9個詞條,,采用Lucene的Standard Analyzer對詞典進行處理,,根據(jù)中文字形匹配程度得到結(jié)果;

  2 )書籍的總搜索結(jié)果數(shù)和用時,通過數(shù)學(xué)統(tǒng)計計算得到;

  3 )前 10 本書的標題,、與搜索詞條匹配的摘要(摘要中搜索詞用紅色標出),、相關(guān)度,,使用Lucene對文本進行全文檢索計算得到;

  4 )頁碼選項,單擊頁碼之后跳轉(zhuǎn)到該頁碼,,使用Lucene進行分頁查詢;

  5 )如果是本體中的詞條,,則出現(xiàn)本體交互圖,單擊可跳轉(zhuǎn)到交互界面,,交互界面的查詢部分采用Jena預(yù)先加載本體,,以加快與用戶交互的速度;

  6 )如果有同級本體,則出現(xiàn)同級本體,,單擊可跳轉(zhuǎn)到該詞條的搜索界面,,同級本體通過Jena查詢得到;

  7 )如果有相關(guān)本體,則出現(xiàn)相關(guān)本體,,單擊可跳轉(zhuǎn)到該詞條的搜索界面,,事先由Jena查詢得出本體中各個類和實例的描述信息及其屬性,存為文本,,對這些文本用Lucene 建立索引,,之后采用Lucene根據(jù)查詢語句進行查詢,當(dāng)與查詢語句匹配度達到閾值之后,,則返回相關(guān)本體;

  8 )出現(xiàn)更多詞條等相關(guān)內(nèi)容,,單擊可跳轉(zhuǎn)到該詞條的搜索界面,更多詞條的信息來 自于使用Google word2vec對793 本圖書進行詞向量訓(xùn)練得到的詞向量和詞語的聚類,,首先找出查詢詞語中與聚類中詞語最相近的一個,,之后返回這個聚類中的其他詞語。

  7.3根據(jù)英文搜索中文結(jié)果

  通過英文查詢中文的功能是通過Lucene對英文和中文建立一一對應(yīng)的索引,,這樣根據(jù)索引中英文的匹配程度,,可以找到相應(yīng)的中文。以“keysub station ”為例,,根據(jù)英文搜索中文結(jié)果的界面如圖6 所示,。

  7.4語義增強搜索

  語義增強搜索采用Jena 查詢出所查詞語的子類,再根據(jù)這些子類的名稱在793 本圖書中搜索,,并將這些結(jié)果根據(jù)相關(guān)度由高到低排序,,得出所需結(jié)果與子類匹配出的摘要 。如搜“建筑物”時,,得到的是與其子類“防火墻”,、“換流站”等匹配的文本,其他部分內(nèi)容與普通查詢時相同,。

  7.5自然語言查詢

  在輸入框中以自然語言的形式輸入,,如果有對應(yīng)的詞條,則輸出相應(yīng)的詞條和解釋。以“變電站”為例,,輸入“變換電壓等級匯集配送電能的設(shè)施是什么”時可以輸出結(jié)果“變電站”;輸入“在河流上下游的水電站”,,則輸出“梯級水電站”;輸入“埋在地下的管子”,輸出“電纜排管”,。自然語言查詢結(jié)果界面如圖7 所示。

  7.6本體圖形交互

  本體的圖形交互功能均通過Jena 預(yù)先加載本體,,在查詢時對本體的各項信息進行查詢,。

  1 )單擊本體交互界面,界面放大,,如果詞條有英文或釋義,,則顯示當(dāng)前詞條的詳細信息。在圖形中,,父類與子類以不同的形式展示,,變電站本體交互界面如圖8 所示,其中“建筑物”為父類,,其他為子類,。

  2 )單擊某個詞條并進行拖動,顯示鼠標實時拖動效果,。

  3 )雙擊當(dāng)前詞條(如當(dāng)前的“變電站”),,則顯示/隱藏該詞條的屬性。其中包括Object型的“線阻濾波器”和Data 型的“進線電壓 :string ”(string表示Data的類型),。顯示/ 隱藏變電站屬性界面如圖9所示,。

  4 )雙擊除當(dāng)前詞條外的其他詞條,則以雙擊的詞條進行查詢,,并顯示新的結(jié)果,。雙擊建筑物顯示的界面如圖10 所示。

  7.7書籍顯示

  1 )在搜索結(jié)果頁面,,單擊某本想看的書,,則跳轉(zhuǎn)到書籍顯示界面,默認顯示pdf 文件,,可通過右側(cè)滑動條翻頁,,并顯示其相關(guān)文檔。書籍顯示界面如圖11 所示,。

  2 )點擊txt 標簽,,則跳轉(zhuǎn)到txt 顯示界面,顯示該書籍對應(yīng)的文本,,可閱讀書籍文本,,與本體相關(guān)的標注(包括中英文)用藍色和下劃線表示,單擊這些標注,如“變電站”,、“sub station ”均可查看對應(yīng)的“變電站”本體,。中英文標注示例如圖12 、圖13 所示,。

  8,、結(jié)語

  通過本文智能電網(wǎng)領(lǐng)域(輸變電部分)專業(yè)知識概念體系的建立,完成了對一個典型的專業(yè)知識概念體系完整的建立過程的調(diào)研,,以及初步的專業(yè)知識庫原型系統(tǒng)搭建,。傳統(tǒng)以單本或單冊圖書為載體,一般按單一分類介紹的電力知識,,很難形成體系,,且概念之間的關(guān)系無法展示,相比之下智能電網(wǎng)領(lǐng)域(輸變電部分)專業(yè)知識概念體系解決了知識點分類單一且孤立的難題,,方便使用者在相關(guān)領(lǐng)域輕松獲取所需知識概念及相關(guān)知識,。在未來工作中,以下方面還有待進一步深入提高:

  1 )在研究上,,還需研究如何更好地進行本體的可視化,,如何利用聚類、分類算法消除語義標注的歧義,,如何自動對未知的屬性進行屬性發(fā)現(xiàn),,如何進語義推理得到更多屬性以及加快語義搜索速度;

  2 )在工程上,可以在txt閱讀模式下提供圖片支持,、完善作者信息,、增加作者搜索、出版年份搜索,、按標題搜索等功能,,進一步實現(xiàn)根據(jù)詞頻、查詢頻繁度等更多信息進行拼音推薦等,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:aet@chinaaet.com,。