《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 測試測量 > 設(shè)計應(yīng)用 > 基于機器學習的電網(wǎng)設(shè)備故障綜合研判分析
基于機器學習的電網(wǎng)設(shè)備故障綜合研判分析
2018智能電網(wǎng)增刊
劉周斌1,何 颋2,李沁園1,胡曉哲2,項 翔2,袁永軍2,王海峰2
1.國網(wǎng)浙江省電力有限公司電力科學研究院,,浙江 杭州310007;2.國網(wǎng)浙江杭州市富陽區(qū)供電有限公司,浙江 杭州311400
摘要: 近年來,,新技術(shù)、新工藝的廣泛應(yīng)用使得電網(wǎng)建設(shè)得到長足的發(fā)展,,給電網(wǎng)管理提出了更高的要求,。電網(wǎng)業(yè)務(wù)涉及廣泛,橫跨多個信息系統(tǒng),,數(shù)據(jù)交錯復雜,、體量大,如何深度挖掘數(shù)據(jù)價值以應(yīng)用到電網(wǎng)故障研判已經(jīng)成為當前配網(wǎng)作業(yè)面臨的巨大挑戰(zhàn),。通過開展電網(wǎng)設(shè)備故障綜合研判,,進行數(shù)據(jù)的高效融合與深度挖掘,大幅度提升電網(wǎng)安全穩(wěn)定運行水平,,融合多元數(shù)據(jù)實現(xiàn)主動搶修,,準確定位電網(wǎng)公司目前客戶服務(wù)薄弱點,從而有效提升客戶滿意度,,提高電網(wǎng)公司配網(wǎng)管理水平,,提升企業(yè)形象。
關(guān)鍵詞: 機器學習 故障診斷
中圖分類號: TM74
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.036
Abstract:
Key words :

0  引言

    隨著大數(shù)據(jù),、云計算,、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新一代信息通信技術(shù)的快速發(fā)展,智能終端產(chǎn)品層出不窮,,新技術(shù),、新產(chǎn)品、新應(yīng)用等不斷涌現(xiàn),。移動智能終端設(shè)備及應(yīng)用通過豐富多樣的功能滿足人們各式各樣的需求,,從各個方面改變著人們的日常工作與生活。

    近年來,,國家電網(wǎng)公司緊緊抓住新一代信息通信技術(shù)快速發(fā)展為智能電網(wǎng)生產(chǎn)方式及管理模式變革帶來的契機,,積極推進智能電網(wǎng)建設(shè),密切跟蹤新技術(shù)發(fā)展趨勢,,開展關(guān)鍵技術(shù)攻關(guān),,面向“十三五”,充分發(fā)揮信息通信在智能電網(wǎng)中的核心技術(shù)作用,,統(tǒng)籌推動智能電網(wǎng)技術(shù)變革和創(chuàng)新發(fā)展,,未來要形成一大批成功應(yīng)用、成效顯著的技術(shù)成果,,為堅強智能電網(wǎng)持續(xù)創(chuàng)新發(fā)展奠定了堅實基礎(chǔ),。

    隨著國民經(jīng)濟的不斷發(fā)展和人民生活水平的日益提高,社會用電負荷也隨之快速增長,,與此同時,,對電網(wǎng)公司的供電可靠性和停電時間等重要指標也提出了更高的要求。特別是對于配網(wǎng)搶修工單的派發(fā),,要求及時快速,、準確判斷。目前工單派發(fā)多數(shù)基于人工派單,,或者系統(tǒng)向所有搶修隊派單由搶修隊搶單,,工單的派發(fā)策略不夠合理,存在一定的主觀因素,,這在一定程度上影響了派單的及時性以及后續(xù)搶修工作的完成效果,。

1  技術(shù)架構(gòu)

    基于大數(shù)據(jù)產(chǎn)業(yè)鏈的定義,大數(shù)據(jù)的關(guān)鍵技術(shù)既包括數(shù)據(jù)分析技術(shù)等核心技術(shù),,也包括數(shù)據(jù)管理,、數(shù)據(jù)處理、數(shù)據(jù)可視化等重要技術(shù),,技術(shù)架構(gòu)圖如圖1所示,。

lzb-t1.gif

    數(shù)據(jù)抽取技術(shù):對集成信息系統(tǒng)數(shù)據(jù)庫中的海量各類數(shù)據(jù)進行數(shù)據(jù)抽取,實時存入本系統(tǒng)數(shù)據(jù)倉庫中,,數(shù)據(jù)主要用于分析,,數(shù)據(jù)設(shè)計按照面向業(yè)務(wù)設(shè)計原則進行設(shè)計。本系統(tǒng)數(shù)據(jù)來源于PMS數(shù)據(jù),、95598工單數(shù)據(jù),、在線監(jiān)測數(shù)據(jù),、線路巡視數(shù)據(jù),、輔助監(jiān)控數(shù)據(jù)、歷史故障數(shù)據(jù),、線路監(jiān)拍數(shù)據(jù),、實時負荷數(shù)據(jù),、APP使用數(shù)據(jù)等,經(jīng)過數(shù)據(jù)抽取,、數(shù)據(jù)清洗轉(zhuǎn)換,、數(shù)據(jù)加載三個過程生成用于工單自動派發(fā)。數(shù)據(jù)是通過數(shù)據(jù)抽取工具從各集成系統(tǒng)中自動定期抽取,,抽取的數(shù)據(jù)針對不同業(yè)務(wù)要求進行過濾,,過濾掉臟數(shù)據(jù)和不完整數(shù)據(jù)形成可用于用電分析的數(shù)據(jù)。

    數(shù)據(jù)分析技術(shù):故障綜合預(yù)警預(yù)判,,對大量需求數(shù)據(jù)進行數(shù)據(jù)準備,、規(guī)律尋找和規(guī)律表示,挖掘的主要任務(wù)有數(shù)據(jù)關(guān)聯(lián),、聚類,、分類等,以此實現(xiàn)各類故障的預(yù)測,,為提高電網(wǎng)的運維檢修水平提供技術(shù)支持,。

    數(shù)據(jù)服務(wù)技術(shù):為展示客戶端提供數(shù)據(jù)訪問服務(wù),數(shù)據(jù)服務(wù)內(nèi)嵌內(nèi)存緩存數(shù)據(jù)庫,,用于提高數(shù)據(jù)訪問性能,。通過數(shù)據(jù)服務(wù)提供的多種分析數(shù)據(jù)輸出方式接口,為實時展現(xiàn)當前各類電網(wǎng)設(shè)備可能發(fā)生的故障情況提供支撐,。

    數(shù)據(jù)展現(xiàn)技術(shù):數(shù)據(jù)的全方位,、多角度展現(xiàn)。以熱力圖的方式,,基于GIS展現(xiàn)電網(wǎng)設(shè)備故障風險,。

    系統(tǒng)安全:安全架構(gòu)針對系統(tǒng)的具體業(yè)務(wù)特點,按照管理信息內(nèi),、外網(wǎng)分離的安全要求建立起強健的信息安全防范體系,,有效保護系統(tǒng)的信息安全,防范黑客和非法入侵者的攻擊,。

    系統(tǒng)應(yīng)用的安全體系可分為技術(shù)層面的安全和管理層面的安全兩個部分,。技術(shù)層面的安全設(shè)計主要包括應(yīng)用安全、數(shù)據(jù)安全、系統(tǒng)安全,、網(wǎng)絡(luò)安全,、物理安全等,其中應(yīng)用安全是業(yè)務(wù)安全防護體系的核心,。管理層面的安全主要包括安全組織及人員保證,、安全管理制度、安全技術(shù)規(guī)范,、安全考核及監(jiān)督等內(nèi)容,。

2  數(shù)據(jù)架構(gòu)

    大數(shù)據(jù)是體量巨大具有高價值的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),。通過對大數(shù)據(jù)處理技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)需要的數(shù)據(jù)模型,,發(fā)現(xiàn)大數(shù)據(jù)中的“信息”和知識,為行業(yè)內(nèi)外提供大量的高附加值的內(nèi)容增值服務(wù),。

    大數(shù)據(jù)對數(shù)據(jù)特性,、數(shù)據(jù)來源、數(shù)據(jù)獲取方式,、數(shù)據(jù)獲取頻率等不同角度對數(shù)據(jù)進行分類,、規(guī)劃、設(shè)計,、部署,,其數(shù)據(jù)架構(gòu)如圖2所示。

lzb-t2.gif

3  故障預(yù)警預(yù)判模型

    基于對歷史故障原因的深入分析,,將故障分成大類,,針對每類故障再劃分為子類,針對每個子類故障,,根據(jù)支撐數(shù)據(jù)類型及維度的不同,,選擇不同的機器學習方法計算其可能發(fā)生故障的概率,進而推算出可能發(fā)生故障的綜合概率以及最有可能發(fā)生故障的類型,,實現(xiàn)對故障的預(yù)警預(yù)判,。

lzb-t3.gif

3.1  故障因素分析

    基于對歷史故障原因的分析,大致將故障分成如下5大類:電網(wǎng)設(shè)備自身故障,、自然因素,、外力因素、運維不當,、其他因素,。針對每類故障,同時將故障細分成小類:

    針對電網(wǎng)設(shè)備自身故障,,可以細分為架空導線故障,、電纜故障,、柱上設(shè)備故障、箱變故障,、配電室故障,、開關(guān)柜故障、環(huán)網(wǎng)柜故障,、JP柜故障,、電纜分支箱故障,、桿塔故障,、絕緣子故障、避雷器故障,、其他設(shè)備故障,。

    針對自然因素,可以細分為雷擊,、強風,、洪水、地震,、山體滑坡,、雨雪冰凍。

    針對外力因素,,可以細分為盜竊,、建設(shè)施工、車輛,、外部火災(zāi),、外部異物。

    針對運維不當,,可以細分為樹障,、鳥害等小動物、消缺不及時,、巡檢不到位,、過負荷、過電壓,。

3.2  分類建模

    針對每一大類故障,,分別建立對應(yīng)的數(shù)據(jù)模型。

3.2.1  電網(wǎng)設(shè)備因素導致故障預(yù)測模型

    針對設(shè)備故障,,從設(shè)備實時監(jiān)測數(shù)據(jù),、運行數(shù)據(jù)、設(shè)備制造廠商,、設(shè)備運行年限,、設(shè)備歷史故障次數(shù)等維度,,針對歷史故障信息,建立電網(wǎng)設(shè)備自身故障預(yù)測模型,。例如,,針對環(huán)網(wǎng)柜設(shè)備,實時監(jiān)測數(shù)據(jù)包括:溫度,、濕度,、局放、電纜溫度,、母線樁頭溫度,、避雷器放電次數(shù)、煙霧濃度等維度,,運行數(shù)據(jù)包括電壓,、電流等維度,設(shè)備制造廠商包括廠商名稱,、設(shè)備批次等維度,。

    為了產(chǎn)生可視化的分類規(guī)則,避免了線性回歸事先假定的線性關(guān)系不符合實際造成較大誤差的情況,,避免對函數(shù)形式事先進行假設(shè)而產(chǎn)生的假設(shè)誤差,,使得產(chǎn)生的模型具有可解釋性,故采用樹形模式進行建模,,同時,,為了減少需要調(diào)整參數(shù)、提高分類速度,、高效處理大樣本數(shù)據(jù),、實現(xiàn)特征因素的重要性估計、很好地處理類別變量,、提高抗噪聲能力,、提高泛化能力,使得模型對新樣本具有更強的適應(yīng)性,,在決策樹的基礎(chǔ)上,,選擇隨機森林方法進行建模。

    隨機森林回歸的基本思路是:首先利用自助抽樣法,,從原始數(shù)據(jù)中抽取N個樣本,,且每個樣本容量都與原始數(shù)據(jù)集相通;然后對N個樣本分別建立N課樹,,得到N個結(jié)果,,最后對這N個結(jié)果取平均值得到最終的預(yù)測結(jié)果。

    電網(wǎng)設(shè)備自身故障隨機森林模型由N棵樹組成,,{F1(X),F2(X),……,FN(X)},其中X={x1,x2,……,xM}是故障的M維特征向量,。結(jié)果會產(chǎn)生B個預(yù)測結(jié)果,。對于回歸問題預(yù)測值為所有以樹預(yù)測結(jié)果的平均。算法流程如下:

    (1)原始數(shù)據(jù)含樣本量為32 859,,應(yīng)用bootstrap方式抽樣選擇500個樣本集,,構(gòu)建500棵決策樹。每次抽樣未被抽到的樣本構(gòu)成OOB(out of bag)樣本作為隨機森林的驗證樣本,。

    (2)樣本中變量個數(shù)為15,,每一棵決策樹每一個節(jié)點隨機選擇k個變量進行基尼指標計算,確定合適的變量得到合適的劃分,。使用隨機森林做回歸時,,通常取k=P/3。本模型每次劃分選擇5個變量,。

    (3)每一棵決策樹生長到最大,,無需進行剪枝,,重復上述步驟直到生成500棵決策樹,。

通過上述步驟,建立得到電網(wǎng)設(shè)備自身故障隨機森林模型,,將OOB樣本輸入隨機森林模型得到故障預(yù)測精度,。

    隨機森林可以給出變量重要性排序,據(jù)此得出營銷故障發(fā)生的重要預(yù)測變量,。其次,,通過依次刪除預(yù)測變量的方式計算方差解釋性差值,得到變量的重要性排序,。刪除某個變量后解釋性差值變化越大,,證明這個變量越重要;解釋性差值變化越小,,證明這個變量越不重要,。

    預(yù)測變量如表1所示:

lzb-b1.gif

    為提高準確性,隨機森林運行10次得到方差解釋性,,如表2所示:

lzb-b2.gif

    方差平均解釋性為85.12%,。

    逐個刪除變量方差解釋性如表3所示:

lzb-b3.gif

    方差解釋性變化如表4所示:

lzb-b4.gif

    因此,對故障的發(fā)生貢獻影響因素最大的三個變量分別為溫度,、濕度和局放,。

    通過bootstrap抽樣,未被抽到的樣本組成了K個袋外數(shù)據(jù),,構(gòu)成OOB樣本,。將入袋樣本作為測試集,將袋外樣本作為驗證集,,衡量預(yù)測精度,。隨機森林每一次bootstrap抽樣,,會產(chǎn)生不同的OOB樣本,不同的OOB樣本會得到不同的預(yù)測精度,。為保證預(yù)測準確性,,對10次bootstrap得到的袋外數(shù)據(jù)計算預(yù)測誤差并取平均,得出預(yù)測精度平均為79.3982%,,滿足要求,。

3.2.2  自然因素導致故障預(yù)測模型

    在自然因素中,雷擊,、強風,、洪水、地震,、山體滑坡,、雨雪冰凍等,多與故障的產(chǎn)生呈現(xiàn)一定的線性關(guān)系,,采用線性回歸方法對故障進行預(yù)測,。選取特征X={x1,x2,……,xn}分別為:2小時內(nèi)雷擊次數(shù)、平均風速,、最大風速,、洪水等級、地震等級,、山體滑坡等級,、覆冰厚度等,進行建模,,預(yù)測值y為發(fā)生故障的概率,。將自然因素特征X映射到故障發(fā)生概率y函數(shù)為:

    lzb-gs1.gif

    選取71 982條歷史數(shù)據(jù)作為訓練集,用來訓練特征系數(shù)向量,,損失函數(shù)為:

    lzb-gs2.gif

    采用小批量隨機梯度下降(MSGD)方法,,將損失函數(shù)最小化以得到特征系數(shù)向量,MSGD方法隨機采樣一個批量的樣本進行梯度計算,,在保證算法收斂的同時,,也提高了收斂速度。

    選取一個batch大小為10的訓練樣本,,每次迭代計算一小批樣本的誤差來進行梯度下降,;

    lzb-gs3.gif

    最終當兩次迭代的結(jié)果小于設(shè)定值,則完成求解,,得出模型,。

3.2.3  外力因素導致故障預(yù)測模型

    外力因素為盜竊、建設(shè)施工,、車輛,、外部火災(zāi),、外部異物等。選取特征值為是否發(fā)生盜竊,、施工距離,、電壓等級、車輛數(shù)量,、是否發(fā)生外部火災(zāi),、是否存在外部異物等。其中盜竊,、車輛數(shù)量,、外部火災(zāi)、外部異物等參考歷史數(shù)據(jù)中的平均值,,施工距離可以依靠設(shè)備附近監(jiān)拍裝置圖像獲取,。涉及特征量多為離散數(shù)據(jù),選取決策樹方法進行建模,。特征的選擇依靠信息增益比進行計算,。

    針對歷史數(shù)據(jù),首先計算是否發(fā)生盜竊,、施工距離,、電壓等級,、車輛數(shù)量,、是否發(fā)生外部火災(zāi)、是否存在外部異物等特征的信息增益:

    其中信息增益為:

    lzb-gs4.gif

    計算各特征的內(nèi)部信息為:

    lzb-gs5.gif

    計算通過信息增益比為:

    lzb-gs6.gif

    通過比較得出信息增益比最大的特征,,依據(jù)此特征進行劃分,,劃分后再次計算其他特征的信息增益比,再進行劃分,,直到信息增益比小于閾值,,完成模型的訓練。

3.2.4  運維不當導致故障預(yù)測模型

    運維不當因素包括樹障,、鳥害等小動物,、消缺不及時、巡檢不到位,、過負荷,、過電壓。選取特征值為周圍是否存在樹障,、是否存在鳥害等小動物,、缺陷發(fā)生時間、是否按計劃完成巡檢,、負荷值,、電壓值,。同外力因素導致故障預(yù)測模型類似,選擇C4.5決策樹進行建模,。

3.3  綜合建模

    完成上述模型建立后,,可獲取上述4類原因?qū)е鹿收系母怕剩謩e為P1,、P2,、P3、P4,,根據(jù)歷史故障數(shù)據(jù)可以計算各類因素導致故障的權(quán)重,,計為a1、a2,、a3,、a4,最終故障預(yù)判模型為:

    故障發(fā)生概率P=a1×P1+a2×P2+a3×P3+a4×P4

4  技術(shù)實現(xiàn)路線

    本系統(tǒng)技術(shù)實現(xiàn)路線如下:數(shù)據(jù)收集及存儲,、數(shù)據(jù)分析,、數(shù)據(jù)挖掘技術(shù)以及可視化展現(xiàn)4個部分。

4.1  數(shù)據(jù)收集與存儲

    (1)電力系統(tǒng)數(shù)據(jù)

    PMS系統(tǒng)中的數(shù)據(jù)主要包含電網(wǎng)設(shè)備信息,、檢修計劃等,,搶修人員根據(jù)搶修工單信息,獲取PMS中的電網(wǎng)設(shè)備及剛性計劃等,,本系統(tǒng)對PMS系統(tǒng)中的數(shù)據(jù)不做存儲,,僅進行實時調(diào)用。

    95598數(shù)據(jù)主要包含:電話服務(wù)記錄,、多媒體服務(wù)記錄,、95598服務(wù)記錄、其他服務(wù)信息,、語音記錄,、客戶檔案信息、部門人員信息,、公共信息共8類數(shù)據(jù),,其中95598服務(wù)記錄:主要包括業(yè)務(wù)受理信息、處理信息,、流程信息等內(nèi)容,。以業(yè)務(wù)受理信息為例,按每天250條受理工單計算,,年增91 250條記錄,,容量約870 MB。

    在線監(jiān)測數(shù)據(jù)主要包含:架空導線、電纜,、柱上設(shè)備,、箱變、配電室,、開關(guān)柜,、環(huán)網(wǎng)柜、JP柜,、電纜分支箱,、桿塔、絕緣子,、避雷器,。本系統(tǒng)獲取各類設(shè)備的歷史及實時數(shù)據(jù)。共存儲57 GB數(shù)據(jù),。

    巡視搶修信息的數(shù)據(jù)主要包含:巡視搶修工單信息,,圖片、音視頻信息等,。本系統(tǒng)保存所有巡視,、搶修工單信息。按每月1.2 GB計算,,年增長量為15 GB,。

    電網(wǎng)GIS平臺數(shù)據(jù)主要包含:地圖切片數(shù)據(jù),路網(wǎng)數(shù)據(jù),,重要設(shè)備的CPS坐標信息,。本系統(tǒng)對電網(wǎng)GIS平臺中的數(shù)據(jù)不做存儲,僅進行實時調(diào)用,。

    輔助監(jiān)控數(shù)據(jù)主要包含變電站,、環(huán)網(wǎng)柜等設(shè)備溫濕度、油色譜數(shù)據(jù),、微水、氣壓等數(shù)據(jù),。本系統(tǒng)獲取各類設(shè)備的歷史及實時數(shù)據(jù),。共存儲7.5 G信息。

    歷史故障信息主要包括故障的基本信息,、文本信息以及圖片,、音視頻等數(shù)據(jù)。本系統(tǒng)一次性抽取400 G故障信息,。

    線路監(jiān)拍數(shù)據(jù)為桿塔上監(jiān)拍裝置拍攝的圖像信息,。本系統(tǒng)獲取各類設(shè)備的歷史及實時數(shù)據(jù)。共存儲189 G信息。

    實時負荷數(shù)據(jù)為開關(guān)的電壓,、電流等數(shù)據(jù),。本系統(tǒng)獲取各類設(shè)備的歷史及實時數(shù)據(jù)。共存儲3.4 G信息,。

    APP使用數(shù)據(jù)主要包括APP的使用日志信息,,按照每月500 M計算,年增長量為6 G,。

    (2)外部數(shù)據(jù)

    氣象數(shù)據(jù)主要為網(wǎng)格化的氣象數(shù)據(jù),,包括溫度、濕度,、風力,、最高氣溫、最低氣溫,、臺風預(yù)警,、山火預(yù)警等。網(wǎng)格大小約為16平方公里,。本系統(tǒng)對氣象數(shù)據(jù)不做存儲,,僅進行實時調(diào)用。

    路況信息主要為路徑導航數(shù)據(jù),、道路擁堵情況數(shù)據(jù),、臨時封堵與管制信息等。本系統(tǒng)對路況信息不做存儲,,僅進行實時調(diào)用,。

    網(wǎng)絡(luò)輿情數(shù)據(jù)主要為主流社交媒體中電力相關(guān)的輿情信息。本系統(tǒng)對網(wǎng)絡(luò)輿情數(shù)據(jù)不做存儲,,僅進行實時調(diào)用,。

    (3)數(shù)據(jù)收集

    數(shù)據(jù)采集方法有數(shù)據(jù)復制、ETL,、OGG,、ESB等,可以根據(jù)實際業(yè)務(wù)選擇采集方法,,采集所要分析的數(shù)據(jù)集,。對數(shù)據(jù)存儲可以根據(jù)讀寫效率、存儲成本,、存儲管理的不同運用選擇存儲方法,,例如分布式關(guān)系數(shù)據(jù)庫、分布式文件存儲系統(tǒng),、分布式內(nèi)存數(shù)據(jù)庫,、分布式NoSql數(shù)據(jù)庫等,。

4.2  數(shù)據(jù)分析

    大數(shù)據(jù)分析是運用大數(shù)據(jù)分布式計算方式結(jié)合分析模型對初始數(shù)據(jù)進行數(shù)據(jù)分析。大數(shù)據(jù)處理的方式有基于實時計算的流計算,、內(nèi)存計算,、CEP復雜事件處理計算以及非實時計算的Map/Reduce處理方式等,計算方式可以根據(jù)實際業(yè)務(wù)的需要來選擇,。在數(shù)據(jù)分析過程中,,首先對初始數(shù)據(jù)進行輕度加工,形成分析型數(shù)據(jù),,然后通過分析模型的應(yīng)用,,得到分析結(jié)果數(shù)據(jù)并形成價值服務(wù)數(shù)據(jù),如圖4所示,。

lzb-t4.gif

4.3  數(shù)據(jù)挖掘技術(shù)

    (1)決策樹

    決策樹(Decision Tree)是一種非常成熟的,、普遍采用的數(shù)據(jù)挖掘技術(shù)。之所以稱為樹,,是因為其建模過程類似一棵樹的成長過程,,即從根部開始,到樹干,,到分枝,,再到細枝末節(jié)的分叉,最終生長出一片片的樹葉,。在決策樹里,,所分析的數(shù)據(jù)樣本先是集成為一個樹根,然后經(jīng)過層層分枝,,最終形成若干個結(jié)點,,每個結(jié)點代表一個結(jié)論。決策樹算法之所以在數(shù)據(jù)分析挖掘應(yīng)用中如此流行,,主要原因在于決策樹的構(gòu)造不需要任何領(lǐng)域的知識,,很適合探索式的知識發(fā)掘,并且可以處理高維度的數(shù)據(jù),。在眾多的數(shù)據(jù)挖掘,、統(tǒng)計分析算法中,決策樹最大的優(yōu)點在于它所產(chǎn)生的一系列從樹根到樹枝(或樹葉)的規(guī)則,,可以很容易地被分析師和業(yè)務(wù)人員理解,,而且這些典型的規(guī)則甚至不用整理(或稍加整理),就是現(xiàn)成的可以應(yīng)用的業(yè)務(wù)優(yōu)化策略和業(yè)務(wù)優(yōu)化路徑,。另外,決策樹技術(shù)對數(shù)據(jù)的分布甚至缺失非常寬容,,不容易受到極值的影響,。

    (2)聚類分析

    聚類(Clustering)分析有一個通俗的解釋和比喻,,那就是“物以類聚,人以群分”,。針對幾個特定的業(yè)務(wù)指標,,可以將觀察對象的群體按照相似性和相異性進行不同群組的劃分。經(jīng)過劃分后,,每個群組內(nèi)部各對象間的相似度會很高,,而在不同群組之間的對象彼此間將具有很高的相異度。

    (3)關(guān)聯(lián)規(guī)則

    關(guān)聯(lián)規(guī)則(Association Rule)是在數(shù)據(jù)庫和數(shù)據(jù)挖掘領(lǐng)域中被發(fā)明并被廣泛研究的一種重要模型,,關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的主要目的是找出數(shù)據(jù)集中的頻繁模式(Frequent Pattern),,即多次重復出現(xiàn)的模式和并發(fā)關(guān)系(Cooccurrence Relationships),即同時出現(xiàn)的關(guān)系,,頻繁和并發(fā)關(guān)系也稱作關(guān)聯(lián)(Association),。

    (4)回歸分析

    回歸(Regression)分析包括線性回歸(Linear Regression),這里主要是指多元線性回歸和邏輯斯蒂回歸(Logistic Regression),。其中,,在客戶全面感知數(shù)據(jù)分析中更多使用的是邏輯斯蒂回歸,它又包括響應(yīng)預(yù)測,、分類劃分等內(nèi)容,。

    多元線性回歸主要描述一個因變量如何隨著一批自變量的變化而變化,其回歸公式(回歸方程)就是因變量與自變量關(guān)系的數(shù)據(jù)反映,。因變量的變化包括兩部分:系統(tǒng)性變化與隨機變化,,其中,系統(tǒng)性變化是由自變量引起的(自變量可以解釋的),,隨機變化是不能由自變量解釋的,,通常也稱作殘值。

4.4  可視化展現(xiàn)

    大數(shù)據(jù)應(yīng)用基于準備數(shù)據(jù),,依據(jù)分析模型,,分析統(tǒng)匯出結(jié)果,需要對分析結(jié)果進行可視化展現(xiàn)以及驗證,。

    數(shù)據(jù)可視化展現(xiàn)實現(xiàn)面向客戶,、面向服務(wù)人員、面向管理人員,、面向決策人員的大數(shù)據(jù)結(jié)果可視化展示,。根據(jù)業(yè)務(wù)數(shù)據(jù)集的特征和潛在結(jié)構(gòu)選擇合理的可視化模型,主要模型有多維可視化模型(散點圖,、線形圖,、柱形圖、餅形圖),、特殊的地形和層次可視化模型(地圖和樹型圖),,以及混合模型(圖文說明圖,、動態(tài)效果圖)等??梢暬募夹g(shù)有適合強交互多數(shù)據(jù)展示的Flex,、強交互多動畫展示的Flash、強交互動態(tài)展示的Silver Light,、強交互多圖文展示的Html5等,。

    數(shù)據(jù)可視化驗證可以從驗證業(yè)務(wù)數(shù)據(jù)集的邏輯轉(zhuǎn)換和驗證業(yè)務(wù)假設(shè)進行驗證,驗證其分析結(jié)果是否符合預(yù)期或者是否可以依據(jù)分析結(jié)果做出預(yù)判等,。根據(jù)驗證結(jié)果也可以不斷調(diào)整和完善大數(shù)據(jù)應(yīng)用中各個業(yè)務(wù)的分析模型,。     

參考文獻

[1] 施文波,俞君杰,李校驍,等.電力GIS系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),2015,38(21):155-158.

[2] 張婷.GIS系統(tǒng)在供電局配電網(wǎng)中的應(yīng)用探討[J].城市建設(shè)理論研究(電子版),2014,(7).

[3] 徐建.基于GIS的電力配網(wǎng)系統(tǒng)探討[J].低碳世界,2015,(26):90-91.

[4] 謝炯,額爾敦,李欣,等.電力生產(chǎn)GIS服務(wù)平臺的研究與設(shè)計[J].電力信息與通信技術(shù),2013,11(9):85-89.

[5] 蔣錦霞,莊曉丹,梅峰,,等.配網(wǎng)生產(chǎn)搶修指揮平臺設(shè)計及應(yīng)用[J].電力信息化,2013,11(5):57-61.

[6] 姚楠,陳哲,劉玉林,,等.基于GIS的電網(wǎng)氣象災(zāi)害監(jiān)測預(yù)警系統(tǒng)的研制[J].電力信息化,2013,11(3):41-45.

[7] 崔巍,王本德.電力搶修監(jiān)控調(diào)度系統(tǒng)開發(fā)和應(yīng)用[J].電力系統(tǒng)自動化,2002,26(19):64-67.

[8] 郭建成,錢靜,陳光,等.智能配電網(wǎng)調(diào)度控制系統(tǒng)技術(shù)方案[J].電力系統(tǒng)自動化,2015,(1):206-212.

[9] 翁穎鈞,朱仲英.地理信息系統(tǒng)技術(shù)在電力系統(tǒng)自動化中的應(yīng)用[J].電力系統(tǒng)自動化,2003,27(18):74-78.

[10] 劉友波,劉洋,劉俊勇,,等.基于Hadoop架構(gòu)的電力系統(tǒng)連鎖故障分布式計算技術(shù)[J].電力系統(tǒng)自動化,2016,40(7):90-97.

[11] 夏可青,陳根軍,李力,,等.基于多數(shù)據(jù)源融合的實時電網(wǎng)故障分析及實現(xiàn)[J].電力系統(tǒng)自動化,2013,(24):81-88.

[12] 陳春,王業(yè)平,崔毅敏,等.電網(wǎng)故障信息系統(tǒng)中的故障分析與判斷[J].電力系統(tǒng)自動化,2011,35(19):97-100.

[13] 林穎,郭志紅,陳玉峰,,等.基于卷積遞歸網(wǎng)絡(luò)的電流互感器紅外故障圖像診斷[J].電力系統(tǒng)保護與控制,2015,(16):87-94.

[14] 李雨舒,李明珍.無人值班變電站遙控常見故障的分析與處理[J].電力系統(tǒng)保護與控制,2009,37(18):145-146.

[15] 李濤,吳冰,潘磊,,等.應(yīng)急指揮中心信息接入方法研究[J].電力信息化,2012,10(11):38-42.

[16] 張尚謨,王永紅,華侃,等.應(yīng)急指揮中心多級音視頻互聯(lián)的研究及應(yīng)用[J].電力信息化,2012,10(5):33-36.

[17] 李嘯東,渠毅,郝小龍,,等.電網(wǎng)全景展現(xiàn)與運行指揮系統(tǒng)的應(yīng)用[J].電力信息化,2012,10(1):90-94.

[18] 曾東,王法,許金明,,等.基于輸電狀態(tài)監(jiān)測平臺的巡檢系統(tǒng)研發(fā)及應(yīng)用[J].電力信息化,2011,09(11):96-99.



作者信息:

劉周斌1,何  颋2,李沁園1,胡曉哲2,項  翔2,袁永軍2,王海峰2

(1.國網(wǎng)浙江省電力有限公司電力科學研究院,浙江 杭州310007,;2.國網(wǎng)浙江杭州市富陽區(qū)供電有限公司,,浙江 杭州311400)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。