基于馬爾可夫鏈的自適應性神經網絡訓練算法-AET-電子技術應用

基于馬爾可夫鏈的自適應性神經網絡訓練算法

2014年電子技術應用第10期

莫紅枝

玉林師范學院教育技術中心，廣西玉林537000

摘要： 提出一種基于馬爾可夫鏈的自適應性神經網絡訓練方法，對傳統(tǒng)的S型激勵函數進行了改進，建立了自適應性的神經網絡分類器。

關鍵詞： 自適應性激勵函數故障診斷神經網絡

中圖分類號： TP393
文獻標識碼： A
文章編號： 0258-7998(2014)10-0142-04

A Markov-based training program for adaptive neural network

Mo Hongzhi

Education Technology Center，Yulin Normal University，Yulin 537000，China

Abstract： A Markov-based training program to improve the robust and convergence rate is proposed in this paper. The activation function is improved from sigmoid function. The maximum likelihood estimation is established under the assumption that noise in the samples follows Gaussian distributions. Then a Markov chain is formed based on posterior probability. The Markov chain is used for training samples and can speed up the training rate. To evaluate the mentioned network, an experiment is designed to diagnose fault for roll bears. Result shows that the Markov chain is able to train the adaptive network and improve the diagnostic classification results effectively.

Key words : adaptively；activation functions；fault diagnosis；neural network

0 引言

神經網絡算法是一種非線性計算模型，近年來成為模式識別中常用的工具之一。在多層神經網絡中，系統(tǒng)的性能不僅受到隱含層數、隱含層神經元數量的影響，而且還與激勵函數的選取和訓練算法直接相關。

在目前的研究中，采用最為廣泛的為S型激勵函數^[1-2]，S型函數容易減慢網絡的收斂速度，甚至可能導致陷入局部最小值^[3]。針對這一問題，近幾年采用自適應激勵函數對神經元輸入的加權和進行計算已經成為一種趨勢，并應用于股票預測^[4]、文字識別^[5]等方面。本文針對常見的S型函數,改進了自適應性激勵函數神經網絡系統(tǒng)框架，提出基于馬爾可夫鏈的學習算法，并將其應用到故障診斷領域，取得了比較好的實驗結果。

1 自適應性神經網絡

1.1 多層神經網絡

多層神經網絡一般包括一個輸入層、一個輸出層、一個或者多個隱藏層。隱藏層每一層網絡中都包含多個神經元，對每個神經元的輸入都是由上一層輸出的加權和，例如對于第n組樣本數據，第k層上的第j個神經元的輸入可以通過計算上一層的加權和來計算，計算公式為：

其中，d_in和y_in分別為第i個神經元上真實情況下的輸出值和實際計算結果的輸出值，N為訓練樣本的個數。

1.2 激勵函數

本文以傳統(tǒng)的三層神經網絡結構，設計出基于改進的S函數的自適應性神經網絡。其特點在于隱含層的激勵函數不再是固定的函數，而是包含了可變參數的激勵函數，這種神經網絡系統(tǒng)框架如圖1所示。其中輸入層的神經元數量由選取的特征的個數決定(1，2，…，N)，輸出層神經元個數為4個（S₁，S₂，S₃，S₄），隱含層神經元的輸入是輸入層各個神經元輸出的加權和，并采用了自適應性的激勵函數對隱含層的輸入進行計算(I₁，I₂…I_k)。計算結果通過加權求和作為輸出層的輸入。在輸入層并未采用任何激勵函數，輸出層采用經典的S型激勵函數，如：

式（4）由S型函數演化而來，是一種常用的自適應性激勵函數，式中的α和β為可變參數。雖然該函數已經應用到神經網絡算法中，卻很少有文獻將其應用在解決機械設備故障分類問題中。

2 基于馬爾可夫鏈的訓練算法

2.1 算法描述

樣本訓練即是在給定一定數量的樣本時，利用式(3)對所有的權重進行最優(yōu)化估計的過程^[6-7]。當樣本數據中含有噪聲時，會造成程序魯棒性很差，給傳統(tǒng)的訓練方法帶來困難，本文假設式(3)中的誤差服從于高斯分布，然后根據后驗概率構造出馬爾可夫鏈，完成對權重的訓練，可以有效避免噪聲對訓練結果造成的影響，具有收斂速度快的優(yōu)勢。假設樣本中含有噪聲，因此實際輸出與理想輸出之間的關系為：

式(5)的含義是對權重和自適應性參數進行估計，首先建立出的最大似然估計為：

在得到θ的條件分布后，則各個權重及可變參數可以通過以下的算法進行更新。

算法一：

輸入：樣本X，迭代次數I，初始值θ⁽⁰⁾={w⁰，α⁰，β⁰}

從上面算法可以看到，通過不斷對各個參數進行更新，形成了馬爾可夫鏈，最終可以得到最小二乘估計。

2.2 參數分析

下面以式（4）為例給出條件分布的計算公式：

（1）對于權重w_k

求取其分布時只需要將其他變量看作固定值，則可以得到其分布：

其中，注意到要想從式（10）中得到估計量并不是很容易，因此采用了拒絕性采樣對權重進行更新。其算法可以表示為：

算法二：

（2）對于參數α

通過簡單的推導可以得出參數α的條件分布仍然服從于正態(tài)分布：

式（12）中的概率也是很難處理的，為簡化程序，同樣采用拒絕性采樣算法對β進行更新。

3 實驗結果仿真

3.1 數據準備

為對神經網絡性能進行驗證，利用本文設計的自適應性神經網絡設計出了分類器，應用于軸承故障診斷當中。選取的樣本數據來自于美國凱斯西儲大學股東軸承數據中心。軸承型號為SKF公司的6205-2RS型的深溝球軸承。考慮了4種軸承故障，分別為內圈單點故障、外圈點蝕及滾動體點蝕和正常工作信號。4種信號的波形分別如圖2~圖5所示。

訓練樣本空間總共選取了1 136個個體，每個個體包含512個采樣點。通過小波分解提取出了20個小波系數作為分類器的輸入。

3.2 訓練結果

由于每段數據提取的特征個數為20個，因此將分類器的輸入層神經元個數設置為了20個。通過實驗得到了最佳的隱含層神經元數量。輸出層神經元個數對應于4種故障，最終的神經網絡架構和參數設置如表1所示。

其中S-MPL代表了S型函數作為隱含層激勵函數的神經網絡系統(tǒng)。F1-MPL代表以式（4）中的函數作為激勵函數的神經網絡系統(tǒng)。對F1-MPL的訓練過程如圖6和圖7所示。圖6顯示的是利用本文算法的訓練過程，其中?滓=0.5，初始值在0～1之間隨機生成。圖7展示了利用共軛梯度法作為訓練算法的收斂過程。共軛梯度法是介于最速下降法與牛頓法之間的一個方法，它僅需利用一階導數信息，但克服了最速下降法收斂慢的缺點，又避免了牛頓法需要存儲和計算Hesse矩陣并求逆的缺點，學習率選為1.2。

從圖6和圖7中的對比可以看出，利用本文提出的算法在第5次更新時就基本可以達到穩(wěn)定，具有穩(wěn)定性高、收斂速度快的特點。

3.3 分類結果

通過訓練后兩種神經網絡對4類信號最終的分類結果如表2所示。

其中樣本個數一欄分別表示了4種類型的信號的樣本個數，S-MPL、F1-MPL分別指的是通過S-MPL網絡和F1-MPL網絡分類正確的4種信號的數目。因此可以計算出兩種神經網絡算法的分類精度如表3所示。

從表1中看出，本文的訓練算法比傳統(tǒng)固定型的S型函數更加耗時，這是由于將可變參數引入到激勵函數中后，系統(tǒng)在訓練時往往需要更多的運算。然而訓練樣本的收斂精度也有所提高，這表明了本文算法訓練精度也更高，因此可以推測，自適應性的神經網絡應用到其他問題當中時，比傳統(tǒng)的神經網絡更加容易搜索到全局最優(yōu)值。

表2和表3證明了將本文的訓練算法應用在解決滾動軸承故障診斷問題方面的優(yōu)越性，取得了更高的分類精度。對于正常信號、滾動體點蝕振動信號、內圈單點故障信號、外圈點蝕故障信號的分類精度分別可以達到99.69%、99.15%、98.90%、99.67%，平均分類精度可以達到99.38%。

4 結論

本文對傳統(tǒng)的S型激勵函數進行了改進，提出一種自適應性的神經網絡分類器；基于馬爾可夫鏈對神經網絡進行訓練，提高了網絡訓練速度；最后，將該分類器應用到滾動軸承故障診斷問題中。結果證明，使用該分類器可以比傳統(tǒng)的S型神經網絡分類器獲得更高的分類精度。

參考文獻

[1] 唐貴基，范德功，胡愛軍，等.基于小波包能量特征向量神經網絡的旋轉機械故障診斷[J].汽輪機技術，2006(3)：215-217.

[2] 張來斌，崔厚璽，王朝暉，等.基于信息熵神經網絡的風力發(fā)電機故障診斷方法研究[J].機械強度，2009(1)：132-135.

[3] BURSE K，YADAV R N，SHRIVASTAVA S C.Channel equalization using neural networks：a review[J].IEEE Transactions on Systems，Man，and Cybernetics Part C-Applications and Reviews，2010，40(3)：352-357.

[4] BILDIRICI M，ALP E A，ERSIN O O.TAR-cointegration neural network model：An empirical analysis of exchange rates and stock returns[J].Expert Systems with Applications，2010，37(1)：2-11.

[5] KANG M，PALMER-BROWN D.A modal learning adaptive function neural network applied to handwritten digit recognition[J].Information Sciences，2008，178(20)：3802-3812.

[6] 滕輝.一種改進的神經網絡學習算法研究[J].科技通報，2012(4)：97-98.

[7] 鄭緒枝，夏薇，雷靖.一種改進的Jacobi正交多項式的BP神經網絡算法[J].云南大學學報(自然科學版)，2011(S2)：188-191.

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容