文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190478
中文引用格式: 馮楠,張黎. 一種基于MDP理論的武器火控系統(tǒng)精度可靠性增強方法研究[J].電子技術(shù)應(yīng)用,,2019,,45(7):56-58,62.
英文引用格式: Feng Nan,,Zhang Li. Research on accuracy and reliability enhancement method of weapon fire-control system based on MDP theory[J]. Application of Electronic Technique,,2019,45(7):56-58,,62.
0 引言
武器火控系統(tǒng)精度由火控系統(tǒng)和導(dǎo)彈制導(dǎo)系統(tǒng)兩個方面的精度組成,,慣導(dǎo)系統(tǒng)可以提供火控系統(tǒng)所需接收的導(dǎo)航信息,并且又是導(dǎo)彈制導(dǎo)系統(tǒng)的重要組成部分,,因而慣導(dǎo)系統(tǒng)的可靠性對保證火控系統(tǒng)的精度起著重要的作用,。慣導(dǎo)系統(tǒng)的可靠性主要取決于其中慣性儀表的可靠性,,所以為了提高可靠性,最早采用的方法是提高單個元器件的可靠性,,即設(shè)計具有大的平均無故障時間(MTBF)的元器件,。這一方法要求更高的加工工藝及更好的加工材料,并且對系統(tǒng)可靠性的提高極為有限,。因此,,采用冗余技術(shù)[1-11]使系統(tǒng)滿足可靠性的要求成為行之有效的方法。這種高可靠性不是建立在嚴格要求元器件和生產(chǎn)工藝的質(zhì)量上,,而是建立在“冗余”的設(shè)計上,,允許系統(tǒng)內(nèi)部存在故障,通過容錯設(shè)計消除故障的影響,,使系統(tǒng)仍能給出正確的結(jié)果,。敖銀輝等人[1]對基于連續(xù)時間MDP模型的維護策略產(chǎn)出的效益進行闡述。本文通過結(jié)合MDP(Markov Decision Process)馬爾可夫決策過程算法理論的研究成果,,考慮所設(shè)計INU(Inerrtial Navigation Unit)慣性導(dǎo)航設(shè)備的可靠度與期望節(jié)約成本總體指標意義下,,采用霍華特(Howard)策略迭代法給出求解最優(yōu)INU冗余度的計算方法[2]。
1 可靠度指標及計算方法
在可靠性理論中,,可靠度是指系統(tǒng),、元件等在規(guī)定的條件下和規(guī)定的時間內(nèi)正常工作的概率[3-4],記為R(t)或R0(t),。
文獻[3]指出,,相對于INU而言,配置結(jié)構(gòu)的最基本原則是線性不相關(guān),,即要求任意2個傳感器的測量軸不共線,,任意3個傳感器的測量軸不共面。從而,,對于INU中陀螺儀冗余配置,,只要有3個以上單自由度陀螺儀能正常工作,INU就能準確輸出,。假設(shè)N個陀螺儀是同類型,、統(tǒng)計獨立的,而系統(tǒng)其他部件都是理想的,,可得N個單自由度陀螺儀冗余INU的可靠度R(t)為,;
由于安裝平臺復(fù)雜,實際應(yīng)用中對INU需要定期檢測維修,,這里假設(shè)檢測維修時間間隔為0.5年,,陀螺儀平均無故障時間(MTBF)為1萬小時,則根據(jù)式(3)可計算得到陀螺儀單元在維修間隔時間內(nèi)的可靠度為:
2 基于MDP的INU可靠度增強模型
2.1 MDP算法描述
考慮MDP中最基本的離散時間馬爾可夫決策過程(DTMDP)。DTMDP考慮的是五元組[12-13]:{S,,A(i),,pij(a),r(i,,a),,V,i,,j∈S,,a∈A(i)},各元的含義為:
(1)S稱為系統(tǒng)的狀態(tài)空間,,是系統(tǒng)所有可能的狀態(tài)所組成的非空狀態(tài)集,,它可以是有限的、可列的或任意非空集,。
(2)對狀態(tài)i∈S,,A(i)是在狀態(tài)i處非空的可用的決策集,。
(3)當系統(tǒng)在決策時刻點t處于狀態(tài)i,,采取決策a∈A(i)時,則系統(tǒng)在下一決策時刻點t+1時處于狀態(tài)j的概率為pij(a),,它與決策時刻t無關(guān),。
(4)當系統(tǒng)在決策時刻點t處于狀態(tài)i,且采取決策a∈A(i)時,,系統(tǒng)于本階段獲得的報酬為r(i,,a)。
(5)V為準則函數(shù),,也稱目標函數(shù),。MDP常見的決策目標函數(shù)有總報酬準則、無限折扣準則以及無限平均準則等,。
系統(tǒng)在t時刻的決策規(guī)則πi是一概率分配函數(shù),,它決定可行決策集A(i)中各個決策取為實際決策a的概率,策略π是指一個決策規(guī)則列π={πi},。文中采用MDP中常見的Markov策略[6],。
2.2 MDP模型描述
根據(jù)INU冗余結(jié)構(gòu)配置的特點,把考慮INU即時可靠度與期望節(jié)約成本總體指標最大意義下最優(yōu)INU冗余度的整個選擇過程進行狀態(tài)分解,,并表示為以下馬氏決策過程的參數(shù)形式:
(1)決策時刻與周期
前述分析中,,假設(shè)檢測維修時間間隔為0.5年,由于此檢測維修時間間隔已包含在單個陀螺儀的可靠度R0(t)中,,因此可以無量綱時間t來描述,,如取t=0,1,,2,,…,,且僅在這些時刻觀察系統(tǒng)的狀態(tài)。例如,,第一個階段所經(jīng)歷的時間為時間區(qū)間[0,,1]。
(2)狀態(tài)與決策集
INU冗余結(jié)構(gòu)中,,以在某一觀察時刻INU中正常工作的陀螺儀個數(shù)為狀態(tài)變量參數(shù),。設(shè)第k階段觀察到的所有可能狀態(tài)所組成的集合為X(k),即X(k)={x1(k),,x2(k),,…,xn(k)},,其中xi(k)(i=0,,1,…,,6,;k=1,2,,…,,∞)表示在第k階段初INU中處于正常工作狀態(tài)的陀螺儀個數(shù)i的期望值。現(xiàn)有公開文獻中,,INU冗余結(jié)構(gòu)中單個自由度陀螺的最多冗余配置通常為5或6個[7-8],,所以這里狀態(tài)選擇最大期望值為6,所有期望狀態(tài)均列于表1,。
在第k階段初始狀態(tài)為i時,,所采取的決策記為ak(i),Ak={ak(i)}為第k階段初始狀態(tài)為i時的決策集合,。令決策集A(i)={0,,1,2,,3},,即ak(i)可選擇0、1,、2,、3,分別表示在k時刻INU中增加0,、1,、2、3個冗余度。
狀態(tài)0的決策集為獨點集A(0)={3},,表示增加3個冗余度,,以使INU滿足系統(tǒng)準確輸出的最低要求;同理,,狀態(tài)1的可用決策集為A(1)={2},,狀態(tài)2的可用決策集為A(2)={1}。狀態(tài)3的可用決策集A(3)={0,,1,,2,3},。為保證各時刻狀態(tài)i期望值不大于7,,狀態(tài)4的可用決策集A(4)={0,1,,2},,狀態(tài)5的可用決策集為A(5)={0,1},,狀態(tài)6的可用決策集為A(6)={0},。
式中,z為單個陀螺儀的代價權(quán)值,,表示增加陀螺將增加系統(tǒng)成本,;P0表示INU在檢測時間間隔內(nèi)能夠使系統(tǒng)準確輸出的概率,,y為P0的相應(yīng)報酬權(quán)值,。表1中給出了僅考慮期望節(jié)約成本的報酬取值。
(4)目標函數(shù)
決策目標函數(shù)定為無限階段折扣模型,,且折扣因子為β=0.9,。系統(tǒng)決策優(yōu)化準則即是在滿足系統(tǒng)準確輸出要求的前提下,使INU即時可靠度與期望節(jié)約成本總體指標期望值最大[12-13],。
3 試驗分析性能評價
策略迭代(policy iteration)算法也稱為策略空間逼近法,,它是求解折扣MDP的一個有效方法[9-11]。策略迭代法分兩步進行,,即策略求值與策略改進,。策略求值就是要求出最優(yōu)INU冗余度策略的一組相對值,策略改進就是要確定每次迭代的最優(yōu)決策,。每個階段的最優(yōu)決策不斷迭代,,直到第k步與第k+1步迭代有Ak=Ak+1時計算結(jié)束,則Ak為最優(yōu)INU冗余度策略,,此時INU冗余度即為最低要求的INU冗余度,。
假設(shè)INU冗余結(jié)構(gòu)中陀螺可靠度遵守二項分布,根據(jù)式(1)、式(4)可得在各狀態(tài)下采取不同決策的狀態(tài)轉(zhuǎn)移概率,,見表1,。狀態(tài)轉(zhuǎn)移概率根據(jù)表1可以更加直接地了解決策選擇過程。
根據(jù)2.2節(jié)建立的模型,,利用策略迭代算法,,編制了最優(yōu)INU冗余度選擇算法的MATLAB程序。利用這個算法,,可對考慮INU即時可靠度與期望節(jié)約成本總體指標意義下的目標函數(shù)T(z,,P0)進行求解,計算出在不同的回報函數(shù)權(quán)值影響下,,應(yīng)該確定的系統(tǒng)最優(yōu)INU冗余度,。下面通過實際驗證證明本文提出的算法的合理性。
3.1 只考慮系統(tǒng)準確輸出情況下的期望節(jié)約成本,,令y=0,,z=-1
將表1中計算條件代入程序,得到策略迭代運算結(jié)果如下:
初始策略:F1=[0 0 0 0 0 0 0]
第一次迭代結(jié)果:F2=[3 2 1 0 0 0 0]
第二次迭代結(jié)果:F3=[3 2 1 0 0 0 0]
由計算知,,經(jīng)過2次迭代,,INU冗余度策略集合F2=F3,因此F*=[3 2 1 0 0 0 0]是考慮INU期望節(jié)約成本意義下,,INU長期運行下的最優(yōu)配置策略,,即INU結(jié)構(gòu)中有3個陀螺儀,恰好滿足系統(tǒng)準確輸出最低要求,,驗證了算法的合理性,。
3.2 考慮INU即時可靠度與期望節(jié)約成本總體指標,令y=100,,z=-1
將計算條件代入程序,,可以得到策略迭代運算結(jié)果如下:
初始策略:F1=[0 0 0 0 0 0 0]
第一次迭代結(jié)果:F2=[3 2 1 1 0 0 0]
第二次迭代結(jié)果:F3=[3 2 1 1 0 0 0]
由計算知,經(jīng)過2次迭代,,INU冗余度策略集合F2=F3,,因此F*=[3 2 1 1 0 0 0]是考慮INU即時可靠度與期望節(jié)約成本總體指標意義下,INU長期運行下的最優(yōu)配置策略,,即INU結(jié)構(gòu)中有4個陀螺儀,。
綜合上述兩種不同優(yōu)化指標,可見提高INU可靠度要求后,,算法得出INU冗余結(jié)構(gòu)相對單純考慮成本指標時須增加INU冗余度,,從而算法可為INU冗余結(jié)構(gòu)設(shè)計提供合理的建議。
4 結(jié)論
本文在分析INU可靠度指標和計算方法的基礎(chǔ)上,,構(gòu)建了INU冗余度馬氏決策控制模型,,利用策略迭代算法進行驗證分析得出:基于INU即時可靠度與期望節(jié)約成本總體指標或單獨指標意義下,,運用馬氏決策控制模型得出的最優(yōu)INU冗余度是節(jié)約成本最高或可靠度與期望節(jié)約成本總體指標最高的,且能夠滿足系統(tǒng)準確輸出的要求,。驗證分析中的具體數(shù)據(jù)是通過實際情況真實獲得的,,因此用該模型計算出的結(jié)果具有較高的參考價值,能夠為SINS冗余可靠性設(shè)計提供建議,。
參考文獻
[1] 敖銀輝,,王翠芬.基于連續(xù)時間MDP模型和隨機決策的維護周期[J].電子技術(shù)應(yīng)用,2016,,42(3):123-126.
[2] 馮玎,,林圣,張奧,,等.基于連續(xù)時間馬爾可夫退化過程的牽引供電設(shè)備可靠性預(yù)測方法研究[J].中國電機工程學(xué)報,,2017,37(7):1937-1946.
[3] 吳彩華,,馬建朝,,魏海濤,等.基于Markov鏈的軟件可靠性早期評估研究[J].空軍預(yù)警學(xué)院學(xué)報,,2014,,28(3):199-202.
[4] 周圍正,李學(xué)峰.單機五陀螺捷聯(lián)慣導(dǎo)系統(tǒng)重構(gòu)算法研究[J].航天控制,,2017,,35(2):3-7.
[5] 程建華,董金魯.一種對稱斜置式四陀螺慣導(dǎo)冗余配置方案[J].傳感器與微系統(tǒng),,2015,,34(2):16-19,27.
[6] 杜海東,,曹軍海,,吳緯,,等.基于仿真的復(fù)雜系統(tǒng)可靠性冗余分配優(yōu)化設(shè)計[J].系統(tǒng)仿真學(xué)報,,2016,28(3):648-653.
[7] 王虎軍.冗余技術(shù)提高PLC控制系統(tǒng)可靠性的研究[J].計算機測量與控制,,2015,,23(12):4016-4018.
[8] 李興偉,白博,,周軍.多模冗余可重構(gòu)計算機可靠性研究[J].計算機測量與控制,,2017,25(7):309-312,,316.
[9] 張志偉.機載電子設(shè)備冗余設(shè)計與可靠性分析[J].光電技術(shù)應(yīng)用,,2017,,32(3):66-69.
[10] 劉玉寶,秦貴和.面向可靠性冗余優(yōu)化的自適應(yīng)差分進化算法[J].吉林大學(xué)學(xué)報,,2016,,54(1):70-76.
[11] 王躍鋼,楊家勝,,文超斌,,等.一種針對冗余配置捷聯(lián)慣導(dǎo)的導(dǎo)彈初始對準算法[J].導(dǎo)彈與航天運載技術(shù),2014(1):65-69.
[12] 郁湧,,黃宇鑫,,陳浩.基于構(gòu)件的可信軟件系統(tǒng)冗余機制及可靠性分析[J].計算機系統(tǒng)應(yīng)用,2018,,27(1):66-71.
[13] 王杜偉,,陶軍.基于半馬爾可夫過程容錯導(dǎo)航系統(tǒng)可靠性分析的化簡[J].自動化與儀器儀表,2015(1):154-156.
作者信息:
馮 楠1,,張 黎2
(1.92941部隊41分隊,,遼寧 葫蘆島125000;2.61905部隊,,遼寧 沈陽110000)