《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 智能監(jiān)控與管理對提高UPS系統(tǒng)可用性的特殊作用
智能監(jiān)控與管理對提高UPS系統(tǒng)可用性的特殊作用
摘要: 衡量UPS系統(tǒng)安全性能的指標(biāo)中,有兩個指標(biāo)尤其重要:一個是系統(tǒng)的可靠性,,另一個則是可用性,。作為提高電源系統(tǒng)質(zhì)量的主要設(shè)備,UPS系統(tǒng)本身的可靠性,、可用性,,是衡量UPS系統(tǒng)性能最重要、最根本的指標(biāo),。
Abstract:
Key words :

衡量UPS系統(tǒng)安全性能的指標(biāo)中,,有兩個指標(biāo)尤其重要:一個是系統(tǒng)的可靠性,另一個則是可用性,。作為提高電源系統(tǒng)質(zhì)量的主要設(shè)備,,UPS系統(tǒng)本身的可靠性、可用性,,是衡量UPS系統(tǒng)性能最重要,、最根本的指標(biāo)。這里對影響UPS可用性的因素進行詳盡的剖析,,從而得出通過采用先迸UPS智能管理技術(shù)來提高系統(tǒng)可用性的有效方法,。新的UPS管理技術(shù)及產(chǎn)品,對提高UPS系統(tǒng)的可用性具有重要的意義,。

從系統(tǒng)可用性的定義可以看出,,提高UPS系統(tǒng)可用性有兩個途徑:一是提高系統(tǒng)可靠性,即延長平均無故障時間MTBF,另一途徑則是降低平均故障修復(fù)時間 MTTR,。從UPS系統(tǒng)平均故障修復(fù)時間MTTR與UPS系統(tǒng)可用性的關(guān)系可以看出,,縮短平均故障修復(fù)時間MTTR對提高系統(tǒng)可用性具有更明顯的作用。

這里通過一個具體的案例詳細分析平均故障修復(fù)時間MTTR的構(gòu)成,。所分析的案例是一臺80kVA的UPS系統(tǒng),。如果這樣的UPS系統(tǒng)發(fā)生故障,通常是需要廠商專業(yè)技術(shù)人員才能進行維修的,。對于這樣一個系統(tǒng),,眾多廠商紛紛提出了"4小時響應(yīng)"、"24小時修復(fù)"等服務(wù)承諾,。但值得注意的是,,這些時間并非真正的故障恢復(fù)時間。首先,,所謂的"4小時響應(yīng)",,通常僅僅是指廠商方面的工程師在得到用戶的通知到做出上門維修計劃的時間,離真正故障修復(fù)還有相當(dāng)?shù)木嚯x,,而"24小時修復(fù)"則會有很多的附加條件,,如發(fā)生故障的設(shè)備所在地有無工程師、備件等條件,。其實,,真正的故障修復(fù)時間與整個故障修復(fù)過程的每個環(huán)節(jié)都有緊密的聯(lián)系。

下面就上述UPS系統(tǒng)故障案例的修復(fù)時間進一步地按實際分段加以詳細分析時發(fā)現(xiàn),,一次故障修復(fù)時間由以下時間段構(gòu)成:

故障報警通知時間,。從故障發(fā)生到用戶發(fā)現(xiàn)故障的時間,用T1表示,。

廠商反應(yīng)時間,。用戶將故障信息反饋給廠商的售后服務(wù)部門,到廠商售后服務(wù)工程師與用戶溝通,,做出上門維修計劃的時間,,用T2表示。

故障初步判斷時間,。廠商售后服務(wù)工程師通過電話等方式與用戶溝通,,了解故障現(xiàn)象和故障過程,對故障做出基本判斷的時間,,用T3表示,。

上門服務(wù)時間,。從廠商售后服務(wù)工程師通過電話等方式與用戶溝通對故障做出基本判斷后到上門服務(wù)的時間,,用T4表示。

故障排除時間。從廠商售后服務(wù)工程師上門服務(wù),,到故障排除的時間,,用T5表示。

1.首先來分析第一段時間——故障報警通知時間T1

 

看起來這段時間應(yīng)該是很短,,但是實際上它存在極大的不確定性,。首先,由于中,、大容量的UPS一般安裝放置在專用的電源機房,,由于噪音、安全等原因,,電源機房平時一般無人值守,。因此,如果UPS發(fā)生故障往往要等到故障產(chǎn)生嚴(yán)重后果后才會被用戶發(fā)現(xiàn),,同時,,由于UPS系統(tǒng)作為強電設(shè)備,需要具有專業(yè)知識,、經(jīng)過專門培訓(xùn)的人員才能進行日常的維護操作,,所以在出現(xiàn)故障后也需要專業(yè)人員到現(xiàn)場進行評估、判斷,,然后才能進行相應(yīng)的操作,,這一因素也制約了故障通知的速度。正是由于上述原因,,加上空間距離及專業(yè)知識方面的不確定因素,,UPS的故障通知時間T1也就變得具有很大的不確定性,使它可能成為降低系統(tǒng)可用性的一個重要因素,。

有這樣一個具體的實際案例,。天津某銀行數(shù)據(jù)中心,使用了1臺125kVA的UPS為數(shù)據(jù)中心供電,,UPS系統(tǒng)安裝在數(shù)據(jù)中心地下2層,,平時無人值守。一天上午10點,,UPS系統(tǒng)突然出現(xiàn)10s的短暫停電,,導(dǎo)致整個數(shù)據(jù)中心癱瘓。經(jīng)工程師現(xiàn)場檢查發(fā)現(xiàn),,UPS其實并無任何硬件故障,,只是在故障發(fā)生時運行在旁路狀態(tài),經(jīng)查閱UPS運行歷史記錄發(fā)現(xiàn),,當(dāng)時市電正好發(fā)生10s的短暫故障停電,,由于UPS運行在旁路狀態(tài),,相當(dāng)于市電向負(fù)載直接供電,所以市電停電直接影響到負(fù)載,。但進一步檢查發(fā)現(xiàn),,UPS實際上在兩天以前就已經(jīng)處于旁路狀態(tài),其原因是大容量負(fù)載啟動導(dǎo)致的過載并鎖定在旁路狀態(tài)(UPS設(shè)置運行模式),,盡管當(dāng)時UPS已經(jīng)發(fā)出了聲音報警信號,,由于空間距離的原因,工作人員并末聽到報警聲訊,,所以直到發(fā)生嚴(yán)重的后果以后才發(fā)覺,。從這個案例可以看到,通常認(rèn)為并不重要的故障通知時間T1竟然長達兩天,。由于乃存在較大的不確定性,,實際上對MTTR具有很大的影響,它可能是導(dǎo)致UPS系統(tǒng)可用性降低的重要原因,。

2,、再來看看第二段時間——廠商的反應(yīng)時間T2

由于中、大容量UPS的維修需要專業(yè)的知識及技能,,通常需要由廠商技術(shù)人員完成,,這段時間的長短反映了廠商對售后服務(wù)的重視程度及能力。不同的廠商分別為不同的產(chǎn)品提供5×8(每周5天,,每天8h的法定工作時間內(nèi)),、7×24(每周7天,每天24h全天候)的售后服務(wù)響應(yīng),。

3,、再看看第三段時間——故障初步判斷時間T3

為了加快故障修復(fù)速度,廠商售后服務(wù)工程師在提供上門維修服務(wù)之前,,通常需要通過電話等通信手段與用戶進行溝通,,了解故障現(xiàn)象,通過用戶得到UPS系統(tǒng)的故障狀態(tài)和相關(guān)信息,。這一工作非常重要,,故障初步判斷對準(zhǔn)備接下來的故障現(xiàn)場修復(fù)起著指導(dǎo)作用。這段時間的長短與很多因素有關(guān),,這些因素包括:用戶維護水平和故障前系統(tǒng)的運行狀況,、售后服務(wù)工程師的技術(shù)能力和溝通能力、產(chǎn)品智能管理和使用的方便程度,、是否人性化等,。譬如,用戶對UPS系統(tǒng)越了解,,用戶運行維護人員的技術(shù)水平越高,,故障初步判斷時間就越短,。除了用戶、售后服務(wù)工程師的技術(shù)能力對T3具有很大的影響外,,溝通能力等非技術(shù)因素往往成為決定T3長短的重要因素,用戶與售后服務(wù)工程師的方言,、語言表達習(xí)慣甚至性格等非客觀因素的差異和售后服務(wù)工程師的溝通技巧等,,都會對溝通的有效性產(chǎn)生直接的影響,從而影響T3的長短,。

 

4,、再看看第四段時間——上門服務(wù)時間T4

廠商工程師上門服務(wù)時間受到空間距離、天氣情況,、交通狀況等條件的影響,,但是相對容易控制,在進行MTTR分析時,,可以作為相對穩(wěn)定的參數(shù)處理,。

5、最后,,再看看第五段時間——故障排除時間T5

這段時間除了與售后服務(wù)工程師的技術(shù)水平有關(guān)外,,還直接受到第三步故障初步判斷結(jié)果的影響。由于故障初步判斷的失誤,,可能導(dǎo)致帶到現(xiàn)場的備件不能滿足維修的需要,,從而使故障不能很快得到修復(fù)。另外,,UPS系統(tǒng)的結(jié)構(gòu)設(shè)計也會對故障排除時間幾有很大程度的影響,。例如,有些廠商的UPS采用模塊化設(shè)計,,其故障部件的更換時間大為縮短,,也有些廠商是采用所謂"N+1"的模塊化加冗余配置技術(shù),這就更加大大縮短故障的修復(fù)時間T5,。

綜上所述,,在影響故障修復(fù)時間的各個階段中,除了廠商的服務(wù)標(biāo)準(zhǔn)和工程師的技術(shù)水平對故障修復(fù)時間具有重要的影響外,,故障報警通知,、故障初步判斷等環(huán)節(jié),由于其容易受到眾多非確定因素的影響,,具有很大的不確定性,,同時又不為大家所重視,所以往往成為延長故障修復(fù)時間MTTR的主要原因,。

為了有效縮短T1(故障報警通知時間),、T3,,(故障初步判斷時間)和T5(故障排除時間),首先,,UPS系統(tǒng)必須有故障遠程報警的功能,,UPS系統(tǒng)能在故障發(fā)生時,通過各種有效的遠程報警手段,,向不在現(xiàn)場的系統(tǒng)運行維護人員及時報告故障信息,,其次,售后服務(wù)工程師能通過直接,、客觀的手段了解故障情況,,從而得到有關(guān)故障的正確、完整的信息,,避免由于人為因素造成的信息失真,、缺漏。

要想使UPS系統(tǒng)具備遠程報警,、遠程測試,、故障遠程診斷和遠程修復(fù)等新的功能,這就要借助電源管理的新技術(shù)(包括一系列的附件,、軟件產(chǎn)品)才能實現(xiàn),。以下進一步介紹采用這些電源管理技術(shù)后的故障修復(fù)過程,從中不難看出,,電源管理技術(shù)對UPS系統(tǒng)的可用性正在產(chǎn)生深遠的影響,。

給UPS系統(tǒng)裝備上新的遠程報警管理卡,系統(tǒng)管理員可以對這種遠程報警卡進行設(shè)置,。系統(tǒng)管理員設(shè)置好了以后,,遠程報警管理卡便能夠根據(jù)系統(tǒng)管理員的設(shè)置定期對UPS自動進行檢測。當(dāng)遠程報警管理卡檢測到系統(tǒng)的潛在問題或者故障發(fā)生時,,會立即自動通過電話,、尋呼、網(wǎng)絡(luò)郵件,、手機短信等方式向運行維護人員發(fā)出報警通知,,避免故障的發(fā)生或者及時將故障警報通知廠商售后服務(wù)部門,從而將報警時間T1縮短到"分鐘級",。UPS系統(tǒng)維護人員在得到報警通知后,,立即通知廠商售后服務(wù)人員,廠商售后服務(wù)工程師能通過電話網(wǎng)絡(luò),、Internet,,直接對故障UPS進行訪問、遠程檢測和遠程故障診斷,,以及下載UPS運行參數(shù),、運行歷史記錄等,,這一切都由售后服務(wù)工程師直接進行,無需用戶的參與,,避免了人為因素的干擾,,使得對故障的初步判斷更為準(zhǔn)確,這可大大縮短故障初步判斷時間T3,,也為縮短故障排除時間T5奠定基礎(chǔ),。在判斷清楚故障情況后,售后服務(wù)工程師就可以根據(jù)情況進行處理,,如果故障僅僅是由于系統(tǒng)的某些參數(shù)設(shè)置不當(dāng),則只需要對UPS系統(tǒng)相應(yīng)的參數(shù)進行遠程調(diào)整就可以完成故障排除,,如果需要上門排除故障時,,工程師就可以直接攜帶備件進行上門維修。由于故障初步判斷相對準(zhǔn)確,,故障排除時間T5也相應(yīng)縮短,。整個平均故障恢復(fù)時間MTTR便大為縮短,從而可以顯著提高系統(tǒng)的可用性,。

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。