基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化關(guān)鍵技術(shù)研究
2020-08-06
來(lái)源:中國(guó)信通院CAICT
1 引言
隨著大數(shù)據(jù),、云計(jì)算等技術(shù)的高速發(fā)展,,數(shù)字經(jīng)濟(jì)已經(jīng)成為我國(guó)經(jīng)濟(jì)發(fā)展的重要戰(zhàn)略,高密度數(shù)據(jù)中心作為承載技術(shù)與產(chǎn)業(yè)的實(shí)體,,是傳統(tǒng)工業(yè)向信息化轉(zhuǎn)型的關(guān)鍵“新基建”,。因此,對(duì)數(shù)據(jù)中心的全方位優(yōu)化部署成為了從業(yè)者的迫切追求,。衡量數(shù)據(jù)中心性能的標(biāo)準(zhǔn)即為可定義,、可量化的一系列數(shù)據(jù)中心關(guān)鍵參數(shù)。本文希望研究利用機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化的典型關(guān)鍵技術(shù),,特別是研究聚焦在“基礎(chǔ)設(shè)施層”和“服務(wù)器層”等核心參數(shù)的具體優(yōu)化方法,,以形成數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化的設(shè)計(jì)路徑。
2 數(shù)據(jù)中心關(guān)鍵參數(shù)分析
本文研究的關(guān)鍵參數(shù)包括:數(shù)據(jù)中心能源利用效率(Power Usage Effectiveness,,PUE),、風(fēng)機(jī)水泵等基礎(chǔ)設(shè)施系統(tǒng)設(shè)備耗電量;網(wǎng)絡(luò)傳輸性能如時(shí)延,、丟包率,、吞吐量等;數(shù)據(jù)中心的可靠性,、可用性等,。
2.1 PUE
全球通用的數(shù)據(jù)中心核心關(guān)鍵指標(biāo)是PUE[1],該指標(biāo)最早于2007年由綠色網(wǎng)格組織(The Green Grid,,TGG)提出,,用來(lái)評(píng)價(jià)數(shù)據(jù)中心能源利用效率,并得到廣泛使用,。
PUE的定義為:PUE=Pall/PIT,,其中Pall指的是一個(gè)數(shù)據(jù)中心的全年總體累計(jì)電能消耗,,單位為kWh,;PIT為整個(gè)數(shù)據(jù)中心的IT設(shè)備全年累計(jì)電能消耗,單位同樣為kWh,。因此,,PUE為一個(gè)沒(méi)有單位的參數(shù),且最小值為1,。
2.2 數(shù)據(jù)中心基礎(chǔ)設(shè)施耗電量分析
隨著產(chǎn)業(yè)和規(guī)模的發(fā)展,,數(shù)據(jù)中心能耗成為社會(huì)廣泛關(guān)注的問(wèn)題。對(duì)于從業(yè)者而言,,實(shí)現(xiàn)數(shù)據(jù)中心的綠色化發(fā)展也是體現(xiàn)技術(shù)水平的重要方面之一,。因此,近年來(lái)數(shù)據(jù)中心行業(yè)對(duì)各種設(shè)備的能源消耗日益關(guān)注,,基礎(chǔ)設(shè)施的耗電量成為最為關(guān)鍵的技術(shù)參數(shù)之一,。
2.2.1 冷水機(jī)組
冷水機(jī)組是大型數(shù)據(jù)中心制冷架構(gòu)中的核心設(shè)備,,其工作原理是由一個(gè)多功能的機(jī)器,通過(guò)內(nèi)部工質(zhì)的壓縮或膨脹來(lái)完成制冷循環(huán),。在制冷行業(yè)中,,通常冷機(jī)可以分為風(fēng)冷式和水冷式兩種,根據(jù)壓縮機(jī)的不同種類,,水冷型的冷機(jī)又分為螺桿式冷水機(jī)組和離心式冷水機(jī)組,,在大型數(shù)據(jù)中心領(lǐng)域常見(jiàn)的是水冷型離心機(jī)組。根據(jù)調(diào)研,,冷機(jī)是數(shù)據(jù)中心暖通系統(tǒng)中耗電量最大的單體設(shè)備,,主要耗電部件是壓縮機(jī)。
2.2.2 風(fēng)機(jī)
在數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)中,,風(fēng)機(jī)的功耗占據(jù)著僅次于冷水機(jī)組的耗電類設(shè)備第二大比例,。在IDC制冷架構(gòu)設(shè)備中,采用風(fēng)機(jī)設(shè)備的風(fēng)冷精密空調(diào)整體耗能比水冷型高15%,。因此,,從空調(diào)制冷,到冷板式制冷,,再到浸沒(méi)式制冷,,制冷末端在逐漸向熱源逼近。液冷技術(shù)直接利用冷卻液直接/間接給IT設(shè)備芯片散熱,,效率較高,。
2.2.3 水泵
在數(shù)據(jù)中心運(yùn)維階段,通常水泵的運(yùn)行頻率對(duì)各類制冷設(shè)備整體的總能耗起關(guān)鍵作用,。因此,,水泵的能耗成為被關(guān)注的另一個(gè)耗電量核心參數(shù)。
2.3 網(wǎng)絡(luò)傳輸參數(shù)
隨著網(wǎng)絡(luò)的快速發(fā)展和普及,,互聯(lián)網(wǎng)規(guī)模不斷擴(kuò)大,,涌現(xiàn)出很多新型網(wǎng)絡(luò)應(yīng)用和服務(wù),例如高清視頻會(huì)議,、在線游戲和網(wǎng)絡(luò)直播等,。不同的數(shù)據(jù)中心應(yīng)用對(duì)以下3個(gè)指標(biāo)有不同側(cè)重點(diǎn)需求。
?。?)吞吐量:表征的是網(wǎng)絡(luò)架構(gòu)中主機(jī)之間的傳輸速率,,表現(xiàn)為單位時(shí)間長(zhǎng)度內(nèi)的傳輸數(shù)據(jù)總量,常用單位為kbit/s和Mbit/s,。
?。?)時(shí)延:有單向時(shí)延和端到端時(shí)延兩種概念,單向時(shí)延指E1發(fā)送數(shù)據(jù)報(bào)文的時(shí)間與E2接收數(shù)據(jù)報(bào)文的時(shí)間之差,,端到端時(shí)延是分組時(shí)延,、單向(網(wǎng)絡(luò))時(shí)延,、抖動(dòng)緩沖時(shí)延和附加固定時(shí)延(如果有)的總和。與單向時(shí)延一樣,,端到端時(shí)延在端點(diǎn)之間是單向的,,但擴(kuò)展到硬件,包含所有延遲因素,。
?。?)丟包率:是丟失IP包數(shù)與所有發(fā)送的IP包數(shù)的比值,衡量網(wǎng)絡(luò)架構(gòu)性能的一個(gè)重要參數(shù),。通常數(shù)據(jù)在網(wǎng)絡(luò)傳遞中會(huì)發(fā)生丟失現(xiàn)象,,經(jīng)常和網(wǎng)絡(luò)轉(zhuǎn)發(fā)質(zhì)量、末端間距等因素相關(guān),。
2.4 數(shù)據(jù)中心可靠性和可用性
數(shù)據(jù)中心的重要性在于支持企業(yè)應(yīng)用不間斷運(yùn)行,。近年來(lái),世界各地的數(shù)據(jù)中心經(jīng)常發(fā)生一些安全故障事件,,一次次沖擊著用戶的心理防線,。因此,數(shù)據(jù)中心可靠性和可用性是衡量其綜合性能的關(guān)鍵參數(shù),。
?。?)可靠性(Reliability),指某個(gè)設(shè)備或系統(tǒng)在一個(gè)指定的時(shí)間內(nèi)能夠無(wú)故障地持續(xù)穩(wěn)定運(yùn)行的可能性,。人們通常用平均無(wú)故障時(shí)間(Mean Time Between Failure,,MTBF)這一指標(biāo)來(lái)量化它,MTBF反映了產(chǎn)品的時(shí)間質(zhì)量,。
?。?)可用性(Availability),指系統(tǒng)在使用過(guò)程中MTBF與總時(shí)間(MTBF+MTTR)之比(其中MTTR為平均修復(fù)時(shí)間),,其計(jì)算公式是A=MTBF/(MTBF+MTTR),。可用性是衡量一個(gè)數(shù)據(jù)中心整體或者設(shè)備穩(wěn)定運(yùn)行能力的指標(biāo),,比率越無(wú)限接近1.0,,穩(wěn)定性越好,。
以上不同關(guān)鍵參數(shù)基本可以對(duì)一個(gè)數(shù)據(jù)中心進(jìn)行整體綜合評(píng)價(jià),,這使得數(shù)據(jù)中心基礎(chǔ)設(shè)施的設(shè)計(jì)有了可量化的目標(biāo),也使得評(píng)估有了可量化的依據(jù),。
3 針對(duì)參數(shù)優(yōu)化的機(jī)器學(xué)習(xí)算法
在信息通信領(lǐng)域,,機(jī)器學(xué)習(xí)算法技術(shù)在過(guò)去幾年越來(lái)越受到重視。這些算法的目的是找到相關(guān)參數(shù)之間的關(guān)聯(lián)程度,,并以此去規(guī)劃執(zhí)行動(dòng)作,,從而對(duì)目標(biāo)參數(shù)進(jìn)行集成優(yōu)化,。集成優(yōu)化是指對(duì)數(shù)據(jù)中心五層架構(gòu)的統(tǒng)一調(diào)度,其中尤為重要的是風(fēng)火水電和IT軟件硬件資源之間的優(yōu)化[2],。人工智能,、云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展,催生基于海量數(shù)據(jù)進(jìn)行預(yù)測(cè)并輸出建議的機(jī)器學(xué)習(xí)算法進(jìn)展迅速,。機(jī)器學(xué)習(xí)算法種類繁多,,其中針對(duì)目標(biāo)參數(shù)進(jìn)行關(guān)系擬合、優(yōu)化的算法基本分為三大類,。
?。?)監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)問(wèn)題可以分為兩類,一類是回歸,,輸出結(jié)果是數(shù)字,,如城市交通流量、設(shè)備運(yùn)行速度,;一類是分類,,輸出結(jié)果是類別,如男性或者女性,、睡眠或者清醒,。
(2)無(wú)監(jiān)督學(xué)習(xí):無(wú)監(jiān)督學(xué)習(xí)問(wèn)題可以分為3類,,一類是關(guān)聯(lián),,該方法是為了找出各種情況出現(xiàn)的概率,廣泛地運(yùn)用于購(gòu)物車分析(電子商務(wù)領(lǐng)域)中,;一類是聚類,,把樣本分堆,使同一堆中的樣本之間很相似,,而不同堆之間的樣本就有些差別,;還有一類是降維,減少數(shù)據(jù)集中變量的個(gè)數(shù),,但是仍然保留重要的信息,。
(3)強(qiáng)化學(xué)習(xí):通過(guò)學(xué)習(xí)那些能夠最大化獎(jiǎng)勵(lì)的行為是什么,,然后根據(jù)當(dāng)前狀態(tài)來(lái)決定最優(yōu)下一步行動(dòng),。此算法通常用在機(jī)器人開發(fā)中,經(jīng)常使用試錯(cuò)的方式來(lái)學(xué)習(xí)最佳行動(dòng),。機(jī)器人可以通過(guò)在撞到障礙物后接收到的負(fù)反饋來(lái)學(xué)習(xí)如何避免碰撞,。例如,在視頻游戲里,,試錯(cuò)行為能發(fā)現(xiàn)那些給予玩家獎(jiǎng)勵(lì)的特定動(dòng)作,。行動(dòng)主體就能用這些正向獎(jiǎng)勵(lì)來(lái)理解游戲中的最佳情形,,并選擇下一步行動(dòng)。
4 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化關(guān)鍵技術(shù)
機(jī)器學(xué)習(xí)算法是一個(gè)在不斷發(fā)展中的邊界不明確的技術(shù)領(lǐng)域,,如基本類別監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的算法分類目前尚存爭(zhēng)議[3],。機(jī)器學(xué)習(xí)界的一個(gè)最鮮明的特點(diǎn)就是算法眾多,思想各不相同,,發(fā)展各有路徑,。因此,業(yè)內(nèi)廣泛接受的一個(gè)事實(shí)是:沒(méi)有任何一種機(jī)器學(xué)習(xí)算法可以適用所有應(yīng)用場(chǎng)景,,可以說(shuō)是一類各方探討進(jìn)程中的典型技術(shù),。根據(jù)各類學(xué)習(xí)算法的特征優(yōu)勢(shì),數(shù)據(jù)中心領(lǐng)域展開了多種算法實(shí)踐,,其中的典型參數(shù)自動(dòng)優(yōu)化算法如下,。
4.1 應(yīng)用監(jiān)督學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化
監(jiān)督式學(xué)習(xí)在數(shù)據(jù)中心參數(shù)調(diào)優(yōu)中的典型技術(shù)是“運(yùn)維參數(shù)優(yōu)化”,其主要思想就是驅(qū)動(dòng)系統(tǒng)設(shè)備跟隨運(yùn)維人員從歷史數(shù)據(jù)中學(xué)習(xí),,運(yùn)維人員就像是一個(gè)“師傅”,,將自己的領(lǐng)域知識(shí)“教” 給系統(tǒng),然后系統(tǒng)根據(jù)“學(xué)”到的知識(shí)來(lái)自動(dòng)選擇合適的檢測(cè)器和算法參數(shù),。運(yùn)維人員首先在歷史數(shù)據(jù)中標(biāo)記出異常,,接著使用十幾種不同類型的檢測(cè)器提取出上百個(gè)異常特征,此時(shí)有了人工標(biāo)記的數(shù)據(jù)和異常特征,;然后,,將異常檢測(cè)問(wèn)題轉(zhuǎn)化成機(jī)器學(xué)習(xí)中監(jiān)督式的分類問(wèn)題,分析算法中參數(shù)的分布規(guī)律和不同參數(shù)下學(xué)習(xí)效果的評(píng)估,,并將此規(guī)律應(yīng)用于機(jī)器學(xué)習(xí)的模型訓(xùn)練,,達(dá)到自動(dòng)選擇合適參數(shù)的目的。
4.2 應(yīng)用無(wú)監(jiān)督學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化
無(wú)監(jiān)督算法的一個(gè)應(yīng)用是對(duì)大型服務(wù)器集群內(nèi)部的故障進(jìn)行根因故障分析,,以此提高數(shù)據(jù)中心的可靠性參數(shù),。目前,業(yè)界基于人工智能的運(yùn)維以告警事件,、業(yè)務(wù)日志,、網(wǎng)絡(luò)及業(yè)務(wù)拓?fù)涞葹檠芯抗芾韺?duì)象,通過(guò)算法智能降噪,、算法智能聚類的管理過(guò)程,,依托無(wú)監(jiān)督方式的機(jī)器學(xué)習(xí)算法技術(shù)來(lái)實(shí)現(xiàn)智能事件關(guān)系整合,在海量的故障事件中高速,、精準(zhǔn)定位問(wèn)題,,解析原因,提高解決問(wèn)題的速度,。
這種技術(shù)在對(duì)服務(wù)器進(jìn)行故障分析時(shí)具備典型的優(yōu)勢(shì):首先是多元IT數(shù)據(jù)接入,,融合告警事件、監(jiān)控日志,、流量,、網(wǎng)絡(luò)拓?fù)涞榷嗑S度數(shù)據(jù)接入;其次是大數(shù)據(jù)算法降噪,,通過(guò)智能算法進(jìn)行數(shù)據(jù)的降噪處理,,高效的實(shí)時(shí)數(shù)據(jù)處理能力,海量數(shù)據(jù)的多維管理,;第三是數(shù)據(jù)聚類和關(guān)聯(lián),,通過(guò)算法進(jìn)行智能關(guān)聯(lián)性匹配并聚合歸類,產(chǎn)生新的數(shù)據(jù)模型,;第四是智能根因推薦,,依據(jù)IP、業(yè)務(wù),、歸屬等多維度進(jìn)行智能化語(yǔ)義分析,,快速推薦當(dāng)前情境下的故障根因;最后是知識(shí)庫(kù)積累復(fù)用,,可以構(gòu)建一套知識(shí)體系與歷史事件分析的過(guò)程,,即針對(duì)過(guò)去事件與當(dāng)前告警智能提供匹配列表。
4.3 應(yīng)用強(qiáng)化學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化
用強(qiáng)化學(xué)習(xí)算法去優(yōu)化PUE是對(duì)傳統(tǒng)數(shù)據(jù)中心控制系統(tǒng)技術(shù)的突破性顛覆,,也是目前機(jī)器學(xué)習(xí)算法在數(shù)據(jù)中心參數(shù)優(yōu)化的最成功實(shí)踐,。這種算法運(yùn)用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)以及模糊控制等技術(shù)和方法對(duì)數(shù)據(jù)進(jìn)行處理,、對(duì)各類相關(guān)設(shè)備進(jìn)行系統(tǒng)化分析和決策,,從而達(dá)到優(yōu)化數(shù)據(jù)中心整體PUE的目的。通過(guò)對(duì)當(dāng)前運(yùn)行數(shù)據(jù)的清洗,、分析和挖掘,,預(yù)測(cè)未來(lái)的控制動(dòng)作。整個(gè)過(guò)程采用機(jī)器學(xué)習(xí)算法的模型進(jìn)行訓(xùn)練,。從強(qiáng)化學(xué)習(xí)算法用于優(yōu)化數(shù)據(jù)中心參數(shù)的成果來(lái)看,,該方法收益顯著。例如,,谷歌公司使用其機(jī)器學(xué)習(xí)系統(tǒng),,自動(dòng)管理其數(shù)據(jù)中心的冷卻架構(gòu),并持續(xù)分析21個(gè)變量,,如空氣溫度,、功率負(fù)載和內(nèi)部氣壓等。2018年,谷歌公司利用機(jī)器學(xué)習(xí)算法將冷卻系統(tǒng)所需的能耗減少40%,,實(shí)現(xiàn)PUE值為1.06的良好成績(jī),。
5 結(jié)束語(yǔ)
自2013年起,中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所測(cè)試過(guò)眾多數(shù)據(jù)中心的PUE,,其中表現(xiàn)良好的大部分為互聯(lián)網(wǎng)和通信行業(yè)大型數(shù)據(jù)中心,。測(cè)試結(jié)果顯示,參測(cè)數(shù)據(jù)中心PUE已經(jīng)由1.4~1.5區(qū)間降低到1.2~1.3區(qū)間,,最佳PUE在不斷創(chuàng)新低,。基于機(jī)器學(xué)習(xí)的典型算法在數(shù)據(jù)中心的PUE等參數(shù)優(yōu)化中已經(jīng)有了不同的應(yīng)用,。未來(lái),,機(jī)器學(xué)習(xí)算法將與ICT領(lǐng)域的新技術(shù)產(chǎn)生更多交集,形成更多方向,、更加深入的研究課題,,通過(guò)算法與實(shí)際業(yè)務(wù)的結(jié)合,實(shí)現(xiàn)更大的收益,。