浪潮存儲(chǔ):全閃化成為數(shù)據(jù)中心主流趨勢(shì),,企業(yè)如何預(yù)測(cè)SSD壽命
2021-11-24
來(lái)源:電子創(chuàng)新網(wǎng)
你的SSD還能用多久?
十四五規(guī)劃中指出要“加快數(shù)字化發(fā)展,,建設(shè)數(shù)字中國(guó)”。IDC預(yù)測(cè),,到2022年,,全球65%的GDP將由數(shù)字化推動(dòng)。近幾年新基建,、數(shù)字經(jīng)濟(jì)和平臺(tái)經(jīng)濟(jì)發(fā)展迅猛,給數(shù)據(jù)中心提出了新的挑戰(zhàn),。全閃存數(shù)據(jù)中心具有速度快,、綠色節(jié)能等優(yōu)勢(shì),將會(huì)是未來(lái)數(shù)據(jù)中心的發(fā)展趨勢(shì),,SSD(固態(tài)硬盤(pán))也將會(huì)得到更加廣泛的應(yīng)用,。
為什么關(guān)注SSD壽命預(yù)測(cè)?
企業(yè)關(guān)注SSD壽命預(yù)測(cè)技術(shù),,一是因?yàn)镾SD的應(yīng)用前景非常廣闊,,市場(chǎng)上使用率將越來(lái)越高。二是SSD損壞導(dǎo)致數(shù)據(jù)丟失帶來(lái)的損失是巨大的,。三是因?yàn)殚W存具有擦寫(xiě)次數(shù)限制的特點(diǎn),。
與傳統(tǒng)機(jī)械硬盤(pán)相比,SSD的優(yōu)勢(shì)非常明顯,,如SSD速度更快,,數(shù)據(jù)訪問(wèn)比機(jī)械硬盤(pán)快100倍,吞吐量大100倍,,單盤(pán)IOPS大1000倍以上,,并且技術(shù)在快速發(fā)展,如NVMe、 PCIe將進(jìn)一步釋放SSD的性能,;在可靠性表現(xiàn)上,,SSD因質(zhì)量輕、體積小,、防震抗摔性更好,,更加可靠。再如SSD更節(jié)能,,與機(jī)械硬盤(pán)相比,,能耗降低70%。今年的政府工作報(bào)告中提出要在2030年之前實(shí)現(xiàn)“碳達(dá)峰”,,在2060年之前實(shí)現(xiàn)“碳中和”,,使用SSD能夠大幅降低數(shù)據(jù)中心的能耗。過(guò)去SSD使用率不高的原因主要是其價(jià)格昂貴,,現(xiàn)在據(jù)IDC統(tǒng)計(jì):2015年到2020年,,SSD平均每年的價(jià)格降幅達(dá)到25%,未來(lái)5年也將保持這一趨勢(shì),;2020年,,全球范圍內(nèi)企業(yè)級(jí)SSD上的支出已經(jīng)超過(guò)傳統(tǒng)硬盤(pán)。
全球企業(yè)級(jí)機(jī)械硬盤(pán)和SSD盤(pán)支出對(duì)比(單位:百萬(wàn)美元),,2005-2020
正是由于SSD速度快但價(jià)格相對(duì)較高,,SSD通常用來(lái)存放元數(shù)據(jù)或核心數(shù)據(jù),這部分?jǐn)?shù)據(jù)丟失將會(huì)給用戶帶來(lái)的損失更加嚴(yán)重,。并且,,SSD閃存介質(zhì)具有擦寫(xiě)次數(shù)限制,因此SSD使用壽命更值得被關(guān)注和重視,。
SSD壽命預(yù)測(cè) 如何實(shí)現(xiàn)
SSD,,是由控制芯片和存儲(chǔ)芯片組成的??刂菩酒荢SD的大腦,,用于調(diào)配數(shù)據(jù)、數(shù)據(jù)中轉(zhuǎn)等,,存儲(chǔ)芯片用于存儲(chǔ)數(shù)據(jù),。當(dāng)前主流的存儲(chǔ)芯片為NAND Flash閃存芯片,NAND采用浮柵晶體管存儲(chǔ)數(shù)據(jù),,寫(xiě)入數(shù)據(jù)時(shí)需要先擦除再寫(xiě)入,,寫(xiě)操作本質(zhì)是向浮柵注入電荷,擦除操作是從浮柵挪走電荷,,充放電的過(guò)程會(huì)損耗二氧化硅絕緣層的絕緣能力,,最終無(wú)法保證浮柵中存有足夠多的電荷,。因此NAND的擦寫(xiě)次數(shù)是有限的,閃存完全擦寫(xiě)一次叫做1次P/E,,閃存的壽命就以P/E作單位,,例如常用的MLC-SSD擦寫(xiě)次數(shù)為10000次。SSD壽命預(yù)測(cè),,本質(zhì)上就是預(yù)測(cè)NAND芯片P/E次數(shù)還可用多長(zhǎng)時(shí)間,。
SSD結(jié)構(gòu)
硬盤(pán)廠商一般都遵循S.M.A.R.T. 標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)保護(hù),S.M.A.R.T. 標(biāo)準(zhǔn)是一種自動(dòng)的硬盤(pán)狀態(tài)檢測(cè)與預(yù)警系統(tǒng)和規(guī)范,。SSD S.M.A.R.T.中包含了一些與壽命相關(guān)的指標(biāo),,不同接口、不同廠商的指標(biāo)略有不同,。浪潮自研NVMe SSD遵循NVMe 1.3標(biāo)準(zhǔn),,提供標(biāo)準(zhǔn)的S.M.A.R.T.輸出。部分廠商SATA接口和PCIe接口壽命相關(guān)指標(biāo)如下表所示:
硬盤(pán)接口
硬盤(pán)廠商
指標(biāo)名稱
指標(biāo)含義
SATA
Intel
Smart_233 Media Wearout Indicator
介質(zhì)磨損指示
Micron
Smart_202 Percent lifetime remaining
剩余壽命百分比
Samsung
Smart_177 Wear Leveling Count
擦寫(xiě)次數(shù)計(jì)數(shù)
Seagate
Smart_231 SSD Life Left
SSD剩余壽命
PCIe
Inspur等
percentage_used
已使用百分比
各個(gè)廠商通用的指標(biāo)為百分比表示的閃存磨損度,,SSD壽命預(yù)測(cè)基于閃存磨損度,,預(yù)測(cè)SSD未來(lái)可使用的天數(shù)。同時(shí),,該壽命預(yù)測(cè)模型能友好的支持浪潮自研PCIe接口SSD,。
SSD壽命預(yù)測(cè)使用時(shí)間序列預(yù)測(cè)技術(shù),基于硬盤(pán)S.M.A.R.T.標(biāo)準(zhǔn)采集預(yù)測(cè)所需的歷史時(shí)間序列數(shù)據(jù)集,,再使用浪潮自研的AI預(yù)測(cè)算法,,預(yù)測(cè)S.M.A.R.T.指標(biāo)未來(lái)變化,得到SSD剩余壽命天數(shù),。
SSD壽命預(yù)測(cè)流程
SSD壽命預(yù)測(cè)流程如上圖所示,。整體的預(yù)測(cè)流程分為兩個(gè)階段,綠色為離線訓(xùn)練階段,,目的是為了確定模型選取規(guī)則;藍(lán)色為在線預(yù)測(cè)階段,,用于在用戶環(huán)境中預(yù)測(cè)SSD壽命,。
離線訓(xùn)練階段使用大量的SSD全生命周期的S.M.A.R.T.數(shù)據(jù),人工將磨損度變化曲線形態(tài)標(biāo)記為3類:平穩(wěn)變化,、減速變化和加速變化,,再對(duì)三種類型的SSD數(shù)據(jù)分別進(jìn)行測(cè)試。測(cè)試過(guò)程中實(shí)驗(yàn)了多種數(shù)據(jù)預(yù)處理方式和預(yù)測(cè)模型,,比如Prophet,、 ARIMA、 移動(dòng)平均法(Moving Average, MA),、指數(shù)平滑法(Exponential Smoothing,,ES),、神經(jīng)網(wǎng)絡(luò)等。最終確定模型選取規(guī)則,,實(shí)現(xiàn)全生命周期預(yù)測(cè)準(zhǔn)確率達(dá)到75%的國(guó)際領(lǐng)先水平,。
模型選取規(guī)則
在線預(yù)測(cè)階段,定時(shí)采集硬盤(pán)磨損度指標(biāo),,使用提前定義好的模型選取規(guī)則,,根據(jù)磨損變化數(shù)據(jù)量的大小和變化趨勢(shì),選擇最合適的時(shí)序預(yù)測(cè)模型,,預(yù)測(cè)SSD壽命,。
六重保護(hù)業(yè)務(wù)永遠(yuǎn)在線,可靠,!
在管理軟件層面上,,InView平臺(tái)每天定時(shí)采集數(shù)據(jù)、預(yù)測(cè),,通過(guò)浪潮自研SSD產(chǎn)品S.M.A.R.T.功能,,可以客觀呈現(xiàn)產(chǎn)品的Percentage used和Available spare信息,并展示所管理的SSD是使用壽命,。當(dāng)預(yù)測(cè)結(jié)果不足2周時(shí),,發(fā)出告警提示用戶,制定備份數(shù)據(jù)和換盤(pán)計(jì)劃,,避免因突發(fā)換盤(pán)導(dǎo)致業(yè)務(wù)降級(jí),,甚至停機(jī)維護(hù)。
智能管理軟件InView界面中對(duì)SSD壽命預(yù)測(cè)
除了管理軟件,,浪潮存儲(chǔ)還通過(guò)核心軟件,、器件、部件,、系統(tǒng),、解決方案層面等,對(duì)業(yè)務(wù)進(jìn)行端到端的整合,,致力于為客戶提供一體化的方案服務(wù),,做到故障早知道、故障無(wú)影響,、長(zhǎng)期無(wú)故障,。
未來(lái)隨著數(shù)字經(jīng)濟(jì)發(fā)展,數(shù)據(jù)要素將在企業(yè)數(shù)字化轉(zhuǎn)型中扮演越來(lái)越重要的角色,。浪潮存儲(chǔ)將持續(xù)加大企業(yè)級(jí)SSD研發(fā)投入,,推動(dòng)集中式全閃、分布式全閃持續(xù)技術(shù)創(chuàng)新,,聯(lián)合產(chǎn)學(xué)研用等生態(tài)伙伴,,合力提供數(shù)據(jù)生命周期解決方案,,助陣企業(yè)提速數(shù)字化轉(zhuǎn)型,釋放數(shù)據(jù)價(jià)值,。