如何為大數(shù)據(jù)部署下一代存儲基礎(chǔ)設(shè)施
來源:網(wǎng)界網(wǎng)
摘要: 與管理傳統(tǒng)的大型數(shù)據(jù)基礎(chǔ)設(shè)施相比,,管理與大數(shù)據(jù)相關(guān)的拍字節(jié)級數(shù)據(jù)存儲是一種全新的方式。目前在線照片分享網(wǎng)站Shutterfly管理著30拍字節(jié)的數(shù)據(jù),。Shutterfly在這里與我們分享了他們馴服“數(shù)據(jù)野獸”的經(jīng)驗(yàn),。
Abstract:
Key words :
與管理傳統(tǒng)的大型數(shù)據(jù)基礎(chǔ)設(shè)施相比,,管理與大數(shù)據(jù)相關(guān)的拍字節(jié)級數(shù)據(jù)存儲是一種全新的方式。目前在線照片分享網(wǎng)站Shutterfly管理著30拍字節(jié)的數(shù)據(jù),。Shutterfly在這里與我們分享了他們馴服“數(shù)據(jù)野獸”的經(jīng)驗(yàn),。
目前,每個人都在談?wù)摯髷?shù)據(jù)分析方法和相關(guān)的商務(wù)智能成果,。但是在公司能夠利用這些數(shù)據(jù)前,,他們必須想辦法解決存儲問題。管理拍字節(jié)級甚至更大規(guī)模的數(shù)據(jù)存儲與管理傳統(tǒng)大型數(shù)據(jù)集有著本質(zhì)的區(qū)別,。
Shutterfly為一家在線照片分享網(wǎng)站,。他們并不限制用戶存儲照片的數(shù)量,并且允許用戶存儲原始分辨率的照片,,用戶在存儲時可以不用降低照片的分辨率,。Shutterfly還曾承諾永遠(yuǎn)不會刪除任何照片。
Shutterfly 高級副總裁兼首席技術(shù)官Neil Day稱:“我們的照片存檔大小已經(jīng)超過了30拍字節(jié),。存儲池的增長速度遠(yuǎn)遠(yuǎn)高于用戶群的增長速度,。在我們吸引到客戶后,他們做的第一件事就是向我們上傳大量照片,。在他們喜歡上我們之后,,他們做的第一件事就是再次上傳大量照片。”
為了有一個直觀的印象,,大家可以想像一下,,1拍字節(jié)等于100太字節(jié),等于1百萬吉字節(jié),。美國宇航局哈勃太空望遠(yuǎn)鏡前20年的觀測數(shù)據(jù)存檔也僅為45太字節(jié)多一點(diǎn),。以128 kB/s速率壓縮的1太字節(jié)音頻數(shù)據(jù)可以存儲17000小時的音頻。
拍字節(jié)級基礎(chǔ)設(shè)施的特點(diǎn)
Day稱:“拍字節(jié)級基礎(chǔ)設(shè)施與傳統(tǒng)存儲設(shè)施完全不同,。建立和維護(hù)它們非常困難,。與傳統(tǒng)大型數(shù)據(jù)集的管理壓力相比,一個拍字節(jié)或多個拍字節(jié)基礎(chǔ)設(shè)施的管理壓力完全是天壤之別,。它們之間的差異就如同在筆記本電腦上處理數(shù)據(jù)和在RAID陣列上處理數(shù)據(jù)一樣,。”
Day在2009年進(jìn)入Shutterfly網(wǎng)站。當(dāng)時存儲已經(jīng)成為了公司最大的開銷,并且這一開銷仍然在飛速地增長,。這些開銷的增長速度并不是根據(jù)原始容量的增長速度而增長,,而是根據(jù)員工數(shù)量的增長速度而增長。
Day 稱:“存儲每增長n個拍字節(jié)就意味著我們需要增加一名存儲管理員,,以及相應(yīng)的物理和邏輯基礎(chǔ)設(shè)施,。有了這些大型存儲,數(shù)據(jù)量不斷創(chuàng)下新高,。實(shí)際管理這些大型存檔的人必須不斷的解決硬件故障問題,。每個人都想解決這一基本問題,因?yàn)榇蠹叶记宄脖P方面的任何一個故障都會導(dǎo)致服務(wù)中斷,。那么你如何確保數(shù)據(jù)能夠被持續(xù)獲取,,如何保證性能不會下降?”
擴(kuò)展RAID是一個棘手的問題
失效備援的標(biāo)準(zhǔn)解決方案是進(jìn)行復(fù)制,通常是以RAID陣列的形式進(jìn)行,。但是如果規(guī)模龐大,,那么RAID產(chǎn)生的問題將比解決的問題更多。在傳統(tǒng)的RAID數(shù)據(jù)存儲方案中,,為了保證完整性和可用性,,每個數(shù)據(jù)的拷貝都會被做成鏡像,存儲在不同的磁盤陣列上,。不過,,這也意味著每份被存儲和被做成鏡像的數(shù)據(jù)將導(dǎo)致存儲容量膨脹五倍。隨著RAID陣列中的磁盤容量越來越大,,將故障磁盤中的內(nèi)容恢復(fù)到新磁盤上所需要的時間也越來越長,。
Day 稱:“實(shí)際上,我們在RAID上并沒有遇到操作問題,。我們遇到的問題是,,磁盤容量越來越大,如果磁盤組件出現(xiàn)故障,,切換至冗余系統(tǒng)的時間將越來越長,。奇偶校驗(yàn)與生成的數(shù)據(jù)集的大小是成正比的。目前我們已經(jīng)開始在基礎(chǔ)設(shè)施中使用1太字節(jié)和2太字節(jié)的磁盤,,這導(dǎo)致切換到冗余系統(tǒng)的時間更長,。目前的發(fā)展趨勢并沒有朝著正確的方向發(fā)展。”
可靠性和可用性對于Shutterfly來說非常關(guān)鍵,,這也是企業(yè)級存儲的需求。Day稱,,快速增長的存儲成本使得商品化服務(wù)越來越具有吸引力,。在Day和他的團(tuán)隊對一些能夠讓Shutterfly控制成本的潛在技術(shù)解決方案進(jìn)行投資的過程中,他們接觸到了一種名為糾刪碼的技術(shù)。這一技術(shù)引起了他們的興趣,。
利用糾刪碼創(chuàng)建下一代存儲
Reed-Solomon糾刪碼最初是作為前身糾錯(FEC)代碼,,用于在不可靠的信道中發(fā)送數(shù)據(jù),例如深空探測任務(wù)中的數(shù)據(jù)傳輸,。這一技術(shù)還被廣泛的應(yīng)用在CD和DVD上,,以處理灰塵和劃痕等光盤損傷問題。目前幾家存儲廠商已經(jīng)開始展開合作,,將糾刪碼整合到他們的解決方案中,。通過糾刪碼,數(shù)據(jù)段能夠被分解為多個小塊,,每一小塊數(shù)據(jù)本身都是沒用的,。然后,這些數(shù)據(jù)塊被分散到不同的硬盤上或是服務(wù)器上,。只需要部分?jǐn)?shù)據(jù)塊,,數(shù)據(jù)就能夠隨時被重新恢復(fù),甚至當(dāng)硬盤故障導(dǎo)致多個數(shù)據(jù)塊丟失后,,數(shù)據(jù)仍然能夠被完整地拼湊起來,。換句話說,你不再需要創(chuàng)建多份數(shù)據(jù)拷貝,,單個實(shí)例就能夠保證數(shù)據(jù)的完整性和可用性,。
總部位于芝加哥的Cleversaf公司是較早涉足糾刪碼解決方案的廠商之一。該公司還通過增加存儲單元信息研發(fā)出了分散碼技術(shù),。該技術(shù)允許用戶在地理位置上相互獨(dú)立的地方,,如在多個數(shù)據(jù)中心上存儲數(shù)據(jù)塊、或是片段,。
由于每個片斷在數(shù)學(xué)意義上都是無用的,,這使得其具有私密性和安全性。與RAID需要多份拷貝不同,,信息分散技術(shù)僅使用一個單個實(shí)例數(shù)據(jù),,并且為了確保數(shù)據(jù)的完整性和可用性只進(jìn)行了最低限制的擴(kuò)展,因此公司可能節(jié)省90%的存儲成本,。
Cleversafe 公司產(chǎn)品策略,、營銷和客戶解決方案副總裁Russ Kennedy稱:“在重新將數(shù)據(jù)塊拼湊在一起時,你不必?fù)碛忻恳粋€數(shù)據(jù)塊,。所生成的全部數(shù)據(jù)塊的數(shù)量我們稱之為廣度,,恢復(fù)數(shù)據(jù)所需要的最低限度的數(shù)據(jù)塊,我們稱之為閾值,。這兩者之間的差異決定了數(shù)據(jù)的可靠性,。當(dāng)你同時丟失了節(jié)點(diǎn)和硬盤后,,你仍然能夠恢復(fù)原始的數(shù)據(jù)。在RAID中你能夠獲得的最高的可靠性是雙奇偶校驗(yàn),,你可以丟失兩塊硬盤,。但是在我們的解決方案中,你可以丟失最多六塊硬盤,。”
糾刪碼是一項以軟件為基礎(chǔ)的技術(shù),,這意味著該技術(shù)可以使用商用硬件,進(jìn)一步壓縮擴(kuò)展成本,。
創(chuàng)建下一代存儲基礎(chǔ)設(shè)施
Day稱:“在找到了合適的技術(shù)后,,我們將關(guān)注提供這種技術(shù)解決方案的廠商。同時,,我們還關(guān)注如何創(chuàng)建它們,。我們認(rèn)為,如果能夠找到一家能夠滿足我們需求的公司,,并且他們的系統(tǒng)已經(jīng)經(jīng)過了實(shí)踐檢驗(yàn),,那么對于我們來說是再好不過的了。”
Shutterfly讓四家廠商為他們評估和創(chuàng)建其數(shù)據(jù)中心所需要的存儲設(shè)備原型,。Day稱,,他們關(guān)注的重點(diǎn)是性能、可用性,、容錯性和可管理性,。
他解釋稱:“我們有專門的人員管理照片存檔。我們在2010年最大的一個顧慮是照片存檔越來越大,。隨著存檔的日益增長,,我們不得不增加管理人員的數(shù)量。這讓我們感到很頭疼,。”
Day稱,,Cleversafe的出現(xiàn)讓Shutterfly遇到了救星,該公司也希望與Shutterfly合作,,為Shutterfly量身訂做解決方案,。他們對這一新概念進(jìn)行了仔細(xì)驗(yàn)證,包括在Shutterfly實(shí)驗(yàn)室中進(jìn)行上傳和性能測試,。在Shutterfly對運(yùn)行和性能感到滿意后,,Cleversafe推出了一款平行存儲基礎(chǔ)設(shè)施,同時公司將Shutterfly所有流量的一份拷貝引導(dǎo)至這一基礎(chǔ)設(shè)施上,。
Day 稱:“每一份上傳的照片都被同時存儲在我們的老式基礎(chǔ)設(shè)施上和Cleversafe的基礎(chǔ)設(shè)施上,。當(dāng)時我們運(yùn)行了六個月的時間,包括節(jié)假日,。”節(jié)假日對于Shutterfly來說是使用高峰期,,許多用戶都會創(chuàng)建相冊,,并上傳大量的照片,。
在2011年,,Shutterfly將Cleversafe的解決方案全面應(yīng)用于照片存檔中,并將其作為主要的照片存儲倉庫,。
糾刪碼存儲的總擁有成本
Day 稱:“總體上,,糾刪碼存儲是一個軟件解決方案,允許我們部署費(fèi)效比更好的硬件,。對于我們來說,,它改變了總擁有成本。我們與硬件廠商打交道時擁有了更高的靈活性,,我們可以確保在硬盤和基礎(chǔ)設(shè)施方面獲得最優(yōu)惠的價格,。”
Day表示存儲池的管理也得到了極大的簡化。他稱:“現(xiàn)在我們基本上只需要增加存儲空間即可,,隨后它們會自動的添加到我們所指定的存儲池中,。以前,只有我們增加了額外的存儲,,那么我們就不得不進(jìn)折騰一翻,。”
現(xiàn)在,如果一塊硬盤發(fā)生故障或是掉線了,,Shutterfly的存儲基礎(chǔ)設(shè)施能夠?qū)⑵錁?biāo)記為不可用狀態(tài),,并引導(dǎo)數(shù)據(jù)繞開這塊硬盤,同時迅速恢復(fù)這塊硬盤上的數(shù)據(jù),。以往當(dāng)一塊硬盤或是多塊硬盤發(fā)生了故障,,團(tuán)隊會召集所有的人一起排除故障,現(xiàn)在他們的團(tuán)隊只需注明故障,,在計劃維護(hù)方案中替換掉受影響的基礎(chǔ)設(shè)施即可,。
他稱:“這樣一來,我們不必再像以前一樣盡可能快的增加人手了?,F(xiàn)在,,我們的人手仍然在增長,但是速度比以前慢多了,。日常維護(hù)工作的工作量已經(jīng)下降了不少,。管理員可以在他們感興趣的前瞻性項目中花上更多的時間。他們的工作重點(diǎn)已經(jīng)轉(zhuǎn)移至我們以往稱為附加工作的工作上去了,。在增加員工人數(shù)和工作內(nèi)容方面,,這一技術(shù)都產(chǎn)生了不錯的效果。”
數(shù)據(jù)存儲將讓公司具備敏銳的洞察力
盡管Shutterfly是一家需要處理海量數(shù)據(jù)的互聯(lián)網(wǎng)公司,,但是如今大多數(shù)公司也都不得不面對大量數(shù)據(jù),,全球的公司正在存儲越來越多的數(shù)據(jù),。
他稱:“我們的存檔規(guī)模在五年內(nèi)將變得非常龐大,與比平均水平相比,,要大幾個數(shù)量級,。我們希望在四年或五年后能夠看到大量應(yīng)用和技術(shù)投入市場,讓處理超大型數(shù)據(jù)集成為可能,。讓人感到興奮的是,,它們將允許公司觀察細(xì)微的數(shù)據(jù),從而使得公司具有更加敏銳的業(yè)務(wù)洞察力,。”
Day稱:“這是一個發(fā)展趨勢,。目前我們還僅僅處于初級階段。隨著業(yè)務(wù)的互聯(lián)性,、移動性以及與客戶實(shí)時互動程度的不斷提升,,數(shù)據(jù)量將越來越大。對這些數(shù)據(jù)的分析可能將會對業(yè)務(wù)洞察力產(chǎn)生深遠(yuǎn)影響,。但是這些工作的首要條件是要能夠可靠地存儲這些海量數(shù)據(jù),。”
此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。