摘 要: 作為云存儲(chǔ)的核心基礎(chǔ)平臺(tái),分布式文件系統(tǒng)的重要性日益凸顯,。分布式文件系統(tǒng)中數(shù)據(jù)存儲(chǔ)在多臺(tái)計(jì)算機(jī)節(jié)點(diǎn)上,,必然會(huì)出現(xiàn)負(fù)載均衡問(wèn)題。首先,,對(duì)MooseFS的系統(tǒng)架構(gòu)進(jìn)行了研究,,然后分析了MooseFS分布式文件系統(tǒng)中chunkserver選擇算法,研究了chunkserver算法的負(fù)載均衡性能,,最后對(duì)其進(jìn)行了改進(jìn),。經(jīng)過(guò)實(shí)驗(yàn)測(cè)試對(duì)比,實(shí)驗(yàn)結(jié)果顯示改進(jìn)算法能顯著提高chunkserver的負(fù)載均衡性能,。
關(guān)鍵詞: 分布式文件系統(tǒng),;MooseFS,;數(shù)據(jù)存儲(chǔ),;負(fù)載均衡
隨著云計(jì)算迅速發(fā)展,,IT界將進(jìn)入“云”時(shí)代。然而,,云計(jì)算[1]中會(huì)產(chǎn)生海量的數(shù)據(jù)存儲(chǔ),,傳統(tǒng)的文件系統(tǒng)已不能滿足其性能要求。作為云存儲(chǔ)的核心基礎(chǔ)平臺(tái),,分布式文件系統(tǒng)的重要性日益凸顯,。目前,互聯(lián)網(wǎng)上應(yīng)用最多的分布式文件系統(tǒng)有GFS[2],、HDFS[3],、MooseFS等。MooseFS分布式文件系統(tǒng),,其設(shè)計(jì)思想來(lái)源于google文件系統(tǒng),,采用的是主從式服務(wù)器架構(gòu),通過(guò)將文件數(shù)據(jù)分成64 MB的chunk塊分散存儲(chǔ)在多臺(tái)通過(guò)網(wǎng)絡(luò)連接起來(lái)的計(jì)算機(jī)節(jié)點(diǎn)上,,這種模式不可避免地存在一些節(jié)點(diǎn)分配的chunk塊過(guò)多,,而另外一些節(jié)點(diǎn)卻是空閑的,導(dǎo)致系統(tǒng)的chunkserver數(shù)據(jù)塊分配負(fù)載不均衡問(wèn)題,。
數(shù)據(jù)的負(fù)載均衡是分布式文件系統(tǒng)的核心之一,,是否有好的負(fù)載均衡算法直接影響系統(tǒng)的性能,如果算法沒(méi)有選擇好,,會(huì)導(dǎo)致負(fù)載嚴(yán)重失衡,,使系統(tǒng)的性能不能得到充分的發(fā)揮。因此有必要研究chunkserver的數(shù)據(jù)塊負(fù)載均衡選擇算法,,以解決chunkserver數(shù)據(jù)塊分配的負(fù)載均衡問(wèn)題,。
1 相關(guān)工作
負(fù)載均衡[4-5]的實(shí)現(xiàn)方法主要有靜態(tài)模式和動(dòng)態(tài)模式。靜態(tài)模式是指在系統(tǒng)執(zhí)行前,,提前采取相應(yīng)措施,,把數(shù)據(jù)存儲(chǔ)到各個(gè)節(jié)點(diǎn)上,盡可能地保證系統(tǒng)運(yùn)行過(guò)程中不出現(xiàn)負(fù)載不均衡現(xiàn)象,。動(dòng)態(tài)模式是指在系統(tǒng)執(zhí)行過(guò)程中,,實(shí)時(shí)根據(jù)節(jié)點(diǎn)的存儲(chǔ)狀況來(lái)實(shí)現(xiàn)負(fù)載均衡。很顯然,,靜態(tài)模式仍然還會(huì)有較高的概率出現(xiàn)系統(tǒng)負(fù)載不均衡現(xiàn)象,,動(dòng)態(tài)模式雖然實(shí)現(xiàn)起來(lái)比靜態(tài)模式復(fù)雜,但是執(zhí)行后效果好,。MooseFS分布式文件系統(tǒng)就是采用動(dòng)態(tài)模式來(lái)實(shí)現(xiàn)chunkserver的負(fù)載均衡的,。
負(fù)載的量化有多種標(biāo)準(zhǔn),如CPU利用率,、內(nèi)存利用率等,。目前,,最常見的負(fù)載均衡算法有輪轉(zhuǎn)法、隨機(jī)法,、散列法,、最快響應(yīng)法[3]等。輪轉(zhuǎn)法,,均衡器將新的請(qǐng)求輪流發(fā)給節(jié)點(diǎn)表中的下一個(gè)節(jié)點(diǎn),,是一種絕對(duì)平等。隨機(jī)法,,把偽隨機(jī)算法產(chǎn)生的值賦給各節(jié)點(diǎn),,具有最大或最小隨機(jī)數(shù)的節(jié)點(diǎn)最有優(yōu)先權(quán),各個(gè)節(jié)點(diǎn)的機(jī)會(huì)也是均等的,。散列法也叫哈希法,,利用單射不可逆的HASH函數(shù),按照某種規(guī)則將新的請(qǐng)求發(fā)送到某個(gè)節(jié)點(diǎn),。最快響應(yīng)法,,平衡器記錄自身到每個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)響應(yīng)時(shí)間,并將下一個(gè)到達(dá)的連接請(qǐng)求分配給響應(yīng)時(shí)間最短的節(jié)點(diǎn),。
本文以chunkserver上chunk塊的多少作為負(fù)載均衡的指標(biāo),。這里負(fù)載均衡是指各個(gè)chunkserver上chunk塊數(shù)的多少大致相同,不會(huì)出現(xiàn)一些chunkserver上塊數(shù)很多,,而另外一些chunkserver上塊數(shù)很少或是沒(méi)有塊數(shù),,造成一些chunkserver運(yùn)行繁忙,而一些chunkserver處于空閑狀態(tài)的不均衡現(xiàn)象,。
2 MooseFS的chunkserver負(fù)載均衡算法
Moose File System[6]是一個(gè)具備容錯(cuò)功能的網(wǎng)絡(luò)分布式文件系統(tǒng),,它將數(shù)據(jù)分布在網(wǎng)絡(luò)中的不同服務(wù)器上,MooseFS通過(guò)FUSE使之看起來(lái)就是一個(gè)Unix的文件系統(tǒng),。即分布在各個(gè)范圍的計(jì)算機(jī)將它們未使用的分區(qū)統(tǒng)一進(jìn)行管理使用的一種文件系統(tǒng),。
2.1 MooseFS文件系統(tǒng)架構(gòu)
MooseFS分布式文件系統(tǒng)主要由四部分組成[7]:
(1)管理服務(wù)器managing server(master):負(fù)責(zé)各個(gè)數(shù)據(jù)存儲(chǔ)服務(wù)器的管理,,文件讀寫調(diào)度,,文件空間回收以及恢復(fù),多節(jié)點(diǎn)拷貝,。
?。?)元數(shù)據(jù)日志服務(wù)器Metalogger server(Metalogger):負(fù)責(zé)備份master服務(wù)器的變化日志文件,文件類型為changelog_ml.*.mfs,,以便于在master server出問(wèn)題的時(shí)候接替其進(jìn)行工作,。
(3)數(shù)據(jù)存儲(chǔ)服務(wù)器data servers(chunkservers):負(fù)責(zé)連接管理服務(wù)器,聽從管理服務(wù)器調(diào)度,,提供存儲(chǔ)空間,,并為客戶提供數(shù)據(jù)傳輸。
?。?)客戶機(jī)掛載使用client computers:通過(guò)fuse內(nèi)核接口掛接遠(yuǎn)程管理服務(wù)器上所管理的數(shù)據(jù)存儲(chǔ)服務(wù)器,,使共享的文件系統(tǒng)和本地unix文件系統(tǒng)的使用效果類似,。
2.2 chunkserver負(fù)載均衡算法
在MFS系統(tǒng)中,,當(dāng)客戶端向數(shù)據(jù)存儲(chǔ)服務(wù)器上傳文件時(shí),這些被上傳的文件被劃分成64 MB大小的chunk塊,,然后再根據(jù)chunkserver選擇算法被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)服務(wù)器上,。如果chunk塊被均衡分配,則系統(tǒng)不會(huì)出現(xiàn)一些chunkserver運(yùn)行繁忙,,而一些chunkserver處于空閑狀態(tài)的現(xiàn)象,,提高了用戶訪問(wèn)系統(tǒng)的速度。
MFS源代碼中定義了matoceeerventry結(jié)構(gòu)體,,用來(lái)描述chunkserver的信息,。在這個(gè)結(jié)構(gòu)體中有一個(gè)carry變量,它是MFS中數(shù)據(jù)存儲(chǔ)時(shí)分布算法的核心,。MFS中每臺(tái)chunkserver會(huì)有自己的carry值,,在選擇chunkserver時(shí)會(huì)將每臺(tái)chunkserver按照carry值從大到小做快速排序,優(yōu)先選擇carry值大的chunkserver來(lái)使用,。算法流程圖如圖1所示,。其中,allcnt表示mfs中可用的chunkserver的個(gè)數(shù),,availcnt表示mfs中當(dāng)前可以直接存儲(chǔ)數(shù)據(jù)的chunkserver的個(gè)數(shù),,demand表示當(dāng)前文件的副本數(shù)目。
MFS系統(tǒng)啟動(dòng)時(shí),,通過(guò)rndu32()函數(shù)為每一個(gè)chunkserver隨機(jī)產(chǎn)生一個(gè)大于0且小于1的carry值,。系統(tǒng)運(yùn)行時(shí),每臺(tái)chunkserver的carry值的變化滿足以下規(guī)律[8]:
?。?)僅當(dāng)carry值大于1時(shí),,才可以向此chunkserver中存儲(chǔ)數(shù)據(jù),并將此chunkserver的carry值減1,。
?。?)當(dāng)demand>availcnt時(shí),循環(huán)增加每臺(tái)chunkserver對(duì)應(yīng)的carry變量的值,,直到滿足demand<availcnt時(shí)為止,。
(3)變量carry每次增加的增量為本臺(tái)chunkserver的總空間與系統(tǒng)中總空間最大chunkserver的總空間的比值。
根據(jù)以上算法的分析可知,,在MFS系統(tǒng)中,,數(shù)據(jù)并不是均勻地分配到各臺(tái)chunkserver上的,而是chunkserver總空間大的,,分配到的數(shù)據(jù)就多,,即分配到chunkserver上的數(shù)據(jù)與此chunkserver的總空間大小成正比。如果chunkserver的總空間大小相同,,則數(shù)據(jù)被均勻分配到chunkserver上,,表1為隨機(jī)生成500個(gè)、1 000個(gè),、1 500個(gè),、2 000個(gè)文件時(shí),chunk塊在各個(gè)chunkserver上的分布,,測(cè)試結(jié)果顯示,,數(shù)據(jù)被均勻分配到各個(gè)chunkserver上。
2.3 改進(jìn)的chunkserver負(fù)載均衡算法
在MFS系統(tǒng)中,,如果chunkserver的總空間大小差別很大,,就會(huì)造成總空間大的chunkserver被多次選擇,chunk塊數(shù)多,,而總空間小的chunkserver很少或幾乎不被選擇,,chunk塊數(shù)少,造成chunk塊分布不均衡,。在圖1整個(gè)算法流程圖中循環(huán)增加可直接存儲(chǔ)數(shù)據(jù)的chunkserver的個(gè)數(shù),,即增加carry的值直至demand=availcnt是負(fù)載均衡算法的核心部分,而其中carry的增加量servtab[allcnt].w如何計(jì)算是算法的關(guān)鍵問(wèn)題,。增加可直接存儲(chǔ)數(shù)據(jù)的chunkserver的流程圖如圖2所示,,算法實(shí)現(xiàn)代碼如下:
在原算法中carry的增加量servtab[allcnt].w=(double)eptr->totalspace/(double)maxtotalspace,就是把本臺(tái)chunkserver的總空間與系統(tǒng)中總空間最大chunkserver的總空間的比值作為carry變量的增加量,。而改進(jìn)后carry的增加量servtab[allcnt].w=((double)maxtotalspace-(double)eptr->usedspace)/(double)maxtotalspace,,就是把系統(tǒng)中總空間最大chunkserver的總空間減去本臺(tái)chunkserver已用去的空間大小后與系統(tǒng)中總空間最大chunkserver的總空間的比值作為carry變量的增加量。
2.4 對(duì)改進(jìn)負(fù)載均衡算法的測(cè)試
本測(cè)試的實(shí)驗(yàn)環(huán)境是在VMware里虛擬出5臺(tái)虛擬機(jī),,1臺(tái)master,,3臺(tái)chunkserver,1臺(tái)client,。其中,,3臺(tái)chunkserver的硬盤大小分別為5 GB,8 GB,,11 GB,,其他配置均相同,。測(cè)試的主要目的是檢測(cè)改進(jìn)的算法是否能將數(shù)據(jù)均勻地存儲(chǔ)到各臺(tái)chunkserver上,此時(shí)系統(tǒng)的冗余備份設(shè)置為1,。
client的掛載目錄為/mnt/mfs/test,。測(cè)試腳本為:
#!/bin/bash
for((i=0;i<1000,;i++))
do
dd if=/dev/zero of test“$i” bs=“$RANDOM”
count=1
cp test“$i”/mnt/mfs/test
done
利用測(cè)試腳本隨機(jī)生成1 000個(gè)隨機(jī)文件,,然后上傳到MFS系統(tǒng)中。算法改進(jìn)前后chunk塊的分布情況如表2和表3所示,。
實(shí)驗(yàn)分別對(duì)改進(jìn)前和改進(jìn)后做了4次測(cè)試,。從測(cè)試結(jié)果可以看出,算法改進(jìn)前chunkserver硬盤容量越大,,其上數(shù)據(jù)的分布就越多,,這種情況容易導(dǎo)致各臺(tái)chunkserver上的訪問(wèn)壓力不一樣,,使系統(tǒng)性能不能達(dá)到最優(yōu),。算法改進(jìn)后,數(shù)據(jù)在chunkserver上基本是平均分配,,各臺(tái)chunkserver訪問(wèn)壓力也基本一致,,避免了總空間大的chunkerver總被不停地訪問(wèn),而總空間小的chunkserver被閑置,,使系統(tǒng)性能得到了優(yōu)化,。
本文對(duì)MooseFS分布式文件系統(tǒng)進(jìn)行了分析,針對(duì)chunkserver選擇算法存在負(fù)載不均衡的不足進(jìn)行了改進(jìn),,避免出現(xiàn)系統(tǒng)中總空間大的chunkserver上存儲(chǔ)chunk塊數(shù)多,、訪問(wèn)量大,而總空間小的chunkserver上存儲(chǔ)的chunk塊數(shù)少或沒(méi)有chunk塊存數(shù)而處于閑置狀態(tài),。通過(guò)實(shí)驗(yàn)測(cè)試,,改進(jìn)后達(dá)到了預(yù)期的效果,chunk塊在各個(gè)chunkserver上分布均衡,,系統(tǒng)性能得到優(yōu)化,。
參考文獻(xiàn)
[1] 王德政,申山宏,,周寧寧.云計(jì)算環(huán)境下的數(shù)據(jù)存儲(chǔ)[J].計(jì)算機(jī)技術(shù)與發(fā)展,,2011,21(4):81-82.
[2] GHEMAWAT S,, GOBIOFF H,, LEUNG S T. The Google file system[C]. Proceedings of the 19th ACM Symposium on Operating Systems Principles.Lake George,New York:2003:29-43.
[3] APACHE HADOOP.Hadoop[EB/OL].[2009-03-06].(2012-03-19)http://hadoop.a(chǎn)pache.org/.
[4] 譚支鵬.對(duì)象存儲(chǔ)系統(tǒng)副本管理研究[D].武漢:華中科技大學(xué),,2008.
[5] 張聰萍,,尹建偉.分布式文件系統(tǒng)的動(dòng)態(tài)負(fù)載均衡算法[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(7):1424-1426.
[6] 百度文庫(kù).MFS文檔[DB/OL].2010.http://wenku.baidu.com/view/320b56260722192e4536f61b.html.
[7] 51CT0博客.MooseFS介紹[DB/OL].2011.http://haiquan517.blog.51cto.com/165507/526252.
[8] mfs(mooseFS)深入分析(chunkserver選擇算法)[DB/OL].2011.http://www.oratea.net/,?p=285#comment-481.