這里我們將以一個(gè)嵌入式Linux 網(wǎng)絡(luò)播放器為例,來說明 safe mode 安全模式的設(shè)計(jì)與實(shí)現(xiàn),。通過本文,,我們可以了解到針對(duì)一個(gè)實(shí)際的嵌入式系統(tǒng),設(shè)計(jì)中需要注意的技術(shù)要點(diǎn)和實(shí)現(xiàn)細(xì)節(jié),。
為什么需要 safe mode(安全模式)
當(dāng)用戶購(gòu)買一個(gè)產(chǎn)品后,,在后續(xù)的服務(wù)中,可能還會(huì)發(fā)生一些費(fèi)用,,讓產(chǎn)品開發(fā)商增加成本,,如免費(fèi)電話咨詢,產(chǎn)品的維修,、寄送,。所以說將產(chǎn)品的賣出并不意味著最終的贏利。這樣的情況下,,產(chǎn)品的設(shè)計(jì)就需要更加合理,,更加優(yōu)化,來滿足用戶各種可能的需求,。特別是在發(fā)生異常故障的時(shí)候,,如果能引導(dǎo)客戶自行完成診斷、修復(fù),,那么將大大降低后續(xù)的服務(wù)成本,。正因?yàn)槿绱耍a(chǎn)品故障時(shí),,就很需要safe mode安全模式來幫助用戶完成恢復(fù)的工作,。
從節(jié)約產(chǎn)品的成本、產(chǎn)品所能提供的功能上來看,,safe mode 是大有裨益的,。
大家所熟知的 windows 系統(tǒng),也提供了 safe mode 安全模式,,它就可以幫助用戶解決系統(tǒng)不穩(wěn)定,,硬件沖突等諸多故障,讓用戶在自己可以操作的能力范圍內(nèi)先行對(duì)系統(tǒng)進(jìn)行診斷與修復(fù),。在很大程度上,, windows 的 safe mode 給用戶與 Microsoft 都帶來了很大的便利。
嵌入式Linux產(chǎn)品與其他IT產(chǎn)品不同的地方,,主要是使用flash來存貯運(yùn)行時(shí)的系統(tǒng),。它沒有大的內(nèi)存,沒有大的存儲(chǔ)空間,但它卻也是一個(gè)完整的系統(tǒng),。
在通常情況下,,嵌入式Linux產(chǎn)品的flash上的內(nèi)容是不會(huì)被破壞的,也即它們會(huì)有著較好的穩(wěn)定性,,不會(huì)因?yàn)橛脩舻某R?guī)使用而導(dǎo)致flash上的 firmware被破壞,。但隨著產(chǎn)品的更新升級(jí),用戶也需要在自己家中完成對(duì)已購(gòu)買商品的更新?lián)Q代,。而用戶大多屬于非技術(shù)熟悉者,,在更新升級(jí)中就可能出現(xiàn)種種意想不到的情況。
比如在用戶做firmware升級(jí)更新時(shí),,平時(shí)不會(huì)出現(xiàn)問題的firmware可能在這個(gè)過程中,,就面臨著巨大的風(fēng)險(xiǎn),極有可能致使用戶的系統(tǒng)無法啟動(dòng),,不能正常工作。這樣的情況是我們不愿意看到的,,而實(shí)際中卻的的確確可能會(huì)發(fā)生,。
考慮這樣一個(gè)場(chǎng)景:當(dāng)用戶對(duì)產(chǎn)品進(jìn)行firmware升級(jí)時(shí),如果在燒寫flash的過程中,,意外掉電,,那么用戶手中的產(chǎn)品就將無法再次啟動(dòng),因?yàn)?rootfs系統(tǒng)已經(jīng)被破壞了,。用戶所能做的,,也只能將產(chǎn)品送回產(chǎn)商進(jìn)行維修。這樣來回的過程不僅耗費(fèi)用戶的精力,,同樣也會(huì)增加產(chǎn)品開發(fā)商的成本,。在產(chǎn)品升級(jí)換代很快的當(dāng)前市場(chǎng)情況下,這樣的情況可能會(huì)經(jīng)常發(fā)生,。
如何避免這樣的情況的發(fā)生呢?如果我們可以提供一個(gè)機(jī)制,,在進(jìn)行升級(jí)前即往flash中寫入一個(gè)標(biāo)記,正常完成后,,再寫入另一個(gè)標(biāo)記來表示整個(gè)過程的正常結(jié)束,,否則的話,燒寫時(shí)掉電不會(huì)寫入第二個(gè)標(biāo)記,,只有第一個(gè)標(biāo)記,,那么就認(rèn)為產(chǎn)品故障,這個(gè)時(shí)候,,進(jìn)入另一個(gè)新的提示界面,,讓用戶自己選擇從 USB或FTP來重新升級(jí)firmware。這樣的話,整個(gè)過程用戶就完全可以在界面的友好提示下自己完成,,方便了用戶與產(chǎn)品開發(fā)商,。
系統(tǒng)架構(gòu)
本文以一個(gè)實(shí)際的產(chǎn)品為例,來說明safe mode的設(shè)計(jì),。
系統(tǒng)架構(gòu)

本系統(tǒng)為一個(gè)嵌入式Linux網(wǎng)絡(luò)播放器,,主要的功能為播放家庭網(wǎng)絡(luò)中的多媒體文件,在家庭客廳等環(huán)境中有著大量的應(yīng)用,,它可以給用戶提供更方便快捷的媒體文件的播放方式,,并能充分利用家庭音響系統(tǒng)的巨大功能,而非PC環(huán)境下有限的外部設(shè)備,,大大改善了媒體文件的播放體驗(yàn),。本系統(tǒng)的架構(gòu)如下圖:

產(chǎn)品所使用的flash總大小為16M。
系統(tǒng)包括三大部分,,即Bootloader,,config, kernel + rootfs:

另外,,/dev/mtdblock/0,在系統(tǒng)中對(duì)應(yīng)整個(gè)flash block,,即整個(gè)16M空間,。
系統(tǒng)啟動(dòng)時(shí),bootloader將kernel和根文件映象從flash上讀取到RAM空間中,,為內(nèi)核設(shè)置啟動(dòng)參數(shù),,調(diào)用內(nèi)核,進(jìn)入application,,進(jìn)行媒體文件的播放,。
這個(gè)通常意義上的嵌入式Linux系統(tǒng),它是不帶safe mode安全模式的,。
這樣的系統(tǒng),,在做系統(tǒng)更新升級(jí)時(shí),主要是對(duì)kernel+rootfs部分進(jìn)行升級(jí),,以此來增加系統(tǒng)的功能,。
升級(jí)時(shí),application主要是操作/dev/mtdblock/3設(shè)備文件:
第一步:下載新的firmware到ramfs中,,也即ram disk中,,比如/tmp目錄下,采用的更新方式可以是USB或FTP;
第二步:read /tmp/firmware文件,,并write到設(shè)備文件/dev/mtdblock/3上,,即對(duì)已有的firmware進(jìn)行了更新,。
在升級(jí)的過程中,我們會(huì)提供友好的界面給用戶,,來提示下載進(jìn)度與燒寫flash的進(jìn)度,,讓用戶可以看到正在發(fā)生的狀況。
最后燒寫完成后,,重新啟動(dòng)系統(tǒng),,即可進(jìn)入到新的firmware中。
在通常的更新中,,用戶的產(chǎn)品配置config一般不去修改,,保持用戶已經(jīng)做的配置選項(xiàng),不能破壞,。Config內(nèi)容對(duì)應(yīng)為/dev/mtdblock/2設(shè)備文件,。
從USB/FTP 上更新時(shí),所使用的firmware文件需要是一個(gè)更加完整的image文件,,可以包括bootloader, default config, kernel+rootfs,,并讓application可以做到視image中的標(biāo)記來決定是否需要更新bootloader、config等內(nèi)容,,這樣會(huì)更加靈活,。
在更新firmware時(shí),如果掉電,,那么kernel + rootfs部分將會(huì)出現(xiàn)不完整的情況,也就是說只寫入了部分內(nèi)容,,而中途中斷了,,這樣的話,一個(gè)不完整的系統(tǒng)將無法正常工作,。在這樣的情況下就需要safe mode安全模式了,。
safe mode架構(gòu)設(shè)計(jì)
Safe mode的設(shè)計(jì)中,對(duì)原來的系統(tǒng)增加了兩個(gè)部分的內(nèi)容:
kernel + rootfs,,即簡(jiǎn)單的UI界面與功能;
magic number,,即燒寫flash的標(biāo)記。

safe mode實(shí)際上也是一個(gè)kernel + rootfs部分,,只是它所具有的功能只包括一些簡(jiǎn)單的界面,,主要是提供網(wǎng)絡(luò)設(shè)置,從USB/FTP下載firmware,,完成對(duì)flash的燒寫,。
為了區(qū)分,這里,,將主功能部分的kernel + rootfs稱為master,。
我們將safe mode存放在master的后部,預(yù)留的flash大小為4M。
Magic number只占用一個(gè)字節(jié)的大小,,是在這4M的最后的部分的一個(gè)字節(jié),,也即原始系統(tǒng)的15872K的最后一個(gè)字節(jié)位置處。
在開始燒寫flash前,,將magic number設(shè)置為0x55,,表示燒寫的開始。燒寫正常結(jié)束后,,將magic number設(shè)置為0xAA,,表示燒寫正常結(jié)束。
如果新產(chǎn)品中具備了safe mode模式,,那么在以后再次更新升級(jí)時(shí),,開始燒寫flash時(shí),magic number的位置將會(huì)有0x55標(biāo)記,,如果燒寫中途掉電,,在重新啟動(dòng)后,將由Bootloader來檢查magic number的值,,如果內(nèi)容為0x55,,那么bootloader將從safemode部分讀出kernel和根文件映象,再為內(nèi)核設(shè)置啟動(dòng)參數(shù),,調(diào)用內(nèi)核,,進(jìn)入safe mode application。
如果bootloader讀到magic number為0xAA,,那么說明master firmware是正常的,,就將直接進(jìn)入master。
所以涉及到safe mode的地方也包括了對(duì)bootloader的修改,,需要在系統(tǒng)上電階段也檢查safe mode的magic number,,這個(gè)過程是必不可少的,只有在啟動(dòng)階段就檢查magic number,,才能跳過損壞的master系統(tǒng),,進(jìn)入安全模式,達(dá)到恢復(fù)系統(tǒng)的目的,。safe mode架構(gòu)實(shí)現(xiàn)
在safe mode的實(shí)現(xiàn)中,,需要保持原有master部分的穩(wěn)定,所以對(duì)master系統(tǒng)的building system不做大的改動(dòng),,也就是保持safe mode的building system與master的building system共存,。原則上來說,要避免對(duì)master系統(tǒng)帶來大的沖突,。
Master building system主要涉及到的編譯過程為:
make
make rootfs
這個(gè)時(shí)候?qū)⒌玫絤aster.bin
safe mode building system和其類似,,只是make rootfs部分有所區(qū)分:
make
make smrootfs
這個(gè)時(shí)候?qū)⒌玫絪afemode.bin
最后再將master與safe
mode部分做一個(gè)合并,,得到一個(gè)整的rootfs
make dualrootfs
make dist
make
dualrootfs將調(diào)用一個(gè)外部的程序make_dual.c,所做的事情是要得到一個(gè)15872K的rootfs,。這個(gè)rootfs包含的內(nèi)容為master.bin + safemode.bin,。
本系統(tǒng)中一般master.bin的大小約為10000K,再加上safemode.bin的4M,,總大小并未達(dá)到15872K,,那么中間多出的部分,我們需要將其補(bǔ)0填充好,。需要補(bǔ)充的0的大小約為15872-4*1024-10000=1776K

make_dual.c就是完成上面的合并,,補(bǔ)0的工作。它read master.bin,,write rootfs,,然后write 1776K個(gè)零到rootfs中,接下來read safemode.bin,,再繼續(xù)write 到rootfs中,。
這樣就得到了完整的、帶master與safe mode的rootfs,。
safe mode實(shí)現(xiàn)中遇到的問題及其解決
體積限制:
在safe mode的開發(fā)中,,首先遇到的一個(gè)問題就是如何從已有的系統(tǒng)中簡(jiǎn)化出一個(gè)safe mode的application環(huán)境。
對(duì)master原有系統(tǒng)的裁剪來得到safe mode,,將會(huì)比較容易,,如果從頭另寫一套,將會(huì)花費(fèi)較大精力,,穩(wěn)定性也無法得到確實(shí)的保障,,所以最終采用的是精簡(jiǎn)master的系統(tǒng)來得到safe mode的大框架。
在實(shí)現(xiàn)safe mode時(shí),,要做的工作的原則是做到safe mode的rootfs盡量小,低于4M,,并且保持與master外圍特性的一致,,這樣可以避免重復(fù)開發(fā),同時(shí)代碼的共用可以減少維護(hù)的不便,,提高整個(gè)系統(tǒng)的靈活度,、穩(wěn)定度。
就一個(gè)能運(yùn)行的嵌入系統(tǒng)來說,,最基本的內(nèi)容應(yīng)該包括Linux kernel,,busybox工具包、圖形驅(qū)動(dòng)等內(nèi)容,。
在本系統(tǒng)中,,為了支持FTP下載,,需要有network的支持,也即需要包括wired/wireless的支持,。
為了支持USB下載方式,,就需要USB monitor管理進(jìn)程的支持,這個(gè)主要是保持了與master系統(tǒng)的一致,,而沒有另外去寫一個(gè)體積更小的USB管理模塊,。
wireless模塊:
本來在設(shè)計(jì)時(shí),可以考慮不加入wireless的支持,,但為了更加方便用戶,,保持用戶的使用習(xí)慣,我們還是加入了對(duì)wireless的支持,,這樣也保持了與master系統(tǒng)的一致,,但支持的代價(jià)是,safe mode的體積增大了大約250K,。
在wireless module中,,做了一個(gè)優(yōu)化,master系統(tǒng)中wireless module在insmod時(shí),,是使用的rootfs中的/lib/module/wireless/XXX.o,,這些未壓縮的.o文件在rootfs系統(tǒng)中將占用較大空間,這樣一來,,對(duì)應(yīng)的safe mode的內(nèi)容將會(huì)超出4M的大小,。為了解決這個(gè)問題,我們將這些wireless module壓縮成wireless.tar.gz文件,,放置到safemode.bin中,,在Linux啟動(dòng)時(shí),在/etc/rc腳本中將 wireless.tar.gz解壓縮到ramfs中即/tmp/lib/module/wireless下,,然后再?gòu)倪@里insmod安裝 wireless模塊,。這樣所做的努力,wireless module從原來的790K,,縮減到了250K,,而功能保持了一致。
字體:
master 系統(tǒng)的字體使用的是freetype2,,字體文件arialbd.ttf大約為280K,,這也將占用大量的空間。由于safe mode在顯示界面方面沒有過高的要求,,能讓用戶看到基本的圖形界面就已經(jīng)達(dá)到目的了,,所以在safe mode中需要將freetype去掉。但由于master模式與safe mode都使用相同的圖形引擎,,這樣就導(dǎo)致了,,如果在safe mode中去掉freetype,,那么就需要再次重新build基礎(chǔ)的圖形庫(kù),這樣在master與safe mode的單獨(dú)編譯過程中就需要反復(fù)去make clean這些庫(kù),。這會(huì)給每次的編譯帶來很大的不便,,每次make clean等操作會(huì)占用大量的時(shí)間,耗時(shí)耗力,。
基于這個(gè)考慮,,我們決定master與safe mode在編譯過程中都使用相同的圖形庫(kù),即都編譯生成freetype庫(kù),。但在運(yùn)行時(shí),,safe mode不去使用freetype。也就是說,,freetype庫(kù)會(huì)被編譯進(jìn)來,,但字體文件不需要加到safe mode中,這樣做的代價(jià)就是編譯出來的safe mode的application比完全無freetype庫(kù)的情況要大100K左右,,但卻保持了與master相同的庫(kù)結(jié)構(gòu),,而freetype字體就不再需要了,也就節(jié)約出了大約280K的空間,。
最終優(yōu)化的結(jié)果,,safe mode的4M,包括Linux kernel, buzybox, safe mode application等壓縮后的大?。?/p>
優(yōu)化結(jié)果

在safe mode的設(shè)計(jì)中,,對(duì)后續(xù)多個(gè)版本升級(jí)的支持也是一個(gè)需要仔細(xì)考慮的地方。因?yàn)楹罄m(xù)版本會(huì)存在很多的不確定性,,如果發(fā)出的版本不能很好地兼容后續(xù)版本,,那么將會(huì)給產(chǎn)品帶來巨大的風(fēng)險(xiǎn)。
后續(xù)版本的可能情況,,主要分兩種:結(jié)構(gòu)分區(qū)變化不大,,結(jié)構(gòu)分區(qū)變化巨大。
對(duì)后續(xù)版本中變化不大的情況,,也即類似master + safe mode的情況,,當(dāng)再次更新時(shí),只需要操作/dev/mtdblock/3對(duì)應(yīng)master,,/dev/mtdblock/4對(duì)應(yīng)safe mode,,即可,。
但如果后續(xù)版本變化非常大,,那么就需要特別注意了。
可以考慮這樣一個(gè)情況:如果后續(xù)的版本,,需求發(fā)生了大的變化,,比如需要將原來master所在的分區(qū)再分成多個(gè)分區(qū):
后續(xù)版本需求變化
那么從老版本升級(jí)到新版本時(shí),,這些分區(qū)的內(nèi)容如何保證燒寫后能正常工作呢?
解決的辦法就是在老版本中,將后續(xù)的rootfs部分作為一個(gè)整體來操作,,也就是說燒寫時(shí),,是將master + part1 + part2+ safe mode作為一個(gè)整體來對(duì)待。在老版本看來,,新版本中的這15872K的內(nèi)容,,不管它其中有多少個(gè)不同的分區(qū),還是master + safe mode,。在燒寫時(shí),,還是按/dev/mtdblock/3對(duì)應(yīng)master,/dev/mtdblock/4對(duì)應(yīng)safe mode的方式來燒寫,,完成將15872K的內(nèi)容完整燒寫進(jìn)flash即可,。
為了做到這一點(diǎn),在燒寫中,,我們將全部的15872K的內(nèi)容分成兩段,,第一段為15872-4*1024=11776K,需要將其write到/dev/mtdblock/3中,,第二段為4M,,需要將其write到/dev/mtdblock/4中。這樣全部的15872K的內(nèi)容就完整地?zé)龑懲?,而再次啟?dòng)后的kernel會(huì)分辨出 master + part1 + part2 + safe mode,,它們的總大小依然保持15872K不變。這整個(gè)過程中,,都不用去理會(huì)新版本中到底包括哪些內(nèi)容,,哪些分區(qū),只要保證是將15872K的內(nèi)容全部完整地?zé)龑戇M(jìn)去就可以了,。
整體rootfs的設(shè)計(jì)思想在這里幫了一個(gè)大忙,,簡(jiǎn)化了升級(jí)更新時(shí)所需要考慮的復(fù)雜度,使設(shè)計(jì)變得更加靈活與易于維護(hù),。
這樣才新發(fā)布的firmware里,,如果分為多個(gè)分區(qū),那么就保證再次升級(jí)時(shí),,將15872K的內(nèi)容分成多段,,寫到類似/dev/mtdblock/3、4,、5,、6這樣的設(shè)備文件里就可以了,只要保證這些區(qū)域是連續(xù)的,、并且燒寫的內(nèi)容是全部的那15872K內(nèi)容即可,。
Magic number:
值得注意的是,,隨著不同的版本的變化,magic number的位置還是應(yīng)該保持在15872K的最后一個(gè)字節(jié)的位置,。但這就出現(xiàn)一個(gè)問題,,在不同的版本中,這個(gè)magic number的位置會(huì)是在不同的partition的最后一個(gè)字節(jié),。比如某個(gè)版本可能是在/dev/mtdblock/4的最后,,但再后續(xù)的版本它會(huì)變成了/dev/mtdblock/7的最后面,這樣就會(huì)存在很大的不確定性,。所以在一個(gè)各個(gè)版本中,,寫magic number標(biāo)記位時(shí),需要一個(gè)統(tǒng)一的方法來做到這件事,。最容易想到的辦法當(dāng)然就是magic number這個(gè)位置相對(duì)起始位置0是不變的,。而前面提到過的/dev/mtdblock/0就剛好是代表了可以操作的整個(gè)flash分區(qū)。
有了/dev/mtdblock/0,,這樣我們就可以open 它,,seek到magic number的位置,然后write下0x55或0xAA,,這樣就保持了寫magic number的代碼的一致性,,不需要根據(jù)不同的分區(qū),多次修改操作magic number的有關(guān)函數(shù),。
Booloader:
Bootloader的修改,,也涉及到對(duì)magic number的讀取,它的讀取就相對(duì)簡(jiǎn)單一些,,直接使用magic number在RAM中映射的絕對(duì)地址即可,。
Bootloader檢查完magic number后,需要將相對(duì)地址為0xBC0000的safe mode的kernel + rootfs讀入到RAM,,然后設(shè)置啟動(dòng)參數(shù),,調(diào)用內(nèi)核,進(jìn)入safe mode提示界面,。
Linux kernel:
與老的,、不帶safe mode的image相比,新的image里的Linux kernel從總體的角度來說,,并沒有大的變化,。在新做的master與safe mode的image中,它們各自需要包含一個(gè)Linux kernel,,這兩個(gè)kernel唯一的不同就是啟動(dòng)時(shí)所需要的rootfs在RAM中的映射位置不同,。它們都有著相同的partition分區(qū)設(shè)置,編譯選項(xiàng)等。
Safe mode必須包含自己的Linux kernel,,因?yàn)樗沁\(yùn)行在master損壞的情況下,master kernel已經(jīng)不能啟動(dòng)了,。
總結(jié)
上面的內(nèi)容是在實(shí)際開發(fā)中對(duì)safe mode的設(shè)計(jì)與實(shí)現(xiàn)的一個(gè)描述,。從這個(gè)描述中,可以看到safe mode在嵌入式Linux產(chǎn)品扮演著重要的角色,,對(duì)它的設(shè)計(jì)涉及到很多方面,,要考慮系統(tǒng)的尺寸,與現(xiàn)有buidling環(huán)境的的兼容性,,對(duì)后續(xù)版本的升級(jí)的兼容性等諸多方面,。
從某種意義上來說,safe mode的設(shè)計(jì)關(guān)系到產(chǎn)品的成敗,,一個(gè)好的safe mode的設(shè)計(jì)將會(huì)給產(chǎn)品帶來巨大的靈活性與可擴(kuò)展性,,大大地方便了客戶與產(chǎn)品開發(fā)商。