2012年11月11日,,應該是中國電子商務(wù)發(fā)展進程中一個史無前例的里程碑。這一天,,在淘寶的最新文章">淘寶和天貓組織的“雙十一”網(wǎng)購狂歡節(jié)中,,支付寶實現(xiàn)交易數(shù)額10580萬筆,總銷售額達191億元(其中天貓132億,,淘寶59億),,遠超過美國“網(wǎng)購星期一”約15億美元的金額。這些數(shù)字在經(jīng)濟萎靡的大背景下讓傳統(tǒng)零售業(yè)怎一個“怕”字了得,!
在天文數(shù)字的交易額背后,,是強大IT系統(tǒng)的支持。經(jīng)歷前三年“雙十一”購物節(jié)的歷練,,阿里巴巴集團的技術(shù)團隊已經(jīng)具有了充分的技術(shù)儲備和運維經(jīng)驗來應對中國目前最大規(guī)模的電子商務(wù)流量沖擊,。
前支付寶技術(shù)專家、現(xiàn)任丁香園CTO馮大輝在其博客文章《談?wù)劙⒗锵档募夹g(shù)積累》中,,總結(jié)阿里巴巴技術(shù)團隊達到目前水準的幾個決定性前提時,,提到了六個因素:
第一,支付寶,、淘寶團隊在大規(guī)模分布式事務(wù)(Transaction) 處理能力上多年來的技術(shù)積累,;第二, 2009 年阿里巴巴骨干傳輸網(wǎng) ABTN (Alibaba Backbone Transmission Network) 的建成,,為整個阿里系子公司的網(wǎng)絡(luò)服務(wù)能力提供了網(wǎng)絡(luò)基礎(chǔ)保障,;第三,開源領(lǐng)域技術(shù)專家,、LVS 項目創(chuàng)建人章文嵩帶領(lǐng)的基礎(chǔ)核心軟件研發(fā)團隊基于 LVS 實現(xiàn)高性能負載均衡組件,,構(gòu)建了強大且高效的 CDN 系統(tǒng),使得淘寶在底層基礎(chǔ)設(shè)施上的技術(shù)能力大幅提升,;第四,,硬件帶來的紅利,。固態(tài)硬盤(SSD) 與 PCI-E Flash 等硬件組件技術(shù)已經(jīng)足夠成熟并被大規(guī)模應用,為數(shù)據(jù)庫服務(wù)器處理能力提供了硬件層面上的支撐能力,;第五,,在 2008 與 2009 年大刀闊斧的系統(tǒng)結(jié)構(gòu)上的改進,比如外界所知道的支付寶 SOA 化,,淘寶五彩石項目等,;第六,淘寶技術(shù)團隊對運維能力的掌控與技術(shù)積累,,具備了相當靈活的分配調(diào)度硬件,,以及網(wǎng)絡(luò)資源的能力。
很顯然,,對網(wǎng)絡(luò),、服務(wù)器、CDN系統(tǒng)等資源的靈活調(diào)度成為淘寶IT系統(tǒng)彈性能力的核心組成部分之一,。近日,,《網(wǎng)絡(luò)世界》記者有幸采訪到阿里巴巴集團高級技術(shù)專家孫磊先生和網(wǎng)絡(luò)架構(gòu)的最新文章">網(wǎng)絡(luò)架構(gòu)師龐俊英女士,請他們和讀者一道來分享淘寶彈性網(wǎng)絡(luò)架構(gòu)的奧秘,。
有備方無患
“類似‘雙十一’這樣的購物節(jié),,網(wǎng)絡(luò)流量比平時有3倍的增長。比如,,如果說平時并發(fā)流量超過100G/秒,,高峰時就會達到300G/秒。這既包括去互聯(lián)網(wǎng)方向的流量,,也包括數(shù)據(jù)中心之間的流量,。” 孫磊表示。
要想從容應對這樣的沖擊可不是件容易的事,。龐俊英說,,淘寶主要采取了兩個方面的措施來保障網(wǎng)絡(luò)的暢通無阻。一是在自己可控的范圍內(nèi),,對負載均衡設(shè)備做彈性的擴容,,并在交換機的最新文章">交換機和服務(wù)器方面預備更多的彈性資源;二是,,跟運營商更緊密地配合,,爭取更多的互聯(lián)網(wǎng)接入帶寬。
更重要的是,,要預先做容量規(guī)劃和模擬壓力測試,。龐俊英說,由于“今年已是第四年舉辦“雙十一”購物節(jié),因此可以根據(jù)以前的情況預估出大致的網(wǎng)絡(luò)容量,,然后按預估做壓力測試及“大促”準備,。”
孫磊表示,“雙十一”,、“雙十二”前,,淘寶運維團隊都會做網(wǎng)絡(luò)應急預案,并和電信運營商,、設(shè)備供應商,,以及IDC資源提供商在應急方案上進行合作,當天會有工程師在IDC機房進行現(xiàn)場巡檢,。“如果準備充分的話,,即使遇到問題也會平滑地過渡,。比如,,應用了雙機房冗余及網(wǎng)絡(luò)架構(gòu)冗余設(shè)計后,即使核心交換機出了故障,,其業(yè)務(wù)負載立刻就能被備份交換機接過去,。”孫磊胸有成竹地說。他還透露,,淘寶每年的網(wǎng)絡(luò)流量增長都在70%~80%左右,,因此每個季度做規(guī)劃時都會為下個季度的增長預留出硬件冗余資源。
在解決新問題時,,淘寶從來不避諱使用創(chuàng)新技術(shù),。比如,面對著高吞吐量和低轉(zhuǎn)發(fā)時延的網(wǎng)絡(luò)需求,,淘寶采用了多鏈路增強以太網(wǎng),、網(wǎng)絡(luò)虛擬化、大buffer(緩沖)交換機等新技術(shù),。這其中使用的產(chǎn)品包括思科的Nexus7000,、H3C12500、戴爾Force10的E1200,、S60交換機及定制Deeper buffer交換機等,。
但是,淘寶并不會為了技術(shù)而技術(shù),。比如當今炒得很熱的大二層技術(shù),,龐俊英就認為有著明顯的缺陷,并且成本居高不下,。“對于我們來說,,網(wǎng)絡(luò)是二層或三層并不重要,我們是根據(jù)自己的業(yè)務(wù)需求來設(shè)計網(wǎng)絡(luò)架構(gòu),而不會讓網(wǎng)絡(luò)架構(gòu)綁架自己的業(yè)務(wù),。”龐俊英表示,,淘寶希望用開放的網(wǎng)絡(luò)協(xié)議去組網(wǎng),目前正在做SDN" style="color: rgb(0, 0, 0); text-decoration: none; border-bottom-color: rgb(7, 129, 199); border-bottom-width: 1px; border-bottom-style: dotted; " target="_blank" title="SDN的最新文章">SDN方面的研究和嘗試,。
期待擁抱40G和100G
目前,,淘寶數(shù)據(jù)中心的核心交換和服務(wù)器上聯(lián)交換主要應用的是萬兆交換機。而未來,,龐俊英坦承:“對40G/100G的需求已是當務(wù)之急,,只是因為目前其成熟度和性價比不是很好,所以放慢了應用的腳步,。”
迫切需要40G/100G交換的重要原因之一,,在于淘寶正在大力推動對萬兆服務(wù)器的應用。“目前萬兆服務(wù)器在淘寶已經(jīng)有一些應用場景,。而一旦其成為主流應用,,必然會帶來網(wǎng)絡(luò)的升級需求。因此,,“預計在2013~2014年,,淘寶面臨著網(wǎng)絡(luò)架構(gòu)的更新?lián)Q代。現(xiàn)在我們已經(jīng)在做一些預研,、測試和架構(gòu)調(diào)整,,在網(wǎng)絡(luò)規(guī)劃方面,淘寶一直是按照三年的滾動規(guī)劃往前走的,。”龐俊英說,。
談及服務(wù)器的應用,在業(yè)界,,淘寶以在一百多個CDN節(jié)點中的十多個節(jié)點部署了英特爾凌動低功耗服務(wù)器而聞名,。不過,據(jù)龐俊英介紹,,低功耗只是淘寶選擇服務(wù)器的考量之一,,
“功耗考量是一直存在的,但我們不會為了低功耗而犧牲性能,,我們追求的是服務(wù)器資源利用的最大化——CPU,、內(nèi)存、硬盤的平衡,。我們根據(jù)業(yè)務(wù)類型將服務(wù)器按需求分為幾大類,。比如,計算密集型,、存儲密集型等,。”龐俊英說,。而在淘寶龐大的服務(wù)器采購需求中,戴爾等服務(wù)器主流廠商都位列其中,。
和上層的應用系統(tǒng)相比,,網(wǎng)絡(luò)、服務(wù)器等硬件基礎(chǔ)設(shè)施一直是幕后英雄,。但是,,這不意味著它們之間的配合不重要。龐俊英說,,在淘寶,,IT基礎(chǔ)設(shè)施團隊和上層應用系統(tǒng)團隊之間的溝通交流非常多。“比如,,計劃啟動一個新業(yè)務(wù)時,,網(wǎng)絡(luò)團隊會參與進去,了解新業(yè)務(wù)對網(wǎng)絡(luò)的依賴程度并提出自己的建議,。這是因為如果軟件架構(gòu)做得好,,就可能節(jié)約很多的網(wǎng)絡(luò)和服務(wù)器端口及資源。由此不僅節(jié)約了大量硬件成本,,帶來的運維壓力也會大不一樣,。”
展望未來,,龐俊英說:“云計算之后 ,,網(wǎng)絡(luò)資源成為彈性調(diào)度資源的一部分。我們希望網(wǎng)絡(luò)能夠變得透明簡單,,資源能夠被抽象出來,。對于流量能夠通過系統(tǒng)層面去調(diào)度,而與網(wǎng)絡(luò)拓樸無關(guān),。比如,,由我們來定義API,提出netconf(網(wǎng)絡(luò)配置)的標準和要求,,推動廠商去實現(xiàn),,然后由我們直接調(diào)用接口即可。”
龐俊英透露,,為了更好地優(yōu)化網(wǎng)絡(luò),,擁有更多手段對網(wǎng)絡(luò)資源進行彈性調(diào)度,現(xiàn)在淘寶正在做基礎(chǔ)數(shù)據(jù)的分析,。“運維數(shù)據(jù)在我們眼里非常重要,,如關(guān)鍵路徑上交易的流量、流向,,其與應用的關(guān)系等等,。了解這些,,就可以對資源進行調(diào)度和管理,從而使得整個機房所有的帶寬,、服務(wù)器成為一個資源池,。目前淘寶正在朝這個方向走。