云數(shù)據(jù)中心改變了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及數(shù)據(jù)在大型數(shù)據(jù)中心內(nèi)的移動方式,促使用于路由數(shù)據(jù)的芯片架構(gòu)發(fā)生重大變化,,并帶來了一系列全新的設(shè)計挑戰(zhàn)。
云計算已經(jīng)成為數(shù)據(jù)中心市場中增長最快的部分,。事實(shí)上,根據(jù)思科全球云指數(shù)預(yù)測,,未來幾年內(nèi),,云計算將增長三倍,到2021年,,云計算將占到所有數(shù)據(jù)中心流量的95%,。這種增長的一個關(guān)鍵部分是虛擬化,它允許動態(tài)分配計算實(shí)例和工作負(fù)載,,以跟上云服務(wù)的動態(tài)特性,。
從另一個角度來看,現(xiàn)在超過75%的流量在數(shù)據(jù)中心中東西向逐個服務(wù)器地流動,。這引發(fā)了第一組問題,,因為傳統(tǒng)的三層網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是針對南北客戶端—服務(wù)器流量進(jìn)行優(yōu)化的,因此無法有效處理這類數(shù)據(jù)流,。
為了解決數(shù)據(jù)流轉(zhuǎn)移問題,,并最大限度地減少延遲和瓶頸,云數(shù)據(jù)中心正在轉(zhuǎn)向葉脊(leaf-spine)拓?fù)?,其中每個葉服務(wù)器可以通過脊進(jìn)行單跳(single hop),,訪問其他葉服務(wù)器,。
Cadence Design Systems接口IP高級產(chǎn)品營銷經(jīng)理Muthukumar Vairavan表示:“在葉脊拓?fù)浣Y(jié)構(gòu)中,每片葉都要連接到每個脊開關(guān),。因此,,可以支持的主機(jī)數(shù)量以及網(wǎng)絡(luò)帶寬擴(kuò)展現(xiàn)在變成了交換機(jī)設(shè)備端口數(shù)量和每個端口帶寬的函數(shù)。交換機(jī)的帶寬主要取決于交換機(jī)ASIC和可安裝在單個機(jī)架單元中的光學(xué)模組數(shù)量,?!?/p>
目前,最先進(jìn)的交換機(jī)ASIC擁有多達(dá)256條PAM-4 SerDes信道,,每條信道的運(yùn)行速度為56Gbps,,總帶寬為12.8Tbps,。Vairavan表示:“總的來說,,這種交換機(jī)最多可以支持32個端口400GbE(8條線路,每條56Gbps),。但是,,隨著超大規(guī)模數(shù)據(jù)中心對帶寬的需求不斷增加,交換機(jī)廠商希望將芯片帶寬提高一倍,,達(dá)到25.6Tbps,。傳統(tǒng)上,這是通過將SerDes信道速度加倍來實(shí)現(xiàn)的,,而光學(xué)網(wǎng)際互聯(lián)論壇(OIF)正致力于定義112Gbps SerDes規(guī)范,,以實(shí)現(xiàn)這一目標(biāo)?!?/p>
在這樣的速度下所面臨的挑戰(zhàn)是,,信道損耗非常高,而且SerDes需要很多均衡,。采用先進(jìn)的DSP技術(shù)對信號進(jìn)行恢復(fù),,這可能導(dǎo)致顯著的功耗。Vairavan建議,,為了解決這個問題,,平臺設(shè)計需要轉(zhuǎn)向更好的PCB材料,使用有源電纜和重定時器,,以保持在這樣的速度下信道損耗可控,。“另一項新興技術(shù)是板載光學(xué)(OBO),,光學(xué)芯片靠近電路板上的交換機(jī)ASIC放置,,因此減少了電子信道。 通過將光學(xué)元件從面板移走,,OBO還可以提供更好的密度和冷卻效果,。OIF指定了許多類別的SerDes規(guī)范,如Long-Reach,Medium-Reach,,Short-Reach等,,以便對特定的交換機(jī)配置進(jìn)行正確的SerDes性能/功率權(quán)衡?!?/p>
雖然構(gòu)建其中一個芯片需要許多IP,,但有四個項目通常會引發(fā)討論——SerDes、HBM PHY,、網(wǎng)絡(luò)級片上存儲器,,以及TCAM(內(nèi)容可尋址存儲器)。
eSilicon公司營銷副總裁Mike Gianfagna表示:“SerDes需要實(shí)現(xiàn)高速片外通信,。HBM PHY需要將2.5D封裝的HBM堆棧內(nèi)存連接到ASIC上,。網(wǎng)絡(luò)級片上存儲器就像雙端口和偽雙端口存儲器一樣,針對極高速度進(jìn)行了優(yōu)化,,TCAM用于實(shí)現(xiàn)高效的網(wǎng)絡(luò)數(shù)據(jù)包路由,。”
Gianfagna指出,,IP問題還有另外兩個方面,。“首先,,經(jīng)過芯片驗證的高質(zhì)量IP非常重要,,但還不夠。還必須驗證IP可以協(xié)同工作,。諸如可測試性策略,、操作點(diǎn)和金屬疊層之類的東西——這種兼容性大大降低了整合風(fēng)險。其次,,IP必須在考慮最終應(yīng)用的情況下進(jìn)行配置,。 其中包括編譯內(nèi)存和TCAM等內(nèi)容,以支持SerDes的不同配置要求和可編程性能,?!?/p>
位置,位置,,位置
然而,,沒有一種方法可以適用于所有情況。一個系統(tǒng)公司想要從它的IP供應(yīng)商那里得到什么芯片取決于芯片的設(shè)計應(yīng)用,。
Synopsys公司高速SerDes產(chǎn)品營銷經(jīng)理Manmeet Walia表示:“有多種方法看待這個問題,。首先,你要在更廣泛的層面上認(rèn)清楚你所服務(wù)的市場是什么,,無論是企業(yè),、校園,、數(shù)據(jù)中心(現(xiàn)在被稱為超大規(guī)模數(shù)據(jù)中心),還是電信基礎(chǔ)設(shè)施,。如果把它們按規(guī)模排列,,那么企業(yè)要排在第一位,它們是較小的數(shù)據(jù)中心,。然后是云提供商——谷歌,、facebook、亞馬遜——這就是所謂的超大規(guī)模數(shù)據(jù)中心,。最后是服務(wù)提供商,,如ATT等。根據(jù)你所服務(wù)的對象,,三種規(guī)模的需求各不相同,。”
第二個因素涉及到這些公司所需要的具體功能,。Walia表示:“無論是CPU芯片組,、GPU,、加速器,、適配器卡、交換機(jī),、存儲陣列還是安全系統(tǒng),,根據(jù)它們的功能,又會出現(xiàn)不同的要求,。第三,,從PHY的角度來看,它們在系統(tǒng)中的位置很重要,,無論是在刀片服務(wù)器卡內(nèi),,還是在中間卡上,或是在交換機(jī)架的頂部,。所以它們的位置決定了它們的需求,。市場整體上非常分散,因為它變得越來越復(fù)雜,?!?/p>
Walia說,除此之外,,還有一群開發(fā)人員在談?wù)撔酒?,因為它們被逼到了芯片裸片尺寸或光罩的邊緣?!八麄儸F(xiàn)在想要進(jìn)入chiplets,,我們正在從那些想要做所謂的USR(超短距離)SerDes的客戶那里獲得需求,。這是另一個需要解決的市場?!?/p>
今天,,大多數(shù)網(wǎng)絡(luò)設(shè)計活動都在云端,其中大部分都是由AI和機(jī)器學(xué)習(xí)應(yīng)用驅(qū)動的,。Walia表示:“有趣的是,,所有網(wǎng)絡(luò)公司現(xiàn)在都在嘗試遵循垂直整合模式,他們甚至在嘗試自己制作芯片組,。無論是中國的阿里巴巴,、騰訊、百度,,還是美國的Facebook,、谷歌,都在嘗試自己的AI芯片組,。他們不想使用商業(yè)芯片,。因此,至少從IP的角度來看,,我們的業(yè)務(wù)指標(biāo)不是芯片量,。更多的是從設(shè)計開始的,當(dāng)然,,我們在此處看到了云計算驅(qū)動了我們大部分IP業(yè)務(wù),。”
西門子Mentor事業(yè)部IP部門總經(jīng)理Farzad Zarrinfar對此表示贊同:“基本的處理器并沒有達(dá)到要求,,所以我們看到主要的OEM,、搜索領(lǐng)導(dǎo)者、游戲領(lǐng)導(dǎo)者和通信領(lǐng)導(dǎo)者都在開發(fā)他們自己的ASIC,。顯然,,這些ASIC很多取決于應(yīng)用。如果它是數(shù)據(jù)中心應(yīng)用,,或是某種汽車應(yīng)用,,亦或物聯(lián)網(wǎng)應(yīng)用,我們就會看到很多構(gòu)建模塊,。例如,,如果你觀察一個三層千兆交換機(jī),那么你就會發(fā)現(xiàn)1千兆位和10千兆位MAC(媒體訪問控制器),。有些人在芯片內(nèi)部加入了ASIC,、收發(fā)器、SerDes和PHY,,以進(jìn)一步提高整合度,,并最大限度地降低成本,。有些人希望基于自己的架構(gòu)來保持它。他們使PHY和SerDes具有更大的幾何形狀,,并且在芯片外使用它們,,他們將更大的幾何結(jié)構(gòu)用于SerDes。然后,,在純數(shù)字部分,,他們將工藝推進(jìn)到10nm和7nm,甚至可以降至5nm finFET技術(shù),?!?/p>
Walia說,這種模式在過去幾年中迅速出現(xiàn),。最初,,這些公司開發(fā)低端應(yīng)用,比如攝像頭,,但現(xiàn)在他們正在轉(zhuǎn)向高端數(shù)據(jù)中心,,并完成越來越多的工作。
對于AI / ML應(yīng)用而言,,芯片主要是許多帶有ARM 64位處理器的SerDes,。Walia表示:“這是一組ARM高端處理器,周圍是SerDes,。它們通過SerDes使這些核心能夠以非??斓乃俣然ハ嗤ㄐ牛缓筮@些SerDes也以盒子對盒子的方式與其他類似的設(shè)備通信,。從本質(zhì)上講,它是一個輸入和一個輸出,,但它們之間發(fā)生的是一個指令集,,允許它們在一段時間內(nèi)通過可重復(fù)性,以及讀取人類行為或其他數(shù)據(jù)來接受訓(xùn)練,,所以它允許自我編程,,允許在一段時間內(nèi)學(xué)習(xí),這就是它們需要強(qiáng)大處理能力的原因,?!?/p>
網(wǎng)絡(luò)設(shè)計的另一個方面涉及密度要求。Walia表示:“如今,,這些都轉(zhuǎn)化為整合的挑戰(zhàn),。整合變得越來越重要,我們一直在與想要整合多達(dá)300條SerDes信道(某些情況下甚至達(dá)到500條)的客戶進(jìn)行交流,,這要求我們作為IP供應(yīng)商為他們提供很多服務(wù),,以便他們可以整合這些SerDes,。這個區(qū)域需要非常小,即前端需要非常窄,,以便沿著PHY的邊緣放置越來越多的SerDes,。另外,我們現(xiàn)在需要在兩個方向上都有PHY,,以便設(shè)計團(tuán)隊能夠最舒服地將它們放入芯片的所有四個側(cè)面,。這是因為在28nm以下,臺積電不允許我們翻轉(zhuǎn)多邊形方向,。但這意味著我們必須有兩個不同的設(shè)計和兩個不同的布局,,以便他們可以有效地將這些SerDes放在四個側(cè)面。除此之外,,我們還必須允許它們在內(nèi)部有多個層次——基本上要在IP內(nèi)部包含兩級,、三級深度的SerDes?!?/p>
與此同時,,Walia指出,OEM正在越來越多地采用封裝凸點(diǎn)技術(shù)(packaging bump technology),,而不是采用標(biāo)準(zhǔn)的C4凸點(diǎn)(C4 bumps),。“很可能他們正在使用插入式方法(interposer-type),,所以他們需要更寬,,并且凸點(diǎn)可能需要有犧牲pad或微凸點(diǎn)技術(shù)(microbump technology)。從本質(zhì)上講,,需要大量的凸點(diǎn)定制以及許多后端服務(wù),。你如何把所有這些東西放在一起?如何把所有這些信號帶到封裝基板上,?如何把它們放入SoC,?如何以1GB /秒或類似的速度進(jìn)行時序收斂?所有這些都是巨大的挑戰(zhàn),,所以當(dāng)我們提供這些IP時,,我們必須提供很多關(guān)于如何使用它們的指導(dǎo)。過去我們認(rèn)為,,IP非常難以設(shè)計,,但易于整合。但現(xiàn)在不是這樣了,。它們不但很難設(shè)計,,而且更加難以整合。”
管理IP
如今設(shè)計的許多高級網(wǎng)絡(luò)芯片組和ASIC都以數(shù)據(jù)中心為目標(biāo),,其中功耗,、性能和面積都是關(guān)鍵因素。它也是芯片制造商最賺錢的領(lǐng)域之一,。
ClioSoft公司營銷副總裁Ranjit Adhikary表示:“這就是云計算領(lǐng)域正在發(fā)生的一切,。每個人都想把東西放在云端,云端市場正在增長,。鑒于此,,每個數(shù)據(jù)中心公司都希望降低成本,因此功耗和可靠性成為非常重要的組成部分,。當(dāng)你討論下一代網(wǎng)絡(luò)交換機(jī),、定義一個平臺時,你需要確保I/O帶寬和內(nèi)存子系統(tǒng)都能夠提供所需的性能,。因此,,你基本要確保所有IP都可以即插即用。你需要確保它們都有相同的金屬疊層,、可靠性要求,、工作范圍、控制接口——甚至相同的DFT方法,。當(dāng)你現(xiàn)在談?wù)撨@些事情的時候,,IP管理平臺就變成了一個重要組成部分,因為到頭來你總是希望可以獲得你想要的IP,。你想知道參數(shù)是什么,,于是下載它,查看它,,從而無需經(jīng)過一個漫長的周期來確定IP是否有效,,或者到處尋找支持?jǐn)?shù)據(jù)在哪里?!?/p>
找到各種IP區(qū)塊并確定它們是否在其他地方被使用至關(guān)重要,。Adhikary表示:“許多公司將為不同的代工廠提供不同的PDK,設(shè)計團(tuán)隊需要知道IP是否經(jīng)過代工廠驗證,,或者同一公司的其他客戶是否正在使用它。你想知道IP的可靠性,。例如,,它投入生產(chǎn)了嗎?有什么問題嗎,?最終,,問題歸結(jié)為文檔記錄的功耗、性能和面積有多好,。我們在大多數(shù)公司中發(fā)現(xiàn),,信息并不全都集中在一個地方,,因此把IP管理系統(tǒng)與文檔控制系統(tǒng)聯(lián)系起來變得很重要,這樣每個人都能保持同步,,而這僅僅是個開始,。”
展望未來
隨著云服務(wù)提供商把25.6Tbps交換機(jī)遷移到51.2Tbps,,傳統(tǒng)的擴(kuò)展技術(shù)似乎不太可能滿足需求,。
Walia表示:“交換機(jī)ASIC是在先進(jìn)技術(shù)節(jié)點(diǎn)上實(shí)現(xiàn)的,以利用增加的密度和更低的功率,,但正在觸到光罩和產(chǎn)量的極限,。一種迅速普及的選擇是芯片分解,大型芯片被分解為可管理的芯片尺寸,,然后使用高速,、低功耗的封裝內(nèi)互連技術(shù)整合到多芯片模組(MCM)封裝內(nèi)。另一種選擇是將邏輯芯片和SerDes分開,,并將它們放在MCM中,。通過轉(zhuǎn)向封裝內(nèi)光學(xué),可以獲得51.2Tbps所需的更大的光學(xué)密度,,所謂封裝內(nèi)光學(xué)是將光學(xué)芯片與MCM中的開關(guān)ASIC芯片整合到一起,,以實(shí)現(xiàn)異構(gòu)系統(tǒng)級封裝(SiP)。然后可以將光纖連到面板或尾纖上,?!?/p>
交換機(jī)ASIC和高速光電互連是云時代數(shù)據(jù)中心的支柱。為了滿足這些數(shù)據(jù)中心帶寬的爆炸性增長,,交換機(jī)ASIC制造商,、光學(xué)和互連IP供應(yīng)商和標(biāo)準(zhǔn)機(jī)構(gòu)需要建立生態(tài)系統(tǒng)。未來的解決方案將圍繞異構(gòu)解決方案展開,,這些解決方案將為特定的應(yīng)用和獨(dú)特的數(shù)據(jù)流量身定制,,以滿足新的性能、功耗和可擴(kuò)展需求,。