《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > Arm服務(wù)器芯片發(fā)展史

Arm服務(wù)器芯片發(fā)展史

2020-01-08
來(lái)源:半導(dǎo)體行業(yè)觀察
關(guān)鍵詞: ARM 服務(wù)器

  近年來(lái),因?yàn)轱w騰,、Ampere,、Marvell和華為等廠商的投入,,Arm服務(wù)器芯片的熱潮又被再度燃起。但其實(shí)這并不是Arm在服務(wù)器芯片的第一次嘗試,,而是一個(gè)從2008年就開(kāi)始的規(guī)劃,。

  下面,我們來(lái)跟隨作者的筆觸,來(lái)回顧Arm服務(wù)器芯片的發(fā)展歷程,。

  Arm服務(wù)器的第一波浪潮,,是一家叫Calexda開(kāi)始,也是由它結(jié)束的,。雖然我覺(jué)得2011的官宣Armv8架構(gòu),,就是32bit 服務(wù)器的終結(jié)。但是第一波的浪潮的起伏,,并不僅僅是32bit,,64bit 那么簡(jiǎn)單,還有一個(gè)詞Microserver,,微服務(wù)器,。也是當(dāng)時(shí)產(chǎn)業(yè)界,包括x86陣營(yíng)的共同探索,。技術(shù)上,,商業(yè)邏輯上,都不錯(cuò)的產(chǎn)品,,在市場(chǎng)上,,沒(méi)有成功。

  我個(gè)人得到的一個(gè)觀察:服務(wù)器市場(chǎng)是個(gè)求穩(wěn)的保守的市場(chǎng),,相對(duì)于活躍的終端市場(chǎng),。

  啟程 2008

  2008年,Arm內(nèi)部開(kāi)始醞釀服務(wù)器計(jì)劃,。心動(dòng)就行動(dòng),,Arm參與投資了一家當(dāng)時(shí)叫Smooth Stone,后來(lái)改名為Calxeda的startup公司,。當(dāng)時(shí)的第一輪總投資金額是$48M,。

  Calxeda的一開(kāi)始目標(biāo)就是降低數(shù)據(jù)中心的耗能,并且提高相同空間的計(jì)算力密度,。請(qǐng)記住這兩個(gè)目標(biāo),,此時(shí)此刻,我們的初心依舊,。

  那一年市面上還是Cortex-A8的產(chǎn)品,,而基于第一款多核Ccortex-A9的產(chǎn)品要到3年后才上市。(好懷念那個(gè)2,,3年才發(fā)布一款產(chǎn)品的慢速時(shí)代),。

  那時(shí)Intel的Xeon還是4個(gè)核,當(dāng)然主頻已經(jīng)3.xGhz了,,而AMD的45nm Opteron CPU也剛剛上市,。

  那一年IBM剛剛宣布Power產(chǎn)品線(xiàn),,而且上來(lái)就高山仰止的高達(dá)64個(gè)核。

  蘋(píng)果發(fā)布了iPhone 3G,,就是iPhone2,。(對(duì),那時(shí)還是3G時(shí)代,。)

  TSMC 的主流工藝是40nm,年收入$10B,。

  我還在一家叫EZchip的公司做NP3,,此處NP不是Neural Processor而是Network Processor。那是一個(gè)網(wǎng)絡(luò)處理器大繁榮的時(shí)代,,我能說(shuō)出一長(zhǎng)串名字,,可惜現(xiàn)在都湮滅了。低調(diào)的炫耀一下,,其實(shí)我最擅長(zhǎng)的部分是TM-Traffic Manager 而不僅僅是處理器部分,,這也是這家100多人的以色列公司(年?duì)I收大約$60M)最突出的特色。此處省略若干文字,,真講起來(lái),,我能一個(gè)人講一周的培訓(xùn),收美金的那種,。

  Calxeda 2011

  2010年Smooth Stone正式改名字為Calxeda,,把總部搬到了Austin。

  2011年 Calxeda發(fā)布它的芯片基于A9的芯片EnergyCore ECX-1000,。

640.webp (39).jpg

  圖2.1CalexdaEnergyCore架構(gòu)

  這其實(shí)是一個(gè)值得細(xì)看的一款設(shè)計(jì),,4核cortex-a9組成的處理器模塊,比較中規(guī)中矩,,I/O controllers部分也是常規(guī)接口(常規(guī)接口并不容易,,一個(gè)好產(chǎn)品的核心是常規(guī)部分做到業(yè)界一流)。但是管理引擎(management engine)和交換引擎(Fabric Switch)部分就是技術(shù)非常創(chuàng)新之舉,。

  EnergyCore Fabric是一個(gè)集成的L2 switch支持mesh,, butterfly tree, 2D Torus拓?fù)?,虛擬端口之間的帶寬可以按1 Gb/sec, 2.5Gb/sec, 5 Gb/sec, 核10 Gb/sec的不同規(guī)格分配,。通過(guò)它,服務(wù)器節(jié)點(diǎn)可以自己自主成網(wǎng),,不必通過(guò)on top switch,,因此Calexda的一塊板塊上有4個(gè)芯片,也就是16個(gè)核心,。因此才有可以高達(dá)480個(gè)核的服務(wù)器系統(tǒng),。

  這個(gè)設(shè)計(jì)理念是合理的,如果你設(shè)計(jì)一塊非常低成本的服務(wù)器芯片,但是配套的網(wǎng)絡(luò)仍然是昂貴的話(huà),,高密度的設(shè)計(jì),,只會(huì)增加成本。這個(gè)fabric可以將1024個(gè)系統(tǒng)板,,也就是4096個(gè)芯片用10G網(wǎng)絡(luò)接口,,集聯(lián)為系統(tǒng)。

  EnergyCore ManagementEngine是一個(gè)集成BMC,,支持IMP2.0和DCMI,,還支持遠(yuǎn)程調(diào)試SoL協(xié)議。管理引擎最強(qiáng)的地方在于功耗管理,,Calexda這款服務(wù)器芯片的功耗可以從4w到1w動(dòng)態(tài)調(diào)整,。

  每個(gè)節(jié)點(diǎn)的制造成本大約是$28。

640.webp (38).jpg

  圖2.2 4個(gè)節(jié)點(diǎn)的Calexda系統(tǒng)板

  2011年,,我加入Arm網(wǎng)絡(luò)市場(chǎng)部,。那時(shí)我關(guān)注的是還在設(shè)計(jì)階段的LSI Axxia AXM5500 16-core ARMCortex-A15, Freescale 的QorIQ Layerscape 系列,,TI的KeyStone,,還有海思的hixxxx系列,那真是一個(gè)Arm在網(wǎng)絡(luò)市場(chǎng)大爆發(fā)的時(shí)代,。但是很快,,一年后,我跟著當(dāng)時(shí)的老板,,一位有電影明星氣質(zhì)的印度裔資深美女,,從網(wǎng)絡(luò)市場(chǎng)轉(zhuǎn)為服務(wù)器市場(chǎng),從那時(shí)到現(xiàn)在,,全心全意的投入服務(wù)器市場(chǎng)與生態(tài)建設(shè),。

  Computex 2012

  2012年,Ian Ferguson在臺(tái)北Computex上的公開(kāi)演講,,大約是Arm第一次向公眾介紹服務(wù)器方面的努力,。和他一起站臺(tái)的是Ubuntu的Mark(軟件生態(tài)是個(gè)大話(huà)題,本文主要集中在芯片方面,,系統(tǒng)硬件設(shè)計(jì)和軟件話(huà)題另外開(kāi)文再說(shuō)),。他引用了Facebook的 Frank說(shuō)的performance per watt per dollar的價(jià)值觀。

  提到Arm服務(wù)器,,Ian Ferguson必須有姓名(他教我了一句做市場(chǎng)工作的最基本的一句話(huà),,“你是打算report news,還是make news,?”,,現(xiàn)在我也愿意和小伙伴一起說(shuō),,來(lái)來(lái)來(lái),我們一起搞事情,。)如他在大會(huì)上的發(fā)言,,從Arm打算考慮服務(wù)器市場(chǎng)的第一天起,整個(gè)業(yè)界都充滿(mǎn)了懷疑的論調(diào),。不僅僅懷疑是否能成功,,甚至從根上,懷疑動(dòng)機(jī),。

  這些問(wèn)題,,我并不著急回答,如果你有耐心讀到最后,,一切都自有答案。

  Marvell Armada XP 2013

  在第一波服務(wù)器浪潮中,,Marvell Armada XP 四核系列,,也是要提到的。而且這里的core,,不是A9,,也不是A15,是Marvell的custom Core,。

  也是因?yàn)锳rmada,,我把什么叫架構(gòu)授權(quán),回答得滾瓜爛熟,。

640.webp (37).jpg

  圖2.3 MarvellArmada XP

  這款集成度很高,,功耗低的SoC非常適合存儲(chǔ)應(yīng)用。Dell以此為核心,,出了“Copper”的arm服務(wù)器系統(tǒng),。百度也曾經(jīng)使用過(guò)。這是Arm服務(wù)器在互聯(lián)網(wǎng)公司的第一個(gè)案例,。

  Calxeda 倒閉 2013

  如果Calxeda能籌集的第三輪投資,,那么按照下面的路標(biāo),有一款A(yù)15的芯片馬上量產(chǎn),,2款A(yù)rmv8的芯片在計(jì)劃中,。但是很不幸,募資工作不成功,。 Calxeda從2008年成立,,到2013,總投資$103M ($48m in 2010 & $55m in 2012 ), 一共130員工,。

  它的結(jié)業(yè)郵件中說(shuō),,因?yàn)锳rm服務(wù)器的出現(xiàn),,“the industry will be transformed forever”。從現(xiàn)在看,,是的,。

640.webp (36).jpg

  圖2.4 Calxeda 路標(biāo)

  Insight 64 的分析師說(shuō),他們?cè)?2bit Arm服務(wù)器上花了太多錢(qián),。是的,,2011年Arm宣布了64bit的Armv8,Applied Micro公布了X-gene的計(jì)劃,,其實(shí)第二輪Armv8 的服務(wù)器的浪潮就已經(jīng)展開(kāi),。

  而Calxeda的倒閉,標(biāo)志著第一輪的結(jié)束,。

  第二波 Armv8.0 (2011-2018)

  雖然頂著編年史這種文藝的名字,,我是想把它寫(xiě)成一個(gè)技術(shù)分析文章,重點(diǎn)在Arm服務(wù)器芯片的特點(diǎn)與演進(jìn),,不是解釋為什么這個(gè)公司成功,,那個(gè)公司不成功。其實(shí)一個(gè)產(chǎn)品分析好做,,一個(gè)公司的成敗,,偶然因素真的影響很大。

  第二波的三個(gè)關(guān)鍵詞是自研核心(custom core),,主流性能,,標(biāo)準(zhǔn)設(shè)計(jì)。在Arm服務(wù)器的初始?xì)q月里,,芯片設(shè)計(jì)公司來(lái)自各個(gè)不同的領(lǐng)域,,帶著自己對(duì)服務(wù)器CPU芯片的理解,各自交出了自己的產(chǎn)品,。我把重點(diǎn)放在APM的X-gene,,Cavium的ThunderX與高通的Centriq 2400上。同時(shí)也努力把所有的其它芯片都給一個(gè)線(xiàn)索,,供有興趣的人,,自己深入。

  我做了一個(gè)excel表格,,努力的比對(duì)所有的服務(wù)器SoC,,包括公司規(guī)模,投資與花費(fèi)的人力資源,。有緣線(xiàn)下做交流,。

  再說(shuō)一段,因?yàn)樵谶@一段歷史中自研核占了多數(shù),,而且關(guān)于架構(gòu),,ISA的爭(zhēng)論一直不斷,,我不想展開(kāi)說(shuō),因?yàn)闀?huì)偏題,。在一個(gè)做私有云的大牛那里學(xué)到一個(gè)詞,,“累計(jì)優(yōu)勢(shì)”,做CPU,,做ISA,,做芯片,其實(shí)也在一個(gè)緩慢的累計(jì)優(yōu)勢(shì),。這些年,,我有帶著客戶(hù)的需求,案例,,測(cè)試數(shù)據(jù),,信心滿(mǎn)滿(mǎn)地前往公司總部找架構(gòu)師或者產(chǎn)品經(jīng)理,要求改設(shè)計(jì),,增加指令的時(shí)候(是的,,我還管這事),結(jié)果么,?我不能說(shuō)我一次也沒(méi)有成功,但是我家架構(gòu)師和產(chǎn)品經(jīng)理,,都是狠角色,,在對(duì)拼數(shù)據(jù)和應(yīng)用案例方面,鮮有敗績(jī),。

  另外,,Hock Tan一定要提一下,這人簡(jiǎn)直就是Arm服務(wù)器的發(fā)展道路和我職業(yè)生涯中的荊棘,,一個(gè)拿了double kill 雙殺的男人,。他先收購(gòu)Broadcom,賣(mài)掉服務(wù)器芯片項(xiàng)目,,然后提出收購(gòu) Qualcomm,,高通的管理層為了自保,提出每年消減1B的開(kāi)銷(xiāo),,因此自我了斷所有長(zhǎng)期投資項(xiàng)目,,運(yùn)作良好的服務(wù)器項(xiàng)目就這樣躺槍了。

  AppliedMicro – X-gene (2011)

  2011年10月,,在Arm第一次宣布ARMv8架構(gòu)的同時(shí),,Applied Micro公布了它們的自架構(gòu)x-gene計(jì)劃(大新聞都是和關(guān)鍵客戶(hù)一起發(fā)布的)。

  如果你在那個(gè)時(shí)代讀新聞,,你會(huì)留意到SoC這個(gè)概念,,當(dāng)然現(xiàn)在,,SoC這個(gè)概念不用解釋了。那個(gè)時(shí)候,,還是需要強(qiáng)調(diào) SoC等于chip + chipset的集成設(shè)計(jì),。

  X-gene的第一代是8個(gè)自研核心-Storm,兩個(gè)核共享256KB的L2 cache,,這跟Arm的4個(gè)核一個(gè)cluster不同,。下一章講的AMD的代號(hào)Seattle的Opteron A1100 processor,也沒(méi)有用4個(gè)Cortex-A57的一個(gè)cluster,,兩個(gè)cluster的設(shè)計(jì),,而是2個(gè)A57,4個(gè)cluster的設(shè)計(jì),。AMD的A1100的兩個(gè)A57,,共享1MB的L2 cache,比X-gene大4倍,。但是X-gene的自研核Storm是4 issue的,, A57仍然在3 issue的能效比的甜蜜點(diǎn)上。

640.webp (35).jpg

  圖3.1 APM的X-Gene spec

640.webp (34).jpg

  圖3.2 APM的X-Gene產(chǎn)品路標(biāo)

  現(xiàn)在,,連手機(jī)CPU都奔著6 issue去了,,從這點(diǎn)上看,自研核,,還是展現(xiàn)自己對(duì)業(yè)界發(fā)展洞見(jiàn)的好武器,。

  X-gene為8個(gè)核,配了4個(gè)memory通道,,這個(gè)也是在x86陣營(yíng)中少見(jiàn)的CPU:memory比例,。而且集成了2個(gè)10G NIC,支持RoCE,,算是SoC的優(yōu)勢(shì),。

  Applied Micro官方資料給出的能耗參數(shù),滿(mǎn)負(fù)荷狀態(tài),,一個(gè)核2瓦,,idle狀態(tài),僅僅0.5w,。

640.webp (33).jpg

  圖3.2 X-Gene的框架圖

  我對(duì)X-Gene設(shè)計(jì)印象最深的部分是MSLIM ,,這是4個(gè)A5組成的小處理器cluster,提供加速功能,。我不知道到底有沒(méi)有客戶(hù)使用這個(gè)處理器組,,也不知道當(dāng)年的設(shè)計(jì)理念。

  從設(shè)計(jì)到成品,,有多少設(shè)計(jì)被客戶(hù)忽略,,有多少設(shè)計(jì)到了客戶(hù)手里超常發(fā)揮,,我覺(jué)得架構(gòu)師也會(huì)感覺(jué)迷茫,工程的世界里竟然也有許多的不確定性,。

640.webp (32).jpg

  圖3.3 X-Gene die

640.webp (31).jpg

  圖3.4 X-Gene CPU模塊

  沒(méi)有整個(gè)die的信息,,不過(guò)有處理器模塊的信息。每個(gè)處理器模塊,,有2個(gè)core,,共享的L2,在40nm的工藝下,,14.8 mm?,,84M transistors。照著這個(gè)尺寸,,我估計(jì)整個(gè)die是300 mm2

  Anandtech曾經(jīng)有篇蠻詳細(xì),,也蠻負(fù)面的評(píng)測(cè)報(bào)告。中心意思就是尚未成熟,,性能,,能效比優(yōu)勢(shì)也不明顯。它測(cè)試的是HPE的moonshot系統(tǒng),,HPE的官方文件其實(shí)對(duì)X-gene評(píng)價(jià)頗高,,因?yàn)閄-gene是第一款量產(chǎn)的Arm 64bit 服務(wù)器芯片,初期的軟件伙伴們,,都是用著它家的系統(tǒng)的,。

  我知道Applied Micro-APM的時(shí)候,它還叫AMCC,。 AMCC團(tuán)隊(duì)算是硅谷老牌做CPU的不多團(tuán)隊(duì)之一,不過(guò)是做PowerPC的,。它在多核路上不太順利,,所以換了Arm重新開(kāi)始。大約因?yàn)槭抢吓艭PU設(shè)計(jì)團(tuán)隊(duì),,他們一上手就選了最高難度的架構(gòu)授權(quán),,自研核的路線(xiàn)。我曾經(jīng)為了它和同事?tīng)?zhēng)論到面紅耳赤,,跟他說(shuō),,我站起來(lái)是條漢子,倒下去還是條漢子,。我同事,,性別男,氣笑了,,說(shuō),,行,,行,你是條漢子,。

  X-gene2大體上是X-gene1的28nm的tick實(shí)現(xiàn),,略。

  eMAG-X-Gene3 2018

  我猶豫許久,,不知道該把這顆Ampere重新設(shè)計(jì)的eMAG,,歸為第二波尾巴,還是第三波的開(kāi)頭,。按照核心的原設(shè)計(jì)脫胎于X-Gene 3來(lái)說(shuō),,還是第二波尾巴。

640.webp (30).jpg

  圖3.5 Ampere eMAG

640.webp (29).jpg

  圖3.6 Ampere 產(chǎn)品優(yōu)勢(shì)

  32核List price 是 $850,,一個(gè)相對(duì)非常有競(jìng)爭(zhēng)力的價(jià)格,。框架圖看起來(lái)很熟悉,,不分析了,。

640.webp (28).jpg

  圖3.6 Ampere eMag 框架圖

  AMD’s A1100 (2012)

  在Armv8架構(gòu)推出一年之后,Arm發(fā)布了A57和A53兩款 cortex-A5x系列的產(chǎn)品,,按照國(guó)際慣例,,一個(gè)重磅的合作伙伴在發(fā)布會(huì)與Arm一起閃亮登場(chǎng),AMD,。

  這款內(nèi)部代碼名為Seattle,,屬于Opteron系列,后面的正式產(chǎn)品名字是A1100的芯片,,現(xiàn)在在AMD主線(xiàn)產(chǎn)品歷史上找不到的產(chǎn)品,。

  AMD當(dāng)時(shí)花了蠻長(zhǎng)的時(shí)間,解釋為什么要做Arm服務(wù)器,,怎么定位公司內(nèi)部的x86與Arm的產(chǎn)品線(xiàn),,甚至為了穩(wěn)定外界的懷疑,推出了僅僅活在新聞中的K12 (2015),。

  如果我們回頭看2012年,,有一個(gè)名詞,不能忽略,,“microserver”,,而那個(gè)時(shí)候,AMD剛買(mǎi)了SeaMicro,,一個(gè)圍繞著 Freedom Fabric打造高密度,,低功耗的系統(tǒng)的公司。這個(gè)Fabric,超高密度(very-high-density),,低功耗,,聽(tīng)起來(lái)耳熟不? Calexda的路數(shù)啊,。下圖是10U的尺寸,,共有768個(gè)CPU,包括了四個(gè)GE交換機(jī)和一個(gè)流量均衡器(a loadbalancer),。

640.webp (27).jpg

  圖3.7 Calexda 10U系統(tǒng)

  在這樣的系統(tǒng)設(shè)計(jì)下,,配一顆超低功耗的Arm處理器,合情合理多了吧,?因此選Arm的標(biāo)準(zhǔn)核Cortex-A57,,縮短開(kāi)發(fā)時(shí)間,節(jié)省開(kāi)發(fā)費(fèi)用,,也是順理成章的事情,,都在合理邏輯之內(nèi)。

  Cortex-A57的資料滿(mǎn)世界都是,,我就不在這里羅列了,。前一章有提,AMD選了2 core 4 cluster的配置,,而不是手機(jī)AP常見(jiàn)的4 core 2 cluster,。好處么,自己體會(huì)一下,。

  這顆芯片的list price是$150,,也是很有殺傷力。

640.webp (26).jpg

  圖3.8 AMD Opteron A1100框架圖

640.webp (25).jpg

  圖3.9 AMD Opteron A1100 Floorplan

  某種意義上,,AMD這顆Seattle雖然被列入第二波浪潮中,。它的設(shè)計(jì)理論完全是第一波的。K12才是第二波的,。

  可是看看K12的設(shè)計(jì)目標(biāo),,在AMD的框架下,為什么要做Arm,,自然是x86啊。Jim Keller這個(gè)男人本來(lái)是跟K12聯(lián)系在一起的,。但是… … ,,這個(gè)風(fēng)一樣不羈的男子啊。

  Intel的對(duì)于此輪浪潮的反應(yīng)是14nm “Xeon-D”,。

  Cavium ThunderX 2014

  某種程度上,, Cavium的48核ThunderX 才是真正開(kāi)啟第二波Arm服務(wù)器浪潮的產(chǎn)品。它湊齊了一顆主流服務(wù)器芯片應(yīng)有的所有特點(diǎn),例如雙路和性能,。

  Cavium做為一家僅僅有AMD1/10大的公司,,很早就有超多核處理器的設(shè)計(jì)能力,只是之前是MIPS網(wǎng)絡(luò)應(yīng)用處理,。

  雖然只有2 issue的自研核,,單核性能較弱。但是整個(gè)SoC的設(shè)計(jì),,特別多路設(shè)計(jì),,是出色的。而且因?yàn)榫W(wǎng)絡(luò)處理器方面的積累,,這顆芯片的加速引擎與IO接口非常豐富,。

  而且為了降低功耗,可以有選擇的關(guān)閉加速引擎,,變成4種不同的配置: 云計(jì)算版本,,存儲(chǔ)版本, 運(yùn)營(yíng)商版本,,安全版本,。

640.webp (24).jpg

  圖3.10 Cavium ThunderX 框架圖

  Anandtech有個(gè)非常不錯(cuò)的性能測(cè)試,有助于對(duì) Cavium ThunderX的理解,。

  BroadcomVulcan ThunderX2

  這是很糾結(jié)的一節(jié),。如果說(shuō)Broadcom Vulcan,那是2016的左右的事情,。如果說(shuō)Cavium的Thunder X2 那是2018年的產(chǎn)品,。然后就迅速變成了Marvell的ThunderX2。本來(lái)是同期規(guī)劃的產(chǎn)品,,結(jié)果,,各種曲折離奇的竟然二合一。有的時(shí)候,,我都不相信,,我們這個(gè)產(chǎn)業(yè),也有這么多戲劇化的故事,。

  說(shuō)起來(lái),,源自RMI的Broadcom的CPU設(shè)計(jì)團(tuán)隊(duì),和Cavium的CPU設(shè)計(jì)團(tuán)隊(duì),,有好多共同點(diǎn),,都是MIPS系的,都是做網(wǎng)絡(luò)出身,。但是跟Cavium老是做2 issue小核不同,,Broadcom團(tuán)隊(duì)從一開(kāi)始就擅長(zhǎng)做多線(xiàn)程,。因此在規(guī)劃的時(shí)候Vulcan就是逆天的4線(xiàn)程。此時(shí)ARM陣營(yíng)里,,還沒(méi)有多線(xiàn)程的處理器呢,。

  Broadcom原先的設(shè)計(jì)目標(biāo)是16nm,die size 600 mm2,,32核,,每核4線(xiàn)程,支持雙P系統(tǒng),。被Cavium收購(gòu)之后,,die size未披露。

  最高配的CN9980,,32核,,2.5Ghz,TDP 200W,。2.2Ghz,,180W的CN9980,價(jià)格在$1795,,而16核的CN9960,,1.6 Ghz,75W售價(jià) $800

  而它的目標(biāo)市場(chǎng),,或者說(shuō)可見(jiàn)的design win集中在HPC市場(chǎng),。

640.webp (23).jpg

  圖3.11 ThunderX2的框架圖

640.webp (22).jpg

  圖3.12 ThunderX 2 布局

640.webp (21).jpg

  圖3.13 ThunderX2 IO接口

  Qualcomm 2017

  在2017年高通向市場(chǎng)推出原代號(hào)為“Amberwing”的48核10nm的Centriq 2400的同一周,高通公司接到了博通公司的$130收購(gòu)要約,。

  據(jù)估計(jì),,這顆Centriq 2400,歷時(shí)4年,,花費(fèi)在 $100M到 $125M,,幾百名工程師的投入。期間,,高通還做了一款24核的Centric 1200作為測(cè)試原型,。

  Centriq 2400有18Btransistors,398mm2,,三星的10nm工藝,,比thunderX2小巧多了。雖然它是單P處理器,,但是對(duì)多年多代服務(wù)器發(fā)展規(guī)律,,這本來(lái)不成問(wèn)題。

640.webp (20).jpg

  圖3.14 Centriq 2400

640.webp (19).jpg

  圖3.15 Centriq 2400的微架構(gòu)對(duì)比

640.webp (18).jpg

  圖3.16 Centriq2400的框架圖

  這顆含著金鑰匙出生的芯片,,一路順風(fēng)順?biāo)牡絫ape out,直到那位叫Hock Tan的黑天鵝的出現(xiàn)。

  從價(jià)格功耗表上看,,Centriq2400的定價(jià)與ThunderX2基本一致,。

  Centriq 2400的CPU核名字為“Falkor”的自研核。最高2.6Ghz,,是高通的第五代自研核,。如果有的話(huà),下一代核是“Saphira” ,,芯片的名字叫“Firetail”,。但是沒(méi)有然后了,高通取消了服務(wù)器芯片項(xiàng)目,,也標(biāo)志著第二輪Arm服務(wù)器的浪潮的尾聲,。

  Samsung(2012-2014)

  主線(xiàn)寫(xiě)完,支線(xiàn)也要寫(xiě),。

  Samsung的Arm 服務(wù)器的故事,,在國(guó)內(nèi)知道的人少,但是上過(guò)華爾街日?qǐng)?bào)的,。Samsung也從來(lái)沒(méi)有官宣過(guò),,整個(gè)項(xiàng)目起的時(shí)候,大家是猜測(cè),,滅的時(shí)候,,大家也都是傳聞。

  2007年 Samsung在Austin投資$3.5b建工廠,,2010成立Samsung Austin Research Center,,開(kāi)始招芯片設(shè)計(jì)工程師,然后招了一位AMD的VP做Austin的VP,。大家的猜測(cè)是服務(wù)器芯片也在這個(gè)Austin研究中心的計(jì)劃中,。

  其實(shí),Samsung進(jìn)入服務(wù)器SoC設(shè)計(jì)的邏輯可以和高通很接近,,但是當(dāng)時(shí)高通有CEO的支持,,還有那樣的黯然收?qǐng)觯患翼n國(guó)公司的美國(guó)分支部門(mén),,想撐起一個(gè)大服務(wù)器芯片的設(shè)計(jì),,有多困難,可以想象,。

  Nvidia Project Denver 2011-2014

  Nvidia是一個(gè)我非常尊敬的公司,,也是硅谷現(xiàn)存的仍然是創(chuàng)始人做CEO的極少數(shù)公司了。但是這一章,,我寫(xiě)了幾次,,都寫(xiě)不下去,。大約是Nvidia仍然是GPU為主線(xiàn)的公司,它的CPU的發(fā)展邏輯,,屬于面向應(yīng)用規(guī)劃的那種放飛型,。

  這是一個(gè)從Tegra開(kāi)始,到Carmel,,集成Arm CPU在復(fù)雜功能芯片的路徑,。 其實(shí),看起來(lái)更像是系統(tǒng)公司的芯片規(guī)劃路徑,。因?yàn)楸疚募性谕ㄓ梅?wù)器芯片的分析,,否則Nvidia家的產(chǎn)品路線(xiàn),絕對(duì)值得一個(gè)完整的大章分析,。

640.webp (17).jpg

  圖3.17 Tegra Arm CPU

640.webp (16).jpg

  圖3.18 Eegra K1

640.webp (15).jpg

  圖3.19 Carmel CPU

  Balkal

  俄羅斯的第一顆28n芯片BE-M1000,,其實(shí)不應(yīng)該算在服務(wù)器類(lèi),不過(guò)它涵蓋了工作站,。這個(gè)芯片公司跟日本的Fujitsu,中國(guó)的飛騰,,一樣都是從超算項(xiàng)目中孵化出來(lái),獨(dú)立運(yùn)作,,更注重商業(yè)成功一點(diǎn),。

  我當(dāng)年是看過(guò)他們計(jì)劃的超強(qiáng)路標(biāo)的。但是從路標(biāo)到產(chǎn)品落地,,這中間的三五年的時(shí)間,,太多變數(shù),因此風(fēng)消云散的多了,。

  說(shuō)到做芯片這事,,這是超算的同志們的傳統(tǒng)強(qiáng)項(xiàng)。前面說(shuō)到的某個(gè)服務(wù)器SoC,,其實(shí)也來(lái)自于超算市場(chǎng)的推動(dòng),。后面,我會(huì)說(shuō)到歐洲,,歐洲的同志們也開(kāi)始發(fā)奮圖強(qiáng)要自己動(dòng)手做芯片了,。

640.webp (14).jpg

  圖3.20 Balkal BE-M1000

  Phytium

  飛騰的芯片的公開(kāi)信息,來(lái)自hotchips 2015,。最新的路標(biāo),,來(lái)自飛騰總經(jīng)理竇強(qiáng)2019年12月19日的公開(kāi)分享。

  恕不展開(kāi),。

  HiSilicon 1616

  海思的1616是鯤鵬920的前一代,,比較低調(diào)的一代。華為官網(wǎng)上沒(méi)有介紹,。我也就不放任何外網(wǎng)資料,。

  關(guān)于海思,,我覺(jué)得可以按照《明朝那些事》的風(fēng)格寫(xiě)部史詩(shī)級(jí)的著作,再補(bǔ)一個(gè)《海思群雄譜》的人物傳記做后傳,。文科生寫(xiě)像海思這種公司,,寫(xiě)不出氣勢(shì),得我這種理工科的文藝青年,。萬(wàn)事俱備,就差兩件事就可以動(dòng)手,,一是海思宣傳部預(yù)付的稿費(fèi),,當(dāng)然網(wǎng)友眾籌也可以考慮, 二是要等我退休哈,。

  Socionext

  Socionext這顆"SynQuacer?" SC2A11大約是唯一一顆Cortex-A53的24核芯片了吧,?

640.webp (13).jpg

  圖3.21Socionext SC2A11框圖

  這顆芯片,不能光看芯片,,要看系統(tǒng)設(shè)計(jì),。

  圖3.22Socionext SC2A11服務(wù)器系統(tǒng)

640.webp (12).jpg

  這種小核,高密度系統(tǒng),,有相似感覺(jué)了吧,?那個(gè)時(shí)代的設(shè)計(jì)。

  私評(píng)尾聲

  2012-2014這幾年,,我飛臺(tái)灣飛到吐血,。我在我的硬盤(pán)了找到一份當(dāng)時(shí)的資料。當(dāng)時(shí)臺(tái)灣的業(yè)界有個(gè)說(shuō)法,,ODM Direct模式改寫(xiě)產(chǎn)業(yè)鏈生態(tài),。ODM Direct 模式確實(shí)立住了,但是生態(tài)系統(tǒng)中的強(qiáng)者并不是ODM,,是End Users,,是那些個(gè)寫(xiě)著我們可以控制從power grid到gate的Hyperscale們。

  第二波浪潮還是半導(dǎo)體業(yè)界和系統(tǒng)廠商推動(dòng)的,,那么第三波,,就是終端用戶(hù)自己下海弄潮了。

  第三波 Neoverse

  Drew Henry(建議大家去讀讀他在Linkedin上的簡(jiǎn)介,,堪稱(chēng)高管簡(jiǎn)歷模版)這個(gè)男人也是要在Arm 服務(wù)器歷史上留下名字的,。在他加入Arm一年之后,2018年10月 Arm Tech上,,他宣布Arm在Infrastructure 市場(chǎng)上有了自己的品牌(Neoverse)和冰公布了每年一代,,每代提升30%的路線(xiàn)圖。

  這是第三波浪潮的開(kāi)始,,只是深水靜流,,那個(gè)時(shí)候,,世界還是靜悄悄的。

  而我還記得為了湊齊發(fā)布會(huì)上的那些大廠logo的那些瑣碎工作,,還有伙伴們的給力支持,。

640.webp (11).jpg

  圖4.1 Arm NEOVERSE路標(biāo)

  Huawei Kunpeng 920

  2019年1月7日,有大徐總之稱(chēng)的徐文偉發(fā)布了鯤鵬920,。

  我只放我覺(jué)得重要的公開(kāi)圖,,怎么解讀,就看各位自己了,。

  這是顆世界先進(jìn)級(jí)的產(chǎn)品,,無(wú)論哪個(gè)方面,包括關(guān)注的熱度,。

640.webp (10).jpg

  圖4.2 鯤鵬920的發(fā)布會(huì)圖

640.webp (9).jpg

  圖4.4 鯤鵬920 4P互聯(lián)圖

  AWS Graviton2

640.webp (9).jpg

  圖4.5 Graviton1 & Graviton2

  即使2018年11月AWS發(fā)布了Graviton,,并且用Neoverse稱(chēng)呼了這個(gè)16個(gè)cortex A72 的自制芯片。世界并不震驚?,F(xiàn)在看,,16核A72 [email protected],確實(shí)更像是試水,。

  特別是看看2017年AWS發(fā)布的也是由2015年收購(gòu)的以色列創(chuàng)業(yè)公司Annapurna labs團(tuán)隊(duì)開(kāi)發(fā)的Nitro芯片,。

  但是2019年的AWS Graviton 2就是驚艷級(jí)別的產(chǎn)品了。64核 Neoverse N1,,30 Billion transistors,,7nm的工藝,推測(cè)die size應(yīng)該在 300-350mm?,,官宣高于Intel Xeon-based 5th代處理器40%的性能,,還有高達(dá)25 Gbps的網(wǎng)絡(luò)帶寬和18 Gbps of 優(yōu)化EBS的帶寬。

640.webp (8).jpg

  圖4.6 SPEC cpu 2017

640.webp (7).jpg

  圖4.7 AWS Graviton2支持的EC2

  Ampere QuickSilver 2019

  Ampere順著AWS的graviton的正面風(fēng)潮,,透露了7nm 80核N1 代碼名字為QuickSilver的下一代計(jì)劃,。最亮眼的是新芯片支持2 socket的配置,這要感謝Arm mesh IP (CMN-600)在CCIX方面的努力,。

640.webp (6).jpg

  圖4.8 Ampere產(chǎn)品路標(biāo)

  除了讓人覺(jué)得帥到炸裂的80核N1設(shè)計(jì)之外,,QuickSilver擁有128 PCIe4 lanes這樣的豪華配置。還是Nividia家CUDA-on-ARM的核心伙伴,。

  這是我2020最期望的一顆芯片,,畢竟能買(mǎi)到啊,AWS的graviton只能買(mǎi)云服務(wù),。

  MarvellThunderX3

  接著AWS的熱度,,公布自己下一代計(jì)劃的不僅僅有Ampere,還有我們的老牌公司Marvell,因此我們知道了ThunderX3 processor的自研核的名字是“Triton”,,還看到了每?jī)赡暌淮?,每代性能翻倍的?qiáng)勁產(chǎn)品路標(biāo)。

640.webp (5).jpg

  圖4.9 ThunderX 路標(biāo)

640.webp (4).jpg

  圖4.10 ThunderX3的增強(qiáng)部分

  Fujistu A64FX 2016

  最喜歡的要放到最后,。我的同事,,在跟與一位伙伴討論memory選擇的時(shí)候,說(shuō)“高吞吐,,大容量和便宜三者之間,,你只能選兩個(gè)”,這句話(huà)非常有哲理了,,如果有三項(xiàng)都可以兼顧的方案,,大家就不糾結(jié)了。有糾結(jié),,肯定是有難選的地方,我個(gè)人偏好那種“除了貴,,沒(méi)別的毛病”的方案,,但是請(qǐng)放心,給伙伴推薦的時(shí)候,,我絕對(duì)不會(huì)表露這種個(gè)人傾向性的,。

  富士通的這款A(yù)64FX其實(shí)不是服務(wù)器芯片,是用來(lái)做超算的,,恰恰就是那種“除了貴,,沒(méi)別的毛病”的產(chǎn)品。

  2016年arm宣布了ArmV8的指令集擴(kuò)展SVE- Scalable Vector Extension,,國(guó)際慣例,,一個(gè)大客戶(hù)會(huì)出來(lái)站臺(tái),這就是是Fujistu-富士通,,它的Post-K,,傳聞中拿了$1.24 billion日本國(guó)家資金的超算項(xiàng)目,會(huì)采用Arm架構(gòu),,而不是他們以前的SPARC,。而且A64FX是第一款支持SVE的Arm處理器。

640.webp (3).jpg

  圖4.11 A64FX的緩存層級(jí)和速度

  2018年富士通在hotchips上公開(kāi)介紹了A64FX這顆芯片,。先看硬參數(shù):8.8 billion transistors (這個(gè)不算多,,AWS Graviton2 有30B) ,7nm,。48個(gè)自研核加上4個(gè)同質(zhì)的管理核,,其實(shí)是4個(gè)處理器cluster,每個(gè)cluster是13個(gè)核,。核間互聯(lián)是自研的第二代TOFU -6D mesh/torus片上網(wǎng)絡(luò)(第一代TOFU的口碑超級(jí)好),,配的32GB HBM2 (超豪華配置),,16PCIe 3.0 lanes (這個(gè)不算多,估計(jì)也不想接什么外設(shè)),,1024 GB/s的存儲(chǔ)帶寬,,2.7 TFLOPS @ 64bit,21.6 TFLOPS@8bit 的性能,。Nvidia Tesla P4和P40,,在8bit整數(shù)的時(shí)候,分別是22 TFlops和47TFLOPS,,頗有一拼,。

  A64FX的cache層級(jí),吞吐很高,,執(zhí)行流水線(xiàn),,電源管理,RAS都很有特色,,有興趣可以讀一下hotchips的文檔,。

640.webp (2).jpg

  圖4.12 A64FX的floorplan

640.webp (1).jpg

  圖4.13 Fugaku節(jié)點(diǎn)(液冷的)

  A64FX這種強(qiáng)悍的性能,可以不用和GPU組合,,因此Cray在和富士通合作,,把A64FX做進(jìn) CS500 clusters和未來(lái)Shasta系統(tǒng)中。

  其它的新入者

  2019年11月,,一家叫Nuvia的創(chuàng)業(yè)公司,,在SC會(huì)議期間,浮出水面,。這家公司創(chuàng)始人的背景,,蘋(píng)果的訴訟,立刻登上了頭條,。沒(méi)有產(chǎn)品之前,,讓我們記住他們的口號(hào)"deliver industry-leading performance and energyefficiency for the data center" 。

  歐洲的歐洲處理器聯(lián)盟-EPI (https://www.european-processor-initiative.eu/project/epi/)也是一個(gè)以設(shè)計(jì)服務(wù)器級(jí)的CPU為目標(biāo)的努力,。不多說(shuō),,看路標(biāo)。

640.webp.jpg

  圖4.11 EPI路標(biāo)圖

  總結(jié)

  我在試圖回答Arm為什么要做服務(wù)器的時(shí)候,,我能想到的就是“先進(jìn)生產(chǎn)力”這5個(gè)字,。什么叫先進(jìn)生產(chǎn)力, Frank Frankovsky,,F(xiàn)acebook VP of Hardware Design and Supply Chain Operations 也是個(gè)要有名字的男人,。他提出 the most useful work per watt per dollar。真正能用上的算力除以買(mǎi)服務(wù)器花費(fèi)與運(yùn)營(yíng)服務(wù)器所花的電費(fèi)就是這個(gè)服務(wù)器的代表的生產(chǎn)力,這個(gè)值標(biāo)志了先進(jìn)性,。

  延伸一下,,對(duì)產(chǎn)業(yè)鏈上的人就是the total useful work per total investment,提供有用計(jì)算力除以總投入的資金(時(shí)間,,工程師的智慧與心血),,這就是這個(gè)技術(shù)/方案/ISA/產(chǎn)品的生產(chǎn)力是否先進(jìn)的指標(biāo)。這也是我寫(xiě)這篇編年史的一條暗線(xiàn),,多少投入,,第三波浪潮會(huì)帶來(lái)多少產(chǎn)出。

  真正的先進(jìn)生產(chǎn)力,,是屬于全世界的,,也是全世界共同努力的結(jié)果。

  先進(jìn)的產(chǎn)品是一行行的代碼,,一個(gè)個(gè)wafer累積出來(lái)的,。

  祝大家2020萬(wàn)事如意。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話(huà):010-82306118,;郵箱:[email protected]