《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 搭建一個(gè)超算中心,需要哪些芯片,?

搭建一個(gè)超算中心,,需要哪些芯片?

2022-11-17
來源:半導(dǎo)體產(chǎn)業(yè)縱橫
關(guān)鍵詞: 芯片 國(guó)際超算 太湖之光

2022國(guó)際超算大會(huì)發(fā)布最新TOP500榜單,,美國(guó)田納西州橡樹嶺國(guó)家實(shí)驗(yàn)室(ORNL)的“前沿”(Frontier)以1.102 exaflops的成績(jī)屠榜,,成為第一個(gè)真正突破Exascale大關(guān)的超算,。

在這一份榜單中,我國(guó)的神威太湖之光位列第六,,天河二號(hào)位列第九,,與前幾年相比排名有所下降,算力也不及美國(guó)“前沿”的十分之一,。

長(zhǎng)期以來,,超算被視為綜合國(guó)力的象征之一,是支撐國(guó)家持續(xù)發(fā)展的關(guān)鍵技術(shù)之一,。那么,,中國(guó)的超算能力如何?國(guó)內(nèi)芯片供應(yīng)鏈?zhǔn)欠衲軌蛑沃袊?guó)搭建超算中心呢,?

超算市場(chǎng)的形成

簡(jiǎn)單來說,,超級(jí)計(jì)算機(jī)是指由數(shù)千甚至更多處理器組成、能計(jì)算普通計(jì)算機(jī)和服務(wù)器不能完成的大型復(fù)雜課題的計(jì)算機(jī),,它是將大量的處理器集中在一起以處理龐大的數(shù)據(jù)量,,同時(shí)運(yùn)算速度比常規(guī)計(jì)算機(jī)快許多倍。

根據(jù)中國(guó)科學(xué)院院士錢德沛2019年所做的一個(gè)報(bào)告,,1993-2012年,,超級(jí)計(jì)算機(jī)的性能大約每10年提高1000倍,從2013年起,,上升速率變緩,,降低為每10年100倍左右。但無(wú)論如何,,超級(jí)計(jì)算機(jī)性能增長(zhǎng)的速度遠(yuǎn)高于民用PC的性能增長(zhǎng),,這說明超級(jí)計(jì)算機(jī)性能提高固然要靠單芯片性能的增長(zhǎng),也非常依賴系統(tǒng)規(guī)模的擴(kuò)大,。

最早,超算領(lǐng)域一直是由美國(guó)主導(dǎo)的,,美國(guó)是該領(lǐng)域的傳統(tǒng)強(qiáng)國(guó),,已構(gòu)建了三大E級(jí)超算體系。自20世紀(jì)80年代中期開始,,日本逐漸追趕上,,其自主研發(fā)的超級(jí)計(jì)算機(jī)的性能屢創(chuàng)佳績(jī)。

近幾年,,中國(guó)在超算領(lǐng)域也逐漸崛起,,占據(jù)了突出優(yōu)勢(shì)。在2022年的榜單上,,中國(guó)共有兩個(gè)超級(jí)計(jì)算機(jī)進(jìn)入前十,,分別是HPL得分為93PFlop/s,、位列第六的“神威·太湖之光”和HPL得分為61.4PFlop/s、位列第九的“天河二號(hào)”,。

截至目前,,我國(guó)共掛牌8座國(guó)家級(jí)超算中心,分別位于天津,、長(zhǎng)沙,、濟(jì)南、廣州,、深圳,、無(wú)錫、鄭州,、昆山,。

那么如此重要的算力場(chǎng)景,究竟需要那些芯片呢,?

超算中心需要哪些芯片,?

先來看國(guó)內(nèi),2010年,,中國(guó)的“天河一號(hào)”位居全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜榜首,。其思路采用“CPU+GPU”的設(shè)計(jì)思路,結(jié)合了大約7000個(gè)英偉達(dá)GPU和14000個(gè)英特爾CPU,,將GPU(圖形芯片)用于超級(jí)計(jì)算機(jī),,起到了“CPU加速器”的作用。

盡管“天河”的主要部件仍來自英特爾與英偉達(dá)兩個(gè)美國(guó)制造商,,但互聯(lián)芯片則完全是中國(guó)自主研發(fā),,“天河”安裝有由中國(guó)自主研發(fā)的“飛騰1000”芯片,部分取代了進(jìn)口芯片,。

2016年“神威·太湖之光”誕生,,是世界首臺(tái)峰值運(yùn)算性能超過每秒十億億次浮點(diǎn)運(yùn)算能力的超級(jí)計(jì)算機(jī)。這臺(tái)計(jì)算機(jī)共有40960顆國(guó)產(chǎn)芯片,,運(yùn)算系統(tǒng)全面采用了國(guó)產(chǎn)“申威26010”眾核處理器,。這也是我國(guó)第一臺(tái)全部采用國(guó)產(chǎn)處理器構(gòu)建的超級(jí)計(jì)算機(jī)。

從北京超級(jí)云計(jì)算中心來看,,根據(jù)處理器的類別,,北京超級(jí)云計(jì)算中心的超算分區(qū)可以劃分為四大系列:基于AMD芯片的A分區(qū)與M分區(qū),以及A分區(qū)的加強(qiáng)版「A6分區(qū)」,;基于英特爾芯片的T分區(qū)與L分區(qū),;基于國(guó)產(chǎn)芯片的先導(dǎo)一號(hào);基于英偉達(dá)芯片的AI智算云,比如N17,、N19區(qū),。

其中,A分區(qū)采用的是AMD在2019年推出的第二代EPYC(霄龍)服務(wù)級(jí)處理器,,代號(hào)羅馬(Rome),,基于7nm工藝,搭載64核心128線程,,每一個(gè)核心的內(nèi)存為4GB,,在提升核心的同時(shí)也提升了時(shí)鐘速度,加速頻率可達(dá)3.4GHz,。

國(guó)外方面,,今年在超算榜單排名第一的美國(guó)的“前沿(Frontier)”超級(jí)計(jì)算機(jī),相較于神威·太湖之光,,美國(guó)的Frontier只有9408個(gè)節(jié)點(diǎn),,每個(gè)節(jié)點(diǎn)配備一個(gè)AMD Epyc 7A53 CPU和四個(gè)AMD Instinct MI250X加速卡。顯然,,F(xiàn)rontier的節(jié)點(diǎn)間通信的壓力要小得多,,也更容易設(shè)計(jì)。

該系統(tǒng)共包括8730112個(gè)內(nèi)核,,整個(gè)系統(tǒng)總共有9400多個(gè)CPU和37000多個(gè)GPU,。Frontier核心計(jì)算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架構(gòu),。

此外,,每塊加速卡上還集成了128GB HBM2e高帶寬內(nèi)存。現(xiàn)在的超算主要還是馮·諾依曼結(jié)構(gòu)占主導(dǎo),,內(nèi)存速度將直接影響計(jì)算速度,,這種內(nèi)存比普通的要快得多,目前卻只有少數(shù)企業(yè)能夠生產(chǎn),。

超算中心如何分配芯片

超級(jí)計(jì)算機(jī)的性能野蠻生長(zhǎng)了20年,,至今為止,美國(guó)研制Frontier的花費(fèi)也不過區(qū)區(qū)6億美元,,這說明超算系統(tǒng)規(guī)模的擴(kuò)大并不是簡(jiǎn)單的堆硬件,。

日本“富岳”(Fugaku)超算,宣稱它的浮點(diǎn)運(yùn)算速度峰值可達(dá)每秒41.5億億次,;中國(guó)的“神威太湖之光”,它的浮點(diǎn)運(yùn)算速度峰值是每秒12.5億億次,。都達(dá)到了10億億次以上,。超算用了很多個(gè)芯片,讓它們同時(shí)執(zhí)行任務(wù),而單個(gè)芯片的性能跟個(gè)人電腦的芯片是差不多的,。用科學(xué)術(shù)語(yǔ)來說,,這叫做“并行計(jì)算”,這是高性能計(jì)算的基本思路,。

超算的算力是和核數(shù)有關(guān)的,。但算力速度并不能與核數(shù)構(gòu)成正比例關(guān)系。實(shí)際上,,要讓多個(gè)芯片同時(shí)運(yùn)行,,就必須首先給它們劃分好任務(wù),這個(gè)任務(wù)劃分是要消耗時(shí)間的,。然后,,當(dāng)各個(gè)芯片開始計(jì)算之后,還不時(shí)地要和其他芯片交換數(shù)據(jù),,這個(gè)通信也是要消耗時(shí)間的,。

超算的競(jìng)爭(zhēng)主要是超算系統(tǒng)中調(diào)度、分發(fā),、通信相關(guān)的軟硬件的競(jìng)爭(zhēng),。早期的超算中心,每一個(gè)節(jié)點(diǎn)要么純CPU,,要么是CPU+加速卡的異構(gòu)計(jì)算方案,。但從2010年前后開始,純CPU的方案劣勢(shì)太大,,越來越少地被采用,。CPU+加速卡的異構(gòu)計(jì)算方案也存在很大缺點(diǎn),即計(jì)算的數(shù)據(jù)會(huì)反復(fù)在CPU和加速卡之間傳輸,,造成大量的性能浪費(fèi),。

因此,為了更高的性價(jià)比和計(jì)算速度,,早期國(guó)內(nèi)往往會(huì)購(gòu)買英特爾和英偉達(dá)兩家美國(guó)廠商的成熟產(chǎn)品,。

再之后異構(gòu)計(jì)算進(jìn)入超算中心的眼簾。事實(shí)上,,最近幾年曾經(jīng)在TOP500刷榜,,或者排名靠前的超算都采用了異構(gòu)計(jì)算——中國(guó)神威太湖之光、美國(guó)超算泰坦,、中國(guó)天河1號(hào)和天河2號(hào),。

泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn),每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD Opteron 6274處理器和1個(gè)英偉達(dá) Tesla K20加速器組成,,共計(jì)299008個(gè)運(yùn)算核心,,屬于CPU+GPU,。

天河1號(hào)使用了14336片英特爾 Xeon X5670處理器和7168片英偉達(dá) Tesla M2050高性能計(jì)算卡,屬于CPU+GPU,?!?/p>

天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由2片英特爾的E5 2692和3片Xeon PHI組成,,共使用了32000片英特爾的E5 2692和48000片Xeon PHI,,屬于CPU+眾核芯片。正在升級(jí)的天河2號(hào)則將美國(guó)的Xeon PHI換成了自主研發(fā)的矩陣2000,,屬于CPU+DSP,。

神威·太湖之光使用的sw26010將兩個(gè)部分的電路,集成到了一個(gè)芯片上(片上異構(gòu)),,這樣既避免了純CPU不擅長(zhǎng)專業(yè)計(jì)算的劣勢(shì),,又避免了加速卡不能和CPU共享內(nèi)存的問題。使得sw26010在設(shè)計(jì)團(tuán)隊(duì)規(guī)模很小,,制程落后整整兩代的情況,,實(shí)現(xiàn)了和英特爾類似產(chǎn)品相似的功耗和性能。

太湖之光的成功,,啟迪了后來日本的“富岳”超算,。“富岳”同樣拋棄了美國(guó)成熟的計(jì)算方案,,購(gòu)買ARMv8.2-A指令集開發(fā)管理核心,,并自研專業(yè)計(jì)算模塊,推出了富士通版的片上異構(gòu)芯片A64FX,。

總結(jié)

我國(guó)在發(fā)展超算中心的途中,,仍有許多問題。國(guó)產(chǎn)芯片研究起步較晚,,CPU,、GPU等超算核心芯片指令集架構(gòu)領(lǐng)域仍然存在明顯短板,缺乏高端芯片制造能力,。EDA和編程平臺(tái)長(zhǎng)期面臨卡脖子風(fēng)險(xiǎn),,核心設(shè)備依賴進(jìn)口,自主權(quán)和議價(jià)權(quán)仍由國(guó)外巨頭掌控,。

目前來看,,超級(jí)計(jì)算機(jī)的核心硬件CPU與GPU市場(chǎng)呈現(xiàn)馬太效應(yīng),CPU主要由Intel與AMD領(lǐng)跑,,GPU市場(chǎng)由英偉達(dá)等國(guó)際巨頭掌握關(guān)鍵技術(shù)話語(yǔ)權(quán),。并且在美國(guó)的刻意制裁下,上榜超算大會(huì)TOP500的企業(yè),,往往更容易被加入實(shí)體清單,。

2019年6月,,美國(guó)將江南計(jì)算技術(shù)研究所等列入實(shí)體清單;2021年4月8日,,包括天津飛騰信息技術(shù)公司、上海集成電路技術(shù)與產(chǎn)業(yè)促進(jìn)中心,、Sunway Microelectronics,、國(guó)家超級(jí)計(jì)算濟(jì)南中心、國(guó)家超級(jí)計(jì)算深圳中心,、國(guó)家超級(jí)計(jì)算無(wú)錫中心以及國(guó)家超級(jí)計(jì)算鄭州中心被美國(guó)列入黑名單,。

在重重壓力下,我國(guó)超算仍然保持著優(yōu)秀的成績(jī),。在今年的ISC 2022超級(jí)計(jì)算大會(huì)上,,中國(guó)是超級(jí)計(jì)算機(jī)上榜數(shù)量最多的國(guó)家,以173臺(tái)的數(shù)量位列第一,,占全球34.6%,;排名第二的美國(guó)從上一期的150臺(tái)下降到127臺(tái),占比25.6%,;排名第三的日本則有33臺(tái)進(jìn)入榜單,,占比6.6%。

從2016年開始,,我國(guó)超算進(jìn)入TOP500榜單的數(shù)量,,除了2017年6月稍下滑位居第二外,基本上就一直穩(wěn)定在世界第一的位置,。這些成績(jī)的出現(xiàn),,并非易事。

隨著我國(guó)高度重視超級(jí)計(jì)算機(jī)核心芯片自主國(guó)產(chǎn)化研究,,國(guó)產(chǎn)x86架構(gòu)CPU,、DCU深度計(jì)算單元均已獲得一定的應(yīng)用。



更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。