近年來(lái)AI技術(shù)飛速發(fā)展,被看作是改變?nèi)祟?lèi)未來(lái)生活方式的主要技術(shù)之一。與此同時(shí),,AI熱潮正在推動(dòng)AI芯片市場(chǎng)快速增長(zhǎng),。根據(jù)Gartner估計(jì),,AI芯片在2020年預(yù)計(jì)達(dá)到146億的市場(chǎng)規(guī)模,。超過(guò)百億美元的AI芯片市場(chǎng)一方面驅(qū)動(dòng)著傳統(tǒng)芯片公司的技術(shù)轉(zhuǎn)型,一方面又催生出一大批初創(chuàng)公司加入,。
這一波AI潮有多猛,,僅看國(guó)內(nèi)市場(chǎng)就可初見(jiàn)端倪。根據(jù)6月28日發(fā)布的《北京人工智能產(chǎn)業(yè)發(fā)展白皮書(shū)(2019年)》數(shù)據(jù)顯示,,截至2019年4月,,我國(guó)人工智能企業(yè)4084家,僅北京市人工智能相關(guān)企業(yè)數(shù)量就達(dá)1084家,。
縱觀全球市場(chǎng),, AI芯片公司中如今英偉達(dá)的位居榜首,英特爾,、IBM等公司實(shí)力也相當(dāng)雄厚,,而成立于2016年的一家以色列AI芯片公司Habana Labs聲稱(chēng)要做未來(lái)AI芯片領(lǐng)域的領(lǐng)導(dǎo)者,究竟有何“底牌”,?
“Habana的團(tuán)隊(duì)成員主要是來(lái)自于處理器、DSP,、系統(tǒng)設(shè)計(jì)以及網(wǎng)絡(luò)設(shè)計(jì)等領(lǐng)域的知名公司,,擁有豐富的軟硬件設(shè)計(jì)研發(fā)經(jīng)驗(yàn)。Habana在AI領(lǐng)域已經(jīng)發(fā)布了若干款產(chǎn)品,,主要分推理和訓(xùn)練兩個(gè)不同的產(chǎn)品線(xiàn),。去年我們率先發(fā)布了Goya,主要是用于推理和預(yù)測(cè);最近發(fā)布的Gaudi主要用于訓(xùn)練,?!盚abana Labs首席商務(wù)官Eitan Medina介紹。
Habana Labs首席商務(wù)官Eitan Medina
AI推理處理器Goya,,發(fā)布九個(gè)月性能依舊領(lǐng)先
2018年9月,,Habana推出首個(gè)AI處理器Goya,是一款基于PCIE的雙槽位處理器,,用于傳統(tǒng)服務(wù)器,,提供推理和預(yù)測(cè)。
Goya相對(duì)于CPU和GPU有絕對(duì)的性能優(yōu)勢(shì),。根據(jù)當(dāng)時(shí)在ResNet-50模型上的測(cè)試顯示,,Goya的圖片處理性能比英偉達(dá)的GPU Tesla T4高3倍,比普通CPU高10倍之多,。能耗比上,,Goya比GPU有兩倍的優(yōu)勢(shì)。在實(shí)時(shí)處理上,,Goya延遲也比GPU要低很多,,幾乎可以做到實(shí)時(shí)處理圖片。
ResNet-50上的推理性能測(cè)試
美國(guó)著名的處理器評(píng)論雜志Microprocessor Report給出了Goya和目前市場(chǎng)上已有的最主要的推理和訓(xùn)練產(chǎn)品的比較,,圖上顯示Goya在性能上比其他產(chǎn)品有3倍的優(yōu)勢(shì),。
Microprocessor Report報(bào)道Goya性能優(yōu)勢(shì)
Eitan Medina介紹,到目前為止經(jīng)過(guò)了9個(gè)月時(shí)間,,Goya這款產(chǎn)品仍然是在市場(chǎng)上性能最領(lǐng)先的產(chǎn)品,。
從數(shù)據(jù)中心的角度看,Goya可以提供更高的性能,、更低的延遲以及更好的能耗比,。英偉達(dá)的GPU 8片V100卡性能上等同于169片傳統(tǒng)的CPU,而Habana 3片Goya卡就可以達(dá)到8片V100的效果,。
數(shù)據(jù)中心角度的性能對(duì)比
為什么Goya能夠?qū)崿F(xiàn)這么高的性能呢,?“主要是在于架構(gòu)上,Habana的工程師從最早,、最基礎(chǔ)的層面就開(kāi)始對(duì)芯片的架構(gòu)進(jìn)行了設(shè)計(jì),。” Eitan Medina介紹道,,“GPU和CPU是面對(duì)通用的計(jì)算,,或者是常用的圖形處理,從架構(gòu)上來(lái)講并不適合于做人工智能這方面的計(jì)算工作,。但是Goya是完全針對(duì)于人工智能的需求來(lái)設(shè)計(jì)的,?!?/p>
Goya擁有獨(dú)特的架構(gòu)Tensor Processor Core,也就是張量處理核心,,里面有一個(gè)矩陣單元GEMM,,通過(guò)這種方式可以提供更好的性?xún)r(jià)比。因?yàn)檫@種架構(gòu)可以讓Goya支持不同神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),,因此也可以處理不同類(lèi)型的數(shù)據(jù),。
Goya可以實(shí)現(xiàn)Batch Size等于1,這意味著一次可以處理一張單一圖片,,在一張圖片之下,,都可以實(shí)現(xiàn)到一秒鐘處理7000多張的性能,因此在一些高性能的領(lǐng)域,,包括自動(dòng)駕駛領(lǐng)域,,Goya具有很大的優(yōu)勢(shì)。
此外,,Habana 還提供了一套Synapse AI軟件開(kāi)發(fā)環(huán)境,,這款軟件包括一個(gè)豐富的內(nèi)核庫(kù),其工具鏈?zhǔn)情_(kāi)放的,,供客戶(hù)添加專(zhuān)有內(nèi)核,。這款軟件可與 TensorFlow 和 ONNX 等頗受歡迎的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架無(wú)縫交互。以往在CPU或GPU上完成的工作可以快速地,、準(zhǔn)確地部署到新的平臺(tái)當(dāng)中,。Synapse AI直接支持各種各樣的框架結(jié)構(gòu),客戶(hù)在框架上實(shí)現(xiàn)的工作可以直接簡(jiǎn)單地部署在Goya處理器中,。
為方便客戶(hù)做一些定制化的工作,,Habana還提供很多工具,支持客戶(hù)去做定制化的函數(shù)庫(kù),。
Eitan Medina表示,,Habana通常不會(huì)公開(kāi)客戶(hù)信息,不過(guò)Facebook已經(jīng)通過(guò)其官網(wǎng)公開(kāi)了與Habana的合作,。Facebook開(kāi)發(fā)了一套機(jī)器學(xué)習(xí)編譯環(huán)境Glow,,F(xiàn)acebook在其官網(wǎng)明確表示 ,Goya是他們現(xiàn)在第一款支持Glow這個(gè)編譯環(huán)境的產(chǎn)品,。Habana和Facebook配合開(kāi)源了Goya的產(chǎn)品,。
AI訓(xùn)練處理器Gaudi,提供無(wú)線(xiàn)擴(kuò)展可能
欲做AI芯片領(lǐng)域的領(lǐng)導(dǎo)者,,除了推理的產(chǎn)品之外,,訓(xùn)練的產(chǎn)品當(dāng)然也不能少。近期,,Habana推出了第一款人工智能訓(xùn)練平臺(tái)Gaudi,,也是目前業(yè)界性能最高的一款訓(xùn)練產(chǎn)品。Gaudi是一款完全可編程且可定制的處理器,,搭載第二代Tensor處理核并集成開(kāi)發(fā)工具,、庫(kù)和編譯器,共同提供全面而靈活的解決方案,。
Gaudi在ResNet-50上可以提供每秒1650張圖片的處理能力,,同時(shí)他還能在很小的Batch Size情況下實(shí)現(xiàn)很好的性能。下面是Gaudi和英偉達(dá)最主要的訓(xùn)練產(chǎn)品V100的性能對(duì)比,,可見(jiàn)相同數(shù)量的Gaudi計(jì)算能力大概是V100的4倍,。
ResNet-50上訓(xùn)練性能對(duì)比
Eitan Medina介紹,Gaudi單卡可以處理1600多張圖片且功耗更低,,V100處理600多張圖片的功耗達(dá)到了300瓦,,而Gaudi處理1600多張圖片的功耗只有150瓦左右。
Gaudi芯片中集成了RDMA over Converged Ethernet (RoCE v2) 功能,,擁有10個(gè)100 GbE以太網(wǎng)端口,,每個(gè)以太網(wǎng)端口都支持RoCE v2,因此可以用標(biāo)準(zhǔn)的以太網(wǎng)環(huán)境進(jìn)行擴(kuò)展,。相比目前市場(chǎng)上其他的訓(xùn)練和擴(kuò)展環(huán)境都是用一些專(zhuān)有的網(wǎng)絡(luò)協(xié)議,,Gaudi用的是通用的以太網(wǎng)協(xié)議,在速度和端口數(shù)方面可提供幾乎無(wú)限的可擴(kuò)展性,。
Gaudi處理器配備32GB HBM-2內(nèi)存,,目前提供兩種規(guī)格:(1)HL-200 - PCIe卡,設(shè)有8個(gè)100 Gb以太網(wǎng)端口,;(2)HL-205 - 基于OCP-OAM標(biāo)準(zhǔn)的子卡,,設(shè)有10個(gè)100Gb以太網(wǎng)端口或20個(gè)50 Gb以太網(wǎng)端口。
在AI訓(xùn)練環(huán)境中,,客戶(hù)可能要選擇不同種類(lèi)的CPU來(lái)實(shí)現(xiàn)不同AI訓(xùn)練的效果,。對(duì)此,Habana推出了一款名為HLS-1的8-Gaudi系統(tǒng),,配備了8個(gè)HL-205子卡,、PCIe外部主機(jī)連接器和24個(gè)用于連接現(xiàn)有以太網(wǎng)交換機(jī)的100Gbps以太網(wǎng)端口,讓客戶(hù)能夠通過(guò)在19英寸標(biāo)準(zhǔn)機(jī)柜中部署多個(gè)HLS-1系統(tǒng)實(shí)現(xiàn)性能擴(kuò)展,。HLS-1中沒(méi)有服務(wù)器,,客戶(hù)可以靈活地選擇自己所希望的CPU服務(wù)器,只要通過(guò)PCIE線(xiàn)即可與HLS-1系統(tǒng)實(shí)現(xiàn)對(duì)接,。
這里,,每個(gè)芯片上有10個(gè)100Gbps的以太網(wǎng)口,其中7個(gè)網(wǎng)口用于與其他的7顆芯片相互的通訊,,3個(gè)網(wǎng)口對(duì)外連接,。這樣可以保證在系統(tǒng)內(nèi)部所有的8個(gè)芯片之間無(wú)堵塞的數(shù)據(jù)傳輸,。對(duì)外可以通過(guò)不同的形式,在機(jī)架內(nèi)可以一層層疊加,,通過(guò)一個(gè)簡(jiǎn)單的以太網(wǎng)的交換機(jī)就可以把所有的設(shè)備連接到一起,;機(jī)架與機(jī)架之間也通過(guò)彼此之間的以太網(wǎng)交換機(jī)的互聯(lián)構(gòu)成一個(gè)更大的規(guī)模。
據(jù)介紹,,Gaudi系統(tǒng)相比英偉達(dá)DGX-1的優(yōu)勢(shì)在于:(1)DGX-1采用專(zhuān)有的協(xié)議NVLink來(lái)實(shí)現(xiàn)芯片之間的互聯(lián),,只能實(shí)現(xiàn)兩個(gè)片之間的互聯(lián),不同的片之間要借一個(gè)跳的過(guò)程,,而Gaudi系統(tǒng)中,,任何一個(gè)芯片之間都可以直接實(shí)現(xiàn)數(shù)據(jù)的交換;(2)DGX-1的擴(kuò)展依賴(lài)于4個(gè)100G的以太網(wǎng)端口,,而Gaudi系統(tǒng)對(duì)外支持24個(gè)100G的端口,,在擴(kuò)展的性能和帶寬上比DGX-1高很多;(3)DGX-1在系統(tǒng)管理和數(shù)據(jù)通訊時(shí),,在PCIE的一個(gè)總線(xiàn)上復(fù)用,,傳輸性能上會(huì)有一定的損失,而在Gaudi上數(shù)據(jù)傳輸和管理總線(xiàn)上沒(méi)有任何的復(fù)用,,所以在總線(xiàn)效率上也是最高的,。
雖然是初創(chuàng)企業(yè),但Habana出手就是“王炸”,,產(chǎn)品組合涵蓋AI推理到AI訓(xùn)練,,將處理器的能力、網(wǎng)絡(luò)計(jì)算能力,、系統(tǒng)設(shè)計(jì)能力,、軟件平臺(tái)能力集于一體,提供一個(gè)非常靈活和完整的系統(tǒng),。據(jù)悉,,Habana在繼去年11月獲得英特爾領(lǐng)投的7500萬(wàn)美元的B輪投資后,融資達(dá)到1.2億美元,,這一資金也將繼續(xù)支持針對(duì)推理和訓(xùn)練解決方案的產(chǎn)品發(fā)展藍(lán)圖,。