AI “芯”勢力，Habana Labs重塑推理和訓(xùn)練新高度-AET-電子技術(shù)應(yīng)用

AI “芯”勢力，Habana Labs重塑推理和訓(xùn)練新高度

日期： 2019-07-01

作者：王潔

來源：電子技術(shù)應(yīng)用

關(guān)鍵詞： AI芯片 Habana Goya Gaudi 推理和訓(xùn)練

近年來AI技術(shù)飛速發(fā)展，被看作是改變?nèi)祟愇磥砩罘绞降闹饕夹g(shù)之一。與此同時(shí)，AI熱潮正在推動AI芯片市場快速增長。根據(jù)Gartner估計(jì)，AI芯片在2020年預(yù)計(jì)達(dá)到146億的市場規(guī)模。超過百億美元的AI芯片市場一方面驅(qū)動著傳統(tǒng)芯片公司的技術(shù)轉(zhuǎn)型，一方面又催生出一大批初創(chuàng)公司加入。

這一波AI潮有多猛，僅看國內(nèi)市場就可初見端倪。根據(jù)6月28日發(fā)布的《北京人工智能產(chǎn)業(yè)發(fā)展白皮書(2019年)》數(shù)據(jù)顯示，截至2019年4月，我國人工智能企業(yè)4084家，僅北京市人工智能相關(guān)企業(yè)數(shù)量就達(dá)1084家。

縱觀全球市場， AI芯片公司中如今英偉達(dá)的位居榜首，英特爾、IBM等公司實(shí)力也相當(dāng)雄厚，而成立于2016年的一家以色列AI芯片公司Habana Labs聲稱要做未來AI芯片領(lǐng)域的領(lǐng)導(dǎo)者，究竟有何“底牌”？

“Habana的團(tuán)隊(duì)成員主要是來自于處理器、DSP、系統(tǒng)設(shè)計(jì)以及網(wǎng)絡(luò)設(shè)計(jì)等領(lǐng)域的知名公司，擁有豐富的軟硬件設(shè)計(jì)研發(fā)經(jīng)驗(yàn)。Habana在AI領(lǐng)域已經(jīng)發(fā)布了若干款產(chǎn)品，主要分推理和訓(xùn)練兩個不同的產(chǎn)品線。去年我們率先發(fā)布了Goya，主要是用于推理和預(yù)測；最近發(fā)布的Gaudi主要用于訓(xùn)練。”Habana Labs首席商務(wù)官Eitan Medina介紹。

Habana Labs首席商務(wù)官Eitan Medina

AI推理處理器Goya，發(fā)布九個月性能依舊領(lǐng)先

2018年9月，Habana推出首個AI處理器Goya，是一款基于PCIE的雙槽位處理器，用于傳統(tǒng)服務(wù)器，提供推理和預(yù)測。

Goya相對于CPU和GPU有絕對的性能優(yōu)勢。根據(jù)當(dāng)時(shí)在ResNet-50模型上的測試顯示，Goya的圖片處理性能比英偉達(dá)的GPU Tesla T4高3倍，比普通CPU高10倍之多。能耗比上，Goya比GPU有兩倍的優(yōu)勢。在實(shí)時(shí)處理上，Goya延遲也比GPU要低很多，幾乎可以做到實(shí)時(shí)處理圖片。

ResNet-50上的推理性能測試

美國著名的處理器評論雜志Microprocessor Report給出了Goya和目前市場上已有的最主要的推理和訓(xùn)練產(chǎn)品的比較，圖上顯示Goya在性能上比其他產(chǎn)品有3倍的優(yōu)勢。

Microprocessor Report報(bào)道Goya性能優(yōu)勢

Eitan Medina介紹，到目前為止經(jīng)過了9個月時(shí)間，Goya這款產(chǎn)品仍然是在市場上性能最領(lǐng)先的產(chǎn)品。

從數(shù)據(jù)中心的角度看，Goya可以提供更高的性能、更低的延遲以及更好的能耗比。英偉達(dá)的GPU 8片V100卡性能上等同于169片傳統(tǒng)的CPU，而Habana 3片Goya卡就可以達(dá)到8片V100的效果。

數(shù)據(jù)中心角度的性能對比

為什么Goya能夠?qū)崿F(xiàn)這么高的性能呢？“主要是在于架構(gòu)上，Habana的工程師從最早、最基礎(chǔ)的層面就開始對芯片的架構(gòu)進(jìn)行了設(shè)計(jì)。” Eitan Medina介紹道，“GPU和CPU是面對通用的計(jì)算，或者是常用的圖形處理，從架構(gòu)上來講并不適合于做人工智能這方面的計(jì)算工作。但是Goya是完全針對于人工智能的需求來設(shè)計(jì)的。”

Goya擁有獨(dú)特的架構(gòu)Tensor Processor Core，也就是張量處理核心，里面有一個矩陣單元GEMM，通過這種方式可以提供更好的性價(jià)比。因?yàn)檫@種架構(gòu)可以讓Goya支持不同神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，因此也可以處理不同類型的數(shù)據(jù)。

Goya可以實(shí)現(xiàn)Batch Size等于1，這意味著一次可以處理一張單一圖片，在一張圖片之下，都可以實(shí)現(xiàn)到一秒鐘處理7000多張的性能，因此在一些高性能的領(lǐng)域，包括自動駕駛領(lǐng)域，Goya具有很大的優(yōu)勢。

此外，Habana 還提供了一套Synapse AI軟件開發(fā)環(huán)境，這款軟件包括一個豐富的內(nèi)核庫，其工具鏈?zhǔn)情_放的，供客戶添加專有內(nèi)核。這款軟件可與 TensorFlow 和 ONNX 等頗受歡迎的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架無縫交互。以往在CPU或GPU上完成的工作可以快速地、準(zhǔn)確地部署到新的平臺當(dāng)中。Synapse AI直接支持各種各樣的框架結(jié)構(gòu)，客戶在框架上實(shí)現(xiàn)的工作可以直接簡單地部署在Goya處理器中。

為方便客戶做一些定制化的工作，Habana還提供很多工具，支持客戶去做定制化的函數(shù)庫。

Eitan Medina表示，Habana通常不會公開客戶信息，不過Facebook已經(jīng)通過其官網(wǎng)公開了與Habana的合作。Facebook開發(fā)了一套機(jī)器學(xué)習(xí)編譯環(huán)境Glow，F(xiàn)acebook在其官網(wǎng)明確表示，Goya是他們現(xiàn)在第一款支持Glow這個編譯環(huán)境的產(chǎn)品。Habana和Facebook配合開源了Goya的產(chǎn)品。

AI訓(xùn)練處理器Gaudi，提供無線擴(kuò)展可能

欲做AI芯片領(lǐng)域的領(lǐng)導(dǎo)者，除了推理的產(chǎn)品之外，訓(xùn)練的產(chǎn)品當(dāng)然也不能少。近期，Habana推出了第一款人工智能訓(xùn)練平臺Gaudi，也是目前業(yè)界性能最高的一款訓(xùn)練產(chǎn)品。Gaudi是一款完全可編程且可定制的處理器，搭載第二代Tensor處理核并集成開發(fā)工具、庫和編譯器，共同提供全面而靈活的解決方案。

Gaudi在ResNet-50上可以提供每秒1650張圖片的處理能力，同時(shí)他還能在很小的Batch Size情況下實(shí)現(xiàn)很好的性能。下面是Gaudi和英偉達(dá)最主要的訓(xùn)練產(chǎn)品V100的性能對比，可見相同數(shù)量的Gaudi計(jì)算能力大概是V100的4倍。

ResNet-50上訓(xùn)練性能對比

Eitan Medina介紹，Gaudi單卡可以處理1600多張圖片且功耗更低，V100處理600多張圖片的功耗達(dá)到了300瓦，而Gaudi處理1600多張圖片的功耗只有150瓦左右。

Gaudi芯片中集成了RDMA over Converged Ethernet (RoCE v2) 功能，擁有10個100 GbE以太網(wǎng)端口，每個以太網(wǎng)端口都支持RoCE v2，因此可以用標(biāo)準(zhǔn)的以太網(wǎng)環(huán)境進(jìn)行擴(kuò)展。相比目前市場上其他的訓(xùn)練和擴(kuò)展環(huán)境都是用一些專有的網(wǎng)絡(luò)協(xié)議，Gaudi用的是通用的以太網(wǎng)協(xié)議，在速度和端口數(shù)方面可提供幾乎無限的可擴(kuò)展性。

Gaudi處理器配備32GB HBM-2內(nèi)存，目前提供兩種規(guī)格：（1）HL-200 - PCIe卡，設(shè)有8個100 Gb以太網(wǎng)端口；（2）HL-205 - 基于OCP-OAM標(biāo)準(zhǔn)的子卡，設(shè)有10個100Gb以太網(wǎng)端口或20個50 Gb以太網(wǎng)端口。

在AI訓(xùn)練環(huán)境中，客戶可能要選擇不同種類的CPU來實(shí)現(xiàn)不同AI訓(xùn)練的效果。對此，Habana推出了一款名為HLS-1的8-Gaudi系統(tǒng)，配備了8個HL-205子卡、PCIe外部主機(jī)連接器和24個用于連接現(xiàn)有以太網(wǎng)交換機(jī)的100Gbps以太網(wǎng)端口，讓客戶能夠通過在19英寸標(biāo)準(zhǔn)機(jī)柜中部署多個HLS-1系統(tǒng)實(shí)現(xiàn)性能擴(kuò)展。HLS-1中沒有服務(wù)器，客戶可以靈活地選擇自己所希望的CPU服務(wù)器，只要通過PCIE線即可與HLS-1系統(tǒng)實(shí)現(xiàn)對接。

這里，每個芯片上有10個100Gbps的以太網(wǎng)口，其中7個網(wǎng)口用于與其他的7顆芯片相互的通訊，3個網(wǎng)口對外連接。這樣可以保證在系統(tǒng)內(nèi)部所有的8個芯片之間無堵塞的數(shù)據(jù)傳輸。對外可以通過不同的形式，在機(jī)架內(nèi)可以一層層疊加，通過一個簡單的以太網(wǎng)的交換機(jī)就可以把所有的設(shè)備連接到一起；機(jī)架與機(jī)架之間也通過彼此之間的以太網(wǎng)交換機(jī)的互聯(lián)構(gòu)成一個更大的規(guī)模。

據(jù)介紹，Gaudi系統(tǒng)相比英偉達(dá)DGX-1的優(yōu)勢在于：（1）DGX-1采用專有的協(xié)議NVLink來實(shí)現(xiàn)芯片之間的互聯(lián)，只能實(shí)現(xiàn)兩個片之間的互聯(lián)，不同的片之間要借一個跳的過程，而Gaudi系統(tǒng)中，任何一個芯片之間都可以直接實(shí)現(xiàn)數(shù)據(jù)的交換；（2）DGX-1的擴(kuò)展依賴于4個100G的以太網(wǎng)端口，而Gaudi系統(tǒng)對外支持24個100G的端口，在擴(kuò)展的性能和帶寬上比DGX-1高很多；（3）DGX-1在系統(tǒng)管理和數(shù)據(jù)通訊時(shí)，在PCIE的一個總線上復(fù)用，傳輸性能上會有一定的損失，而在Gaudi上數(shù)據(jù)傳輸和管理總線上沒有任何的復(fù)用，所以在總線效率上也是最高的。

雖然是初創(chuàng)企業(yè)，但Habana出手就是“王炸”，產(chǎn)品組合涵蓋AI推理到AI訓(xùn)練，將處理器的能力、網(wǎng)絡(luò)計(jì)算能力、系統(tǒng)設(shè)計(jì)能力、軟件平臺能力集于一體，提供一個非常靈活和完整的系統(tǒng)。據(jù)悉，Habana在繼去年11月獲得英特爾領(lǐng)投的7500萬美元的B輪投資后，融資達(dá)到1.2億美元，這一資金也將繼續(xù)支持針對推理和訓(xùn)練解決方案的產(chǎn)品發(fā)展藍(lán)圖。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

AI “芯”勢力，Habana Labs重塑推理和訓(xùn)練新高度

日期： 2019-07-01

作者：王潔

來源：電子技術(shù)應(yīng)用

相關(guān)內(nèi)容