《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 這家拿了英特爾風投的AI公司,可能會讓英偉達心頭一緊

這家拿了英特爾風投的AI公司,可能會讓英偉達心頭一緊

2019-06-27
關(guān)鍵詞: 英特爾 英偉達 AI

  新興的人工智能處理器創(chuàng)業(yè)公司Habana Labs 2016年創(chuàng)立于以色列特拉維夫,,最初的業(yè)務(wù)為開發(fā)專為深度神經(jīng)網(wǎng)絡(luò)訓練和生產(chǎn)環(huán)境中的推理部署而優(yōu)化的處理器平臺,。2018年11月,該公司宣布完成超額認購的7500萬美元B輪融資,。此次融資由英特爾投資領(lǐng)投,,WRV Capital、Bessemer Venture Partners,、Battery Ventures和現(xiàn)有投資者等也加入其中,。自創(chuàng)立以來,該公司已經(jīng)籌集到1.2億美元,,目前在特拉維夫,、圣何塞、北京,、波蘭設(shè)有辦事處,,全球員工人數(shù)量為150人。

  2018年9月,,Habana Labs正式退出隱身模式,,推出首個人工智能(AI)處理器Goya HL-1000,旨在處理各種人工智能推理(Inference)工作負載,,如圖像識別,、神經(jīng)機器翻譯、情感分析、推薦系統(tǒng)以及許多其它應(yīng)用,。該處理器創(chuàng)下了兩項行業(yè)紀錄,,基于ResNet-50推理基準實現(xiàn)每秒15,393張圖片的吞吐量,延遲時間為1.3毫秒,,功耗僅為100瓦,,并獲得150張圖片/每秒/每瓦的電源效率。

  今年6月,,Habana再接再厲,,推出了全新的人工智能訓練(Training)處理器Gaudi,配備32GB HBM-2內(nèi)存,,目前提供兩種規(guī)格:HL-200—PCIe卡,,設(shè)有8個100Gb以太網(wǎng)端口;HL-205—基于OCP-OAM標準的子卡,,設(shè)有10個100Gb以太網(wǎng)端口或20個50Gb以太網(wǎng)端口,。

  Goya和Gaudi兩款處理器均采用16nm工藝制造,Habana Labs首席商務(wù)官Eitan Medina說,,工藝對提升Habana產(chǎn)品的性能幫助不大,,更多是源于架構(gòu)創(chuàng)新。

  

45d7bcc960916fdf14279546e7a6c3dd.jpg

  Goya

  下圖展示的Goya與NVIDIA T4 GPU,、英特爾8180 CPU在ResNet-50推理基準測試中的性能對比,,可以看出,與如今數(shù)據(jù)中心部署的一般解決方案相比,,Goya性能是T4的3倍,,是8180的12倍以上,但延遲只有T4的4%,。

 

2.jpg

  而在另一張圖片中,,Eitan Medina說英偉達特別喜歡在公開場合強調(diào)其8片Tesla V100 GPU的性能等同于169片CPU的性能總和,但其實如果和Goya相比,,只需3片Goya處理器,,就能實現(xiàn)同樣的性能,且后者還具備更低的延遲和更好的能耗比,。

  

3.jpg

  “CPU和GPU從架構(gòu)上來看更適合做通用計算和圖形處理,,做人工智能的確有些勉為其難?!?Eitan Medina認為Goya平臺之所以從誕生到目前為止,,9個月的時間內(nèi)依然是市場上性能最為領(lǐng)先的產(chǎn)品,是因為設(shè)計人員的目標非常明確,,就是要實現(xiàn)深度學習推理,,并在此基礎(chǔ)上將可編程張量處理器(Tensor Processing Core, TPC),、開發(fā)工具、圖書室和編譯程序等有機的融為一體,,共同打造了一個高性能且節(jié)能的處理器平臺,。

  

4.jpg

  AI的性能主要體現(xiàn)在兩方面:計算能力和延遲,。在ResNet-50基準測試中,,用于衡量批處理性能的Batch size大小直接影響了處理器性能。在數(shù)據(jù)中心中,,GPU為了實現(xiàn)高性能,,必然要進行大量的批處理運算;如果在普通運算中,,為了要實現(xiàn)更大的Batch size,,就需要將大量數(shù)據(jù)讀取到內(nèi)存中,但這樣帶來了延遲,。Goya的奇妙之處在于它可以令Batch Size等于1,,這意味著Goya一次可以處理一張圖片,但在一張圖片之下,,又可以實現(xiàn)7000張/秒的性能,,這對自動駕駛這類既需要高性能,又需要低延遲的應(yīng)用來說非常合適,。

  

5.jpg

  精度是AI推理性能的另一個重要指標,。通常情況下,在推理和預(yù)測當中為了考慮性能和效率,,會將通過浮點訓練好的模型整齊化(quantization),,但此舉又會造成信息丟失,影響最重的計算結(jié)果,。得益于強大的算法團隊,,Habana成功的在兩者之間找到了平衡。

  考慮到很多用戶當前的大部分工作仍舊基于CPU/GPU,,如果貿(mào)然轉(zhuǎn)換到新的處理器上,,之前的工作怎樣能夠快速、準確的部署到新平臺上肯定是他們最擔心的事情,。Eitan Medina說自己完全理解用戶的這種顧慮,,因此Habana labs在SynapseAI軟件棧中對訓練模型輸入進行了分析和優(yōu)化,以通過Goya處理器實現(xiàn)高效推理,。這款軟件包括一個豐富的內(nèi)核庫,,其工具鏈是開放的,供客戶添加專有內(nèi)核,,可與TensorFlow和ONNX等深度學習神經(jīng)網(wǎng)絡(luò)框架無縫交互,。

  目前,,F(xiàn)acebook在其官網(wǎng)上已明確表示Goya成為了第一款支持其Glow機器學習編譯環(huán)境的產(chǎn)品,Habana公司也將Goya的驅(qū)動程序開源提供給了Linux,,最新版的Linux軟件已經(jīng)集成了Goya驅(qū)動程序,。

  Gaudi

  按照Habana的官方說法,基于Gaudi的訓練系統(tǒng)能夠在ResNet-50上提供1650張/秒的圖片處理能力,,比擁有相同數(shù)量的NVIDIA V100 GPU系統(tǒng)高四倍,,但功耗是V100的一半,約150瓦,。此外,,得益于創(chuàng)新的架構(gòu),Gaudi可實現(xiàn)訓練系統(tǒng)性能的近線性擴展,,即使是在較小Batch Size的情況下,,也能保持高計算力。因此,,基于Gaudi處理器的訓練性能可實現(xiàn)從單一設(shè)備擴展至由數(shù)百個處理器搭建的大型系統(tǒng)的線性擴展,。

  

6.jpg

  除了領(lǐng)先的性能,Gaudi還為人工智能訓練帶來了RDMA over Converged Ethernet (RoCE v2) 功能,,從而讓人工智能系統(tǒng)能夠使用標準以太網(wǎng)擴展至任何規(guī)模,。相比之下,基于GPU的系統(tǒng)依賴于專有的系統(tǒng)接口,,對系統(tǒng)設(shè)計人員來說,,這從本質(zhì)上限制了可擴展性和選擇性。

  其實NIVIDA也意識到了這個問題,。在2019年的GTC大會上,,黃仁勛在演講中就重點介紹了英偉達為什么看好RDMA技術(shù),并隨后以69億美元的價格收購了以色列公司Mellanox,。Eitan Medina說在支持RDMA方面Habana與NVIDIA的理念是一致的,,不同之處在于Habana直接在單芯片中集成了10個支持RDMA的端口,而V100要支持RDMA功能,,必須要通過PCIE接口,,然后在外部再接一個支持RDMA的網(wǎng)卡才能實現(xiàn)。另一方面,,英偉達在擴展時采用了私有協(xié)議NVLink,,Habana方面認為NVLink受限于規(guī)模,不具備實現(xiàn)大規(guī)模的擴展能力,。這樣,,Gaudi無論是在集成度上還是在RDMA數(shù)量上,都要比V100高出很多,。

  

7.jpg

  之所以設(shè)計成兩種不同的接口形式,,Eitan Medina解釋說,,如果在PCIe形態(tài)中,用戶可以直接用Gaudi替換當前服務(wù)器中使用的NVIDIA V100卡,;如果采用OCP-OAM接口,,這種模組化的結(jié)構(gòu)更易于客戶設(shè)計屬于自己的產(chǎn)品,而英偉達目前還不支持OCP結(jié)構(gòu),,更不支持OAM,。

  與Gaudi同時發(fā)布的還有一款名為HLS-1的8-Gaudi系統(tǒng),配備了8個HL-205子卡,、PCIe外部主機連接器和24個用于連接現(xiàn)有以太網(wǎng)交換機的100Gbps以太網(wǎng)端口,,讓客戶能夠通過在19英寸標準機柜中部署多個HLS-1系統(tǒng)實現(xiàn)性能擴展,。

  

8.jpg

  Eitan Medina從三個方面將英偉達DGX-1與HLS-1系統(tǒng)的性能進行了對比,。首先,盡管都是8片系統(tǒng),,但DGX-1采用了私有協(xié)議NVLink來實現(xiàn)互聯(lián),,只能實現(xiàn)相鄰兩顆芯片間的直接互聯(lián),無法實現(xiàn)所有8顆芯片間的直接互聯(lián),;其次,,如果DGX-1要實現(xiàn)擴展,只能依賴于它的4個100G以太網(wǎng)端口,。而HLS-1系統(tǒng)則能夠支持24個100G端口,;最后,DGX-1的系統(tǒng)管理和數(shù)據(jù)通訊都必須在PCIE總線上復(fù)用,,性能上會有損失,。HLS-1為系統(tǒng)管理和數(shù)據(jù)通訊選擇了兩條不同的路徑,大幅提升了總線效率,。

  

10.jpg

  舉例而言,,在模型并行處理方面,DGX-2提供的NVLink端口有限,,最大只能支持16個并行處理,,這在很大程度上限制了模型并行處理能力。而HLS-1中的8片Gaudi 卡可以把80個100G的以太網(wǎng)口對外開放實現(xiàn)互聯(lián),,從而實現(xiàn)幾十個,,甚至幾百個Gaudi系統(tǒng)之間的并行模型化處理。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com,。