財報發(fā)布前兩天,英偉達突然冒出來一個勁敵,。
一家名叫Groq的公司今天在AI圈內(nèi)刷屏,,殺招就一個:快。
在傳統(tǒng)的生成式AI中,,等待是稀松平常的事情,,字符一個個蹦出,半天才能回答完畢,。但在Groq今天開放的云服務體驗平臺上,,你看到的會是一秒一屏。當模型收到提示后,幾乎能夠立即生成答案,。這些答案不僅真實可信,,還附有引用,長度更是達到數(shù)百個單詞,。
電子郵件初創(chuàng)企業(yè)Otherside AI的首席執(zhí)行官兼聯(lián)合創(chuàng)始人馬特·舒默(Matt Shumer)在演示中親自體驗了Groq的強大功能,。他稱贊Groq快如閃電,能夠在不到一秒鐘的時間內(nèi)生成數(shù)百個單詞的事實性,、引用性答案,。更令人驚訝的是,它超過3/4的時間用于搜索信息,,而生成答案的時間卻短到只有幾分之一秒,。
雖然今天才刷屏,但Groq公司并非初出茅廬的新創(chuàng)企業(yè),。實際上,,該公司成立于2016年,并在那時就注冊了Groq商標,。去年11月,,當馬斯克發(fā)布人工智能模型Grok時,Groq公司的開發(fā)者們就發(fā)了一篇文章說馬斯克撞名自己的公司,。信寫的挺逗的,,但這波流量他們是一點沒吃到。
這一次他們之所以能突然爆發(fā),,主要是因為Groq云服務的上線,,讓大家真的能親身感受一下不卡頓的AI用起來有多爽。
有從事人工智能開發(fā)的用戶稱贊,,Groq是追求低延遲產(chǎn)品的“游戲規(guī)則改變者”,,低延遲指的是從處理請求到獲得響應所需的時間。另一位用戶則表示,,Groq的LPU在未來有望對GPU在人工智能應用需求方面實現(xiàn)“革命性提升”,,并認為它可能成為英偉達A100和H100芯片的“高性能硬件”的有力替代品。
01 Groq芯片能在速度上取勝的核心技術是LPU
根據(jù)其模型的首次公開基準測試結果,,Groq云服務搭載的Llama2或Mistreal模型在計算和響應速度上遠超ChatGPT,。這一卓越性能的背后,是Groq團隊為大語言模型(LLM)量身定制的專用芯片(ASIC),,它使得Groq每秒可以生成高達500個 token,。相比之下,目前ChatGPT-3.5的公開版本每秒只能生成大約40個token,。
這一芯片能在速度上取勝的核心技術是Groq首創(chuàng)的LPU技術,。
根據(jù)推特上與Groq關系密切的投資人k_zeroS分享,,LPU的工作原理與GPU截然不同。它采用了時序指令集計算機(Temporal Instruction Set Computer)架構,,這意味著它無需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù),。這一特點不僅有助于避免HBM短缺的問題,還能有效降低成本,。
不同于Nvidia GPU需要依賴高速數(shù)據(jù)傳輸,,Groq的LPU在其系統(tǒng)中沒有采用高帶寬存儲器(HBM)。它使用的是SRAM,,其速度比GPU所用的存儲器快約20倍,。
鑒于AI的推理計算相較于模型訓練需要的數(shù)據(jù)量遠小,Groq的LPU因此更節(jié)能,。在執(zhí)行推理任務時,,它從外部內(nèi)存讀取的數(shù)據(jù)更少,消耗的電量也低于Nvidia的GPU,。
如果在AI處理場景中采用Groq的LPU,,可能就無需為Nvidia GPU配置特殊的存儲解決方案。LPU并不像GPU那樣對存儲速度有極高要求,。Groq公司宣稱,,其技術能夠通過其強大的芯片和軟件,在AI任務中取代GPU的角色,。
另一位安卡拉大學的助教更形象的解釋了一下LPU和GPU的差別,,“想象一下,,你有兩個工人,,一個來自Groq(我們稱他們?yōu)椤癓PU”),另一個來自Nvidia(我們稱之為“GPU”),。兩人的任務都是盡快整理一大堆文件,。
GPU就像一個速度很快的工人,但也需要使用高速傳送系統(tǒng)(這就像高帶寬存儲器或HBM)將所有文件快速傳送到他們的辦公桌上,。這個系統(tǒng)可能很昂貴,,有時很難得到(因為HBM產(chǎn)能有限)。
另一方面,,Groq的LPU就像一個高效組織任務的工人,,他們不需要那么快地交付文件,所以用了一張就放在他們身邊的更小的桌子(這就像SRAM,,一種更快但更小的存儲器),,所以他們幾乎可以立即獲得所需的東西。這意味著他們可以在不依賴快速交付系統(tǒng)的情況下快速工作,。
對于不需要查看堆中每一篇文件的任務(類似于不使用那么多數(shù)據(jù)的人工智能任務),,LPU甚至更好。它不需要像往常一樣來回移動,既節(jié)省了能源,,又能快速完成工作,。
LPU組織工作的特殊方式(這是時態(tài)指令集計算機體系結構)意味著它不必一直站起來從堆里搶更多的論文。這與GPU不同,,GPU不斷需要高速系統(tǒng)提供更多的文件,。”
運用LPU這一技術,,Groq生產(chǎn)了加速器單元,,根據(jù)其網(wǎng)站介紹規(guī)格如下:
其特殊內(nèi)存SRAM的容量是230MB,帶寬80TB/s,,在INT8,、FP16下算力為188TFLOPs。
02 確實快,,但是貴,,目前并不能成為英偉達的競爭對手
在Groq剛剛刷屏的時候,AI行業(yè)都沉浸在它閃電速度的震撼之中,。然而震撼過后,,很多行業(yè)大佬一算賬,發(fā)現(xiàn)這個快的代價可能有點高,。
賈揚清在推特上算了一筆賬,,因為Groq小的可憐的內(nèi)存容量(230MB),在運行Llama-2 70b模型時,,需要305張Groq卡才足夠,,而用H100則只需要8張卡。從目前的價格來看,,這意味著在同等吞吐量下,,Groq的硬件成本是H100的40倍,能耗成本是10倍,。
芯片專家姚金鑫(J叔)向騰訊科技進行了更詳細的解釋:
按照Groq的信息,,這顆AI芯片的規(guī)格如下:
從芯片的規(guī)格中,可以看到幾個關鍵信息點:SRAM的容量是230MB,,帶寬80TB/s,,F(xiàn)P16的算力是188TFLOPs。
按照當前對大模型的推理部署,,7B的模型大約需要14G以上的內(nèi)存容量,,那么為了部署一個7B的模型,大約需要70片左右的芯片,,根據(jù)透露的信息,,一顆芯片對應一張計算卡,,按照4U服務器配置8張計算卡來計算,就需要9臺4U服務器(幾乎占了一個標準機柜了),,總共72顆計算芯片,,在這種情況下,算力(在FP16下)也達到了驚人的188T * 72 = 13.5P,,如果按照INT8來算就是54P,。54P的算力來推理7B的大模型,用大炮打蚊子來形容一點也不為過,。
目前社交媒體廣泛傳播的文章對標的是英偉達H100,,其采用的是80G的HBM,這個容量可以部署5個7B的大模型實例,;我們再來看算力,,稀疏化后,H100在FP16下的算力將近2P,,在INT8上也將近4P,。
那么就可以做個對比,如果從同等算力來看,,如果都是用INT8來推理,,采用Groq的方案需要9臺包含72片的服務器集群,而如果是H100,,達到同等算力大約需要2臺8卡服務器,,此時的INT8算力已經(jīng)到64P,可以同時部署的7B大模型數(shù)量達到80多個,。
原文中提到,,Groq對Llama2-7B的Token生成速度是750 Tokens/s,如果對標的是H100服務器,,那這2臺總共16顆的H100芯片,,并發(fā)吞吐就高到不知道哪里去了。如果從成本的角度,,9臺的Groq服務器,也是遠遠貴過2臺H100的服務器(即使此刻價格已經(jīng)高到離譜),。
● Groq:2萬美金*72=144萬美金,,服務器2萬美金*9=18萬美金,純的BOM成本160萬美金以上(全部都是按照最低方式來計算),。
● H100:30萬美金*2 = 60萬美金(國外),,300萬人民幣*2=600萬人民幣(國內(nèi)實際市場價)
如果是70B的模型,同樣是INT8,,要用到至少600張卡,,將近80臺服務器,,成本會更高。
這還沒有算機架相關費用,,和消耗的電費(9臺4U服務器幾乎占用整個標準機柜),。
實際上,部署推理性價比最高的,,恰恰是4090這種神卡,。
Groq是否真的超越了英偉達?對此,,姚金鑫(J叔)也表達了自己不同的看法:
“英偉達在本次AI浪潮中的絕對領先地位,,使得全球都翹首以盼挑戰(zhàn)者。每次吸引眼球的文章,,總會在最初被人相信,,除了這個原因之外,還是因為在做對比時的“套路”,,故意忽略其他因素,,用單一維度來做比較。這就好比那句名言“拋開事實不談,,難道你就沒有一點錯的地方嗎,?”
拋開場景來談對比,其實是不合適的,。對于Groq這種架構來講,,也有其盡顯長處的應用場景,畢竟這么高的帶寬,,對許多需要頻繁數(shù)據(jù)搬運的場景來說,,那就是再好不過了。
總結起來,,Groq的架構建立在小內(nèi)存,,大算力上,因此有限的被處理的內(nèi)容對應著極高的算力,,導致其速度非??臁?/p>
現(xiàn)在把句話反過來,,Groq極高的速度是建立在很有限的單卡吞吐能力上的,。要保證和 H100同樣吞吐量,你就需要更多的卡,。
速度,,在這里成了Groq的雙刃劍?!?/p>
03 傳奇CEO,,小團隊
雖然Groq還面對著很多潛在的問題,,但它還是讓人看到了GPU之外的可能路徑。這主要得益于其背后的超強團隊,。
Groq的CEO是被稱為“TPU之父”的前谷歌員工喬納森·羅斯,;聯(lián)合創(chuàng)始人道格拉斯·懷特曼也來自谷歌TPU團隊,并先后創(chuàng)立了四家公司,。該公司首席技術官吉姆·米勒曾是亞馬遜云計算服務AWS設計算力硬件的負責人,,CMO曾主導了蘋果Macintosh的市場發(fā)布。
Groq目前的團隊也相對較小,,其總部位于加州山景城,,該公司僅有180余名員工,甚至還不到英特爾等大型芯片制造商所需工程師數(shù)量的四分之一,。
羅斯等人的目標是在Groq復制他在谷歌的成功經(jīng)驗,,打造一個內(nèi)部芯片項目,引領整個行業(yè)向新技術邁進,。他希望吸引少數(shù)關鍵客戶,,通過廣泛部署Groq芯片為公司提供穩(wěn)定的收入來源,推動公司的獨立發(fā)展,。目前,,這家初創(chuàng)公司已開始向潛在客戶發(fā)送樣品。
“這就像獵殺大象,,”羅斯說道,,“你只需要少數(shù)獵物就能維持自己的生命,尤其在我們還如此弱小的時候,?!?/p>