《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > 科技巨頭加速入場算力戰(zhàn)局,,究竟是什么在推動「外行」自研芯片

科技巨頭加速入場算力戰(zhàn)局,究竟是什么在推動「外行」自研芯片

2021-03-26
來源:機(jī)器之心
關(guān)鍵詞: 自研芯片 字節(jié)跳動

  上周,,字節(jié)跳動開始自研云端 AI 芯片和 Arm 服務(wù)器芯片的消息引人關(guān)注,。新興科技巨頭,,是否已經(jīng)到了全面自研芯片的時代?背后最主要的原因又是什么,?

  據(jù)外國媒體報(bào)道,,互聯(lián)網(wǎng)科技巨頭亞馬遜正開始探索 RISC-V,以考慮替代 Arm 處理器的方案,,因?yàn)楹笳哒诒挥ミ_(dá)收購,。

  此前,亞馬遜已經(jīng)擁有了自己專屬的 AWS 數(shù)據(jù)中心芯片,、人工智能芯片以及各類移動智能設(shè)備上的 Arm 芯片,。

  像亞馬遜一樣,國內(nèi)外很多此前只涉及軟件和互聯(lián)網(wǎng)的科技巨頭都擁有了自主研發(fā)的芯片,,并且取得了經(jīng)市場驗(yàn)證的良好效果,。

  谷歌的 TPU 和自身的 TensorFlow、算力平臺共同組成了全世界最好的人工智能技術(shù)生態(tài),;亞馬遜的 Inferentia 集群比英偉達(dá) T4 降低了 25% 延遲和 30% 成本,。

  其他互聯(lián)網(wǎng)巨頭也正在加速入場,微軟去年12月份表示正在研發(fā)Arm芯片,;字節(jié)跳動近期也開始芯片人才的招聘,,探索Arm芯片。字節(jié)跳動的相關(guān)負(fù)責(zé)人回應(yīng)媒體詢問時證實(shí),,「是在組建相關(guān)團(tuán)隊(duì),,在AI芯片領(lǐng)域做一些探索?!?/p>

微信圖片_20210326171004.jpg

  字節(jié)跳動官網(wǎng)上芯片工程師的招聘信息,。

  在外界看來,互聯(lián)網(wǎng)巨頭自研芯片已經(jīng)成為必然,,這勢必會對原本以芯片為主業(yè)的半導(dǎo)體巨頭和芯片創(chuàng)業(yè)公司產(chǎn)生較大影響,。

  在這個過程中,,需要搞明白一個最核心的問題——互聯(lián)網(wǎng)巨頭為什么要自己造芯片,以及在何種情況下才會選擇自研芯片,。

  業(yè)務(wù)邊界的持續(xù)擴(kuò)展,,數(shù)據(jù)量的激增,人工智能技術(shù)的發(fā)展,,讓互聯(lián)網(wǎng)巨頭對芯片的需求持續(xù)增加,。

  同時,外部的芯片設(shè)計(jì)工具和 IP 服務(wù)也逐漸變強(qiáng),,芯片產(chǎn)業(yè)鏈的完善為巨頭自主做芯片提供了成熟的產(chǎn)業(yè)基礎(chǔ),。博通每年都會給客戶提供大量定制芯片;蘋果引人關(guān)注的 M1 背后,,其實(shí)也有很多其他公司的身影,。這種產(chǎn)業(yè)鏈協(xié)同和合作幫助互聯(lián)網(wǎng)巨頭降低了研發(fā)芯片的門檻。

  對計(jì)算需求的增加和制造門檻的降低只是提供了一個必要背景,,在應(yīng)用層面上,,同一個任務(wù)會有無數(shù)種硬件解決方案,互聯(lián)網(wǎng)巨頭們的工作就是選擇哪種硬件方案以及是否需要自己做,,自研芯片只是眾多選擇中的一項(xiàng)。他們真正關(guān)心的是最具性價(jià)比的解決計(jì)算任務(wù),,而非必須要有自己的芯片,。

  而決策的唯一依據(jù)就是不同方案的成本與收益對比,也就是找到 ROI 最大的方案,。

  自主研發(fā)芯片有著非常高的整體研發(fā)成本,,包括購買 IP、人員成本,、實(shí)驗(yàn)和流片等,。互聯(lián)網(wǎng)巨頭們大部分的成功經(jīng)驗(yàn)都集中在軟件和互聯(lián)網(wǎng)領(lǐng)域,,他們進(jìn)入芯片領(lǐng)域也是從零開始,,沒有太多可以節(jié)省的成本。

  灣區(qū)一位芯片專家介紹說,,谷歌開始做芯片時,,從博通挖了很多 ASCI 業(yè)務(wù)的人,從上到下組建一個全新領(lǐng)域的專業(yè)團(tuán)隊(duì)和運(yùn)營體系,,而這種體系與公司此前所擅長的是完全不同的,,這又帶來在企業(yè)文化和管理上的額外成本和風(fēng)險(xiǎn)。

  自主研發(fā)芯片的高投入決定了它只適用于可以帶來更高收益的應(yīng)用場景——芯片能和公司自身業(yè)務(wù)系統(tǒng),、網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練框架等緊密結(jié)合,,實(shí)現(xiàn)計(jì)算成本的顯著下降,產(chǎn)品性能和和用戶體驗(yàn)的顯著增長。

  只有這樣,,自研芯片才能獲得最高的 ROI,,企業(yè)選擇自研方案才有意義。下面以 Arm 芯片,、訓(xùn)練芯片,、Codec 和 Smart NIC 等四種芯片為例。

  眾所周知,,摩爾定律的速度已經(jīng)開始變緩,,數(shù)據(jù)中心同構(gòu)體系下基于 x86 的硬件成本沒辦法繼續(xù)下降。想要實(shí)現(xiàn)計(jì)算成本的下降,,只能將負(fù)載拆分,,然后用不同架構(gòu)和處理器來分別處理,很多負(fù)載又是和企業(yè)自身網(wǎng)絡(luò)結(jié)構(gòu)強(qiáng)相關(guān)的,,那企業(yè)就需要針對這些任務(wù)去定制芯片,,在這種情況下,企業(yè)自主研發(fā) Arm 芯片就是有助于節(jié)省成本的,。

  除了與網(wǎng)絡(luò)結(jié)構(gòu)強(qiáng)相關(guān),,與訓(xùn)練框架強(qiáng)相關(guān)也會促使公司自主研發(fā)芯片。比如有 TensorFlow 的谷歌就一定要去做 TPU,,因?yàn)楣雀枋峭ㄟ^公有云為用戶提供算力租賃和模型訓(xùn)練服務(wù),,而一個模型在其平臺訓(xùn)練完成所需要的時間和費(fèi)用是用戶決定是否使用該平臺的最主要因素。谷歌 TPU 與 TensorFlow,、云計(jì)算的強(qiáng)協(xié)同,,會帶來遠(yuǎn)超通用訓(xùn)練工具的效果,以及更低的成本,。

  在去年的 MLPerf 基準(zhǔn)測試結(jié)果中,,谷歌的 TPU 集群打破了 8 項(xiàng)測試紀(jì)錄中的 6 項(xiàng)。在 4096 塊 TPU 的加持下,,谷歌的超級計(jì)算機(jī)可以在 33 秒內(nèi)訓(xùn)練 ResNet-50,、BERT、Transformer,、SSD 等模型,。在使用 TensorFlow 框架時,BERT 的訓(xùn)練時間縮短到 23 秒,。

微信圖片_20210326171236.jpg

  在一個圖像分類任務(wù)中,,用 ImageNet 數(shù)據(jù)集訓(xùn)練 ResNet-50 v1.5 達(dá)到 75.90% 的準(zhǔn)確率,256 個第四代 TPUs 可以在 1.82 分鐘內(nèi)完成,,這幾乎相當(dāng)于 768 個英偉達(dá) A100 顯卡和 192 個 AMD Epyc 7742 CPU 內(nèi)核(1.06 分鐘)的速度,。

  單從芯片架構(gòu)上來說,,TPU 和 GPU 不會產(chǎn)生如此大差異。谷歌 TPU 集群比 A100 快這么多的原因是,,用于訓(xùn)練的芯片與公司自身的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練框架強(qiáng)相關(guān),,TPU 不僅支持自身的網(wǎng)絡(luò)結(jié)構(gòu),還向上支持自己的訓(xùn)練框架,,谷歌知道 TensorFlow 如何去做加速,,所以效果肯定會優(yōu)于通用的 GPU。那最后帶來的結(jié)果就是,,用戶在谷歌的平臺上獲得了更高性價(jià)比的服務(wù),,谷歌更好的建立人工智能技術(shù)生態(tài)。所以,,谷歌自主研發(fā) TPU 就是有意義的,。

  華為也是此類情況,他們擁有升騰 910,、MindSpore 和云計(jì)算,,因此,華為的人工智能技術(shù)平臺就擁有了競爭力,。徐直軍曾表示,,昇騰 910、MindSpore 的推出,,標(biāo)志著華為已完成全棧全場景AI解決方案(Portfolio)的構(gòu)建,,也標(biāo)志著華為 AI 戰(zhàn)略的執(zhí)行進(jìn)入了新的階段。

  對于其他類型的定制芯片也是如此,,比如 Facebook 做自己的 Codec,這是因?yàn)樵?Facebook 自身的業(yè)務(wù)和軟件體系下,,上行下行的編解碼處理非常重要,。比起使用通用 CPU ,F(xiàn)acebook 選擇自己開發(fā) Codec 就更劃算,。

  還有智能網(wǎng)卡 Smart NIC,,幾乎所有的互聯(lián)網(wǎng)巨頭都會自主研發(fā),尤其是提供公有云服務(wù)的企業(yè),。因?yàn)楣性粕婕褒嫶蟮木W(wǎng)絡(luò)結(jié)構(gòu),,企業(yè)需要去匹配負(fù)載和網(wǎng)卡,所以每家企業(yè)對 Smart NIC 的需求都是個性化的,,不具有通用性,,需要定制化,這也是英偉達(dá)的 DPU 在市場中表現(xiàn)并不好的原因,。

  還有一個重要因素是互聯(lián)網(wǎng)巨頭都具有規(guī)模效應(yīng),,他們擁有最龐大的機(jī)房,,為數(shù)以千萬計(jì)的用戶提供服務(wù),只要性能有微小提升,,或者價(jià)格有微小下降,,就會為用戶帶來巨大價(jià)值。

  總結(jié)來說,,對于互聯(lián)網(wǎng)巨頭,,如果芯片的應(yīng)用場景和自身業(yè)務(wù)及軟件強(qiáng)相關(guān),自身對此有個性化需求,,最終能通過規(guī)模效應(yīng)最大化收益,,那他們就會選擇自主研發(fā)。

  在其他場景下,,當(dāng)巨頭的芯片需求不是個性化的,,所需芯片和自身業(yè)務(wù)、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和軟件體系沒有強(qiáng)相關(guān)性,,或者說他們需要的是通用芯片時,,那巨頭們就無法通過定制來降低成本,也就沒有必要為了一個非定制需求去承擔(dān)通用芯片的全部研發(fā)成本,。

  更加合理的方式應(yīng)該是向其他半導(dǎo)體公司購買,,或者戰(zhàn)略投資芯片創(chuàng)業(yè)公司進(jìn)行布局,以與其他客戶或投資機(jī)構(gòu)共同分?jǐn)傃邪l(fā)成本,。x86 CPU 和推理芯片就是屬于這個范疇,。

  很多公司是沒辦法通過優(yōu)化自身的拓?fù)浣Y(jié)構(gòu)和軟件體系來實(shí)現(xiàn) x86 CPU 性價(jià)比的大幅提升的,所以最佳選擇就是直接向英特爾購買,。

  推理芯片也是如此,,它在人工智能領(lǐng)域的通用性很強(qiáng),需要根據(jù)算法來進(jìn)行調(diào)整和演進(jìn),,需要較好的可編程性,,那這類芯片就和巨頭自身的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和訓(xùn)練框架并沒有那么直接的關(guān)系,大企業(yè)也就無法通過深度定制和自主研發(fā)大幅降低成本或提升性能,,最好的選擇也是購買及投資,。

  亞馬遜在自主研發(fā)與業(yè)務(wù)相關(guān)芯片的同時,也投資了通用人工智能芯片初創(chuàng)公司 Syntiant,。字節(jié)跳動一方面探索自主研發(fā) Arm 芯片,,另一方面,他們投資的一家芯片公司的主要產(chǎn)品也是云端推理芯片,。

  微信圖片_20210326171349.jpg

  Syntiant 的深度學(xué)習(xí)處理器

  互聯(lián)網(wǎng)巨頭不同的芯片策略和行動為他們實(shí)現(xiàn)了最大化收益,,同時也使得他們在半導(dǎo)體領(lǐng)域的角色開始變得多樣。

  他們是最大的芯片客戶,,有著最豐富的計(jì)算場景和異常龐大的業(yè)務(wù)負(fù)載,,每年為幾家大型半導(dǎo)體公司和新興芯片創(chuàng)業(yè)公司帶來海量訂單,;同時,他們已經(jīng)開始定制芯片或自主研發(fā)芯片,,在某種程度上成為這些半導(dǎo)體大公司和創(chuàng)業(yè)公司的潛在競爭對手,,或者給他們帶來產(chǎn)品替代風(fēng)險(xiǎn);最后,,他們還是資本巨頭,,可以借助資本杠桿,通過投資和并購來完善自己的技術(shù)生態(tài),。

  這些讓互聯(lián)網(wǎng)巨頭,、半導(dǎo)體巨頭和芯片創(chuàng)業(yè)公司之間的關(guān)系微妙且復(fù)雜,從而也讓市場格局和產(chǎn)業(yè)發(fā)展趨勢也更加不明確,。

  但如果我們對以上互聯(lián)網(wǎng)巨頭已有策略,、行為和結(jié)果進(jìn)行分析,那就很容易發(fā)現(xiàn)他們自己在市場中的定位,,在一定程度上就可以避免和他們直接競爭,,同時還可以圍繞著他們的需求發(fā)現(xiàn)更多機(jī)會。

  比如,,根據(jù)谷歌的行動,,我們就可以判斷訓(xùn)練芯片可能就更加適合已經(jīng)有成熟訓(xùn)練框架和算力的巨頭去做,谷歌已經(jīng)證明了,,通過芯片,、訓(xùn)練框架和算力的強(qiáng)綁定可以獲得比 GPU 更好的效果。

  如果創(chuàng)業(yè)公司只做一個訓(xùn)練芯片,,沒有自己的訓(xùn)練框架,,也無法與不同客戶的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和軟件系統(tǒng)產(chǎn)生強(qiáng)耦合關(guān)系,那是很難與英偉達(dá)去競爭的,,同時也面臨谷歌的競爭,。

  而以推理芯片為代表的人工智能通用芯片就會存在更大機(jī)會,它是獨(dú)立的,,考慮的是可編程性和靈活性,與客戶的網(wǎng)絡(luò)及軟件沒有強(qiáng)相關(guān)性,。

  互聯(lián)網(wǎng)巨頭對此沒有定制化開發(fā)的需求,,反而因?yàn)樽陨淼男枨蠹俺杀臼找娴目紤],會更傾向于戰(zhàn)略投資這個方向的創(chuàng)業(yè)公司,,或直接購買這類芯片,。

  同時,一個領(lǐng)域?qū)S玫耐评硇酒彩强梢栽谛詢r(jià)比方面超過 GPU 的,。GPU 的應(yīng)用領(lǐng)域較廣,,包括 Graph,、人工智能和高性能計(jì)算等,人工智能又包含推理和訓(xùn)練,。GPU 巨頭很難去選一個細(xì)分領(lǐng)域,,為一個小市場去重新設(shè)計(jì)一套架構(gòu),他們依然是以一個市場領(lǐng)導(dǎo)者的角色去關(guān)注最通用,、最廣泛的市場,。

  而創(chuàng)業(yè)公司完全可以選擇一個最細(xì)分的方向,比如說云端推理芯片,,然后專注于架構(gòu)和性能提升上,,且花費(fèi)更低的成本,從而在這個細(xì)分市場上取得成功,。

 

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]