很遺憾,英偉達(dá)CEO黃仁勛缺席了昨天的GTC CHINA大會(huì),,作為英偉達(dá)一年一度的大會(huì),,并且極其看重中國(guó)市場(chǎng)的英偉達(dá),,“教主”級(jí)別的人物沒(méi)有慣例露面,還真是讓整個(gè)大會(huì)寡淡了許多,。
看完主論壇以及高峰論壇的我,,突然頓悟,雖人未到,,但隔著一個(gè)大洋洲,,我都感覺(jué)到黃教主皮衣下藏著的小心思。
“我不出現(xiàn),,不代表沒(méi)有我”
公元2020年12月15日,,我必須在日期前加上“公元”,因?yàn)槲业男∮钪娓惺艿近S教主想在這天創(chuàng)造一個(gè)改變產(chǎn)業(yè)的定律——“黃氏定律”(Huang's Law),,即便我知道黃氏定律一詞在媒體上已經(jīng)傳播好幾年,,但黃教主都沒(méi)有親自說(shuō)出口。
“摩爾定律已死,,新的定律正在形成,,由于技術(shù)的飛速進(jìn)步,圖形處理單元(GPU)有其自己的發(fā)展定律,?!睅啄昵暗狞S教主已經(jīng)瘋狂暗示,訓(xùn)練有素的科技圈記者們點(diǎn)頭示意,。但黃教主終歸不好意思自己說(shuō)出口,,你看人家戈登摩爾,有在論文上寫“我今天創(chuàng)造一個(gè)摩爾定律”這句話嗎,?最好的方法,,就是借他人之口,這個(gè)“他人”就是英偉達(dá)首席科學(xué)家Bill Dally,。
皮衣沒(méi)有出現(xiàn),,帶貨的性感姿勢(shì)沒(méi)有出現(xiàn),“黃氏定律”出現(xiàn)了,。一個(gè)本人都不要開口,,卻充滿凡爾賽味道的定律出現(xiàn)了。
摩爾定律也不是摩爾一個(gè)人說(shuō)有就有的,,而是通過(guò)英特爾數(shù)十年的努力,,來(lái)達(dá)到預(yù)期,所以才能閃耀半導(dǎo)體歷史,,并且死去活來(lái),。聽Bill Dally的說(shuō)法,“黃氏定律”也是如此,。
英偉達(dá)首席科學(xué)家Bill Dally
屏幕中的Bill Dally以三個(gè)項(xiàng)目為例,,講述了自己帶領(lǐng)的200人的研究團(tuán)隊(duì)如何成功實(shí)現(xiàn)“黃氏定律”——預(yù)測(cè)GPU將推動(dòng)AI性能實(shí)現(xiàn)逐年翻倍:“如果我們真想提高計(jì)算機(jī)性能,,黃氏定律就是一項(xiàng)重要指標(biāo),且在可預(yù)見的未來(lái)都將一直適用,?!?/p>
NVIDIA助力 AI推理性能每年提升一倍以上
此前,Dally曾負(fù)責(zé)NVIDIA在AI,、光線追蹤和高速互連領(lǐng)域的相關(guān)研究,。
二號(hào)凡爾賽玩家必須是Bill Dally,此人擁有120多項(xiàng)專利,,在2009年加入NVIDIA之前,,曾任斯坦福大學(xué)計(jì)算機(jī)科學(xué)系主任。當(dāng)然我要說(shuō)的是,,全天下玩AI芯片的那么多,,為什么且憑什么是你英偉達(dá)的GPU推動(dòng)AI性能逐年翻倍,都不給其他GPU玩家,,甚至AI芯片玩家機(jī)會(huì),?如此想來(lái),Bill Dally秀的每一個(gè)技術(shù)背后的參數(shù)都是凡爾賽,,且閃耀整個(gè)巴啦啦小魔仙芯球,。
首先是一種名為MAGNet的工具,據(jù)介紹,,其生成的AI推理加速器在模擬測(cè)試中,,能夠達(dá)到每瓦 100 TeraOPS 的推理能力,比目前的商用芯片高出一個(gè)數(shù)量級(jí),。資料顯示,MAGNet采用了一系列新技術(shù)來(lái)協(xié)調(diào)并控制通過(guò)設(shè)備的信息流,,最大限度地減少數(shù)據(jù)傳輸,,而數(shù)據(jù)傳輸正是當(dāng)今芯片中最耗能的環(huán)節(jié)。這一研究原型以模組化實(shí)現(xiàn),,因此能夠靈活擴(kuò)展,。
另外,還有一項(xiàng)以更快速的光鏈路取代現(xiàn)有系統(tǒng)內(nèi)的電氣鏈路的研究,。
Bill Dally表示:“我們可以將連接GPU的NVLink速度提高一倍,,也許還會(huì)再翻番,但電子信號(hào)最終會(huì)消耗殆盡,?!痹搱F(tuán)隊(duì)正在與哥倫比亞大學(xué)的研究人員密切合作,探討如何利用電信供應(yīng)商在其核心網(wǎng)絡(luò)中所采用的技術(shù),,通過(guò)一條光纖來(lái)傳輸數(shù)十路信號(hào),。
這種名為“密集波分復(fù)用”的技術(shù),,有望在僅一毫米大小的芯片上實(shí)現(xiàn)Tb/s級(jí)數(shù)據(jù)的傳輸,是如今互連密度的十倍以上,。
除了更大的吞吐量,,光鏈路也有助于打造更為密集型的系統(tǒng)。Dally舉例展示了一個(gè)未來(lái)將搭載160多個(gè)GPU的NVIDIA DGX系統(tǒng)模型,。
軟件方面,,NVIDIA的研究人員開發(fā)了全新編程系統(tǒng)原型Legate。開發(fā)者借助Legate,,即可在任何規(guī)模的系統(tǒng)上,,運(yùn)行針對(duì)單一GPU編寫的程序——甚至適用于諸如Selene等搭載數(shù)千個(gè)GPU的巨型超級(jí)計(jì)算機(jī)。
Legate將一種新的編程速記融入了加速軟件庫(kù)和高級(jí)運(yùn)行時(shí)環(huán)境Legion,,目前它正在美國(guó)國(guó)家實(shí)驗(yàn)室接受測(cè)試,。
Bill Dally語(yǔ)速頗快,迅速的介紹完英偉達(dá)的項(xiàng)目,,隨后便是一場(chǎng)線上圓桌式的高峰論壇,,與其說(shuō)是論壇,不如說(shuō)是大型凡爾賽飆車現(xiàn)場(chǎng),。
凡爾賽圓桌
包括主持人在內(nèi)的5位嘉賓,,都是在來(lái)自英偉達(dá),分別是英偉達(dá)亞太區(qū)銷售與營(yíng)銷副總裁Raymond Teh,、英偉達(dá)全球業(yè)務(wù)運(yùn)營(yíng)執(zhí)行副總裁Jay Puri,、英偉達(dá)企業(yè)市場(chǎng)兼開發(fā)者計(jì)劃全球副總裁Greg Estes、英偉達(dá)醫(yī)療業(yè)務(wù)全球副總裁Kimberly Powell,、英偉達(dá)亞太區(qū)戰(zhàn)略運(yùn)營(yíng)與合作伙伴副總裁Ashok Pandey,。
這陣容,一唱一和,,連上地球wifi,,看直播的火星觀眾都直呼內(nèi)行。
關(guān)于Arm,,Jay Puri首先猛夸Arm,,比如每年銷售220億個(gè)CPU,比如開創(chuàng)了IP許可模式,,比如在移動(dòng)端和嵌入式領(lǐng)域非常成功,。這可以理解,畢竟是我英偉達(dá)看中的人,,能有差的,?
隨后話鋒一轉(zhuǎn),為什么高通,、博通,、Marvell都嘗試用Arm進(jìn)軍通用市場(chǎng)和云數(shù)據(jù)中心市場(chǎng),,為什么都失敗了呢?Jay Puri認(rèn)為,,Arm技術(shù)沒(méi)有問(wèn)題,,問(wèn)題在于生態(tài),所以的應(yīng)用領(lǐng)域都是圍繞X86生態(tài)建立的,,Arm想要撬開一個(gè)口子,,并大放異彩太難。
接著,,又話鋒一轉(zhuǎn),。咱英偉達(dá)生態(tài)牛逼啊,未來(lái)數(shù)據(jù)中心的工作負(fù)載都圍繞加速計(jì)算和人工智能,,英偉達(dá)平臺(tái)成熟,,擁有可用的完整堆棧,且必要的生態(tài)伙伴都囊括了,,還有200萬(wàn)開發(fā)者,。Jay Puri還許下諾言,一旦收購(gòu)成功,,將著重布局Arm在數(shù)據(jù)中心的成功,,會(huì)有一個(gè)X86的替代方面。
醫(yī)療方面,,Kimberly Powell口中的英偉達(dá)簡(jiǎn)直賽華佗,,“如今一個(gè)季度產(chǎn)生的數(shù)據(jù)規(guī)模,比大多數(shù)制藥行業(yè)300年積累的數(shù)據(jù)還要多,?!盞imberly Powell這句話打開了醫(yī)療話題的話匣子:“研發(fā)新療法和疫苗的周期太長(zhǎng),有時(shí)即便投入10年20億美元的成本,,最終也只是10%的成功幾率,。”
Kimberly Powell強(qiáng)調(diào)了數(shù)據(jù)防御系統(tǒng)建立的必要性,。隨后話鋒一轉(zhuǎn),介紹了超級(jí)計(jì)算機(jī)DGX SuperPOD和Clara Discovery平臺(tái),。
其中,,DGX SuperPOD系統(tǒng)以借助NVIDIA Mellanox HDR InfiniBand網(wǎng)絡(luò)互聯(lián)的20個(gè)模塊來(lái)銷售,AI性能最低可達(dá)到100 petaflops,,最高可達(dá)700 petaflops,,可運(yùn)行最復(fù)雜的AI工作。此外,,英偉達(dá)今年宣布的Cambridge-1建造計(jì)劃,,是一款80節(jié)點(diǎn)的DGX SuperPOD,,具備400 petaflops 的AI性能。今年年底一經(jīng)部署便將成為英國(guó)最快的超級(jí)計(jì)算機(jī),。該系統(tǒng)將被用于英國(guó)學(xué)術(shù)界,、業(yè)界和初創(chuàng)企業(yè)在AI和醫(yī)療健康領(lǐng)域的合作研究。
Clara Discovery是專為 NVIDIA DGX 優(yōu)化的先進(jìn)工具套件,。包含多種框架,、應(yīng)用程序和 AI 模型,可實(shí)現(xiàn) GPU 加速的藥物研發(fā),,支持的研究領(lǐng)域涵蓋基因組學(xué),、蛋白質(zhì)組學(xué)、顯微鏡學(xué),、虛擬篩選,、計(jì)算化學(xué)、可視化,、臨床成像和自然語(yǔ)言處理(NLP),。
在與中國(guó)的云服務(wù)提供商(CSP)的合作中,Ashok Pandey用中文介紹了合作情況,,他表示,,與中國(guó)CSP已經(jīng)合作七年多,從一開始的深度學(xué)習(xí)訓(xùn)練,,到現(xiàn)在云服務(wù),。英偉達(dá)還聲稱,多家中國(guó)頂級(jí)云服務(wù)提供商及系統(tǒng)制造商紛紛采用NVIDIA A100 Tensor Core GPU和NVIDIA技術(shù),,為企業(yè)和行業(yè)的各類AI應(yīng)用提速,。
今年5月,英偉達(dá)推出了首款基于NVIDIA Ampere架構(gòu)的NVIDIA A100 Tensor Core GPU,。迄今為止,,包括阿里云、百度智能云,、滴滴云,、騰訊云等在內(nèi)的眾多中國(guó)云服務(wù)提供商紛紛推出搭載了NVIDIA A100的多款云服務(wù)及GPU實(shí)例。
A100 GPU配備了具有更高精度的第三代Tensor Core核心,,性能較上一代產(chǎn)品有顯著提升,。可提供600GB/每秒GPU間連接傳輸速率的第三代NVIDIA NVLink,、NVIDIA NVSwitch,、PCIe Gen4與NVIDIA Magnum IO軟件SDK的組合,可實(shí)現(xiàn)成千上萬(wàn)個(gè)GPU集群的高效擴(kuò)展,這些技術(shù)得到了來(lái)自于NGC容器注冊(cè)中NVIDIA市場(chǎng)領(lǐng)先生態(tài)系統(tǒng)的支持,。
在A100得到中國(guó)云服務(wù)提供商的迅速采用之外,,最新發(fā)布的NVIDIA A100 PCIe版本以及NVIDIA A100 80GB GPU也迅速成為了包括新華三、浪潮,、聯(lián)想,、寧暢等在內(nèi)的中國(guó)領(lǐng)先系統(tǒng)制造商的首選。
如果是前幾年,,這些技術(shù)的厲害之處還得靠凡爾賽一號(hào)玩家黃教主來(lái)說(shuō)出口,,但由于黃氏定律官方發(fā)布的避嫌問(wèn)題,我們有幸看到了英偉達(dá)內(nèi)部各路凡爾賽高手登場(chǎng),。整個(gè)GTC CHINA2020大會(huì),,也隨著筆者抽獎(jiǎng)抽到三次“謝謝參與”而結(jié)束,科技發(fā)展本就如一場(chǎng)夢(mèng),。GTC大會(huì),,一場(chǎng)被大佬洗腦卻又無(wú)法反駁,只想靜靜思考穿皮衣是否真的有助于治療脫發(fā)的大會(huì),。凡爾賽的英偉達(dá):科技就是這么枯燥且乏味,。