《電子技術(shù)應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 卡AI脖子的是算力,,沒有英偉達和臺積電,,中國做不出ChatGPT,?

卡AI脖子的是算力,,沒有英偉達和臺積電,,中國做不出ChatGPT,?

2023-02-06
來源:電子技術(shù)應用ChinaAET
關(guān)鍵詞: ChatGPT AI 算力

  最近爆火的ChatGPTAI作畫驚艷了無數(shù)人,,能對話問答,、能翻譯,、能寫詩,,還能修代碼,ChatGPT展示了既強大又通用的語言能力,。其強大的通用語言能力背后,,是1750億個模型參數(shù)和45TB的訓練數(shù)據(jù)(以它的上一代GPT-3為例),。如此巨大的計算量,沒有算力的持續(xù)增長,,是不可能實現(xiàn)的,。ChatGPT及GPT-3這樣的大語言模型展示了,當模型的大小和訓練量的大小出現(xiàn)量變以后,,最后的表現(xiàn)結(jié)果就是產(chǎn)生質(zhì)變,。這本質(zhì)上揭示了“智能”和算力的深刻聯(lián)系。

  算力發(fā)展與科技奇點

  計算機的計算能力便每隔幾年翻一倍,,計算機的應用也遍地開花:1980年代末出現(xiàn)了互聯(lián)網(wǎng),,1990年代出現(xiàn)了搜索引擎,2000年代出現(xiàn)了社交網(wǎng)絡(luò),,2010年代出現(xiàn)移動互聯(lián)網(wǎng),,而2012年AlexNet橫空出世。計算機應用的變遷和發(fā)展背后的動力則是算力的發(fā)展,,當算力達到一定的程度了,,相應的應用就會自然涌現(xiàn)。英特爾的創(chuàng)始人Gordon Moore1965年提出了著名的摩爾定律,,后來摩爾定律有很多個說法,,最簡單的說法是,在價格不變的情況下,,芯片中的晶體管數(shù)量每18個月翻一倍,。摩爾定律并不是物理規(guī)律,而是一種對于人類科技進步趨勢的洞察,,即算力的增長是指數(shù)的,。

微信截圖_20230206111309.png

  美國著名未來學家、奇點臨近一書的作者Ray Kurzweil認為,,算力的發(fā)展其實一直指數(shù)增長的過程,,這個過程開始得遠遠早于摩爾定律,譬如世界上第一臺電子計算機使用的材料是電子管,,而電子管后來被晶體管取代,。在電子管之前甚至還有通過機械原理制造的計算機Z3。如今基于硅的集成電路工藝已經(jīng)小到了一定程度,,在未來會遇到散熱上的瓶頸,,但是這并不妨礙未來人們會有更好的方式和材料來構(gòu)造計算機,繼續(xù)保持算力的持續(xù)增長,。

微信截圖_20230206111333.png

  算力持續(xù)指數(shù)增長下去的結(jié)果就是科技發(fā)展的加快,,想想從2012年Alex橫空出世到現(xiàn)在AI才發(fā)展了10年,就已經(jīng)取得了巨大的進步,。而人類14000年前才進入農(nóng)業(yè)時代,,200多年前才進入工業(yè)革命時代,,不到100年前才有計算機,不到20年前才有智能手機,,而10年前才有了深度學習的爆發(fā),,這的確印證了科技的指數(shù)發(fā)展。

  神經(jīng)網(wǎng)絡(luò)的低谷與爆發(fā)

  1.神經(jīng)網(wǎng)絡(luò)的發(fā)展,,經(jīng)歷了兩次低谷期:

  第一次低谷是算法:神經(jīng)網(wǎng)絡(luò)50年代提出,此時主要由生物學背景的科學家主導,。但隨著人工智能之父提出的異或問題,,人們開始質(zhì)疑,認為神經(jīng)網(wǎng)絡(luò)是騙人的,。

  但從80年代開始,,物理學家開始進入這一陣地。并在1986年,,提出了BP算法,,通過梯度下降的方式,可以將誤差收斂到一個極小值,,論上證明了神經(jīng)網(wǎng)絡(luò)這種聯(lián)結(jié)主義可用,,BP算法大獲成功。

  第二次低谷是算力:隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,,人們很快就遇到了新的問題,,那就是收斂速度和泛化的問題。

  簡單說就是“慢”,。當時的計算器CPU性能還不夠強大,,對于稍微大點,層數(shù)和節(jié)點多一點的網(wǎng)絡(luò),,訓練時間太長,,稍微大的規(guī)模就無法處理了。

  2.進入21世紀出現(xiàn)了轉(zhuǎn)機:

  數(shù)據(jù):21世紀,,互聯(lián)網(wǎng)快速發(fā)展,,人類通過互聯(lián)網(wǎng)的運轉(zhuǎn),獲取了過去十多年難以想象的海量數(shù)據(jù),。這些數(shù)據(jù),,為神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)構(gòu)建和訓練帶來了可行性。

  高級算法:2006年,,Hinton在Science首次提出“深度信念網(wǎng)絡(luò)”的概念,。與傳統(tǒng)的訓練方式不同,“深度信念網(wǎng)絡(luò)”有一個“預訓練”過程,,可以方便地讓神經(jīng)網(wǎng)絡(luò)中的權(quán)值找到一個接近最優(yōu)解的值,,之后再使用“微調(diào)”(fine-tuning)技術(shù)來對整個網(wǎng)絡(luò)進行優(yōu)化訓練,。

  預訓練+微調(diào),這種兩部訓練技術(shù)的運用,,大幅度的減少了多層神經(jīng)網(wǎng)絡(luò)的訓練時間,。在上一篇文章的ChatGPT發(fā)展過程中我也有提到,ChatGPT的基本能力來源于預訓練,,而能力進化和解鎖來源于指令微調(diào),。

  這個階段,訓練和計算基本依靠CPU進行,,CPU頻率也在逐漸提高,,但此時10億量級的鏈接,比如2012年的Google X 項目,,訓練這一模型,,耗費了1000臺計算機,16000個CPU計算,,其訓練速度,、運行時間、訓練成本都不能令人滿意,。

  而因為CPU算力有限,,此時深度學習發(fā)展速度并不快。

  3.GPU的強大計算能力的引入:

  CPU是專門為按序列串行處理優(yōu)化的核心組成,;而 GPU 則擁有大規(guī)模并行架構(gòu),,當中包含數(shù)千個更小、更高效的核心,,專為同時處理多重任務(wù)而設(shè)計,。與僅包含 CPU 的配置相比,GPU 的數(shù)據(jù)處理速度快得多,。

  在神經(jīng)網(wǎng)絡(luò)在最初的訓練過程中,,主要依靠的是CPU。

  在2011~2012年前后,,英偉達顯卡GTX580被導入到CNN模型計算,,對于大模型的訓練,GPU的加速效果達到了CPU的60倍左右,。比如上文的10億個連接的Google X項目,,在同等工作量和時間下,只需要64個GPU的16臺電腦就可以運算出結(jié)果,。

  2012年,,吳恩達用3臺GTX680,就完成了谷歌用1000臺CPU服務(wù)器才能完成的貓臉識別任務(wù),,GPU正式被各大互聯(lián)網(wǎng)頭部廠商導入,,但依然處于CPU+GPU并行的階段,。

  2016年,英偉達推出新的GPU架構(gòu),,專門針對AI計算進行優(yōu)化,。而在之后的兩年時間,基于深度學習的AlphaGo先后戰(zhàn)勝李世石和柯潔,。

  也就是那時候開始,,深度學習/人工智能在短時間之內(nèi)火遍業(yè)界、學術(shù)界和就業(yè)市場,。相信幾年前的火熱場景大家還有影響,,一個應屆生,只要會一點tensorflow,,pytorch,會調(diào)參數(shù)的調(diào)參俠就可以被公司以四五十萬招攬,。

  而因為GPU強大的加速效果,,隨著以深度學習為核心的各種應用,不斷涌現(xiàn)并且快速落地,。GPU在此時,,成為了AI計算的標配。

  從數(shù)據(jù),,算法,、算力,一點點積累,,最終造就的就是一次小規(guī)模的科技大爆發(fā),,而這次科技大爆發(fā)的成果就是深度學習,而其所帶來的,,則是算力需求的大爆炸,。

  算力需求大爆炸

  1.需求大爆炸:

  在深度學習新算法+GPU的兩大加持之下,AI計算在應用領(lǐng)域極速擴大,。

  尤其是隨著云計算,、金融、短視頻推薦算法,,圖像識別(安防,、智慧城市)以及自動駕駛的飛速發(fā)展,互聯(lián)網(wǎng)巨頭,、ZF,,公共事業(yè)部門、安全部門等,,對于算力的需求飛速增長,。再加上加密貨幣的火熱,,出現(xiàn)了第一次算力需求的大爆炸。

  在社會層面,,互聯(lián)網(wǎng)巨頭們對于算力的海量需求,,大量的數(shù)據(jù)中心和算力中心被建立,GPU芯片被快速部署到各種服務(wù)器,,數(shù)據(jù)中心,,并且在持續(xù)的進行。

  而政府規(guī)劃層面,,東數(shù)西算,、智算中心也自此誕生。

  而英偉達則隨著GPU的大量出貨,,GPU+CUDA獨霸市場,,股價也開啟了從30,漲到800的逆天之旅,。

  2.GPU局限性

  但是,,通用GPU在使用過程中,也逐漸顯現(xiàn)出局限性,,并不能滿足每一種需求,,因為有的側(cè)重訓練,而有的則是側(cè)重推理,,有的側(cè)重能效,,比如加密貨幣領(lǐng)域,為了最求更高的能效比,,礦卡開始大量取代英偉達的GPU,。

  其實,這個局限性,,在谷歌的AlphaGO就已經(jīng)顯現(xiàn),,最初的AlphaGo完整版本運行在48顆CPU和8塊GPU上,這個板本的AlphaGO的反應相對較慢,,并不足以顛覆人機大戰(zhàn),,李世石一度很有信心。

  但實際上,,后續(xù)與李世石的對弈,,谷歌引入了高度定制化的,基于tensor Flow深度學習架構(gòu)的TPU,,按照谷歌的描述,,其TPU 平均比當前的 GPU 或 CPU 快15~30倍,能效比更是GPU的70倍,CPU的兩百倍,。在這一配置下,,AlphaGO以絕對優(yōu)勢擊敗了李世石。雖然TPU通用性差,,但效率巨高,,后來在谷歌翻譯、圖像搜索,、谷歌照片(Google Photo),、谷歌云視覺API 中大量應用。

  與之類似的是,,特斯拉的自動駕駛,,F(xiàn)SD芯片從18年開始導入,不僅僅依賴于GPU, 而是專門加入了神經(jīng)處理單元和各種加速器,。后續(xù)更是開發(fā)了Dojo+D1芯片,,專門承擔算法訓練重任。

  還有百度,,在使用GPU的時候,,也采用FPGA研發(fā)AI加速。并最終自研了云端全功能AI芯片-昆侖,。

  而阿里,因為應用場景不同,,則是自研了含光800,,更加側(cè)重于推理。在城市大腦的業(yè)務(wù)測試中,,1顆含光800的算力相當于10顆GPU,。

  可以說,在第一次算力需求大爆發(fā)下,,GPU 雖然獨霸市場,,但各種偏訓練、推理的專用芯片也開始快速的發(fā)展,。

  新的算力需求大爆炸即將到來

  深度學習伴隨的第一次算力需求大爆炸,,To C應用火熱的基本沒有,更多的是在To B 和 To G,,主要在云端部署,。GPU+專用芯片,第一次算力需求的大爆發(fā),,似乎處于一個相對平衡階段,。

  但是,當ChatGPT月活用戶接近1億的時候,事情就不一樣了,。這是互聯(lián)網(wǎng)發(fā)展20年來,,增長最快的消費類應用。這也是人工智能誕生以來,,面向C端用戶增長最快的速度,。

  這是獲得大眾認可的AI C端產(chǎn)品,而過去,,人們只會叫他們“人工智障”,。天貓精靈或者各種什么同學,有時候能讓你氣的腦溢血,。人們往往用一用,,就過了新鮮勁,所以更多的AI還是在B端,,G端,,用在現(xiàn)在,已經(jīng)有1億人對ChatGPT表示出了高漲的熱情,。大佬們更是給出了超高的評價:

  比爾蓋茨說,,“ChatGPT讓我們窺見了即將發(fā)生的事情,這項技術(shù)以及其革新速度都令人印象深刻,?!泵绹敦敻弧冯s志評價ChatGPT就是人工智能行業(yè)的iPhone。商湯智能產(chǎn)業(yè)研究院長田豐認為:“ChatGPT驗證了當前AI大模型的巨大商業(yè)價值和科研價值,。ChatGPT的出圈,,可能意味著一個AI大規(guī)模商業(yè)化時代的到來。

  ChatGPT讓谷歌,,微軟,、百度等一眾大佬剛到恐懼,他雖然不是搜索引擎,,但用戶通過ChatGPT獲得更準確,、及時、人性化的答案,,這個時候還需要搜索引擎嗎,?谷歌的Gmail創(chuàng)始人保羅·布赫海特認為,谷歌距離被徹底顛覆可能只需要一兩年的時間,,像ChatGPT這樣的AI聊天機器人將摧毀谷歌,,消滅搜索引擎結(jié)果頁面。

  ChatGPT取得的成績,,以及各種高度的評價,,足夠令人重視。而我們需要重視的,是ChatGPT背后的通用大模型技術(shù):他已經(jīng)在醫(yī)藥研究,、虛擬電廠等各種方向開始創(chuàng)新和發(fā)展,。但當他以To C的方式出圈,會進一步推動這種模型在產(chǎn)業(yè)層的應用,。

  而這樣一個需要進行大規(guī)模預訓練,,具有3000億數(shù)據(jù),將近2000億參數(shù)的超級大模型,。當前僅僅是GPT-3.5,   近期將會更新GPT-4,,他的參數(shù)將比3代再高出幾個量級。

  這個模型的訓練,,目前OpenAI至少導入了一萬多塊的英偉達最高端的GPU進行預訓練,。而觸發(fā)第一次算力需求大爆炸時的AlphaGO 僅僅需要8塊GPU RTX680,而和柯潔對戰(zhàn)的go只用了4塊GPU,。

  這種大模型,,對算力的需求至少是指數(shù)級的增長。當他從實驗室走向落地,,旦類似的大模型開始根據(jù)各行各業(yè)做推廣和部署,,這個算力需求是個無底洞,當前的算力是不夠的,。甚至于東數(shù)西算打造的各種數(shù)據(jù)中心,,也遠遠難以應對即將到來的,"新的一輪的,,算力需求大爆炸",。

  我們可能需要更多,不僅僅依賴于數(shù)據(jù)中心,,云計算,更需要算力網(wǎng)絡(luò),,需要云網(wǎng)融合,,甚至需要端測設(shè)備也提供算力,將端側(cè)的閑置算力鏈接并網(wǎng),。我們不僅需要GPU,,更需要各種專用的云端訓練芯片,推理芯片,。我們還需要各種端側(cè)的推理芯片,,NPU/AI 芯片,未來的各種終端都需要具有AI算力,。不僅僅用于處理端側(cè)的算力需求,,還要將閑置的算力貢獻到整個算力網(wǎng)絡(luò)中調(diào)配,類似于BTC挖礦。

  新的一次的算力需求大爆炸,,我相信不會太遠,,也許在2025年前后就會到來。這是個機會,,因為潛力和想象力巨大,。但也很難,因為我們在高端算力上缺失嚴重,,我們在高科技領(lǐng)域,、半導體領(lǐng)域、高性能計算等方面被各種掣肘,。

  不過國家正在規(guī)劃的事情放到一起去看,,能看出些東西的。比如GPGPU,、算力,、訓練芯片各種芯片廠家快速獲得大額融資;比如各家互聯(lián)網(wǎng)大廠,、新能源汽車主機廠的數(shù)據(jù)中心,,算力中心,智算中心的加快建設(shè),;比如國家的東數(shù)西算,,云網(wǎng)融合,算力網(wǎng)絡(luò),。

  相信趕上不會太遠了,。


  來  源 | 知乎@陳清揚、雪球@撿貝殼的FBB

歡迎關(guān)注電子技術(shù)應用2023年2月22日==>>商業(yè)航天研討會<<

微信圖片_20210517164139.jpg



本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。