所有事物的發(fā)展都代表了當(dāng)下時(shí)代對(duì)其提出的新要求,,半導(dǎo)體行業(yè)也沒有例外。
前日,,阿里達(dá)摩院發(fā)布了全球首款使用混合鍵合3D堆疊技術(shù)實(shí)現(xiàn)存算一體的芯片,,在行業(yè)內(nèi)引起了不小的轟動(dòng)。存算一體技術(shù)作為打破存儲(chǔ)墻和功耗墻的重要解決方案,,又一次站在了聚光燈下,。
兩堵”墻”:存算一體技術(shù)發(fā)展的必要性
存算一體的發(fā)展是時(shí)代發(fā)展的要求,現(xiàn)有馮·諾伊曼計(jì)算系統(tǒng)采用存儲(chǔ)和運(yùn)算分離的架構(gòu),,存在“存儲(chǔ)墻”與“功耗墻”瓶頸,,嚴(yán)重制約系統(tǒng)算力和能效的提升。
在馮·諾伊曼架構(gòu)的核心設(shè)計(jì)中計(jì)算機(jī)的組成架構(gòu)包括運(yùn)算器,、控制器,、存儲(chǔ)器、輸入設(shè)備,、輸出設(shè)備五部分,。
在馮·諾伊曼架構(gòu)中,計(jì)算單元要先從內(nèi)存中讀取數(shù)據(jù),,計(jì)算完成后,,再存回內(nèi)存,這樣才能輸出,。隨著半導(dǎo)體產(chǎn)業(yè)的發(fā)展和需求的差異,,處理器和存儲(chǔ)器二者之間走向了不同的工藝路線。由于工藝,、封裝,、需求的不同,從1980年開始至今二者之間的性能差距越來越大,。數(shù)據(jù)顯示,,從 1980年到 2000年,處理器和存儲(chǔ)器的速度失配以每年50%的速率增加,。
存儲(chǔ)器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度,,數(shù)據(jù)傳輸就像處在一個(gè)巨大的漏斗之中,,不管處理器灌進(jìn)去多少,存儲(chǔ)器都只能“細(xì)水長流”,。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,,在存儲(chǔ)與運(yùn)算之間筑起了一道“存儲(chǔ)墻”。
此外,,在傳統(tǒng)架構(gòu)下,,數(shù)據(jù)從內(nèi)存單元傳輸?shù)接?jì)算單元需要的功耗是計(jì)算本身的約200倍,因此真正用于計(jì)算的能耗和時(shí)間占比很低,,數(shù)據(jù)在存儲(chǔ)器與處理器之間的頻繁遷移帶來嚴(yán)重的傳輸功耗問題,,稱為“功耗墻”。
再加上人工智能的發(fā)展,,需要運(yùn)算的數(shù)據(jù)量開始了極大的增長,。人工智能算法是一個(gè)很龐大和復(fù)雜的網(wǎng)絡(luò),包含大量的圖像數(shù)據(jù)和權(quán)重參數(shù),,計(jì)算的過程中又會(huì)產(chǎn)生大量的數(shù)據(jù),,數(shù)據(jù)需要在計(jì)算單元和存儲(chǔ)單元之間進(jìn)行頻繁的移動(dòng),這迫切需要合適的手段來減少數(shù)據(jù)移動(dòng)及其帶來的性能和功耗開銷,。
自1945年提出的馮·諾伊曼架構(gòu),,其本身仍是現(xiàn)代計(jì)算機(jī)的主要架構(gòu),在此架構(gòu)下關(guān)于存算流程的彎路,,在當(dāng)時(shí)是合理的,。但是在人工智能飛速發(fā)展的現(xiàn)在,卻有必要顛覆它,。
于是,業(yè)界開始尋找弱化或消除存儲(chǔ)墻及功耗墻問題的方法,,開始考慮從聚焦計(jì)算的馮·諾伊曼體系結(jié)構(gòu)轉(zhuǎn)向存算一體結(jié)構(gòu),。
近存儲(chǔ)計(jì)算還是存內(nèi)計(jì)算?
為了解決以上問題,,存算一體芯片應(yīng)運(yùn)而生,。其核心思想是將部分或全部的計(jì)算移到存儲(chǔ)中,計(jì)算單元和存儲(chǔ)單元集成在同一個(gè)芯片,,在存儲(chǔ)單元內(nèi)完成運(yùn)算,,讓存儲(chǔ)單元具有計(jì)算能力。這種極度近鄰的方式很大程度上降低了數(shù)據(jù)移動(dòng)的延遲和功耗,,解決了存儲(chǔ)墻問題,。
阿里達(dá)摩院發(fā)布的2020年十大科技趨勢(shì)里,它認(rèn)為存算一體是突破AI算力瓶頸的關(guān)鍵技術(shù),,朝著這個(gè)趨勢(shì)阿里發(fā)布了近存儲(chǔ)計(jì)算芯片,。近存儲(chǔ)計(jì)算與存內(nèi)計(jì)算都是存算一體的實(shí)現(xiàn)方式,,但是概念不同。
近存儲(chǔ)計(jì)算指的是計(jì)算操作由位于存儲(chǔ)芯片外部的獨(dú)立計(jì)算芯片完成,。通過采用先進(jìn)的3D封裝方式把內(nèi)存和計(jì)算單元封裝在一起,,可以達(dá)到幾千根甚至上萬根連線,兩者之間的帶寬增加,,提高了數(shù)據(jù)搬運(yùn)速度,。近存儲(chǔ)計(jì)算本質(zhì)上來說還沒有做到真正的存算“一”體。
它從一開始設(shè)計(jì)計(jì)算芯片和存儲(chǔ)芯片的時(shí)候,,就設(shè)計(jì)好了鏈接兩方的通路,,將數(shù)據(jù)運(yùn)輸距離極致縮短。設(shè)計(jì)芯片本就相當(dāng)于用這些晶體管在指甲蓋大小的面積上建造一座城市,,現(xiàn)在是需要重新設(shè)計(jì)兩座城市,,并提前在中間設(shè)計(jì)好互相鏈接的通道,這是難點(diǎn),,也是競(jìng)爭(zhēng)力,。阿里發(fā)布的,正是采用這個(gè)技術(shù)的存算一體芯片,。
存內(nèi)計(jì)算指的是通過在存儲(chǔ)器顆粒上嵌入算法,,使得存儲(chǔ)芯片內(nèi)部的存儲(chǔ)單元完成計(jì)算操作,存儲(chǔ)單元和計(jì)算單元完全融合,,沒有獨(dú)立的計(jì)算單元,。
在這種方式下,數(shù)據(jù)不需要單獨(dú)的運(yùn)算部件來完成計(jì)算,,而是在存儲(chǔ)單元中完成存儲(chǔ)和計(jì)算,,消除了數(shù)據(jù)訪存延遲和功耗,是一種真正意義上的存儲(chǔ)與計(jì)算融合,。同時(shí),,由于計(jì)算完全依賴于存儲(chǔ),因此可以開發(fā)更細(xì)粒度的并行性,,獲得更高的性能和能效,,存算一體對(duì)于符合的應(yīng)用會(huì)帶來較高的性能收益和能效收益,這種方式尤其適用于人工智能應(yīng)用,。
積極布局的龍頭與勇往直前的初創(chuàng)公司
存算一體仍舊是解決存儲(chǔ)墻和功耗墻問題的重要技術(shù),,一些處于行業(yè)領(lǐng)先地位的半導(dǎo)體公司正在積極進(jìn)行自研,還有一些公司通過投資初創(chuàng)公司來布局存算一體技術(shù),。
國外巨頭中,,三星早在2019年就闡述了其在2030年希望完成的愿景:當(dāng)AI半導(dǎo)體技術(shù)變得更加復(fù)雜時(shí),存儲(chǔ)器和處理器將最終集成為一體,。今年2月,,三星發(fā)布了HBM-PIM存內(nèi)計(jì)算技術(shù),,在高帶寬內(nèi)存 (HBM) 配置中集成內(nèi)存處理 (PIM) 。PIM 將可編程計(jì)算單元 (PCU) 的 AI 引擎集成到內(nèi)存核心中來處理某些邏輯函數(shù),,PIM 將刺激需要持續(xù)性能改進(jìn)的 AI 應(yīng)用程序的使用量增長,。與現(xiàn)有的內(nèi)存解決方案相比,三星的 PIM 理論上可以通過可編程計(jì)算單元 (PCU) 提高 4 倍的性能,。
此外,,IBM在2016年就透露了其關(guān)于存內(nèi)計(jì)算的研發(fā)計(jì)劃,提出了混合精度內(nèi)存計(jì)算的新概念,。
美國存算一體AI芯片初創(chuàng)公司Mythic發(fā)布的存算一體芯片,,依靠模擬計(jì)算技術(shù),將足夠的存儲(chǔ)與大量并行計(jì)算單元打包在芯片上,,以最大化內(nèi)存帶寬并減少數(shù)據(jù)移動(dòng)的能力,。在今年C輪融資中,Mythic籌集7000萬美元,,自成立以來Mythic的總?cè)谫Y額已達(dá)到1.65億美元,。
此外,美國另一家專注于語音識(shí)別的存算一體AI芯片公司Syntiant也受到微軟,、亞馬遜,、應(yīng)用材料、英特爾,、摩托羅拉和博世的支持,。
在國內(nèi)企業(yè)中,看準(zhǔn)存算一體趨勢(shì)的阿里也激情入局,,打出了一張好牌,。而阿里也不止步于此,近存儲(chǔ)技術(shù)之后,,阿里還將向存內(nèi)計(jì)算技術(shù)進(jìn)發(fā),。
除了阿里外,眾多初創(chuàng)公司也努力在存算一體這個(gè)賽道狂奔,,一些廠商也通過投資初創(chuàng)公司來布局存算一體技術(shù),,還包括知存科技,、后摩智能,、閃億半導(dǎo)體等初創(chuàng)公司。
知存科技于2017年成立,,目前知存推出國際首個(gè)存算一體加速器WTM1001和首個(gè)存算一體SoC芯片WTM2101,。今年,知存科技獲得了華為哈勃的投資,。知存科技已經(jīng)獲得五輪產(chǎn)業(yè)資本領(lǐng)投融資,,累計(jì)融資3億元,。
閃億半導(dǎo)體作為該領(lǐng)域國產(chǎn)化芯片的先行者,于2017年7月創(chuàng)立,,創(chuàng)始團(tuán)隊(duì)分別畢業(yè)于清華大學(xué)和北京大學(xué),,閃億專注于研發(fā)、生產(chǎn)最先進(jìn)的存儲(chǔ)-運(yùn)算陣列SoC芯片,,聚焦人工智能計(jì)算,。其在2019年10月發(fā)布了其首款存算一體芯片,該公司負(fù)責(zé)人魯辭莽表示,,這款芯片在運(yùn)行效率上能提高10TOPS/W,,成本比傳統(tǒng)AI芯片方案下降超一半。
后摩智能更是于今年完成3億元融資,,資金將用來加速推動(dòng)存算一體技術(shù)落地,,作為國內(nèi)首家采用存算一體技術(shù)打造大算力芯片的公司,后摩智能也擁有充滿野心的愿景:打造出具有“十倍效應(yīng)”的AI芯片,, 滿足真正人工智能時(shí)代的超大算力需求,,用無限算力去改變世界。
存算一體的荊棘之路
當(dāng)前,,存算一體芯片產(chǎn)業(yè)還算不上成熟,,在產(chǎn)業(yè)鏈方面仍舊存在上游支撐不足,下游應(yīng)用不匹配的諸多挑戰(zhàn),。在芯片的設(shè)計(jì)階段,,另外由于存算一體芯片和常規(guī)的芯片設(shè)計(jì)方案有所不同,目前市面上也沒有成熟的專用EDA工具輔助設(shè)計(jì)和仿真驗(yàn)證,;芯片流片之后,,沒有成熟的工具協(xié)助測(cè)試;在芯片落地應(yīng)用階段,,暫時(shí)沒有專用的軟件與之匹配,。
類腦技術(shù)暫時(shí)遙不可及,存算一體看起來是目前問題的較優(yōu)解,。技術(shù)的發(fā)展來源于日益增長的需求,,考慮如何進(jìn)行創(chuàng)新與創(chuàng)造,如何完善重要技術(shù)的生態(tài)鏈,,是行業(yè)上下游廠商應(yīng)該考慮的問題,。