IEEE Symposium on VLSI Technology and Circuits(超大規(guī)模集成工藝與電路大會)是全球半導體行業(yè)與ISSCC齊名的最重要會議,,每年都會有來自半導體業(yè)界和學術(shù)界最頂尖的研究成果發(fā)表,,從這些研究成果中也可以看到全球半導體行業(yè)的發(fā)展。今年的VLSI會議剛剛于上周落下帷幕,本文將給大家?guī)磉@屆會議上的亮點總結(jié)。
Nvidia:AI與高性能計算是兩大主題
Nvidia作為數(shù)據(jù)中心和人工智能領(lǐng)域領(lǐng)跑的公司,,事實上在VLSI這類集成電路相關(guān)的會議上發(fā)表論文并不多,而關(guān)于其人工智能芯片的對應技術(shù)發(fā)表就更少了,。而這次VLSI會議上,,Nvidia則是發(fā)表了兩篇論文,其中一篇正是和人工智能相關(guān),,這也就成為了大眾關(guān)注的熱點,。
這篇Nvidia發(fā)表的人工智能加速芯片相關(guān)的論文標題為“A 17-95.6 TOPS/W Deep Learning Inference Accelerator with Per-Vector Scaled 4- bit Quantization for Transformers in 5nm”,其主要內(nèi)容是討論了如何針對下一代神經(jīng)網(wǎng)絡模型(即Transformer)做推理相關(guān)的優(yōu)化,。人工智能領(lǐng)域,,在以卷積神經(jīng)網(wǎng)絡為代表的模型占據(jù)主流地位十多年之后,下一代的神經(jīng)模型網(wǎng)絡即Transformer正在自然語言處理,、圖像識別等任務上顯示出重要的潛力,有望在性能上超過卷積神經(jīng)網(wǎng)絡——事實上在自然語言處理領(lǐng)域,,Transformer已經(jīng)是標準的神經(jīng)網(wǎng)絡模型了,。同時,Transformer的計算量很大,,也對推理加速芯片提出了新的要求,。而在AI芯片推理加速領(lǐng)域,針對Transformer做優(yōu)化的工作并不如當年針對卷積神經(jīng)網(wǎng)絡這么多,,主要原因是卷積神經(jīng)網(wǎng)絡中可以通過各種數(shù)據(jù)復用技術(shù)來實現(xiàn)相當高的效率提升,,但是在Transformer模型上這些技術(shù)并不是很有用。
在Nvidia發(fā)表的這篇論文中,,我們看到了Nvidia在這方面的研發(fā)思路,,就是軟硬件結(jié)合。在神經(jīng)網(wǎng)絡加速芯片領(lǐng)域,,一直有兩種思路,,第一種是走純硬件優(yōu)化的道路,,即完全通過數(shù)據(jù)流和電路的優(yōu)化,在完全不更改模型的情況下來實現(xiàn)計算的加速,,這樣的優(yōu)化最后得到的模型輸出理論上應該和原模型數(shù)學上完全等價,,同時對于設計者來說也無需理解模型的訓練和設計過程,只需懂硬件執(zhí)行即可,。另一條道路則是軟硬件協(xié)同設計,,即在設計加速芯片的同時也對模型做一定程度的更改,在對模型不產(chǎn)生重大精度損失的前提下讓模型對于硬件更有友好,。這也就需要設計團隊同時能精通模型和硬件,,即對于團隊有更高的要求。Nvidia的這篇論文走的就是后者,,其主要的優(yōu)化在于首先對于Transformer做激進的量化,,把計算精度減少到4比特,從而大大減少對于內(nèi)存的壓力,,也減少計算通路的面積以及能量消耗,。另一個重要優(yōu)化則是算符的優(yōu)化,把本來硬件開銷很大的softmax操作用對于硬件較為友好的近似形式來取代,,從而大大減少了開銷,。通過這樣的軟硬件協(xié)同設計,尤其是擁有強大的算法團隊,,該Transformer加速芯片可以實現(xiàn)極高的能效比(95.6 TOPS/W),,同時模型精度與原來的模型幾乎一致。
值得注意的是,,在Nvidia下一代GPU Hopper架構(gòu)中,,這樣的Transformer專屬加速模塊也是一個重要的新特性。我們認為Nvidia在這篇論文中發(fā)表的優(yōu)化手段很有可能已經(jīng)在Hopper系列GPU中產(chǎn)品化,。
除了這篇關(guān)于Transformer的加速芯片論文之外,,Nvidia另一篇論文是關(guān)于超高速數(shù)據(jù)互聯(lián)電路,題為“A 0.297-pJ/bit 50.4-Gb/s/wire Inverter-Based Short-Reach Simultaneous Bidirectional Transceiver for Die-to-Die Interface in 5nm CMOS”,,其主要是針對在Silicon Interposer上的短距離超高速數(shù)據(jù)互聯(lián),,可以實現(xiàn)同時雙向數(shù)據(jù)互傳。該論文也和Nvidia在高級封裝領(lǐng)域的一貫投入相吻合,,主要針對的是使用高級封裝技術(shù)來實現(xiàn)計算的可擴展性,,從而為高性能計算的性能提升鋪平道路。
Intel:下一代半導體工藝與封裝技術(shù)
Intel在這次VLSI 2022會議上最大的亮點無疑是公布了下一代工藝Intel 4的細節(jié)(論文標題為“Intel 4 CMOS Technology Featuring Advanced FinFET Transistors optimized for High Density and High-Performance Computing”),。Intel 4將會是Intel第一個使用EUV技術(shù)的工藝節(jié)點,,而根據(jù)Intel公布的數(shù)據(jù),使用EUV也為Intel 4帶來了顯著的提升,,例如Intel 4的工藝步驟大大減少,,光罩數(shù)量相對上一代Intel 7下降了20%(這也表示大大降低了成本),,同時Intel也表示EUV帶來了良率的提升(應當與工藝步驟減少相關(guān))。
在集成度方面,,Intel對于Intel 4的數(shù)字是集成度相當于Intel 7提升兩倍,,具體來說Fin之間的間距較少了12%,底層金屬間距減少了25%,,標準單元的高度降低了41%,,從面積上來說則是標準單元的面積減少了50%。當然這主要是針對邏輯單元來說,,SRAM的集成度提升在25%左右,,并不到兩倍。
在性能方面,,Intel 4相對上一代工藝Intel 7在相同功耗的情況下可以把性能(時鐘頻率)提高22%,,而在相同時鐘頻率的情況下則可以把功耗減少40%。這樣的性能提升是一個很不錯的數(shù)字,,我們認為結(jié)合其集成度方面的提升,,Intel 4是一個值得期待的工藝節(jié)點。有意思的是,,Intel同時在本屆VLSI會議上發(fā)表了一款使用Intel 4工藝的芯片,,論文題為“An 8-core RISC-V Processor with Compute near Last Level Cache in Intel 4 CMOS”,這里也可以看到Intel在RISC-V領(lǐng)域的投入,,把最新的RISC-V生態(tài)搭配其最新的Intel 4工藝,,可望在未來實現(xiàn)Intel在處理器領(lǐng)域的新戰(zhàn)略布局。除了RISC-V CPU之外,,Intel還在本屆VLSI會議上發(fā)布了一系列使用Intel 4工藝的電路,,包括AES加密引擎,SRAM IP和溫度傳感器等等,。
除了下一代半導體工藝之外,,Intel在VLSI 2022上最值得注意的成果是下一代封裝技術(shù)。相關(guān)方面有兩篇論文,,一篇是使用光互連接口的FPGA,該研究成果把FPGA和光通信PHY使用芯片粒技術(shù)封裝在一起,,從而可以實現(xiàn)5.12Tbps的超高速芯片間互聯(lián),,有機會能成為芯片粒之間超高帶寬數(shù)據(jù)互聯(lián)的新范式。除此之外,,另一篇Intel的論文討論了一個高級封裝系統(tǒng)中的重要部分即電源管理,,在該論文中Intel提出了一種專門為TSV 3D封裝系統(tǒng)設計的buck電源管理系統(tǒng),通過利用高級封裝技術(shù)(如把電感集成在封裝里面)大大提升了電源輸出的性能,。從這些論文我們也可以看到Intel在高級封裝技術(shù)領(lǐng)域的投入,,未來可望會成為和半導體工藝一起成為Intel的新技術(shù)引擎,。
三星:多條戰(zhàn)線全面布局
與Nvidia專注于人工智能和高性能計算,Intel主打下一代半導體工藝和高級封裝不同,,三星在本屆VLSI會議上發(fā)表的研究成果可謂是契合其一向的戰(zhàn)略,,即各條戰(zhàn)線全面布局。
首先,,三星仍然以存儲器為投入最大的方向,。在下一代DRAM的競爭中,三星一直處于領(lǐng)先的地位,,在之前就宣布要率先發(fā)布HBM3接口的DRAM,,而這次在VLSI 2022上,三星就發(fā)布了相關(guān)的研究成果,,基于其最新一代10nm DRAM技術(shù),,結(jié)合TSV 3D封裝和優(yōu)化過的糾錯碼技術(shù)(ECC),其16 GB DRAM在HBM3接口上實現(xiàn)了1024 GB/s的超高帶寬,,而這篇論文也可以看作是三星在內(nèi)存領(lǐng)域?qū)ζ淠芰Φ囊淮握故尽?/p>
除了DRAM之外,,三星還在嵌入式Flash、先進工藝的標準單元設計,、圖像傳感器,、無線收發(fā)機、LiDAR等領(lǐng)域有研究成果發(fā)表,,由此充分可見其在半導體領(lǐng)域多中心戰(zhàn)略,。
中國大陸:不可忽視的力量
隨著中國大陸半導體行業(yè)的發(fā)展,本屆VLSI大會上來自中國大陸的論文數(shù)量不容忽視,。其中,,最值得關(guān)注的是華為和中科院聯(lián)合完成的使用IGZO器件作為下一代DRAM的研究論文,標題為“Vertical Channel-All-Around (CAA) IGZO FET less than 50nm CD with High Read Current of 32.8μA/μm (Vth +1V), Well-Performed Thermal Stability up to 120°C for Low Latency, High-Density 2T0C 3D DRAM Application”,。該論文使用了垂直channel-all-around技術(shù),,可以實現(xiàn)超高集成度(有源面積小于50x50nm2),且具有很高的導通電流密度和非常好的亞閾值關(guān)斷特性,。該研究將為下一代高密度,、高性能3D DRAM鋪平道路。該論文也登上了VLSI 2022亮點論文的列表,,表示該研究獲得了半導體業(yè)界的高度肯定,。事實上,在IGZO領(lǐng)域中國大陸已經(jīng)走在了領(lǐng)先的位置,;在IGZO總共五篇論文中,,來自中國大陸的論文有三篇。除了前述的華為和中科院合作的IGZO DRAM論文外,另有一篇中科院和華為合作關(guān)于IGZO DRAM器件中TZI和BTI效應建模的論文,,以及一篇由中科院獨立研發(fā)使用了雙柵極結(jié)構(gòu)把IGZO晶體管溝道長度縮短至30nm并實現(xiàn)極佳器件性能(其中跨導和DIBL都打破了目前的世界記錄),。另外,中科院在用于人工智能的新存儲器領(lǐng)域也有很大收獲,,有兩篇相關(guān)的基于新存儲器件的論文發(fā)表,。除了中科院之外,中國大陸還有北大,、清華,、浙大、華東師范大學等來自高校的論文在本屆VLSI上發(fā)表,。
除了科研單位之外,,中國半導體業(yè)界這次也有不少論文在VLSI大會發(fā)表。除了前述來自華為的論文之外,,還有來自??莆⒌恼撐摹癏ighly Reliable 40nm Embedded Dual-Interface-Switching RRAM Technology for Display Driver IC Applications”。該論文主要提出了一種使用RRAM來取代傳統(tǒng)SRAM來完成AMOLED屏幕中實現(xiàn)屏幕矯正(demura),,從而實現(xiàn)比傳統(tǒng)SRAM更低的成本,,更高的性能和更好的能效比。??莆⑹钦滓讋?chuàng)新和RAMBUS在合肥建立的合資公司,,致力于將RRAM技術(shù)商業(yè)化,而這次在VLSI大會上發(fā)表的論文則顯示??莆⒃谶@個技術(shù)方向上有了長足的發(fā)展,,實現(xiàn)了重要的里程碑。
綜合來看,,中國大陸無論是高校還是業(yè)界都在本屆VLSI大會上發(fā)表了高質(zhì)量的論文,,這也是中國大陸半導體行業(yè)發(fā)展的重要標志。