隨著最先進的 AI 加速器,、圖形處理單元和高性能計算應用程序需要快速處理的數(shù)據(jù)量不斷激增,,高帶寬內(nèi)存 (HBM) 的銷量正在飆升。
目前HBM庫存已售罄,,這是由于對開發(fā)和改進 ChatGPT 等大型語言模型的大量努力和投資,。HBM 是存儲創(chuàng)建這些模型所需的大量數(shù)據(jù)的首選內(nèi)存,通過添加更多層來提高密度而進行的更改,,以及 SRAM 縮放的限制,,正在火上澆油。
Rambus 高級副總裁兼硅 IP 總經(jīng)理 Neeraj Paliwal 表示:“隨著大型語言模型 (LLM) 現(xiàn)在超過一萬億個參數(shù)并繼續(xù)增長,克服內(nèi)存帶寬和容量方面的瓶頸對于滿足 AI 訓練和推理的實時性能要求至關重要,。
至少這種勢頭在一定程度上是先進封裝的結(jié)果,,在許多情況下,與平面 SoC 相比,,先進封裝可以提供更短,、更快、更強大的數(shù)據(jù)路徑,?!邦I先的 [封裝] 正在大放異彩,”ASE 投資者關系主管 Ken Hsiang 在最近的財報電話會議上表示,?!盁o論是 AI、網(wǎng)絡還是其他正在開發(fā)中的產(chǎn)品,,對我們先進的互連技術及其各種形式的需求看起來都非常有希望,。”
這就是 HBM 恰好適合的地方,?!癏BM 架構(gòu)將掀起一股大浪潮 — 定制 HBM,”三星半導體副總裁兼 DRAM 產(chǎn)品規(guī)劃主管 Indong Kim 在最近的一次演講中說,?!癆I 基礎設施的普及需要極高的效率和橫向擴展能力,我們與主要客戶達成一致,,基于 HBM 的 AI 定制將是關鍵的一步,。PPA — 功耗、性能和面積是 AI 解決方案的關鍵,,定制將為 PPA 提供重要價值,。
過去,經(jīng)濟學嚴重限制了 HBM 的廣泛采用,。硅中介層價格昂貴,,在 FEOL 晶圓廠的存儲單元中處理大量硅通孔 (TSV) 也是如此?!半S著 HPC,、AI 和機器學習的需求,中介層的尺寸顯著增加,,”ASE 工程和技術營銷高級總監(jiān) Lihong Cao 說,。“高成本是 2.5D 硅中介層 TSV 技術的主要缺點,,”
雖然這限制了其對大眾市場的吸引力,,但對成本不太敏感的應用(例如數(shù)據(jù)中心)的需求仍然強勁,。HBM 的帶寬是任何其他內(nèi)存技術都無法比擬的,使用帶有微凸塊和 TSV 的硅中介層的 2.5D 集成已成為事實上的標準,。
但客戶希望獲得更好的性能,,這就是為什么 HBM 制造商正在考慮修改凸塊、凸塊下和模塑材料,,同時從 8 層到 12 層再到 16 層 DRAM 模塊能夠以閃電般的速度處理工藝數(shù)據(jù),。HBM3E(擴展)模塊的處理速度為每秒 4.8 TB(HBM3),在 HBM4 上有望達到 1 TB/s,。HBM4 實現(xiàn)這一目標的一種方法是將數(shù)據(jù)線數(shù)量從 HBM3 中的 1,024 條增加到 2,048 條,。
如今,有三家公司生產(chǎn) HBM 內(nèi)存模塊——美光,、三星和 SK 海力士,。盡管它們都使用硅通孔和微凸塊來可靠地提供其 DRAM 堆棧和隨附器件以集成到高級封裝中,但每家公司都采取了略有不同的方法來實現(xiàn)這一目標,。三星和美光在每個凸塊級別都加入了非導電膜 (NCF) 并使用熱壓縮 (TCB) 粘合,。與此同時,SK海力士正在繼續(xù)采用模塑底部填充物(MR-MUF)的倒裝芯片質(zhì)量回流焊工藝,,該工藝只需一個步驟即可將堆棧密封在高導電性模塑材料中,。
HBM 中的垂直連接是使用銅 TSV 和堆疊 DRAM 芯片之間的縮放微凸塊完成的。較低的緩沖器/邏輯芯片為每個 DRAM 提供數(shù)據(jù)路徑,??煽啃詥栴}在很大程度上取決于回流焊、粘合和模具背面研磨過程中的熱機械應力,。識別潛在問題需要測試高溫工作壽命 (HTOL),、溫度和濕度偏差 (THB) 以及溫度循環(huán)。結(jié)合預處理和無偏濕度和應力測試 (uHAST) 來確定級別之間的粘附水平,。此外,,還需要進行其他測試,以確保長期使用時沒有微凸塊,,例如短路,、金屬橋接或芯片和微凸塊之間的界面分層?;旌湘I合是替代 HBM4 代產(chǎn)品微凸塊的一種選擇,,但前提是無法滿足良率目標,。
△圖 1: 實現(xiàn)最大數(shù)據(jù)吞吐量的 HBM 堆棧,。資料來源:Rambus
正在開發(fā)的另一項進展涉及 3D DRAM 設備,它與 3D NAND 一樣,,可以將存儲單元側(cè)向轉(zhuǎn)動,?!?D DRAM 堆疊將大大降低功耗和面積,同時消除來自中介層的性能障礙,,”三星的 Kim 說,。“將內(nèi)存控制器從 SoC 重新定位到基礎芯片將啟用更多指定用于 AI 功能的邏輯空間,。我們堅信定制 HBM 將開啟性能和效率的新水平,。緊密集成的內(nèi)存和代工廠功能將為大規(guī)模部署提供更快的上市時間和最高的質(zhì)量。
△圖 2:三星的 DRAM 路線圖和創(chuàng)新,。來源:Semiconductor Engineering/MemCon 2024
這里的總體趨勢是將 logic 移近內(nèi)存,,以便在內(nèi)存中或附近進行更多處理,而不是將數(shù)據(jù)移動到一個或多個處理元素,。但從系統(tǒng)設計的角度來看,,這比聽起來要復雜得多。
“這是一個激動人心的時刻,。AI 如此炙手可熱,,HBM 就是一切。各種存儲器制造商都在與時間賽跑,,成為率先生產(chǎn)下一代 HBM 的公司,,“Lam Research 先進封裝技術總監(jiān) CheePing Lee 說。
下一代是 HBM4,,JEDEC 正忙于為這些模塊制定標準,。與此同時,JEDEC 將 HBM3E 標準的最大內(nèi)存模塊厚度從 720 毫米擴大到 775 毫米,,該標準仍然允許 40μm 厚的小芯片,。HBM 標準規(guī)定了每個引腳的傳輸速率、每個堆棧的最大芯片,、最大封裝容量(以 GB 為單位)和帶寬,。與這些標準相伴的設計和流程簡化有助于以更快的速度將 HBM 產(chǎn)品推向市場 - 現(xiàn)在每 2 年一次。即將推出的 HBM4 標準將定義 24 Gb 和 32 Gb 層,,以及 4 層,、8 層、12 層和 16 層 TSV 堆棧,。
HBM 的演變
高帶寬內(nèi)存的開發(fā)可以追溯到 2008 年的研發(fā)工作,,以解決與計算內(nèi)存相關的功耗和占用空間增加的問題?!爱敃r,,GDDR5 作為最高頻段的 DRAM,被限制為 28 GB/s(7 Gbps/引腳 x 32 個 I/O),,”三星的 Sungmock Ha 和同事說,。[1] “另一方面,,HBM Gen2 將 I/O 數(shù)量增加到 1,024 個,而不是將頻率降低到 2.4Gbps 以實現(xiàn) 307.2 GB/s,。從 HBM2E 開始,,采用 17nm 高 k 金屬柵極技術,達到每引腳 3.6Gbps 和 460.8 GB/s 帶寬?,F(xiàn)在,,HBM3 新推出了每引腳 6.4Gbps 的傳輸速率,具有 8 到 12 個芯片堆棧,,與上一代相比,,帶寬提高了約 2 倍。
這只是故事的一部分,。HBM 一直在向加工靠攏以提高性能,,這為多種加工選擇打開了大門。
Mass Reflow 是最成熟和最便宜的焊接選擇,?!耙话銇碚f,只要有可能,,就會使用大規(guī)?;亓骱福驗榘惭b的資本支出很大,,而且成本相對較低,,”Amkor 工程和技術營銷副總裁 Curtis Zwenger 說?!癕ass Reflow 繼續(xù)為將裸片和高級模塊連接到封裝基板提供了一種經(jīng)濟高效的方法,。然而,隨著性能期望的提高,,以及 HI 模塊和先進基板的解決方案空間,,凈效應之一是 HI(異構(gòu)集成)模塊和基板的翹曲量增加。熱壓縮和 R-LAB(反向激光輔助鍵合)都是對傳統(tǒng) MR 的工藝改進,,可以更好地處理 HI 模塊級別和封裝級別的更高翹曲,。
微凸塊金屬化經(jīng)過優(yōu)化,以提高可靠性,。如果微凸塊和焊盤之間的互連在細間距應用中使用帶有助焊劑和底部填充的常規(guī)回流焊工藝,,則底部填充空隙滯留和剩余的助焊劑殘留物會導致凸塊之間滯留。為了解決這些問題,,預涂非導電薄膜 (NCF) 可以在一步粘合工藝中取代助焊劑,、底部填充和粘合工藝,而不會捕獲底部填充空隙和剩余的助焊劑殘留物,。
三星在其 12 層 HBM3E 中使用了帶有熱壓縮鍵合的薄 NCF,,據(jù)稱其具有與 8 層堆棧相同的高度規(guī)格,帶寬高達 1,280 GB/s,,容量為 36 GB,。NCF 本質(zhì)上是帶有固化劑和其他添加劑的環(huán)氧樹脂。該技術有望帶來更多好處,,尤其是在更高的堆棧中,,因為該行業(yè)正在尋求減輕更薄芯片帶來的芯片翹曲。三星每一代都會擴大其 NCF 材料的厚度,。訣竅是完全填充凸塊周圍的底部填充區(qū)域(為凸塊提供緩沖),,使焊料流動,不留下空隙,。
SK 海力士在其 HBM2E 一代產(chǎn)品中首次從 NCF-TCB 轉(zhuǎn)換為大規(guī)?;亓鞒尚偷撞刻畛洹щ娔>卟牧鲜桥c其材料供應商合作開發(fā)的,,可能采用專有的注射方法,。該公司使用其質(zhì)量回流焊工藝展示了更低的晶體管結(jié)溫。
HBM 中的 DRAM 堆棧放置在緩沖芯片上,,隨著公司努力在該基礎芯片上實現(xiàn)更多邏輯以降低功耗,,同時還將每個 DRAM 內(nèi)核連接到處理器,緩沖芯片的功能正在不斷增長,。每個晶片都被拾取并放置在載體晶圓上,,焊料經(jīng)過回流焊,最終堆棧成型,,經(jīng)過背面研磨,、清潔,然后切割,。臺積電和 SK 海力士宣布,,該代工廠未來將向這家存儲器制造商供應基礎芯片。
“人們對邏輯上的內(nèi)存非常感興趣,,”Synopsys 的研發(fā)總監(jiān) Sutirtha Kabir 說,。“記憶邏輯是過去研究的東西,,這也不能排除,。但這些都將在功率和散熱方面面臨挑戰(zhàn),而這些挑戰(zhàn)是相輔相成的,。直接影響將是熱誘導應力,,而不僅僅是裝配體級應力。而且你很可能會使用混合鍵合,,或者非常細間距的鍵合,,那么熱問題對那里的機械應力有什么影響呢,?
來自該基本邏輯的熱量也會在 logic 和 DRAM 芯片 1 之間的接口處產(chǎn)生熱機械應力。由于 HBM 模塊靠近處理器放置,,因此來自邏輯的熱量不可避免地會散發(fā)到存儲器中,。“我們的數(shù)據(jù)顯示,,當主機芯片溫度升高 2°C 時,,HBM 端的結(jié)果至少會增加 5°C 到 10°C,”SK 海力士高級技術經(jīng)理 Younsoo Kim 說,。
其他問題需要通過 NCF TCB 流程解決,。在高溫和高壓下發(fā)生的熱壓粘合會引起 2.5D 裝配問題,例如凸塊和底層鎳焊盤之間的金屬橋接或界面分層,。TCB 是一種低通量工藝,。
對于任何多小芯片堆棧,翹曲問題都與飾面材料的膨脹系數(shù) (TCE) 不匹配有關,,這會在加工和使用過程中隨著溫度循環(huán)而產(chǎn)生應力,。壓力往往集中在痛點上 — 基礎芯片和第一個內(nèi)存芯片之間,以及微凸塊水平,。具有仿真功能的產(chǎn)品模型可以幫助解決此類問題,,但有時這些問題的全部范圍只能在實際產(chǎn)品上觀察到。
結(jié)論
AI 應用依賴于多個 DRAM 芯片,、TSV,、一個可以包含內(nèi)存驅(qū)動器的基本邏輯芯片以及多達 100 個去耦電容器的成功組裝和封裝。與圖形處理器,、CPU 或其他處理器的結(jié)合是一個精心編排的組裝,,其中所有移動部件必須齊心協(xié)力地組合在一起,以形成高產(chǎn)量和可靠的系統(tǒng),。
隨著行業(yè)從 HBM3 過渡到 HBM4,,制造高水平 DRAM 堆棧的工藝只會變得更加復雜。但供應商和芯片制造商也在密切關注低成本的替代方案,,以進一步提高這些極快且必要的存儲芯片堆棧的采用率,。