雖然英特爾正在努力使其主要制造工藝技術(shù)走上正軌,,但它也把同樣多的時間和精力投入到了研究和開發(fā)芯片生態(tài)系統(tǒng)的其他部分,以及如何將其全部連接起來,。在與英特爾工藝和產(chǎn)品團(tuán)隊(duì)的會議上,,英特爾確認(rèn)了一些有關(guān)公司如何利用即將推出的高端顯卡產(chǎn)品推動新技術(shù)發(fā)展的細(xì)節(jié)。
深入了解英特爾的chiplet和封裝戰(zhàn)略
在上周同英特爾的會議中,,我們采訪了英特爾處理和產(chǎn)品集成總監(jiān)Ramune Nagisetty,,討論了英特爾在chiplet和封裝技術(shù)方面的戰(zhàn)略。Ramune在英特爾工作了20多年,,研究領(lǐng)域包括:65nm晶體管定義,、英特爾技術(shù)戰(zhàn)略和可穿戴設(shè)備實(shí)驗(yàn)室,最近還負(fù)責(zé)英特爾用于產(chǎn)品集成的chiplet戰(zhàn)略,。Ramune關(guān)注的是chiplet和封裝本身的藝術(shù),,而不是它所涉及的具體技術(shù),這是一次令人振奮的討論,。
圍繞chiplet的故事將成為下一代半導(dǎo)體市場的基石,,能夠?yàn)樘囟ǖ娜蝿?wù)提供更小的芯片,并將它們連接在一起,。chiplet構(gòu)成了英特爾目前Stratix 10 FPGA產(chǎn)品線的基礎(chǔ),,以及未來的英特爾Agilex,消費(fèi)類產(chǎn)品Kaby Lake G,,以及用于高速存儲器HBM chiplet產(chǎn)品的基礎(chǔ),。英特爾將會如何整合自己的chiplet?此外,,英特爾確認(rèn)正在努力將其AI產(chǎn)品組合遷移到chiplet形態(tài),,以及其他第三方IP,這些將是未來的重要戰(zhàn)略,。然而,,連接chiplet的藝術(shù)在于封裝。英特爾擁有自己的幾項(xiàng)技術(shù),。
EMIB,、Foveros、Interposers:連接數(shù)據(jù)
英特爾的嵌入式芯片互連橋“EMIB”幾年來一直是一個熱門話題,。由于某些高性能chiplet設(shè)計(jì)需要比傳統(tǒng)有機(jī)芯片封裝所能支持的多得多的高帶寬鏈接,,因此需要更奇特的方法來建立這些密集的連接,。這里的“蠻力”解決方案是silicon interposer,本質(zhì)上是把芯片堆在一個傻大笨粗的裸片上,,這個裸片僅用于連線。
然而,,對于EMIB,,英特爾并沒有使用full silicon interposer,而是在襯底上安裝了一個很小的嵌入式silicon connection,,允許主芯片和輔助chiplet以高帶寬和短距離連接在一起,。該技術(shù)目前在英特爾的FPGA中,將FPGA連接到內(nèi)存或收發(fā)器或第三方IP,,或用在Kaby Lake-G中,,將Radeon GPU連接到on-package高帶寬內(nèi)存。
英特爾還在其FPGA產(chǎn)品中使用了full interposers,,將其用作將其大型FPGA芯片連接到高帶寬內(nèi)存的更簡單,、更快速的方式。英特爾表示,,雖然大型interposers是全能的,,但英特爾認(rèn)為,EMIB設(shè)計(jì)比大型interposers便宜得多,,而且提供了更好的信號完整性,,允許更高的帶寬。在與英特爾的討論中,,有人指出,,大型interposers可能最適用于可以利用有源網(wǎng)絡(luò)的強(qiáng)大芯片,但是HBM在interposer上是多余的,,最好通過EMIB使用,。
與interposer技術(shù)類似,F(xiàn)overos是一種芯片堆疊技術(shù),,允許不同芯片通過TSV(through silicon vias,,chip-to-chip垂直連接的通孔)連接,這樣英特爾就可以將IO,、內(nèi)核和板載LLC/DRAM作為單獨(dú)的裸片制造,,并將它們連接在一起。在這種情況下,,英特爾將IO裸片(堆疊底部的裸片)視為一種“active interposer”,,可以處理頂部裸片之間的路由數(shù)據(jù)。最終,,多裸片策略的重大挑戰(zhàn)在于所用裸片的熱約束(到目前為止,,英特爾已經(jīng)在12x12mm封裝中演示了1+4核心解決方案,稱為Lakefield),以及為TSV連接對齊已確認(rèn)為良好的裸片,。
論策略:英特爾的工程方法
英特爾顯然致力于其目前與FPGA相關(guān)的chiplet策略,,將英特爾其他方面的技術(shù)(如AI)引入到平臺中,并開發(fā)EMIB等功能,。Ramune明確表示,,如果英特爾的客戶在FPGA上使用他們自己的第三方IP,他們要么自己提供具有EMIB功能的chiplet,,要么與英特爾的代工業(yè)務(wù)合作來實(shí)現(xiàn)它們,,隨后,封裝將完全在英特爾完成,。雖然英特爾已向開放市場提供連接標(biāo)準(zhǔn),,但英特爾使用的特定EMIB技術(shù)被指定為產(chǎn)品差異化,因此客戶必須與英特爾合作才能在封裝產(chǎn)品中看到他們的IP,。
當(dāng)談到像Foveros這樣的芯片堆疊技術(shù)時,,Ramune重申了正在開發(fā)的技術(shù)的一些關(guān)鍵領(lǐng)域,例如熱限制,、裸片尺寸,,以及高效堆疊。其中一個關(guān)鍵變化被描述為確保在堆疊裸片時使用已知的良好裸片(即已通過屈服測試的裸片),,這需要在組裝之前進(jìn)行裸片測試,。英特爾之前的一些開發(fā)流程需要進(jìn)行調(diào)整,以便為Foveros和Lakefield等產(chǎn)品以及未來的其他產(chǎn)品提供幫助,。Ramune確實(shí)聲明,,英特爾還沒有專門研究用于Foveros芯片的先進(jìn)冷卻方法,但他確認(rèn),,預(yù)計(jì)在未來幾年內(nèi),,無論是在內(nèi)部還是外部,都會在這一領(lǐng)域開展工作,。
在討論未來的產(chǎn)品時,,我們的談話中確實(shí)出現(xiàn)了一條批評意見。在去年12月的英特爾架構(gòu)日上,,我們可能錯過了這一點(diǎn),,但會上重申,英特爾將把EMIB和Foveros都引入到未來圖形驅(qū)動技術(shù)的設(shè)計(jì)中,。正如人們可能想象的那樣,,對于規(guī)模、熱性能,、互連集成或與之相關(guān)的任何東西,,都沒有提供進(jìn)一步的評論,,但很明顯,英特爾正在研究多芯片圖形驅(qū)動技術(shù),。有人可能會憤世嫉俗地表示英特爾今天已經(jīng)在圖形驅(qū)動中使用EMIB和Foveros:Kaby G使用EMIB, Lakefield在Foveros上集成了Gen11核顯,。然而,這是兩種不同的產(chǎn)品,,我們從對話中得出的結(jié)論是,,這兩種技術(shù)在未來都可能出現(xiàn)在同一種產(chǎn)品上。
這可以采取許多不同的形式,。由EMIB連接到計(jì)算機(jī)芯片的中央控制芯片,使用Foveros增加每個控制芯片的板載緩存量,。計(jì)算芯片可以被EMIB連接,。控制芯片可能需要一個中央DRAM存儲庫,,無論是通過Foveros還是通過EMIB,。這些技術(shù)就像用樂高積木制造一艘宇宙飛船,一個摩天輪,,或者一個GPU,。
將GPU拆分成chiplet并不是新概念,但它是一個難以想象的概念,。圍繞GPU處理數(shù)據(jù)的關(guān)鍵領(lǐng)域之一是帶寬,,另一個是延遲。在圖形驅(qū)動場景中,,大家競相獲得較低的幀渲染時間,,最好低于16.67毫秒,從而允許60 Hz的刷新率在每個刷新周期中插入一個完整的顯示幀,。隨著可變刷新顯示的出現(xiàn),,這種情況有所改變,但是顯卡的主要市場(游戲玩家)嚴(yán)重依賴于其圖形驅(qū)動的快速刷新率和高幀率,。對于多芯片模塊,,制造商必須考慮數(shù)據(jù)從開始到結(jié)束在芯片之間必須執(zhí)行的跳數(shù)——所需的數(shù)據(jù)是直接連接到計(jì)算芯片,還是必須從設(shè)計(jì)的另一端交叉,?內(nèi)存是直接堆疊,,還是封裝內(nèi)連接?對于不同的內(nèi)存域,,數(shù)據(jù)能否通過數(shù)學(xué)運(yùn)算保持其并發(fā)性,?是否存在中央管理芯片,或者每個計(jì)算chiplet管理它們自己的時序模式,?與計(jì)算單元相比,,每個chiplet設(shè)計(jì)有多少來自連接單元,?
最終,如果這種設(shè)計(jì)能夠在性能,、成本或功耗這三者的至少兩個方面有競爭力,,那么這種設(shè)計(jì)才會勝出。我們已經(jīng)知道,,由于額外的連接性,,多芯片環(huán)境通常需要比單片設(shè)計(jì)更高的功率預(yù)算,正如市場上的多芯片CPU選項(xiàng)所示,,所以chiplet不得不利用較小的工藝節(jié)點(diǎn)來彌補(bǔ)這種缺點(diǎn),。幸運(yùn)的是,chiplet更容易在小的工藝節(jié)點(diǎn)上制造,,這使得它比大型整體設(shè)計(jì)節(jié)省了潛在的成本,。性能取決于架構(gòu),既包括原始計(jì)算,,也包括芯片之間的互連,。
英偉達(dá)MCM GPU(來源ISC '17)
我們已經(jīng)看到一些研究論文討論了多芯片圖形驅(qū)動解決方案的概念,例如英偉達(dá)的這個方案,,你可以打賭,,所有從事高性能圖形驅(qū)動和高性能計(jì)算的人都在關(guān)注它。鑒于計(jì)算平臺的限制比圖形驅(qū)動平臺更少,,我們可能會首先看到多芯片解決方案,。
我們討論的另一個要素是重申了英特爾首席工程官、技術(shù),、系統(tǒng),、架構(gòu)和客戶集團(tuán)總裁Murthy Renduchintala博士先前提出的意見。Ramune表示,,芯片技術(shù)和封裝技術(shù)旨在與英特爾目前的制造流程異步運(yùn)行,。這里的最終目標(biāo)是將技術(shù)應(yīng)用于當(dāng)前可用的流程,而不是固定開發(fā)并將開發(fā)綁定到單一節(jié)點(diǎn)策略,。正如我們所看到的,,英特爾的10nm開發(fā)已經(jīng)取得了進(jìn)展,這種產(chǎn)品和技術(shù)的分離將是英特爾未來的重要一步,。
我們所知道的英特爾Xe GPU生產(chǎn)線
英特爾已經(jīng)聲明,,在其未來的Ice Lake消費(fèi)級處理器與Sunny Cove微架構(gòu)配合使用的Gen11核顯之后,我們將看到其Xe圖形驅(qū)動產(chǎn)品進(jìn)入市場,。Xe將從集成顯卡到企業(yè)計(jì)算加速,,覆蓋整個消費(fèi)級顯卡和游戲市場。
英特爾當(dāng)時聲稱Xe系列將基于兩種不同的架構(gòu),,其中一種稱為Arctic Sound,,另一種尚未公開,。我們的目標(biāo)是為Xe創(chuàng)建一個平臺,將硬件,、軟件,、驅(qū)動程序、平臺和API都整合到一個任務(wù)中,,英特爾稱之為“The Odyssey”,。推出EMIB和Foveros技術(shù)作為Xe戰(zhàn)略的一部分似乎是英特爾計(jì)劃的重要組成部分,靜觀它的發(fā)展將是一件有趣的事情,。
超越英特爾的核心技術(shù)
英特爾最近對圖形驅(qū)動技術(shù)的推動是眾所周知的,。該公司聘請了來自AMD的Raja Koduri,來自Tesla的Jim Keller,,來自AMD的Chris Hook,,以及一些知名技術(shù)記者和AMD的GPU營銷經(jīng)理,以幫助開發(fā)其獨(dú)立顯卡產(chǎn)品,。就在幾天前,英特爾還沒有完成他們的招聘狂潮,,聘請了GlobalFoundries的企業(yè)公關(guān)總監(jiān),,協(xié)助其制造流程和封裝技術(shù)的公關(guān)。雖然10nm正在修復(fù),,但英特爾顯然正試圖吸引人們對其新產(chǎn)品領(lǐng)域和新功能的關(guān)注——我們在12月的英特爾技術(shù)峰會上看到了新的封裝技術(shù)和核心配置,,以及最近的數(shù)據(jù)中心產(chǎn)品的發(fā)布會上的除了CPU之外的一系列企業(yè)產(chǎn)品。在英特爾開發(fā)chiplet策略和封裝實(shí)現(xiàn)的同時,,我們應(yīng)該期望專業(yè)知識能夠滲透到英特爾的產(chǎn)品組合中,,幫助這些產(chǎn)品獲得優(yōu)勢。Lakefield就是一個重要的例子,,它在一個微型芯片中提供了Core,、Atom和Gen 11功能,并且功耗不足7W,,適用于小型器件,。
圖:由Foveros構(gòu)建的Lakefield
非常感謝Ramune Nagisetty和她的團(tuán)隊(duì)上周的會議,以及對我們之前沒有接觸過的英特爾產(chǎn)品的一些見解,。我很高興英特爾開始在這類新領(lǐng)域開辟更多的業(yè)務(wù),,并希望在未來可以繼續(xù)發(fā)展。