芯東西8月20日?qǐng)?bào)道,,在2021年英特爾架構(gòu)日上,英特爾公司高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理Raja Koduri同多位英特爾架構(gòu)師一起,,全面介紹了在CPU,、GPU及IPU架構(gòu)方面的重大改變與創(chuàng)新,。
今年以來(lái),,英特爾公布了相當(dāng)多的新計(jì)劃,,包括IDM 2.0戰(zhàn)略、全新制程節(jié)點(diǎn)方案,、獨(dú)顯等等,,如今,我們終于能從一系列新品上直觀地看見(jiàn)這些新計(jì)劃方案的組合,。
首先,,英特爾首個(gè)性能混合架構(gòu)Alder Lake將集成新公布的兩款全新x86內(nèi)核架構(gòu)——能效核與性能核,并且是基于英特爾新命名技術(shù)節(jié)點(diǎn)Intel 7的首款產(chǎn)品,。它還采用了新的智能英特爾硬件線程調(diào)度器來(lái)實(shí)現(xiàn)兩款x86的無(wú)縫協(xié)同,。
面向數(shù)據(jù)中心,英特爾公布下一代英特爾至強(qiáng)可擴(kuò)展處理器Sapphire Rapids,,這被稱作代表了十多年來(lái)行業(yè)最大的數(shù)據(jù)中心平臺(tái)進(jìn)步,。
另外,英特爾也講解了其備受矚目的全新獨(dú)立游戲GPU微架構(gòu)Xe HPG微架構(gòu),,基于該微架構(gòu),、采用臺(tái)積電N6節(jié)點(diǎn)制造的產(chǎn)品Alchemist系列SoC將于明年第一季度上市,,這將是英特爾第一款基于臺(tái)積電N6工藝的GPU,。
還有基于Xe HPC微架構(gòu)的數(shù)據(jù)中心GPU架構(gòu)Ponte Vecchio,它具備英特爾迄今為止最高的計(jì)算密度,,例如A0芯片可提供超過(guò)45TFLOPS的FP32吞吐量,、超過(guò)5TBps的持續(xù)內(nèi)存結(jié)構(gòu)帶寬和超過(guò)2TBps的連接帶寬。
最后,,圍繞全新基礎(chǔ)設(shè)施處理器(IPU),,英特爾展示了其首款專用ASIC IPU Mount Evans和基于FPGA的IPU參考平臺(tái)Oak Springs Canyon。
英特爾公司高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理Raja Koduri認(rèn)為,,架構(gòu)是硬件和軟件的‘煉金術(shù)’,,今年公布的這些新突破展示了架構(gòu)將如何滿足對(duì)于更高計(jì)算性能的迫切需求。
發(fā)布的顯卡新品中,,我們看到英特爾基本采用臺(tái)積電N6和N5工藝技術(shù)進(jìn)行代工生產(chǎn),,這正是今年3月公布的英特爾IDM 2.0戰(zhàn)略的直接體現(xiàn)。
英特爾公司企業(yè)規(guī)劃事業(yè)部高級(jí)副總裁Stuart Pann稱,,目前英特爾20%的產(chǎn)品是交由外部代工廠生產(chǎn),,英特爾是臺(tái)積電的頂級(jí)客戶之一。目前,,為英特爾獨(dú)立顯卡產(chǎn)品采用代工廠的制程節(jié)點(diǎn),,是恰當(dāng)之選,。
他透露說(shuō),未來(lái)幾年,,外部代工生產(chǎn)的芯片單元會(huì)在英特爾的模塊化產(chǎn)品中扮演更重要的角色,,包括采用先進(jìn)制程節(jié)點(diǎn)的核心計(jì)算功能,以支持客戶端,、數(shù)據(jù)中心和其他領(lǐng)域的新興工作負(fù)載,。
01.
兩款全新x86內(nèi)核
性能核AI加速提升約8倍
英特爾首先介紹了能效核和性能核,顧名思義,,前者主打高能效,,后者主打高性能。
1,、能效核:能耗不到Skylake的40%
能效核曾用代號(hào)“Gracemont”,,是一個(gè)高度可擴(kuò)展的x86微架構(gòu),旨在提高吞吐量效率并提供可擴(kuò)展多線程性能,,能滿足客戶從低功耗移動(dòng)應(yīng)用到多核微服務(wù)的全方位計(jì)算需求,。
借助多種技術(shù)進(jìn)步,能效核可以在不耗費(fèi)處理器功率的情況下對(duì)工作負(fù)載進(jìn)行優(yōu)先級(jí)排序,,并通過(guò)每周期指令數(shù)(IPC)改進(jìn)功能直接提高性能,。
與英特爾迄今最多產(chǎn)的CPU微架構(gòu)Skylake相比,在提供同樣單線程性能時(shí),,能效核的功耗不到Skylake的40%,。與運(yùn)行4個(gè)線程的兩個(gè)Skylake內(nèi)核相比,4個(gè)能效核在吞吐量性能提升80%的同時(shí),,功耗更低,。
2、性能核:英特爾迄今性能最高的CPU內(nèi)核
性能核曾用代號(hào)“Golden Cove”,,是英特爾迄今性能最高的CPU內(nèi)核,,并且在CPU架構(gòu)性能方面實(shí)現(xiàn)階梯式提升,展現(xiàn)出更高的并行性和執(zhí)行并行性,,還減少時(shí)延,,幫助支持大數(shù)據(jù)集和大型代碼體積的應(yīng)用程序。
它擁有更寬,、更深,、更智能的架構(gòu):解碼器由4個(gè)增至6個(gè),6μop緩存增至8μop,,分配由5路增至6路,,執(zhí)行端口由10個(gè)增至12個(gè);物理寄存器文件更大,,擁有512條目的重排序緩沖區(qū),;提高了分支預(yù)測(cè)準(zhǔn)確度,,降低了有效的一級(jí)時(shí)延,優(yōu)化了二級(jí)的全寫(xiě)入預(yù)測(cè)帶寬,。
與第11代酷睿架構(gòu)(Cypress Cove內(nèi)核)相比,,相同頻率下,性能核在一系列工作負(fù)載上平均提升了約19%,。此外,,性能核搭載了新的英特爾高級(jí)矩陣擴(kuò)展(AMX)來(lái)執(zhí)行矩陣乘法運(yùn)算,可將AI加速提升約8倍,,用于學(xué)習(xí)推理和訓(xùn)練,。這是為軟件易用性而設(shè)計(jì),利用了x86編程模型,。
02.
硬件線程調(diào)度器:讓兩款x86核無(wú)縫協(xié)作
為了確保性能核,、能效核與操作系統(tǒng)無(wú)縫協(xié)作,英特爾開(kāi)發(fā)了一種改進(jìn)的調(diào)度技術(shù),,即英特爾硬件線程調(diào)度器,。
它具有動(dòng)態(tài)性和自適應(yīng)性,會(huì)根據(jù)實(shí)時(shí)的計(jì)算需求,,動(dòng)態(tài),、智能地調(diào)整調(diào)度決策,從而優(yōu)化系統(tǒng)以在真實(shí)場(chǎng)景中實(shí)現(xiàn)更高的性能和效率,。
硬件線程調(diào)度器直接內(nèi)置于硬件中,,可提供對(duì)內(nèi)核狀態(tài)和線程指令混合比的低級(jí)遙測(cè),讓操作系統(tǒng)能夠在恰當(dāng)?shù)臅r(shí)間將合適的線程放置在合適的內(nèi)核上,,并且更精細(xì)地監(jiān)控指令組合,、每?jī)?nèi)核當(dāng)前狀態(tài)以及相關(guān)的微架構(gòu)遙測(cè),,從而幫助操作系統(tǒng)做出更智能的調(diào)度決策,。
此外,硬件線程調(diào)度器通過(guò)與微軟合作,,優(yōu)化自身在Windows 11上的極佳性能,;并擴(kuò)展PowerThrottling API,使開(kāi)發(fā)人員能為其線程明確指定服務(wù)質(zhì)量屬性,;還應(yīng)用了全新EcoQoS分類,,該分類可讓調(diào)度程序獲悉線程是否更傾向于能效(此類線程會(huì)被調(diào)度到能效核)。
03.
首個(gè)混合架構(gòu)Alder Lake:采用Intel 7制程,,支持從筆記本到臺(tái)式機(jī)
英特爾SoC客戶端架構(gòu)Alder Lake重構(gòu)了多核架構(gòu),,基于Intel 7制程工藝打造,是英特爾首個(gè)搭載全新英特爾硬件線程調(diào)度器的性能混合架構(gòu),。
它采用了單一,、高度可擴(kuò)展的SoC架構(gòu),,首次集成了能效核和性能核,支持最新內(nèi)存和最快I/O,,功率范圍從9W到125W,,適用于從超便攜式筆記本到發(fā)燒級(jí)、商用臺(tái)式機(jī)的所有客戶端設(shè)備,,基于Alder Lake的產(chǎn)品將在今年開(kāi)始出貨,。
Alder Lake提供三類產(chǎn)品設(shè)計(jì)形態(tài):
(1)高性能,、雙芯片,、插座式的臺(tái)式機(jī)處理器,具有領(lǐng)先性能和能效,,擁有8個(gè)性能核,、8個(gè)能效核,支持高規(guī)格的內(nèi)存和I/O,。
?。?)高性能筆記本處理器,擁有6個(gè)性能核,、8個(gè)能效核,,采用BGA封裝,加入圖像單元,,采用更大的Xe顯卡和Thunderbolt 4連接,。
(3)輕薄,、低功耗的筆記本處理器,,擁有2個(gè)性能核、8個(gè)效能核,,采用高密度的封裝,,配置優(yōu)化的I/O和電能傳輸。
要構(gòu)建如此高度可擴(kuò)展架構(gòu),,需在不影響功率的情況下滿足計(jì)算和I/O代理對(duì)帶寬的需求,。
英特爾也展示了臺(tái)式機(jī)處理器的I/O信息,總共有最多8個(gè)性能核,、8個(gè)效能核,、24個(gè)線程和30MB non-inclusive LL緩存。
英特爾設(shè)計(jì)了三種獨(dú)立的內(nèi)部總線,,每一種都采用基于需求的實(shí)時(shí)啟發(fā)式后處理方式:
?。?)計(jì)算內(nèi)部總線可支持高達(dá)1000GBps,即每個(gè)內(nèi)核或每集群100GBps,通過(guò)最后一級(jí)緩存將內(nèi)核和顯卡連接到內(nèi)存:具有高動(dòng)態(tài)頻率范圍,,并且能夠動(dòng)態(tài)選擇數(shù)據(jù)路徑,,根據(jù)實(shí)際總線結(jié)構(gòu)負(fù)載而進(jìn)行時(shí)延和帶寬優(yōu)化;根據(jù)利用率動(dòng)態(tài)調(diào)整最后一級(jí)緩存策略,,也就是“包含”或“不包含”,。
(2)I/O內(nèi)部總線支持可高達(dá)64GBps,,連接不同類型的I/O和內(nèi)部設(shè)備,,能在不干擾設(shè)備正常運(yùn)行的情況下無(wú)縫改變速度,選擇內(nèi)部總線速度來(lái)匹配所需的數(shù)據(jù)傳輸量,。
?。?)內(nèi)存結(jié)構(gòu)可提供高達(dá)204GBps的數(shù)據(jù),并動(dòng)態(tài)擴(kuò)展其總線寬度和速度,,以支持高帶寬,、低時(shí)延或低功耗的多個(gè)操作點(diǎn)。
04.
基于Intel 7節(jié)點(diǎn),,性能封頂?shù)臄?shù)據(jù)中心SoC
Sapphire Rapids處理器基于Intel 7制程工藝技術(shù),,采用英特爾性能核與全新加速器引擎,被稱作樹(shù)立了下一代數(shù)據(jù)中心處理器的標(biāo)準(zhǔn),。
其核心是一個(gè)分區(qū)塊,、模塊化的SoC架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù)和先進(jìn)網(wǎng)格架構(gòu),,具有顯著的可擴(kuò)展性,,同時(shí)保持單晶片CPU接口優(yōu)勢(shì)。
該處理器提供了一個(gè)單一,、平衡的統(tǒng)一內(nèi)存訪問(wèn)架構(gòu),,每個(gè)線程均可完全訪問(wèn)緩存、內(nèi)存和I/O等所有單元上的全部資源,,由此實(shí)現(xiàn)整個(gè)SoC具有一致的低時(shí)延和高橫向帶寬,。
Sapphire Rapids提供多種數(shù)據(jù)中心相關(guān)加速器,包括新的指令集架構(gòu)和集成IP:
?。?)英特爾加速器接口架構(gòu)指令集(AIA):支持對(duì)加速器和設(shè)備的有效調(diào)度,、同步和信號(hào)傳遞,。
?。?)英特爾高級(jí)矩陣擴(kuò)展(AMX):可為深度學(xué)習(xí)算法核心的Tensor處理提供大幅加速。其可以在每個(gè)周期內(nèi)進(jìn)行2000次 INT8運(yùn)算和1000次 BFP16運(yùn)算,,大幅提升計(jì)算能力,。
使用早期的Sapphire Rapids芯片,與使用英特爾AVX-512 VNNI指令的相同微基準(zhǔn)測(cè)試版本相比,使用新的英特爾AMX指令集擴(kuò)展優(yōu)化的內(nèi)部矩陣乘法微基準(zhǔn)測(cè)試的運(yùn)行速度提高了7倍以上,,顯著提升AI工作負(fù)載中的訓(xùn)練和推理性能,。
(3)英特爾數(shù)據(jù)流加速器(DSA):旨在卸載最常見(jiàn)的數(shù)據(jù)移動(dòng)任務(wù),,改進(jìn)了對(duì)這些開(kāi)銷任務(wù)的處理,,以提供更高的整體工作負(fù)載性能,并可以在CPU,、內(nèi)存和緩存以及所有附加的內(nèi)存,、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備之間移動(dòng)數(shù)據(jù)。
這些架構(gòu)上的改進(jìn)使Sapphire Rapids能為云,、數(shù)據(jù)中心,、網(wǎng)絡(luò)和智能邊緣中廣泛的工作負(fù)載和部署模式提供開(kāi)箱即用的性能。
05.
獨(dú)立游戲顯卡微架構(gòu)Xe HPG與其首款SoC
Xe HPG是一款全新的獨(dú)立顯卡微架構(gòu),,專為游戲和創(chuàng)作工作負(fù)載提供發(fā)燒友級(jí)別的性能,。
基于Xe HPG架構(gòu)的英特爾客戶端顯卡路線圖包括Alchemist(此前稱之為DG2)、Battlemage,、Celestial和Druid系列SoC,。
Alchemist系列SoC基于Xe HPG微架構(gòu),采用臺(tái)積電N6工藝,,首批產(chǎn)品將于2022年第一季度上市,,并采用新品牌名英特爾銳炫(Intel Arc)。
這款消費(fèi)級(jí)GPU預(yù)計(jì)將與采用臺(tái)積電N7工藝的AMD Navi 2x顯卡和采用三星8LPP工藝的英偉達(dá)Ampere GA10x顯卡進(jìn)行較量,。
基于Xe HPG微架構(gòu)的Alchemist SoC通過(guò)架構(gòu),、邏輯設(shè)計(jì)、電路設(shè)計(jì),、制程工藝技術(shù)和軟件優(yōu)化,,相比Xe LP微架構(gòu)實(shí)現(xiàn)1.5倍的頻率提升和1.5倍的每瓦性能提升。
此外,,Alchemist SoC還擁有多達(dá)8個(gè)具有固定功能的渲染切片,,專為DirectX 12 Ultimate設(shè)計(jì);并支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光線追蹤單元,。
聚焦到微架構(gòu)Xe HPG,,它采用全新Xe內(nèi)核,聚焦計(jì)算,、可編程,、可擴(kuò)展,全面支持DirectX 12 Ultimate,。
Xe內(nèi)核中的矩陣引擎(Xe Matrix eXtensions,,XMX)能夠加速AI工作負(fù)載,,比如XeSS,是一項(xiàng)全新升頻技術(shù)(upscaling technology),,可以實(shí)現(xiàn)高性能,、高保真游戲體驗(yàn)。
XeSS能讓那些原本只能在低畫(huà)質(zhì)設(shè)置或低分辨率下玩的游戲,,也能在更高畫(huà)質(zhì)設(shè)置和分辨率下順利運(yùn)行,。該技術(shù)利用XMX AI加速,用深度學(xué)習(xí)來(lái)合成非常接近原生高分辨率渲染質(zhì)量的圖像,,可提供高性能和高畫(huà)質(zhì),,同時(shí)性能提升高達(dá)2倍。
XeSS憑借DP4a指令,,在包括集成顯卡在內(nèi)的各種硬件上提供基于AI的超級(jí)采樣,。多家早期的游戲開(kāi)發(fā)商已開(kāi)始使用XeSS,本月將向獨(dú)立軟件供應(yīng)商(ISV)提供XMX初始版本的SDK,,DP4a版本將于今年晚些時(shí)候推出,。
英特爾顯卡設(shè)計(jì)的核心是軟件優(yōu)先。英特爾正與開(kāi)發(fā)人員密切合作進(jìn)行Xe微架構(gòu)的設(shè)計(jì),,力求與行業(yè)標(biāo)準(zhǔn)保持一致,;通過(guò)在一個(gè)統(tǒng)一的代碼庫(kù)中涵蓋集成和獨(dú)立顯卡產(chǎn)品的驅(qū)動(dòng)設(shè)計(jì),英特爾的第一款高性能游戲顯卡將性能和質(zhì)量放在首位,。
英特爾已完成了內(nèi)核顯卡驅(qū)動(dòng)程序組件的重新架構(gòu),,特別是內(nèi)存管理器和編譯器,從而將計(jì)算密集型游戲的吞吐量提高了15%(至多80%),,游戲加載時(shí)間縮短了25%,。
06.
1000億晶體管!
英特爾最復(fù)雜SoC與Xe HPC
Ponte Vecchio是英特爾迄今最復(fù)雜的SoC,,包含1000億個(gè)晶體管,,提供領(lǐng)先的浮點(diǎn)運(yùn)算和計(jì)算密度,以加速AI,、HPC和高級(jí)分析工作負(fù)載,。
這款SoC也是其踐行IDM 2.0戰(zhàn)略的絕佳示例,它基于Xe HPC微架構(gòu),,采用多種先進(jìn)的半導(dǎo)體制程工藝,、英特爾變革性的EMIB技術(shù)以及Foveros 3D封裝技術(shù)。
Ponte Vecchio已走下生產(chǎn)線進(jìn)行上電驗(yàn)證,,并已開(kāi)始向客戶提供限量樣品,。Ponte Vecchio預(yù)計(jì)將于2022年面向HPC和AI市場(chǎng)發(fā)布。
Xe HPC微架構(gòu)的IP模塊信息被公布,,包括每個(gè)Xe核的8個(gè)矢量和矩陣引擎(XMX),、切片和堆棧信息,,以及包括計(jì)算,、基礎(chǔ)和Xe Link單元的處理節(jié)點(diǎn)的單元信息,。
英特爾展示了早期的Ponte Vecchio芯片就已經(jīng)顯示出領(lǐng)先的性能,在一個(gè)流行的AI基準(zhǔn)測(cè)試上創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)紀(jì)錄,。
其A0芯片已經(jīng)實(shí)現(xiàn)了超過(guò)高于45TFLOPS(每秒45萬(wàn)億次浮點(diǎn)運(yùn)算)的FP32吞吐量,,超過(guò)5TBps的持續(xù)內(nèi)存結(jié)構(gòu)帶寬及超過(guò)2TBps的連接帶寬。
同時(shí),,英特爾分享了一段演示視頻,,展示了ResNet推理性能超過(guò)每秒43000張圖像和超過(guò)每秒3400張圖像的ResNet訓(xùn)練,這兩項(xiàng)性能都有望實(shí)現(xiàn)行業(yè)領(lǐng)先,。
從具體設(shè)計(jì)來(lái)看,,Ponte Vecchio由多個(gè)復(fù)雜的單元設(shè)計(jì)組成,然后通過(guò)EMIB單元進(jìn)行組裝,,實(shí)現(xiàn)單元之間的低功耗,、高速連接。這些設(shè)計(jì)均被集成于Foveros封裝中,,為提高功率和互連密度形成有源芯片的3D堆疊,。高速M(fèi)DFI互連允許1到2個(gè)堆棧的擴(kuò)展。
其中,,計(jì)算單元是一個(gè)密集的多個(gè)Xe內(nèi)核,,是Ponte Vecchio的核心。該單元基于臺(tái)積電先進(jìn)的N5制程工藝技術(shù),,一塊單元有8個(gè)Xe內(nèi)核,,總共有4MB一級(jí)緩存,是提供高效計(jì)算的關(guān)鍵,。
該單元具有極其緊湊的36微米凸點(diǎn)間距,,可與Foveros進(jìn)行3D堆疊。英特爾已通過(guò)設(shè)計(jì)基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法,,為測(cè)試和驗(yàn)證該節(jié)點(diǎn)的單元鋪平了道路,。
基礎(chǔ)單元是Ponte Vecchio的連接組織,基于Intel 7制程工藝,,針對(duì)Foveros技術(shù)進(jìn)行了優(yōu)化,。
它是所有復(fù)雜的I/O和高帶寬組件與SoC基礎(chǔ)設(shè)施——PCIe Gen5、HBM2e內(nèi)存,、連接不同單元MDFI鏈路和EMIB橋接,。該單元采用高2D互連的超高帶寬3D連接時(shí)延很低,使其成為一臺(tái)無(wú)限連接的機(jī)器,。英特爾技術(shù)開(kāi)發(fā)團(tuán)隊(duì)致力于滿足帶寬,、凸點(diǎn)間距和信號(hào)完整性方面的要求,。
Xe鏈路單元采用臺(tái)積電N7工藝,提供了GPU之間的連接,,支持每單元8個(gè)Xe鏈路,,這對(duì)HPC和AI計(jì)算的擴(kuò)展至關(guān)重要,旨在實(shí)現(xiàn)支持高達(dá)90G的更高速SerDes,,該單元已被添加到Aurora百億億次級(jí)超級(jí)計(jì)算機(jī)的擴(kuò)展解決方案中,。
如Xe架構(gòu)一樣,Ponte Vecchio將由英特爾統(tǒng)一軟件堆棧oneAPI支持,。
07.
首款專用ASIC IPU和IPU參考平臺(tái)
在傳統(tǒng)服務(wù)器架構(gòu)中,,一切任務(wù)都可以直接跑在CPU上。而在云端服務(wù)器架構(gòu)中,,如果所有計(jì)算任務(wù)都由CPU來(lái)執(zhí)行,,那它就有些力不從心了。
一種可編程的網(wǎng)絡(luò)設(shè)備正為云和通信服務(wù)提供商減少在CPU方面的開(kāi)銷,,使其充分釋放性能價(jià)值,,這個(gè)設(shè)備被稱為基礎(chǔ)設(shè)施處理器(IPU)。
具體而言,,英特爾基于IPU架構(gòu)有三大優(yōu)勢(shì):一是基礎(chǔ)設(shè)施功能和客戶工作負(fù)載的強(qiáng)分離,,使客戶能夠完全控制CPU;二是云運(yùn)營(yíng)商可將基礎(chǔ)設(shè)施任務(wù)卸載到IPU上,,更大化實(shí)現(xiàn)CPU利用率和收益,;三是IPU可以管理存儲(chǔ)流量,減少時(shí)延,,同時(shí)通過(guò)無(wú)磁盤(pán)服務(wù)器架構(gòu)有效利用存儲(chǔ)容量,。借助IPU,客戶可通過(guò)一個(gè)安全,、可編程,、穩(wěn)定的解決方案更好地利用資源,平衡處理與存儲(chǔ),。
應(yīng)對(duì)多樣化數(shù)據(jù)中心的復(fù)雜性,,英特爾推出了以下IPU家族的新成員:英特爾首款專用ASIC IPU Mount Evans,以及全新的基于FPGA的IPU參考平臺(tái)Oak Springs Canyon,。
Mount Evans是英特爾與一家一流云服務(wù)提供商共同設(shè)計(jì)和開(kāi)發(fā)的,,它融合了英特爾多代FPGA SmartNIC的經(jīng)驗(yàn),超大規(guī)模就緒,,提供高性能網(wǎng)絡(luò)和存儲(chǔ)虛擬化卸載,,同時(shí)保持高度控制。
該IPU提供了業(yè)界一流的可編程數(shù)據(jù)包處理引擎,,支持防火墻和虛擬路由等用例,。它還使用擴(kuò)展自英特爾傲騰技術(shù),、硬件加速的NVMe存儲(chǔ)接口,并采用英特爾高性能Quick Assist技術(shù),,部署高級(jí)加密和壓縮加速,。
在軟件方面,Mount Evans可使用現(xiàn)有普遍部署的DPDK,、SPDK等軟件環(huán)境進(jìn)行編程,,并能采用英特爾Barefoot Switch部門(mén)開(kāi)創(chuàng)的P4編程語(yǔ)言來(lái)配置管線,。
Oak Springs Canyon是一個(gè)IPU參考平臺(tái),,基于英特爾至強(qiáng)D處理器和英特爾Agilex FPGA構(gòu)建:
(1)卸載Open Virtual Switch(OVS)等網(wǎng)絡(luò)虛擬化功能以及NVMe over Fabric和RoCE v2等存儲(chǔ)功能,,并提供硬化的加密模塊,,提供更安全、高速的2x 100Gb以太網(wǎng)網(wǎng)絡(luò)接口,。
?。?)讓合作伙伴和客戶能用英特爾開(kāi)放式FPGA開(kāi)發(fā)堆棧(英特爾OFS)定制其解決方案,這是一款可擴(kuò)展,、開(kāi)源軟件和硬件基礎(chǔ)設(shè)施,。
(3)使用現(xiàn)有普遍部署的軟件環(huán)境進(jìn)行編程,,包括已在x86上優(yōu)化的DPDK和SPDK,。
英特爾N6000加速開(kāi)發(fā)平臺(tái)Arrow Creek是專為搭載至強(qiáng)服務(wù)器設(shè)計(jì)的SmartNIC。
它內(nèi)置英特爾Agilex FPGA和用于高性能100GB網(wǎng)絡(luò)加速的英特爾以太網(wǎng)800系列控制器,,支持多種基礎(chǔ)設(shè)施工作負(fù)載,,使通信服務(wù)提供商(CoSP)能夠提供靈活的加速工作負(fù)載,如Juniper Contrail,、OVS和SRv6,。
08.
oneAPI工具包:超過(guò)20萬(wàn)次單獨(dú)安裝
英特爾oneAPI是一個(gè)開(kāi)放、規(guī)范,、跨架構(gòu)和跨廠商的統(tǒng)一軟件棧,,提供了跨架構(gòu)的兼容性,讓開(kāi)發(fā)者能夠擺脫專有語(yǔ)言和編程模型的束縛,。
目前,,NVIDIA GPU、AMD GPU,、Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫(kù),。
oneAPI正在被獨(dú)立軟件提供商、操作系統(tǒng)供應(yīng)商,、終端用戶和學(xué)術(shù)界廣泛采用,。行業(yè)領(lǐng)導(dǎo)者正在協(xié)助發(fā)展該規(guī)范,,以支持更多的用例和架構(gòu)。
同時(shí),,英特爾還提供了商業(yè)產(chǎn)品,,包括基本的oneAPI基礎(chǔ)工具包,它在規(guī)范語(yǔ)言和庫(kù)之外增加了編譯器,、分析器,、調(diào)試器和移植工具。
英特爾oneAPI工具包擁有超過(guò)20萬(wàn)次單獨(dú)安裝,,市場(chǎng)上部署的300多個(gè)應(yīng)用程序采用了oneAPI統(tǒng)一編程模型,,超過(guò)80個(gè)HPC和AI應(yīng)用程序使用英特爾oneAPI工具包在Xe HPC微架構(gòu)上運(yùn)行。
另外,,oneAPI工具包5月發(fā)布的1.1版臨時(shí)規(guī)范為深度學(xué)習(xí)工作負(fù)載和高級(jí)光線追蹤庫(kù)添加了新的圖形接口,,預(yù)計(jì)將在年底完成。
09.
結(jié)語(yǔ):以架構(gòu)創(chuàng)新應(yīng)對(duì)千倍算力挑戰(zhàn)
總體來(lái)看,,英特爾在此次架構(gòu)日活動(dòng)中推出兩大x86 CPU內(nèi)核,、兩款獨(dú)立GPU、兩大數(shù)據(jù)中心SoC,、IPU新品和首款客戶端多核性能混合架構(gòu),,并展示了AMX、XeSS,、硬件線程調(diào)度器等多項(xiàng)融入產(chǎn)品特性的技術(shù)創(chuàng)新,。
這些創(chuàng)新的架構(gòu)與平臺(tái),均是為了更好地迎接越來(lái)越龐大的計(jì)算需求所帶來(lái)的挑戰(zhàn),。英特爾預(yù)計(jì),,到2025年算力需求將是1000倍級(jí)的提升,而四年內(nèi)增加1000倍相當(dāng)于摩爾定律的5次方,。