算力突圍：破解人工智能的基礎(chǔ)設(shè)施困局-AET-電子技術(shù)應(yīng)用

算力突圍：破解人工智能的基礎(chǔ)設(shè)施困局

日期： 2025-05-28

作者：是德科技高級副總裁Marie Hattar

來源：是德科技

關(guān)鍵詞： 是德科技人工智能

人工智能正在改變世界。然而，它需要大量的處理能力。需求每一百天就會翻一番。這推動了人工智能基礎(chǔ)設(shè)施的投資熱潮。

數(shù)據(jù)中心是未來人工智能創(chuàng)新的基礎(chǔ)，其性能備受矚目。由于涉及的規(guī)模和復(fù)雜性，確保數(shù)據(jù)中心的穩(wěn)健性和可靠性是一項(xiàng)艱巨的任務(wù)。從芯片到GPU，再到服務(wù)器、網(wǎng)絡(luò)組件和軟件，基礎(chǔ)設(shè)施的每一個元素都必須在網(wǎng)絡(luò)層面進(jìn)行單獨(dú)和綜合評估，以確保其無縫運(yùn)行并消除任何薄弱環(huán)節(jié)。這給服務(wù)提供商帶來了沉重的負(fù)擔(dān)；然而，考慮到其中的利害關(guān)系，每一次效率的提高都意義重大。

在深入探討測試的必要性之前，我們先來看看人工智能是如何給數(shù)據(jù)中心帶來負(fù)擔(dān)的。當(dāng)前人工智能技術(shù)的迅猛發(fā)展，源于其應(yīng)用所依賴的復(fù)雜算法與模型體系；與特定任務(wù)軟件相比，它們消耗了更多的計(jì)算資源，因此也消耗了更多的能源。這是因?yàn)橛?xùn)練支持生成式人工智能的大語言模型（LLM）需要龐大的計(jì)算資源。而且，隨著人工智能解決方案變得越來越精細(xì)和復(fù)雜，對更多處理資源和數(shù)據(jù)存儲的需求并沒有緩解的跡象。

例如，Sam Altman最近聲稱，由于公司“缺少GPU”，OpenAI最新模型的推廣速度放緩。更重要的是，高盛預(yù)測，到2030年，人工智能將推動數(shù)據(jù)中心電力增長165%。這使得基礎(chǔ)設(shè)施成為業(yè)界關(guān)注的焦點(diǎn)，因?yàn)闃I(yè)界正在尋找各種方法來創(chuàng)建一個能夠支持未來迭代的技術(shù)環(huán)境。

前方道路上的坑洼

人工智能數(shù)據(jù)中心需要滿足和管理對計(jì)算資源前所未有的需求；這些集群必須高效地支持智能時代，并提供必要的計(jì)算、內(nèi)存和網(wǎng)絡(luò)性能。測試在幫助克服挑戰(zhàn)方面具有舉足輕重的作用。要驗(yàn)證、優(yōu)化和提高人工智能數(shù)據(jù)中心的性能，需要能夠再現(xiàn)人工智能工作負(fù)載的復(fù)雜性和規(guī)模的系統(tǒng)級仿真器。隨著基礎(chǔ)設(shè)施的發(fā)展，系統(tǒng)級評估對于確保性能的穩(wěn)健性和可靠性至關(guān)重要。

●規(guī)模：數(shù)據(jù)中心運(yùn)營的各個方面都必須增長，包括電力、冷卻、基礎(chǔ)設(shè)施、存儲和帶寬。實(shí)現(xiàn)這一目標(biāo)的一個關(guān)鍵方面是解決分布式計(jì)算環(huán)境中的延遲問題。人工智能集群（在GPU上分配任務(wù)）很容易因尾部延遲（系統(tǒng)最慢組件的滯后時間）而出現(xiàn)性能瓶頸。有效的擴(kuò)展需要通過工作負(fù)載均衡來檢測并盡量減少這種情況。

然而，僅僅符合標(biāo)準(zhǔn)是不夠的，還必須對組件的性能進(jìn)行評估，看它是如何處理網(wǎng)絡(luò)協(xié)議數(shù)據(jù)和前向糾錯的。例如，符合標(biāo)準(zhǔn)的收發(fā)器可能會因?yàn)闆]有在協(xié)議/網(wǎng)絡(luò)層進(jìn)行適當(dāng)測試而失效。

測試可幫助服務(wù)商識別系統(tǒng)效率低下的問題，優(yōu)化資源分配，并確保系統(tǒng)在所有節(jié)點(diǎn)上都能保持高性能。通過微調(diào)，數(shù)據(jù)中心可以在發(fā)展過程中提高效率，改善運(yùn)營和資源利用率。

●專用硬件：人工智能專用硬件對于提供更多計(jì)算資源至關(guān)重要。例如，NVIDIA的最新超級芯片將性能提高了30倍，同時能耗降低了25倍。不僅是芯片，人工智能要求所有組件全面提速——從互連架構(gòu)、內(nèi)存模塊、網(wǎng)絡(luò)推理卡到交換機(jī)，均需提升運(yùn)行速度，同時能效要求也需同步提升。

然而，這些技術(shù)進(jìn)步需要超越合規(guī)性測試的嚴(yán)格評估，以驗(yàn)證峰值負(fù)載下的性能表現(xiàn)。系統(tǒng)級驗(yàn)證對確保設(shè)備在實(shí)際運(yùn)行環(huán)境中穩(wěn)定可靠至關(guān)重要。壓力測試可確保人工智能設(shè)備的性能，而互連架構(gòu)與網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化（通過網(wǎng)絡(luò)驗(yàn)證）能避免瓶頸；內(nèi)存與存儲評估則保障快速數(shù)據(jù)訪問。通過整合全方位測試，服務(wù)提供商可實(shí)現(xiàn)高效擴(kuò)展。

●智能工作負(fù)載：要滿足計(jì)算需求，就必須采用分解式架構(gòu)，以便動態(tài)分配資源。測試可以驗(yàn)證智能管理，并應(yīng)結(jié)合仿真技術(shù)，對網(wǎng)絡(luò)結(jié)構(gòu)以及動態(tài)資源分配和自動縮放進(jìn)行基準(zhǔn)測試。

要確保網(wǎng)絡(luò)性能，就必須使用真實(shí)世界模型進(jìn)行壓力測試、制定基準(zhǔn)并找出尾部延遲，所有這些都能改善工作負(fù)載分配。這使服務(wù)商能夠?qū)崿F(xiàn)性能目標(biāo)，同時根據(jù)當(dāng)前和預(yù)測的需求動態(tài)管理資源。在堆棧中添加先進(jìn)的軟件對于最大限度地提高性能至關(guān)重要。

可靠性是關(guān)鍵

人工智能模型將繼續(xù)推動更多計(jì)算資源的指數(shù)級增長，這也推動了基礎(chǔ)設(shè)施現(xiàn)代化的軍備競賽。然而，要想讓高盛的預(yù)測成為現(xiàn)實(shí)，就必須在組件和系統(tǒng)層面進(jìn)行嚴(yán)格評估，以發(fā)現(xiàn)效率低下的問題，確保數(shù)據(jù)中心的每個方面都穩(wěn)健、可靠，并在必要的規(guī)模上進(jìn)行優(yōu)化。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

算力突圍：破解人工智能的基礎(chǔ)設(shè)施困局

日期： 2025-05-28

作者：是德科技高級副總裁Marie Hattar

來源：是德科技

相關(guān)內(nèi)容