近日,,在2024中國算力大會“算力網(wǎng)絡(luò)共鏈行動暨創(chuàng)新發(fā)展”分論壇上,,中國移動攜手50余家產(chǎn)業(yè)合作伙伴共同發(fā)布“智算開放互聯(lián)系列重磅成果”,。中國移動通信集團有限公司副總經(jīng)理李慧鏑、河南省人民政府副秘書長魏曉偉,、中國移動研究院黨委委員王大越及多位業(yè)界領(lǐng)袖出席了此次發(fā)布儀式。
此次成果發(fā)布旨在促進智算中心之間的網(wǎng)絡(luò)互聯(lián)和卡間互連的技術(shù)創(chuàng)新,,完善相關(guān)標準,,推動產(chǎn)業(yè)發(fā)展和應(yīng)用實踐。目標是構(gòu)建一個高速,、無損,、安全、可靠的新型智算互聯(lián)技術(shù)體系,,以滿足人工智能時代日益增長的算力需求,,并全面提升算力的賦能能力。
隨著ChatGPT等基礎(chǔ)通用大模型的爆發(fā),,智能算力需求呈現(xiàn)爆炸式增長態(tài)勢,,全球智算中心建設(shè)高速發(fā)展,集群規(guī)模邁入萬卡級別,,超節(jié)點設(shè)備受到產(chǎn)業(yè)界關(guān)注,。超大模型訓(xùn)練依賴集群內(nèi)GPU之間頻繁的數(shù)據(jù)交互,通信開銷導(dǎo)致集群的有效算力無法隨GPU數(shù)量線性增長,,互聯(lián)性能成為制約集群規(guī)模擴展和性能提升的瓶頸,。同時,智算互聯(lián)體系依賴GPU芯片,、交換芯片,、網(wǎng)卡芯片及整機設(shè)備等上下游企業(yè)協(xié)同創(chuàng)新,技術(shù)體系龐雜,,難度大,。
為了應(yīng)對卡間互聯(lián)極致的帶寬和時延要求,填補機內(nèi)交換產(chǎn)業(yè)空白,,中國移動在今年6月聯(lián)合北京市政府及國內(nèi)智算生態(tài)企業(yè)和科研機構(gòu),,建立了“OISA協(xié)同創(chuàng)新平臺”,原創(chuàng)提出GPU卡間開放互聯(lián)協(xié)議OISA,,推動互聯(lián)協(xié)議,、交換芯片等核心技術(shù)攻關(guān)。
本次算力大會,,中國移動聯(lián)合產(chǎn)業(yè)合作伙伴共同發(fā)布OISA Gen1.1協(xié)議,。OISA旨在打造一個高效、智能,、靈活且開放的GPU卡間互聯(lián)體系,,致力于支持大模型訓(xùn)練、推理,、高性能計算等數(shù)據(jù)密集型的AI應(yīng)用,。為了實現(xiàn)這一目標,,OISA采用了全向連接設(shè)計,確保大規(guī)模GPU之間對等通信,;引入智能感知設(shè)計,,通過定義流量感知標簽,并結(jié)合流控和重傳機制,,優(yōu)化數(shù)據(jù)傳輸效率,;在協(xié)議層面,OISA采用了統(tǒng)一報文格式,、多語義融合,、多層次流控和重傳以及集合通信加速等四大關(guān)鍵技術(shù),實現(xiàn)高速,、低時延,、無損和高可靠的GPU通信。
OISA將秉承開放性原則,,邀請產(chǎn)業(yè)伙伴加入OISA生態(tài),,深度參與OISA的協(xié)議制定、更新與研發(fā),,從技術(shù)攻關(guān),、標準體系、創(chuàng)新試驗,、產(chǎn)業(yè)生態(tài)等方面加快推動相關(guān)技術(shù)和產(chǎn)品成熟,,為國內(nèi)AI芯片向超節(jié)點升級提供強有力的技術(shù)支撐,為中國在全球AI領(lǐng)域中提供新的動力,。