無論是游戲顯卡還是AI加速卡,,NVIDIA都已經(jīng)是絕對壟斷地位,,而在當前的形勢下,,我們不但要有自己的游戲卡,,更要有自己的加速卡。
這個重擔,摩爾線程英勇地都扛了起來,率先交付全國產(chǎn)千卡千億模型算力集群之后,又率先拓展到了萬卡,、萬P、萬億規(guī)模,!
摩爾線程重磅宣布,,AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案重大升級,從當前的千卡級別,,擴展至萬卡規(guī)模,,從而具備萬P級或者說10E級浮點運算能力,也就是每秒可執(zhí)行千億億次級別的計算,。
所謂萬卡集群,,顧名思義,就是由1萬張甚至更多GPU計算加速卡組成的高性能計算系統(tǒng),主要用來訓練,、微調超大規(guī)模的基礎大模型,。
這種超級集群全面整合了高性能GPU計算、高性能RDMA網(wǎng)絡,、高性能并行文件存儲,、智算平臺等全套軟硬件技術,堪稱一臺“超級計算機”,,可支持千億級,、萬億級參數(shù)規(guī)模的大模型訓練,可以大幅提高訓練效率,、縮短訓練時間,,快速迭代模型能力。
在國外,,諸多科技巨頭都已經(jīng)部署了萬卡集群,,擁有數(shù)萬甚至數(shù)十萬張GPU加速卡,。
比如馬斯克近日就透露,,新一代AI聊天機器人Grok 3就動用了多達10萬張NVIDIA H100加速卡進行訓練,因此將會“非常特別”,,為此耗資多達三四十億美元,。
再比如谷歌的超級計算機A3 Virtual Machines擁有2.6萬塊H100 GPU,Meta訓練下一代大模型的兩個集群擁有24576塊H100 GPU,,16個專家模型和1.8萬億參數(shù)的GTP-4需要在大約2.5萬塊A100 GPU上訓練90-100天,。
在國內(nèi),字節(jié)跳動,、阿里巴巴,、百度、科大訊飛等也都在積極推動萬卡集群的建設,。
比如字節(jié)跳動搭建了一個12288張卡的訓練集群,,研發(fā)MegaScale生產(chǎn)系統(tǒng),用于訓練大語言模型,,科大訊飛2023年建成了首個支持大模型訓練的超萬卡集群算力平臺“飛星一號”,。
由此可見,在AI模型訓練的主戰(zhàn)場,,萬卡集群已成為最低入場券,。
但是,萬卡集群乍一看只是千卡集群的拓展和延伸,,它絕非簡單的更多計算卡疊加,,而是一個超級復雜的系統(tǒng)工程,需要解決超大規(guī)模組網(wǎng)互聯(lián)、集群有效計算效率,、訓練高穩(wěn)定與高可用,、故障快速定位與可診斷工具、生態(tài)Day0級快速遷移,、未來場景通用計算等眾多難題,。
那么,萬卡集群如此難做,,摩爾線程作為成立還不到4年的國產(chǎn)GPU企業(yè),,為什么要去挑戰(zhàn)呢?
這是一條難而正確的事情,,摩爾線程推出夸娥萬卡智算集群解決方案,,就是希望能夠建設一個規(guī)模超萬卡、場景更通用,、生態(tài)兼容好的一個加速計算平臺,,并優(yōu)先解決大模型訓練的難題。
摩爾線程創(chuàng)始人兼CEO張建中強調:“要挑戰(zhàn)最難做的事情,,除了有勇氣之外,,還要有能力,要有很好的團隊,,有很強的研發(fā),、生產(chǎn)、制造,、銷售,、市場、服務等等方方面面的人才,,否則是很難做成的,。做成一件事情,其實不是偶然的,,而是要花很多時間去建立的,。每一家成功的企業(yè)都有很多正確的決定,但是不管什么樣的決定,,真正強的團隊才是核心,。摩爾線程就有很強的團隊,這么多年的經(jīng)驗,,我們在GPU行業(yè)里的知識,、Know-how,碰到過的困難,,解決過的難題,,對我們來說都是非常寶貴的經(jīng)驗。”
夸娥,,是摩爾線程的智算中心全棧解決方案,,以其自主研發(fā)的全功能GPU為底座,包括以夸娥計算集群為核心的基礎設施,、夸娥集群管理平臺(KUAE Platform),、夸娥大模型服務平臺(KUAE Model Studio),軟件硬件一體化,,訓練推理一體化,,交付一體化,可以開箱即用,,提供大規(guī)模GPU算力集群的建設,、運營管理。
摩爾線程的夸娥萬卡集群具備PB級的超大顯存總容量,、PB/s級的超高速卡間互聯(lián)總帶寬,、PB/s級的超高速節(jié)點互聯(lián)總帶寬,可實現(xiàn)系統(tǒng)性協(xié)同優(yōu)化,,從而達到超強的算力,,并且MFU最高可以達到60%。
穩(wěn)定性也是卓爾不群,,平均無故障運行時間超過15天,,最長可以穩(wěn)定訓練大模型30天以上,周均訓練有效率超過99%,,遠超行業(yè)平均水平,而且可以性能自動調休,、問題自動診斷,,2分鐘內(nèi)就能快速修復,進而斷點續(xù)訓練,。
這得益于摩爾線程自主研發(fā)的一系列可預測,、可診斷的多級可靠機制,包括:軟硬件故障的自動定位與診斷預測,,實現(xiàn)分鐘級的故障定位,;Checkpoint多級存儲機制,實現(xiàn)內(nèi)存秒級存儲和訓練任務分鐘級恢復,;高容錯高效能的萬卡集群管理平臺,,實現(xiàn)秒級納管分配與作業(yè)調度。
此外還有強大的通用性,,支持所有主流大模型訓練,,可加速LLM、MoE、多模態(tài),、Mamba等不同架構,、不同模態(tài),支持主流分布式訓練框架(Colossal-AI,、DeepSpeed,、Megatron-LM、Flag Scale),。
同時,,基于高效易用的MUSA編程語言、完整的CUDA生態(tài)兼容,、自動化遷移工具Musify,,開發(fā)者只需極短的時間、極少的工作就能完成遷移,,甚至幾乎不需要修改代碼,,遷移成本趨近于零。
值得一提的是,,摩爾線程表示,,如果已經(jīng)適配過摩爾線程的千卡集群,不需要任何額外工作就可以無縫跑在萬卡集群上,,而哪怕是第一次適配萬卡集群,,也只需幾個小時,只是性能調優(yōu)需要花一點時間,,主要是模型使用方法不同,、芯片廠商策略不同所致。
目前,,摩爾線程已經(jīng)實現(xiàn)從芯片到算力卡,,從一體機到節(jié)點集群的全棧式覆蓋,支持從單機多卡到多機多卡,、從單卡到千卡萬卡集群的無縫擴展,。
- 大模型智算加速卡MTT S4000
訓推兼顧,專為大模型打造的大模型智算加速卡,。
單卡支持 48GB 顯存,、768GB/s顯存帶寬,并支持摩爾線程自研MTLink 1.0互連技術,,卡間互連帶寬240GB/s,,從而支持高效多卡互聯(lián)。
- AI大模型訓推一體機MCCX D800
雙路八卡GPU服務器,,專為支持MTT S4000大模型智算加速卡充分發(fā)揮其訓推性能,、穩(wěn)定性,、可靠性的服務器系統(tǒng)。
它還具備多達16×64GB DDR5內(nèi)存,、2×480GB SATA系統(tǒng)盤,、4×3.84TB NVMe SSD緩存數(shù)據(jù)盤、雙路400Gb IB與四路25Gb以太計算存儲網(wǎng)絡,。
- AI超融合一體機(KUAE FUSION)
夸娥智算集群的單個節(jié)點,,如今也可作為單獨產(chǎn)品提供,可以任意并聯(lián)擴展,。
它基于MCCX D800 訓推一體機,,屬于可靈活部署的推理、訓練,、微調軟硬件一體化解決方案,。
目前,摩爾線程萬卡集群項目已經(jīng)完成了三項戰(zhàn)略簽約,,分別是:
與青海移動的青海零碳產(chǎn)業(yè)園萬卡集群,;
與青海聯(lián)通、北京德道信科集團的青海高原萬卡集群,,,;
與中國能源建設、桂林華崛大數(shù)據(jù)的廣西東盟萬卡集群,。
生態(tài)方面,,摩爾線程的版圖也正在迅速擴大。
國內(nèi)眾多AI廠商,、云廠商,、科技廠商、軟件廠商和,、科研院校機構等,,都與摩爾線程有著深入的合作,尤其是利用摩爾線程夸娥智算集群,,助力大模型訓練、大模型推理,、具身智能等不同場景和領域持續(xù)創(chuàng)新,。
在上海舉辦的世界人工智能大會WAIC 2024期間,摩爾線程也展示了自己的全棧解決方案,。
除了芯片,、算力卡、服務器,、一體機節(jié)點之外,,還有AI算力底座,、AIGC創(chuàng)作生產(chǎn)力、產(chǎn)業(yè)升級三大展示區(qū),。
AI算力底座展示區(qū),,包括夸娥集群管理平臺、夸娥模型服務平臺,、夸娥大模型推理平臺,,以及夸娥生態(tài)版圖。
夸娥集群管理平臺是摩爾線程大規(guī)模GPU計算集群產(chǎn)品可視化管理平臺,,是用于Al大模型訓練,、分布式圖形渲染、流媒體處理和科學計算的軟硬件一體化平臺,,深度集成全功能GPU計算,、網(wǎng)絡和存儲,提供高可靠,、高算力服務,。
夸娥模型服務平臺覆蓋大模型預訓練、微調和推理全流程,,支持所有主流開源大模型,。通過摩爾線程MUSIFY代碼移植工具,可以良好兼容CUDA應用生態(tài),,內(nèi)置的容器化解決方案,,則可實現(xiàn)API一鍵部署。
夸娥大模型推理平臺,,基于高效的MT Transformer大模型推理引擎,,支持業(yè)內(nèi)主流vLLM推理框架、MUSA Serving自研推理框架等,,幫助開發(fā)人員高效地在云端部署高性能推理服務,。
AIGC創(chuàng)作生產(chǎn)力展區(qū),可以看到依靠夸娥智算集群,、基于圖形計算和AI計算的軟硬件一體化AIGC內(nèi)容創(chuàng)作平臺“摩筆馬良”,。
它部署了摩爾線程自研大語言模型MUSAChat,可以及時潤色,、翻譯用戶的輸入文本,,進一步增強語義理解,還可以基于用戶的文本指向,,靈活調用SDXL,、SD1.5兩代模型能力,生成細節(jié)豐富,、有藝術感的圖像結果,。
同時,,結合多種IP-Adapter、ControlNet技術,,它還支持“創(chuàng)意人像”,,上傳一張個人照片,以文字描述目標風格,,1分鐘內(nèi)就可以得到細膩,、逼真的人像圖片,而且無需訓練,、風格不限,。
“摩筆天書”則是依靠夸娥智算集群的AI內(nèi)容生成解決方案,可提供一站式,、多模態(tài),、全流程、全自動的繪本生成創(chuàng)作體驗,。
用戶只需輸入標題和簡要的故事大綱,,即可一鍵生成完整故事、繪本圖片,、旁白,、字幕、背景音樂等素材,,并自動合成圖文繪本故事和視頻繪本故事,。
“MT AIR”(MT AIReality)是摩爾線程自研的新一代的AI渲染平臺,構建擁有照片級,、視網(wǎng)膜級,、堪比物理世界真實度的實時渲染管線,輕松實現(xiàn)三維重建,,可用于影視,、動畫、游戲,、元宇宙等領域,。
“Sora復現(xiàn)計劃”(Open-Sora-Plan)是由北京大學、兔展AIGC聯(lián)合實驗室共同發(fā)起的開源項目,,利用開源社區(qū)的力量,,完成對Sora文生視頻的復現(xiàn),當前在Github上有超過1萬開發(fā)者,,摩爾線程則是國內(nèi)極少數(shù)支持運行Open-Sora-Plan視頻生成模型的國產(chǎn)GPU公司。
在產(chǎn)業(yè)數(shù)智化升級展示區(qū),,可以看到基于人工智能氣象預報大模型書生·風烏的氣象預測應用,、基于東華軟件私有化大模型智多型(A.I.Cogniflex)的公共安全應用,、佳都全息路口解決方案的數(shù)字交通應用、基于中科聞歌自主研發(fā)雅意大模型的輔助決策應用,、智慧安防應用,、智能金融應用、智慧政務應用等等,。
值得一提的是,,依托夸娥智算集群的強兼容、高算力等特性,,風烏成功在24小時內(nèi)就完成了從CUDA到MUSA的無縫,、快速生態(tài)遷移,首次實現(xiàn)從硬件到算法的全國產(chǎn)化,,且性能,、精度均達到國際先進水平。