今天是DeepSeek開源周第二日,,一早,,DeepSeek如約就放出了開源代碼庫DeepEP王炸。
據(jù)了解,,DeepEP是首個(gè)用于 MoE 模型訓(xùn)練和推理的開源 EP 通信庫,它填補(bǔ)了MoE模型專用通信工具的空白,為大規(guī)模分布式AI訓(xùn)練和實(shí)時(shí)推理場景提供了更高效的底層支持,。
在這里,簡單介紹一下DeepEP的技術(shù)性能特點(diǎn):
1,、高效通信架構(gòu)
支持優(yōu)化的全對(duì)全通信模式,,實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間的NVLink與RDMA互聯(lián),提升數(shù)據(jù)傳輸效率
2,、多精度與調(diào)度優(yōu)化
原生支持FP8低精度運(yùn)算調(diào)度,,降低計(jì)算資源消耗。
3,、重性能內(nèi)核
據(jù)介紹,,高吞吐量內(nèi)核可適用于訓(xùn)練和推理預(yù)填充場景,最大化數(shù)據(jù)處理能力,;
4,、低延遲內(nèi)核
它針對(duì)推理解碼場景設(shè)計(jì),,采用純RDMA通信和自適應(yīng)路由技術(shù),減少延遲,。
5,、資源控制與重疊機(jī)制
通過靈活的GPU資源控制策略,實(shí)現(xiàn)計(jì)算與通信過程的高效重疊,,避免資源閑置,。
6、深度優(yōu)化場景
針對(duì)NVLink到RDMA的非對(duì)稱帶寬轉(zhuǎn)發(fā)場景進(jìn)行專項(xiàng)優(yōu)化,,提升異構(gòu)網(wǎng)絡(luò)下的傳輸性能,;
此外,它還支持SM(Streaming Multiprocessors)數(shù)量動(dòng)態(tài)控制,,平衡不同任務(wù)(如訓(xùn)練與推理)的吞吐量需求,。