12月24日消息,,半導體研究機構Semianalysis在進行了5個月的調(diào)查后發(fā)現(xiàn),,AMD最新的AI芯片MI300X因為存在重大軟件缺陷,,導致性能不如預期,,難以撼動英偉達(Nvidia)的市場主導地位,。
Semianalysis在研究報告中指出,,雖然MI300X規(guī)格看來令人印象深刻,,擁有192 GB HBM3內(nèi)存,,可以提供1,307 TeraFLOPS的FP16精度算力,。而英偉達H100 的算力只有989 TeraFLOPS,只配備了80 GB HBM內(nèi)存,,H200也只配備了141 GB HBM內(nèi)存,。相比之下,AMD MI300X硬件配置更高,,定價也更便宜,,這也意味著MI300X更具性價比。
但是Semianalysis認為,AMD這些優(yōu)勢卻幾乎發(fā)揮不了多少作用,。因為AMD MI300X配套的軟件存在缺陷,,若大量錯誤不能排除,會讓訓練AI模型變成幾乎不可能的任務,。相比之下,,英偉達卻持續(xù)推出全新功能、工具庫并升級性能,,持續(xù)保持領先,。
SemiAnalysis指出,其研究團隊執(zhí)行了大量測試,,當中包括GEMM,、單節(jié)點訓練(single-node training)等,發(fā)現(xiàn)AMD MI300X存在軟件缺陷,,其研究團隊必須跟AMD工程師一同修正無數(shù)軟件缺陷,,才能達到堪用的標竿測試結果。
SemiAnalysis稱,,“AMD產(chǎn)品開箱后非常難以操作,,需要相當大的耐心及努力才能達到可用的狀態(tài)”。相比之下,,英偉達的AI解決方案開箱就能順暢運作,。
SemiAnalysis還透露,AMD最大云端客戶Tensorwave,,必須免費提供基于這些GPU實例的使用時間,,以便于給AMD團隊來解決軟件問題,這實在瘋狂,,畢竟Tensorwave已經(jīng)支付了這些GPU的費用,。
Semianalysis首席分析師Dylan Patel還通過社交平臺X指出,他跟AMD CEO蘇姿豐(Lisa Su)開了1.5小時的會議,,逐一反饋了相關問題,。他建議蘇姿豐重金投入軟件開發(fā)與測試,尤其應配置數(shù)千顆MI300X芯片來做自動化測試——跟進英偉達的做法,。此外,,他還建議蘇姿豐簡化復雜的環(huán)境變數(shù),實施更好的預設設定,?!罢堊尞a(chǎn)品開箱便可用!”他寫道,。
蘇姿豐則回應稱,,感謝Patel具有建設性的對話,,并坦承AMD軟件方面的不足之處。她表示,,“Patel的反饋是個禮物,、即便它很嚴苛。AMD已大量投入客戶和工作量優(yōu)化作業(yè),,但為支持廣泛的生態(tài)系統(tǒng),,尚有許多努力空間。非常感謝大家的回饋,。AMD致力打造世界一流的開源軟件,2025年有很多計劃,。祝大家佳節(jié)愉快,!”