Google 今天分享了有關(guān)其TPU芯片的新版本的早期細(xì)節(jié),據(jù)介紹,,該芯片用于運行人工智能工作負(fù)載,其性能是前一代的兩倍以上,。
Google的TPU(即Tensor處理器單元)是專門針對AI設(shè)計的專用集成電路,。搜索巨頭今天詳細(xì)介紹的新的TPU模型是該芯片的第四次迭代。通過Google Cloud Platform,,企業(yè)可以使用第三次和第二次迭代,,這兩者也展示了出色的性能。
谷歌表示,,其第四代TPU的平均性能比其第三代TPU高出2.7倍,。這家搜索巨頭通過在最近的MLPerf行業(yè)競賽中衡量他們訓(xùn)練五個流行的AI模型的速度來比較這些芯片。第四代TPU在運行Mask R-CNN模型時獲得了最強的效果,,Mask R-CNN模型是用于自動駕駛等用例的圖像分割A(yù)I,,其訓(xùn)練速度比Google的早期芯片快3.7倍。
Google指出,,他們在本次MLPerf訓(xùn)練回合中使用的超級計算機是Cloud TPU v3 Pod的四倍,,后者在之前的比賽中創(chuàng)造了三項記錄。該系統(tǒng)包括4096個TPU v3芯片和數(shù)百個CPU主機,,所有這些都通過超快速,,超大規(guī)模的定制互連進行連接。該系統(tǒng)總共可提供430多個PFLOP峰值性能,。
性能的提高是設(shè)計重大變化的結(jié)果,。谷歌工程師Naveen Kumar在博客中詳細(xì)介紹了該公司已大大提高了TPU的內(nèi)存帶寬,即芯片從內(nèi)存中獲取數(shù)據(jù)進行處理的速度,,并提高了其執(zhí)行專門計算的能力,。
“Google的第四代TPU ASIC提供了TPU v3的矩陣乘法TFLOP的兩倍以上性能,,” Kumar在帖子中詳細(xì)介紹。矩陣乘法是AI模型用來處理數(shù)據(jù)的一種數(shù)學(xué)運算,,而TFLOP是每秒一萬億個浮點運算,。相比之下,與新芯片進行比較的第三代TPU v3 每秒可管理420萬億次操作,。
Kumar寫道,,客戶可以很快獲得有關(guān)新TPU的更多信息。鑒于該平臺上已有兩個上一代TPU可供租用,,該芯片很有可能最終登陸Google Cloud,。但是,客戶可能需要等待一會兒:ExtremeTech 報告說,,第四代TPU在MLPerf競賽期間被列為研究類別,,這意味著它將在至少六個月內(nèi)無法商用。
新芯片的速度提升尤其引人注目,,因為其性能優(yōu)于第三代的芯片在同一比賽中打破了多項記錄,。谷歌使用了4,090個第三代TPU來構(gòu)建其所謂的世界上最快的AI培訓(xùn)超級計算機。該系統(tǒng)為MLPerf八個基準(zhǔn)中的六個基準(zhǔn)創(chuàng)造了新記錄,,并在30秒內(nèi)訓(xùn)練了四個測試模型,。