生成式AI的變革,對于基礎硬件設計、軟件生態(tài)開發(fā)都提出了新的,、更高的要求,,尤其是底層硬件和算力必須跟上新的形勢,并面向未來發(fā)展做好準備,。
近日,高通特別發(fā)布了《通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI》白皮書,對于終端側(cè)生成式AI的發(fā)展趨勢,,以及高通驍龍?zhí)幚砥鞯亩嗄K異構(gòu)計算引擎,尤其是NPU的設計及優(yōu)勢,,都進行了詳細解讀,。
生成式AI雖然這兩年才火熱起來,但是AI的發(fā)展歷史悠久,,高通也早在2007年就打造了Hexagon DSP,,其控制和標量架構(gòu)正是后續(xù)NPU的基礎。
2015年發(fā)布的驍龍820處理器集成了首個高通AI引擎,,支持成像,、音頻和傳感器運算。
之后,,2018年的驍龍855又增加了Hexagon張量加速器,。
2020年驍龍888里的全新架構(gòu)Hexagon NPU堪稱里程碑轉(zhuǎn)折,并在之后的三代驍龍8中持續(xù)迭代演進,,AI性能,、效能和范圍不斷拓展。
比如第三代驍龍8的張量運算核心的峰值性能就大幅提升了98%,,同時依然保持高超的能效,。
高通在AI方面采用的是異構(gòu)計算引擎思路,由Kryo CPU,、Adreno GPU,、Hexagon NPU、傳感器中樞四大核心模塊共同組成,,彼此協(xié)作,。
根據(jù)終端類型,、終端層級、關(guān)鍵性能指標,、時延等因素的不同,,這種架構(gòu)可以使用不同的組件進行AI處理,以達到最佳效率,。
比如說,,CPU計算量一般,但擅長順序控制和即時性,,非常合對延遲要求非常高的場景,,比如時序敏感性小模型,比如卷積神經(jīng)網(wǎng)絡模型(CNN)或者特定大語言模型(LLM),。
GPU擅長高精度格式的并行處理,,比如對畫質(zhì)要求非常高的圖像、視頻處理,,同時算力非常強,,可運行大規(guī)模的模型。
NPU擅長標量,、向量和張量數(shù)學運算,,而且能效非常高,能夠以極低功耗實現(xiàn)持續(xù)穩(wěn)定的高峰值性能,,在基于LLM和LVM(大視覺模型)的不同用例中,,比如說Stable Diffusion或其他擴散模型,每瓦特性能十分出色,。
高通傳感器中樞則能以極低功耗運行始終開啟的用例,,可獲取大量端側(cè)情境信息,讓生成式AI體驗更加個性化,,這也是終端側(cè)AI的獨特優(yōu)勢之一,,并且信息保留在終端上,不會聯(lián)網(wǎng)上傳到云端,,隱私更安全。
如此設計的異構(gòu)計算,,能夠?qū)崿F(xiàn)最佳的應用性能,、能效和電池續(xù)航,以最大化提升生成式AI終端的用戶體驗,。
這里重點說說NPU,。
NPU全程為神經(jīng)網(wǎng)絡處理器,是專為低功耗加速AI推理而打造的硬件模塊,,架構(gòu)上隨著新AI算法,、模型和用例的發(fā)展而不斷演進,。
Al工作負載主要包括由標量、向量和張量數(shù)學組成的神經(jīng)網(wǎng)絡層計算以及非線性激活函數(shù),。
優(yōu)秀的NPU設計,,能正確選擇如何處理AI工作負載,同時與CPU,、GPU等其他模塊協(xié)同執(zhí)行,,并與AI行業(yè)發(fā)展方向保持高度一致。
高通Hexagon NPU就是為了以低功耗實現(xiàn)持續(xù)穩(wěn)定的高性能AI推理而設計,,其差異化優(yōu)勢在于系統(tǒng)級解決方案,、定制設計和快速創(chuàng)新。
通過定制設計NPU并控制指令集架構(gòu)(ISA),,高通可以讓NPU快速演進和擴展,,以解決遇到的任何瓶頸問題,并優(yōu)化性能,。
高通透露,,最初開始研究NPU的時候,關(guān)注的是一些簡單用例,,比如用于音頻和語音處理的卷積神經(jīng)網(wǎng)絡模型(CNN)和長短期記憶網(wǎng)絡模型(LSTM),,2015年第一代高通AI引擎的Hexagon NPU就集成了標量和向量運算擴展。
2016-2022年間,,高通將研究方向拓展至AI影像和視頻處理,,比如暗光拍照、降噪,、多幀處理等,,同時引入了Transforme層處理,因此增加了張量運算核心(Tensor Core),。
2023年,,Hexagon NPU開始支持LLM和LVM,并支持Transformer,,可以更好地處理基于Transformer的模型,。
如今第三代驍龍8集成的Hexagon NPU已經(jīng)能夠在終端側(cè)運行高達100億參數(shù)的模型,無論是首個token的生成速度,,還是每秒生成token的速率,,都處在業(yè)界領先水平。
值得一提的是,,Hexagon NPU還引入了用于圖像處理的微切片推理技術(shù),,增加了能夠支持所有引擎組件的大共享內(nèi)存,最高支持到4.8GHz頻率的LPDDR5X,LLM處理能力更上一層樓,,可快速處理百川,、Llama2等等。
說了半天原理,,看看實際性能表現(xiàn),,首先是第三代驍龍8和三款安卓、iOS平臺競品的對比,。
魯大師AIMark V4.3測試中,,第三代驍龍8的總分達到了競品B的5.7倍、競品C的7.9倍,。
安兔兔測試中,,第三代驍龍8的總分是競品B的6.3倍。
MLCommon MLPerf推理的不同子項中,,比如圖像分類,、語言理解、超級分辨率等,,第三代驍龍8也都保持領先,。
PC端對比驍龍X Elite和其他x86架構(gòu)競品。
Windows系統(tǒng)下的UL Procyon AI推理測試中,,驍龍X Elite在ResNet-50,、DeeplabV3等測試項目中都大幅領先,總分是競品A的3.4倍,、競品B的8.6倍,。
近日在巴塞羅那舉辦的MWC 2024大會上,高通還展示了在終端上運行的多模態(tài)生成式AI模型,。
在第三代驍龍8上運行的首個大語言和視覺助理大模型(LLaVA),,能基于圖像輸入,回答用戶提出的問題,。
比如為視障人士在城市內(nèi)進行導航,,就可以將圖像信息轉(zhuǎn)換成語音,幫助他們了解周圍的事物,。
順帶一提,,高通還展示了基于驍龍X Elite筆記本,首個在終端側(cè)運行的超過70億參數(shù)的大型多模態(tài)語言模型(LMM),,可接受文本和音頻輸入(如音樂,、交通環(huán)境音頻等),再生成多輪對話,。
硬件AI能力之上,高通還打造了AI軟件棧(AI Stack)。
它可以支持目前所有的主流AI框架,,包括TensorFlow,、PyTorch、ONNX,、Keras,;支持所有主流的AI運行時,包括DirectML,、TFLite,、ONNX Runtime、ExecuTorch,;還支持不同的編譯器,、數(shù)學庫等AI工具。
此外,,高通還有AI Studio,,可為開發(fā)者提供開發(fā)過程中需要用到的各種相關(guān)工具,包括支持模型量化和壓縮的高通AI模型增效工具包(AIMET),,能夠大幅提高模型運行的效率,。
高通認為,AI終端市場的發(fā)展還在初期階段,,但已經(jīng)為高通的不同產(chǎn)品和解決方案帶來了顯著的改進,,對消費者的重要性也在不斷增加,無論教育,、醫(yī)學還是養(yǎng)老等各個領域,,AI的作用將愈發(fā)凸顯。
互聯(lián)網(wǎng)出現(xiàn)的時候,,只有少數(shù)人能夠利用PC上網(wǎng),,而智能手機的出現(xiàn)讓數(shù)十億人都能夠連接網(wǎng)絡。
相信終端側(cè)生成式AI的發(fā)展也是如此,,它將讓所有人都能充分利用生成式AI,,改變工作、娛樂和生活中的切身體驗,,變革各行各業(yè),。