《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 業(yè)界動態(tài) > 云天勵飛IPU成功流片,,比特大陸第二代AI芯片曝光!

云天勵飛IPU成功流片,,比特大陸第二代AI芯片曝光,!

2018-08-22

微信圖片_20180822150549.jpg

隨著人工智能市場的火爆,越來越多的芯片廠商開始推出AI芯片,,與此同時很多AI算法廠商也開始紛紛推出自己的AI芯片,。一時間AI芯片已成為當下最為市場最為關注的焦點。


早在去年11月,,礦機芯片廠商比特大陸就推出了自己的首款人工智能芯片BM1680,;今年年初,國內(nèi)的聲紋識別廠商Speakin也曝光了自己的即將推出的聲紋識別模組,;今年4月,,國內(nèi)的人臉識別廠商云天勵飛也確認將會在年內(nèi)推出自己的AI芯片;5月16日,,云知聲發(fā)布首款面向物聯(lián)網(wǎng)領域的AI系列芯片UniOne以及第一代芯片“雨燕”,;5月24日,出門問問發(fā)布旗下首款AI語音芯片模組問芯Mobvoi A1,;7月2日,,Rokid發(fā)布旗下AI語音專用SoC芯片KAMINO18;而在同一時間,,語音識別廠商思必馳CEO高始興也確認公司正在打造AI語音ASIC芯片,,預計今年下半年流片。


近日,,云天勵飛首款自主知識產(chǎn)權的AI芯片IPU已成功流片,。與此同時,比特大陸的第二代AI芯片BM1682正式曝光,。下面我們來看詳細介紹:


云天勵飛自主產(chǎn)權AI芯片IPU已于16日流片


今年4月25日,,在云天勵飛召開的芯片專題媒體溝通會上,云天勵飛聯(lián)合創(chuàng)始人,、CEO陳寧提到,,云天勵飛正在研發(fā)的一款面向嵌入式端的邊緣人工智能芯片IPU (inteligence processor unit)已取得階段性成果,,計劃今年年中流片,明年上半年正式商用,。時隔僅不到4個月之后,,8月16日,云天勵飛的IPU已成功流片,。


  云天勵飛IPU聚焦嵌入式視覺智能終端


  據(jù)介紹,,云天勵飛AI芯片的技術路線是通過設計一系列面向多層神經(jīng)網(wǎng)絡的可編程處理器,應對人工智能算法的快速迭代,?!拔覀兪讋?chuàng)的‘自適應云+端’AI系統(tǒng)架構,可通過云端邏輯控制終端芯片,,自動更新終端芯片的算法和功能,。”據(jù)云天勵飛聯(lián)合創(chuàng)始人,、CEO陳寧介紹,,云天勵飛自主研發(fā)的專用深度學習神經(jīng)網(wǎng)絡處理器芯片,采用ASIP設計思路,,提供ASIC級別高性能和低功耗,,也能提供處理器級別的指令集靈活性。同時,,采用異構計算多核SOC架構,,集成多處理器單元,并行分布式處理與集中控制系統(tǒng),。

微信圖片_20180822150612.jpg


  與傳統(tǒng)芯片迭代速度相比,,AI芯片迭代更快?!澳壳皝碚f,算法每半個月迭代一次,,AI芯片則要同步迭代,,而傳統(tǒng)芯片的迭代是按年計算。現(xiàn)有的CPU或GPU無法滿足嵌入式端視覺AI應用,?!睋?jù)云天勵飛研發(fā)副總李愛軍表示,通用CPU在神經(jīng)網(wǎng)絡加速上速度慢,,性能上滿足不了對嵌入式端的需求,;GPU性能是夠的,但功耗高,、成本居高不下,?!八裕覀冇X得有必要去研究適應新型神經(jīng)網(wǎng)絡的深度學習處理器架構芯片,?!倍铺靹铒w研發(fā)的芯片是面向嵌入式端的邊緣計算人工智能芯片,專注智能視覺,,聚焦在安防,、智能商業(yè)等領域的場景應用。


  擁有國內(nèi)頂尖ASIP矢量處理器芯片設計團隊


  “云天勵飛做芯片不是臨時起意,,而是從公司創(chuàng)立之初就開始了芯片的布局,。”據(jù)陳寧介紹,,云天勵飛早在2014年就有了完整的“機器學習與視覺智能處理器”AI芯片解決方案,,并獲得2015年深圳孔雀團隊第一名。


  在當時,,云天勵飛的芯片研發(fā)團隊是國內(nèi)AI芯片界唯一有芯片商用經(jīng)驗的團隊,,陳寧本人是中國第一款商用矢量處理器芯片的設計者,而芯片團隊主導者李愛軍是原中興通訊手機芯片的研發(fā)負責人,,主導研發(fā)了國內(nèi)第一顆28nm手機芯片商用(2010)和國內(nèi)首款LTE多模手機芯片商用,。


  陳寧說,“我們的芯片研發(fā)團隊是國內(nèi)頂尖的ASIP矢量處理器芯片設計團隊,,主要的骨干團隊成員有豐富的矢量處理器,、復雜SoC芯片設計經(jīng)驗,且平均設計經(jīng)驗超過10年,?!?/p>


  IPU具有高能低耗、可編程,、可云端升級等特點


  據(jù)了解,,云天勵飛在2016年完成了第一代深度學習神經(jīng)網(wǎng)絡處理器NNP100的研制,并基于FPGA載體實現(xiàn)商用,。


  李愛軍介紹說,,NNP100深度結合云天勵飛自研深度學習算法,與自研神經(jīng)網(wǎng)絡模型深度耦合,,具有強大的運算處理能力以及靈活的模型pooling能力,,設計上支持PE數(shù)量根據(jù)場景需求任意擴展和裁剪,非常靈活,,同時它又具有高性能,、低時延和低功耗技術優(yōu)勢。

微信圖片_20180822150634.jpg

  “相比之前的應用效果,,采用NNP100后FPGA加速卡,,計算性能相比GPU提升2倍,,功耗減低5 倍,時延減低100倍,?!崩類圮娊榻B,目前NNP100應用在云天勵飛的DeepEye100智能盒子和DeepEye200服務器加速卡產(chǎn)品上,?;贜NP100的技術基礎,云天勵飛已經(jīng)在研發(fā)第二代深度學習神經(jīng)網(wǎng)絡處理器NNP200,,并取得階段性成果,。NNP200將集成于云天勵飛IPU (inteligence processor unit)芯片上,并用于智能終端產(chǎn)品,。


  據(jù)介紹,,云天勵飛的視覺AI芯片具有2Tops/W的高能量效率。與Nvidia開源的nvDLA相比,,相同運算力下,,在很小的內(nèi)存帶寬下,算法模型效率可以提高18倍,。與麒麟970相比,,相同運算力下,比970的性能提高4.4倍,。


  “云天的芯片除了高能低耗的優(yōu)勢之外,,還能實現(xiàn)可編程,遠程一鍵升級,。芯片可同時處理多路高清視頻,,此外,通過片間級聯(lián)還可進行擴展,?!崩類圮娬f,多芯片級聯(lián),,相當于搭積木一樣,,一顆一顆之間通過板級互聯(lián)進行擴展。通過級聯(lián)擴展最多可以同時處理64路視頻,。


  “我們采用業(yè)界領先的22nm工藝,,工藝的性能,、功耗,、面積經(jīng)過仿真、分析,、比對,,對比業(yè)界主流的28nm工藝,,都具有一定優(yōu)勢,性能提升約10%,,功耗降低約15%,,面積減小15%-20%?!标悓庍€提到,,云天勵飛的IPU芯片計劃在今年年中實現(xiàn)流片,并在明年上半年推向商用,,最終通過模式創(chuàng)新,,打造一個開放賦能的芯片平臺。


  云天IPU最大亮點——對場景理解更為深刻


  相比傳統(tǒng)的芯片,,AI芯片更注重“從場景到算法,,從算法到芯片”。正因為不同于以往從硬件出發(fā)的思路,,AI芯片的行業(yè)形態(tài)和商業(yè)模式正在發(fā)生著變化,。目前,AI芯片的應用場景主要集中在安防,、智能家居和消費電子,、自動駕駛、云計算,、智慧城市等行業(yè),。


  “由于目前還不存在適用于所有通用算法的嵌入式AI芯片,確定芯片的應用場景就顯得尤為重要,?!标悓幪岬剑^往三年,,云天勵飛深耕安防領域,,最先提出了針對安防行業(yè)“云+端”的解決方案,真正做到將AI技術落地于垂直場景,。


來源: 智能科技熱點


深度分析:比特大陸二代AI芯片性能躍升,,專注安防視頻

微信圖片_20180822150714.jpg

 

  近日,坊間傳聞許久的比特大陸第二代人工智能芯片BM1682,,正式出現(xiàn)在其官網(wǎng)頁面,。根據(jù)比特大陸一貫神秘務實的風格,相信基于BM1682的板卡,、服務器也已經(jīng)備好了,。筆者在芯片行業(yè)浸淫十多年,嘗試根據(jù)比特大陸官網(wǎng)公布的產(chǎn)品白皮書,,來分析一下這兩代人工智能芯片之間的異同,,嘗試談一談比特大陸在人工智能領域的意圖和野心,。


  2017年第4季度,比特大陸正式推出了其人工智能品牌算豐(SOPHON),,發(fā)布了全球首款公開發(fā)售的TPU(Tensor Processing Unit張量計算單元)芯片BM1680,,專門用于人工智能中的深度學習加速。時隔不足一年,,2018年3月,,比特大陸又推出其第二款TPU芯片BM1682,根據(jù)初步披露的資料顯示,,BM1682是一塊專門用于圖像/視頻處理方向的人工智能芯片,。


  BM1682與BM1680使用了相同的深度學習算法的硬件加速模塊,但相比BM1680而言,,BM1682具有更強大的深度學習算法執(zhí)行能力,,此外BM1682還增加了視頻處理子模塊,以及適用于具體應用場景的諸多功能模塊,。


  下面我們對其兩者進行一個具體的對比評測:


  頂層架構——BM1682定位更細分


  從頂層架構可以看出,,BM1680和BM1682均集成了深度學習算法所用到的核心模塊NPUs。NPU是比特大陸自行研發(fā)的深度學習算法硬件加速器,,用于加速深度學習算法的執(zhí)行速度,。


  從頂層架構圖上可以看到,BM1680比BM1682額外集成了高度定制的BMDNN Chip Link Subsystem,。該子模塊可以在高速SerDes上提供穩(wěn)定,、靈活、低延遲的鏈路,。用戶可以通過該鏈路將多個BM1680芯片連接成一個統(tǒng)一的整體,,使其協(xié)同工作,大大提高系統(tǒng)的運算能力,。BM1682并沒有集成此模塊,,這大概是基于BM1682專一化的市場應用定位,以及處理速度足夠滿足用戶對圖像/視頻處理需求而考慮的,。


  從頂層架構圖上可以看到與BM1680相比,BM1682芯片的整體架構發(fā)生了不小的變化,,其定位則更加細分明確。從右上角增加的Video Subsystem模塊可以明確看出,該款芯片定位于圖像/視頻處理方向,。

  

微信圖片_20180822150736.jpg

  

模塊細節(jié)——BM1682設計更豐富


  BM1682的深度學習加速的核心功能模塊與BM1680是相同的,。兩款芯片均包含了深度學習的核心單元—硬件加速器NPU Subsystem。兩者的NPU Subsystem均各自集成了64個NPU單元,,統(tǒng)一由NPU Schedule Engine進行調度(BM1682架構圖中未體現(xiàn)),最大化的提高了NPUs的效率,,加快了深度學習算法inference (推演)與training (訓練)的速度。根據(jù)初步資料顯示,,兩者在MCU的配置上是有些許差異的,但由于資料不全面,,故無法評斷出兩者的MCU處理能力的差別。


  除了深度學習算法硬件加速模塊(NPUs),、用于高速連接其余BM1680的Chip Link模塊之外,BM1680還提供了4個獨立的DDR4通道,,最高支持16GB的DDR3 或 DDR4 DRAM拓展,,用于高速數(shù)據(jù)緩存讀取,,以提高系統(tǒng)的執(zhí)行速度。BM1680還加入了Global DMA模塊,。DMA用于提供數(shù)據(jù)搬移功能,,這可以在大塊數(shù)據(jù)進行讀寫搬移時不占用MCU的資源,如在DDR4 的RAM中搬移數(shù)據(jù)時,。對于大數(shù)據(jù)量的深度學習系統(tǒng),,DMA可以極大的提高效率。BM1680的Peripheral Subsystem 提供了UART,、SPI,、IIC與GPIO等接口,用于外接傳感器,,或與外界進行通訊,、記錄、控制等操作。這些接口都屬于通用接口,,可見BM1680的定位就是通用深度學習芯片,,在外設上沒有給與太多支持。


  從架構圖看,,BM1682明顯復雜了很多,。其額外增加了AP (Application Processor) Subsystem和Video Subsystem(視頻處理系統(tǒng))。Video Subsystem(視頻子系統(tǒng))則主要專注于視頻預處理的相關任務,。


  BM1682的Video Subsystem提供了2個H.264視頻解碼器,,1個H.265解碼器。H.264 /H.265均為視頻編碼方式,,也是比較流行的視頻編碼的兩種方式,。相對而言,H.265視頻編碼比H.264具有更高的壓縮比,、更強的網(wǎng)絡糾錯適應能力,,但考慮到現(xiàn)階段在安防、智能家居和互聯(lián)網(wǎng)視頻領域中仍然還是以H.264編碼的視頻和視頻設備為主,,兩者2:1的譯碼器數(shù)量在視頻支持類型和解碼帶寬做了一個合適的權衡,。比較貼心的是,BM1682提供了Video Post-Processing功能,,該子模塊用于對采用H.264或H.265編碼的視頻進行渲染處理,,這些渲染處理主要包括顏色空間轉換、視頻剪裁,、縮放操作,、仿射變換、多幀拼接等常規(guī)操作,。經(jīng)過Video Post-Processing對外界進入的視頻數(shù)據(jù)進行硬件加速預處理后,,Video Subsystem會將處理后數(shù)據(jù)通過總線傳輸給NPUs、DRAM,、AP System或外接存儲設備,,然后進行后續(xù)的深度學習處理等操作。


  BM1682提供了豐富的外界交互接口,,如高速接口PCIE,、以太網(wǎng)、SDIO3.0,、WIFI等,。BM1682將數(shù)據(jù)處理完畢后可以很方便的通過PCIE接口、以太網(wǎng)接口,、或者WIFI接口將數(shù)據(jù)傳輸?shù)娇偡掌?。若是條件限制沒有網(wǎng)絡接入點,,用戶可以選擇通過接入SDIO3.0的eMMC存儲器或是PCIE式存儲器將數(shù)據(jù)存儲到本地存儲裝置??梢?,BM1682對其可能的應用場景做了充分的考慮并給予了硬件支持,用戶可以根據(jù)需求,,靈活方便的進行配置,。


  Peripheral Subsystem方面,BM1682比BM1680要豐富的多,,這大大方便了用戶進行系統(tǒng)拓展,如添加額外傳感器等,。BM1682的外設包括2個SPI接口,、4個UART接口、4個IIC,、4路PWM生成器,、一塊內(nèi)嵌式SPI Flash、WDG,、Timer,、GPIO、PVT Sensor,、Top Reg,、Efuse、ROM,。由給出的外設可以看到,,BM1682的設計考慮了配置、存儲,、對外界系統(tǒng)實時控制、以及加密保護等功能,,極大提高了系統(tǒng)的靈活性,、安全性,,省卻了用戶額外添加相關功能的開發(fā)成本。


  性能分析——BM1682極大提升


  NPU深度學習硬件加速器是人工智能的核心,。兩者NPUs模塊集成了64個NPUs單元,,通過NPU Schedule Engine進行調度。BM1682中每個NPU含有32個EUs,BM1680未知,。根據(jù)BM1680,、BM1682數(shù)據(jù)手冊顯示,單片BM1680單精度運算速度為2TFLops;單片BM1682單精度運算速度為3TFLops,。BM1682的單片運算速度高出BM1680 50%,。


  BM1680單片的運行速度低于BM1682,但BM1680支持級聯(lián)工作模式,,數(shù)個BM1680可以通過高速的Chip Link Subsystem組成一個集群式的系統(tǒng),,進行更高處理量的運算處理任務。BM1682不具備級聯(lián)功能,。下圖為BM1680芯片的級聯(lián)連接示意圖,。

  

微信圖片_20180822150800.jpg

  級聯(lián)方式:每個Node代表一個BM1680

  

微信圖片_20180822150824.jpg

  電學方面,根據(jù)兩者的數(shù)據(jù)手冊顯示:滿載工作時BM1680的TPD(Thermal Design Power熱設計功耗)為41W;:滿載工作時BM1682的TPD小于50W,。從功耗角度分析,,BM1680的2TFlops的NPUs速度應該是有所保留的。

  

微信圖片_20180822150842.jpg

  開發(fā)生態(tài)——兩代芯片都很到位


  BM1680,、BM1682均支持的主流的CNN/RNN/DNN深度學習架構,,通過這兩款TPU芯片進行硬件加速,可以極大的提高深度學習算法的執(zhí)行速度,。當然,,BM1680和BM1682也可以通過基礎的矩陣運算進行深度學習的模型、架構的搭建,。

  

微信圖片_20180822150900.jpg

  在開發(fā)生態(tài)方面,,兩款芯片的支持也是很到位的。BM1680,、BM1682均對后端用戶提供SDK;如果用戶需要進行深度優(yōu)化以獲取算法最優(yōu)性能,,可以聯(lián)系廠家獲得相關教學支持。


  應用領域——BM1682更專注圖像/視頻處理


  由前述分析可知,,BM1680為通用性人工智能芯片,,其應用方向沒有偏向性,芯片內(nèi)部主要集成了深度學習算法所需要的基本模塊,,應用各種人工智能的深度學習算法,,通過添加相應的外圍電路模塊,BM1680可以搭建成適用于任一個領域的深度學習系統(tǒng)——像圖片識別,、自然語言處理,、文本處理、金融,、醫(yī)學等等大小領域均可選擇該芯片實現(xiàn),。BM1680更加具有靈活性,。而且,BM1680可以進行級聯(lián),,所以對于需要處理巨大數(shù)據(jù)量的人工智能深度學習系統(tǒng),,BM1680尤為合適。像企業(yè)級應用,、海量數(shù)據(jù)處理等方面,,通過簡單的級聯(lián)BM1680就可以獲取相匹配的計算能力,靈活而強大,。


  而BM1682則是一個升級版的BM1680并配備了專門用于視頻處理的集成系統(tǒng),,整個BM1682芯片搭載了視頻處理所需要的全部核心模塊,以及對其具體應用場景適應性的輔助模塊,。BM1682對于需要進行圖像/視頻處理的市場應用可謂是十分便捷了,。BM1682的輔助功能配置模塊自帶有線與無線網(wǎng)絡功能,對于視頻監(jiān)控方向的市場應用十分方便,,無線功能更是省略了網(wǎng)線布線的繁瑣施工,,并且可用于實現(xiàn)遠程監(jiān)控,。對于一些沒有網(wǎng)絡的場合,,如科研領域的野外視頻收集處理、閉路視頻監(jiān)控等,,BM1682可以輕松的添加外置存儲裝置進行數(shù)據(jù)備份收集,。BM1682作為圖像/視頻方向深度學習的SoC片上系統(tǒng),市場前景很是廣闊,,這款新品還是很值得期待的,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。