文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.201207
中文引用格式: 張旭欣,張嘉,,李新增,,等. 二值VGG卷積神經(jīng)網(wǎng)絡加速器優(yōu)化設計[J].電子技術應用,2021,,47(2):20-23.
英文引用格式: Zhang Xuxin,,Zhang Jia,Li Xinzeng,,et al. Optimization design of binary VGG convolutional neural network accelerator[J]. Application of Electronic Technique,,2021,47(2):20-23.
0 引言
深度卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,,CNN)已經(jīng)成為了當前計算機視覺系統(tǒng)中最有前景的圖像分析方法之一,。
近年來,,隨著Binary-Net,、Dorefa-Net、ABC-Net等[1-3]低精度量化神經(jīng)網(wǎng)絡的深入研究,,越來越多的研究集中于在FPGA硬件中構建定制的加速器結(jié)構,,實現(xiàn)CNN的加速[4]?;贔PGA的低精度量化神經(jīng)網(wǎng)絡實現(xiàn)主要可分為兩類:流架構[5-6]和層架構[7-8],。其中,由于流架構實現(xiàn)了流水線化,,每個階段都可以獨立處理輸入且可以針對CNN逐層設計并優(yōu)化相應層的加速運算單元,,因此擁有更高的吞吐率和更低的延遲以及內(nèi)存帶寬,但其邏輯資源等消耗也相當可觀,。因此,,現(xiàn)有的基于流架構實現(xiàn)的二值神經(jīng)網(wǎng)絡加速器研究大多是針對32×32尺度MNIST數(shù)據(jù)集等小尺度的圖像輸入。而實際應用中更多使用如448×448尺度的YOLO,、224×224尺度的VGG等作為骨干網(wǎng)絡,,一方面,大尺度輸入的網(wǎng)絡結(jié)構參數(shù)量往往較大(以VGG為例,其參數(shù)量大約500 MB),,高端FPGA的片上內(nèi)存容量也僅32.1 Mb左右,,這對FPGA實現(xiàn)CNN加速將是資源瓶頸。即使采用低精度量化策略,,F(xiàn)PGA有限的片上內(nèi)存資源仍捉襟見肘,。另一方面,雖然各層運算單元可以得到特定優(yōu)化,,然而由于網(wǎng)絡拓撲結(jié)構限制,,往往各層網(wǎng)絡很難實現(xiàn)計算周期的匹配,從而造成推斷性能難以進一步提高,。針對基于流架構的二值卷積神經(jīng)網(wǎng)絡加速器設計存在的資源與性能的瓶頸,,本文以224×224尺度的VGG-11網(wǎng)絡加速器設計為例,重點研究了大尺度的二值卷積神經(jīng)網(wǎng)絡硬件加速器設計,、優(yōu)化及驗證,,主要工作如下:
(1)針對大尺度流架構的二值VGG卷積神經(jīng)網(wǎng)絡加速器設計存在的資源與性能瓶頸,提出了網(wǎng)絡模型優(yōu)化和流水線優(yōu)化的方法,。
(2)設計并優(yōu)化了224×224尺度的基于流架構的二值VGG卷積神經(jīng)網(wǎng)絡加速器,。實驗表明基于FPGA平臺實現(xiàn)了81%的準確率,219.9 FPS的識別速度,,相較于同類型的加速器識別速度最高提升了33倍,。
本文詳細內(nèi)容請下載:http://wldgj.com/resource/share/2000003365
作者信息:
張旭欣,張 嘉,,李新增,,金 婕
(上海工程技術大學 電子電氣工程學院,上海201600)