文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.173486
中文引用格式: 周松江,,李圣辰,劉明. 一種基于FPGA的低功耗高速解碼器設計[J].電子技術應用,,2018,,44(4):27-32.
英文引用格式: Zhou Songjiang,Li Shengchen,,Liu Ming. A low power and high speed decoder design based on FPGA[J]. Application of Electronic Technique,,2018,44(4):27-32.
0 引言
計算機處理多媒體或文字信息的基礎是對相關信息進行編碼和解碼,以利于信息的傳輸,、顯示和保護[1],。面對巨大信息量的處理需求,,快速高效的編解碼系統(tǒng)能夠有效提高信息處理能力,。近年來,隨著神經(jīng)網(wǎng)絡的發(fā)展和應用,,利用神經(jīng)網(wǎng)絡進行數(shù)學函數(shù)回歸的方案,,為信息的編解碼提供了簡單有效的途徑[2]。自編碼神經(jīng)網(wǎng)絡是一種無監(jiān)督的人工神經(jīng)網(wǎng)絡,,其利用反向傳播算法訓練使得網(wǎng)絡的輸出值等于輸入值,,從而為輸入數(shù)據(jù)學習到一種特征表示,廣泛應用于圖像壓縮和數(shù)據(jù)降維等領域[3-4],。自編碼神經(jīng)網(wǎng)絡輸出等于輸入的特點適合用于數(shù)據(jù)編碼和解碼,,相比于傳統(tǒng)的編解碼方法,如熵編碼[5],,該算法更簡潔高效,,結構可擴展,實用性更強[3]。
而隨著編解碼器在一些低功耗,、便攜式產(chǎn)品中的應用,,高速、高精度和低功耗已經(jīng)成為編解碼器的一種發(fā)展趨勢?,F(xiàn)場可編程門陣列(Field Programmable Gate Array,,FPGA)是一種可編程邏輯器件,用戶可通過硬件描述語言完成硬件電路設計,。FPGA內(nèi)部集成了具有高性能的數(shù)字信號處理器和大量存儲資源,,可以高效低成本地實現(xiàn)定點運算和數(shù)據(jù)存儲,因此目前FPGA是一種理想的編解碼器實現(xiàn)平臺[5-6],。FPGA中各個硬件模塊并行執(zhí)行,,可將計算量大的算法映射到FPGA中實現(xiàn)硬件加速。有學者嘗試采用FPGA作為神經(jīng)網(wǎng)絡的實現(xiàn)平臺,,并取得了優(yōu)異的性能,,尤以速度和功耗突出[7-8]。綜上所述,,基于自編碼神經(jīng)網(wǎng)絡,,以FPGA為實現(xiàn)平臺的編解碼系統(tǒng),具有靈活性高,、高速,、低功耗等特點,可廣泛應用于各種低功耗,、便攜式應用中,。
本文通過分析自編碼神經(jīng)網(wǎng)絡的結構和特點,提出了一種用于數(shù)據(jù)解碼的硬件實現(xiàn)架構,。根據(jù)網(wǎng)絡計算過程中包含的運算和神經(jīng)元間的并行性特點,,結合FPGA高并行、低功耗和高速數(shù)據(jù)處理的優(yōu)勢,,將自編碼神經(jīng)網(wǎng)絡的解碼部分映射到FPGA中,。該架構具有速度快、功耗低等特點,,除文中論述的文字信息解碼外,,該架構具備擴展到圖像編解碼的可能性。
1 自編碼神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡是基于生物神經(jīng)網(wǎng)絡的基本原理,,通過模擬人腦神經(jīng)系統(tǒng)的結構和功能而建立的一個數(shù)學模型,,該模型擁有以任意精度逼近一個離散值、實數(shù)值或者目標函數(shù)的功能[9-10],。自編碼神經(jīng)網(wǎng)絡是一種無監(jiān)督的人工神經(jīng)網(wǎng)絡,,其采用反向傳播算法,通過學習試圖使得網(wǎng)絡的輸出值等于輸入值,從而為輸入數(shù)據(jù)學習到一種特征表示[3-4],。
自編碼神經(jīng)網(wǎng)絡模型是一種對稱結構,,中間為隱含層,輸入輸出層神經(jīng)元節(jié)點數(shù)相等且通過訓練使得網(wǎng)絡輸出值和輸入值相等,。如圖1所示為自編碼神經(jīng)網(wǎng)絡的結構圖,,輸入層和輸出層含有m個神經(jīng)元,隱含層含有n個神經(jīng)元,,輸入層和隱含層下方的“+1”是偏置節(jié)點,。自編碼神經(jīng)網(wǎng)絡的輸入層到隱含層構成編碼器,隱含層到輸出層構成解碼器,,對自編碼神經(jīng)網(wǎng)絡的訓練過程就是通過調(diào)整編碼器和解碼器中的權值和偏置,,使其逼近一個恒等函數(shù),從而使得網(wǎng)絡輸出值等于輸入值,,這樣網(wǎng)絡隱含層的輸出數(shù)據(jù)為原始輸入數(shù)據(jù)的另一種特征表示,,即該數(shù)據(jù)經(jīng)過自編碼神經(jīng)網(wǎng)絡的解碼器可以恢復原始的輸入數(shù)據(jù)[11]。
在本文中,,利用自編碼神經(jīng)網(wǎng)絡的編碼器對輸入數(shù)據(jù)進行編碼,,所得到隱含層的輸出數(shù)據(jù)稱為原始數(shù)據(jù)的編碼;該編碼數(shù)據(jù)經(jīng)過自編碼神經(jīng)網(wǎng)絡的解碼器實現(xiàn)數(shù)據(jù)解碼,,從而恢復原始輸入數(shù)據(jù),。下面參照圖1所示的自編碼神經(jīng)網(wǎng)絡結構,介紹自編碼神經(jīng)網(wǎng)絡的前向計算過程,,首先計算隱含層n個神經(jīng)元的輸出如式(1):
輸出層m個神經(jīng)元的輸出如式(2):
通過對網(wǎng)絡前向計算過程式(1)和式(2)的分析可以看出:自編碼神經(jīng)網(wǎng)絡對信息的處理為從輸入層開始,,經(jīng)過隱含層直到輸出層輸出為止,每一層各個神經(jīng)元之間的計算具有獨立性和并行性,;式(1)和式(2)的計算包括乘加運算和激勵函數(shù)運算,,且兩者按照順序依次進行。
2 FPGA設計方案
本章對基于FPGA的硬件解碼系統(tǒng)的設計需求進行分析,,介紹整個系統(tǒng)的硬件架構設計,、系統(tǒng)工作原理,,最后對設計中的網(wǎng)絡計算模塊進行詳細介紹,。
2.1 系統(tǒng)分析
本文在FPGA中設計實現(xiàn)圖1所示自編碼神經(jīng)網(wǎng)絡的解碼器部分,從而實現(xiàn)數(shù)據(jù)解碼功能,。在軟件端對自編碼神經(jīng)網(wǎng)絡進行訓練,,得到網(wǎng)絡模型后將對現(xiàn)今最通用的單字節(jié)編碼ASCII碼歸一化后的數(shù)據(jù)輸入至自編碼神經(jīng)網(wǎng)絡的編碼器以獲得編碼數(shù)據(jù),最后將編碼數(shù)據(jù)送至FPGA端實現(xiàn)數(shù)據(jù)解碼以恢復原始輸入的ASCII碼,。
通過對自編碼神經(jīng)網(wǎng)絡前向計算的分析,,其計算過程中包括乘加運算和激勵函數(shù)運算,網(wǎng)絡每層中各個神經(jīng)元之間的計算具有獨立性和并行性。而對編碼數(shù)據(jù)進行解碼操作的過程中,,要求所設計的硬件系統(tǒng)具有實時性特點,。FPGA作為一個分布式并行處理系統(tǒng),其內(nèi)部包含大量邏輯單元和計算單元,,且具有可編程,、速度快、靈活性高,、易配置,、設計周期短等特點,因此本文選用FPGA作為所設計數(shù)據(jù)解碼器的硬件實現(xiàn)平臺,。
所設計的解碼器為圖1所示自編碼神經(jīng)網(wǎng)絡的隱含層到輸出層部分,,其所包含的權值參數(shù)有n×m個,偏置參數(shù)有m個,,n和m分別表示網(wǎng)絡隱含層和輸出層神經(jīng)元的個數(shù),。由于實現(xiàn)解碼功能僅需要網(wǎng)絡的前向計算,因此網(wǎng)絡的權值和偏置為固定值,,所以在設計中可利用FPGA內(nèi)部資源對網(wǎng)絡權值和偏置進行存儲并以固定值的形式參與網(wǎng)絡運算,。
解碼器一次完整的解碼過程可簡述為:輸入數(shù)據(jù)→解碼計算→輸出結果。在實際應用中往往包含有多組編碼數(shù)據(jù),,因此設計中將編碼數(shù)據(jù)存儲在外部存儲器中以供FPGA讀取,。SD存儲卡是一種基于半導體快閃記憶器的新一代記憶設備,由于它具有體積小,、數(shù)據(jù)傳輸快,、可熱插拔等優(yōu)良特性,被廣泛應用于便攜式設備中[13],。因此本設計選擇使用SD卡來存儲編碼數(shù)據(jù),。SD卡讀操作為每次讀取一個扇區(qū)的數(shù)據(jù),而網(wǎng)絡計算模塊的輸入數(shù)據(jù)的個數(shù)與圖1所示隱含層神經(jīng)元個數(shù)相同,,兩個數(shù)據(jù)量并不匹配,。另外,SD卡讀數(shù)據(jù)操作和網(wǎng)絡計算為異步關系,,因此本設計中加入FIFO模塊,,作為SD卡讀數(shù)據(jù)模塊和網(wǎng)絡計算模塊兩個異步模塊之間的數(shù)據(jù)緩存器,這樣的設計也易于擴展到其他不同神經(jīng)元數(shù)量的網(wǎng)絡結構,。
另外,,為了便于人為控制對多組編碼數(shù)據(jù)進行解碼,系統(tǒng)設計中利用按鍵來產(chǎn)生一次解碼操作的起始信號,。本設計是以ASCII碼的編碼和解碼對系統(tǒng)進行測試,,因此設計中采用專門顯示字母,、數(shù)字和符號等的工業(yè)字符型液晶LCD1602顯示解碼結果。最后為了增加FPGA硬件系統(tǒng)穩(wěn)定性,,減少系統(tǒng)時鐘的抖動和傾斜,,設計中增加混合模式時鐘管理器(MMCM),用于在與輸入時鐘信號有設定的相位和頻率關系的情況下,,生成不同的時鐘信號,,該信號用于各個模塊工作。
2.2 硬件系統(tǒng)架構
基于上述分析,,所設計FPGA硬件系統(tǒng)結構如圖2所示,。系統(tǒng)外圍模塊包括存儲編碼數(shù)據(jù)的SD卡,產(chǎn)生差分時鐘信號的晶振,,產(chǎn)生復位信號和控制系統(tǒng)工作的按鍵,,和顯示網(wǎng)絡計算結果的LCD1602顯示器。FPGA內(nèi)部包含三大模塊,,分別是:數(shù)據(jù)加載模塊,、數(shù)據(jù)處理模塊和混合模式時鐘管理器。
設計中利用SD卡來存儲編碼數(shù)據(jù),,對SD卡的操作采用簡單的命令/響應協(xié)議[13],,全部命令由FPGA發(fā)起,SD卡接收到命令后返回響應數(shù)據(jù),。要讀取SD卡中的數(shù)據(jù),,需要首先完成SD卡的初始化,該系統(tǒng)按照功能分別設計SD卡初始化模塊和SD卡讀數(shù)據(jù)模塊,,其符合FPGA模塊化的設計原則,。FIFO模塊作為SD卡和網(wǎng)絡計算模塊之間的數(shù)據(jù)緩存器,同時又用于異步數(shù)據(jù)傳輸,,因此在設計中采用獨立的讀時鐘和寫時鐘,,以用于異步操作。
按鍵檢測模塊不斷讀取外部按鍵輸出信號key_in的值,,當檢測到按鍵按下時該模塊產(chǎn)生一個高脈沖信號,,該信號將作為一次解碼操作的起始信號。網(wǎng)絡計算模塊按照神經(jīng)網(wǎng)絡的計算方法對讀入的數(shù)據(jù)進行計算,。顯示驅(qū)動模塊設計中采用有限狀態(tài)機的方式控制LCD1602的初始化和數(shù)據(jù)顯示操作,,該模塊與網(wǎng)絡計算模塊之間有信號線連接,以實現(xiàn)將計算結果送至顯示驅(qū)動模塊,,顯示驅(qū)動模塊控制LCD1602對計算結果進行顯示,。
在圖2所示的硬件架構圖中,,混合模式時鐘管理器將外部時鐘分頻產(chǎn)生各個模塊工作所需要的時鐘信號,,其通過兩個時鐘線分別與數(shù)據(jù)加載模塊和數(shù)據(jù)處理模塊連接,,而數(shù)據(jù)加載模塊和數(shù)據(jù)處理模塊之間通過data_en、data和read_clk 3個信號連接,。
2.3 系統(tǒng)工作原理
FPGA的特點是可以實現(xiàn)并行操作,,在圖2所示的系統(tǒng)架構圖中,數(shù)據(jù)加載模塊和數(shù)據(jù)處理模塊以并行異步的方式工作,,下面對其工作原理分別介紹,。
數(shù)據(jù)加載模塊:系統(tǒng)上電后,數(shù)據(jù)加載模塊首先控制SD卡初始化模塊對SD卡進行初始化,,其初始化操作包含有一系列的命令,,在初始化完成后SD卡初始化模塊輸出初始化完成信號。由于SD卡中的編碼數(shù)據(jù)是在PC端以FAT32文件系統(tǒng)的形式寫入的,,因此在對SD卡初始化完成后,,數(shù)據(jù)加載模塊控制SD卡讀數(shù)據(jù)模塊讀取SD卡中的FAT32文件系統(tǒng)信息,獲取編碼數(shù)據(jù)的長度,,即文件所包含的字節(jié)數(shù),,該數(shù)據(jù)將用于控制對編碼數(shù)據(jù)的讀取。最后,,數(shù)據(jù)加載模塊不斷檢測FIFO中緩存數(shù)據(jù)的數(shù)量,,當數(shù)據(jù)的數(shù)量不足設定值時便控制SD卡讀數(shù)據(jù)模塊將SD卡中的編碼數(shù)據(jù)讀入FIFO中進行緩存。
數(shù)據(jù)處理模塊:當按鍵檢測模塊檢測到外部按鍵被按下時會產(chǎn)生一個高脈沖信號,,然后數(shù)據(jù)處理模塊會通過data_en,、data和read_clk 3個信號從FIFO中讀取數(shù)據(jù)到網(wǎng)絡計算模塊進行計算,然后通過顯示驅(qū)動模塊控制將計算結果顯示在外部的LCD1602上,。數(shù)據(jù)加載模塊和數(shù)據(jù)處理模塊之間data_en,、data和read_clk 3個信號的時序關系如圖3所示,當data_en為高電平時,,代表FIFO中存在有效的數(shù)據(jù)可以讀取,,此時每當read_clk信號的上升沿到達時,從data端口可以讀取一個數(shù)據(jù),。
如圖4所示為FPGA硬件系統(tǒng)工作流程圖,,其中SD卡讀操作和網(wǎng)絡計算之間為異步關系,系統(tǒng)中所加入的FIFO模塊作為SD卡讀數(shù)據(jù)模塊和網(wǎng)絡計算模塊兩個異步模塊之間的數(shù)據(jù)緩存器,。
2.4 網(wǎng)絡計算模塊設計
網(wǎng)絡計算模塊是本設計中的核心模塊,,用于實現(xiàn)圖1中的解碼器,將編碼數(shù)據(jù)和解碼器部分的權值與偏置按式(2)進行乘加運算,,并經(jīng)過激勵函數(shù)得到輸出值,。
通過對網(wǎng)絡前向計算分析可知其包括乘加運算和激勵函數(shù)運算。由于本設計中自編碼神經(jīng)網(wǎng)絡的輸入是對ASCII碼歸一化后的數(shù)據(jù),,即原ASCII碼值除以128后的值,,因此在FPGA模塊中激勵函數(shù)的輸出值需要擴大128倍才是真正的ASCII碼值,。由于128=27,在FPGA中乘操作可通過移位實現(xiàn),,因此對計算結果擴大128倍相當于將二進制格式的小數(shù)點右移7位,。更進一步,直接截取小數(shù)點后7位即為計算結果擴大128倍后的ASCII碼值,。因此在網(wǎng)絡計算模塊將計算分為3部分:乘加運算,、激勵函數(shù)運算和截位運算,如圖5所示為一個輸出層神經(jīng)元的計算結構示意圖,,輸出層各個神經(jīng)元按照圖5所示的計算結構以并行,、獨立的方式進行計算。
模塊中的乘加運算是將編碼數(shù)據(jù),、解碼器部分權值和偏置按照式(2)中激勵函數(shù)內(nèi)部的乘加運算規(guī)則進行計算,。本設計輸出層神經(jīng)元的激勵函數(shù)為hard_sigmoid函數(shù)[12],表達式為式(3):
根據(jù)定義,,hard_sigmoid函數(shù)為分段函數(shù),,且各段均為線性關系,其非常便于在FPGA系統(tǒng)中實現(xiàn),,即利用條件判斷語句對輸入進行判斷并輸出不同的值,,如圖6所示為hard_sigmoid函數(shù)硬件實現(xiàn)示意圖。
3 系統(tǒng)測試分析
為了測試所設計自編碼神經(jīng)網(wǎng)絡在FPGA平臺上的實現(xiàn),,本文選擇的網(wǎng)絡結構為輸入層,、輸出層含有4個神經(jīng)元節(jié)點,隱含層含有8個神經(jīng)元節(jié)點,。所選擇的應用背景為對ASCII碼的編碼和解碼,,其中軟件端完成對ASCII碼的編碼,所得到的編碼數(shù)據(jù)在FPGA端實現(xiàn)解碼,。
本實驗測試集由軟件生成,,軟件環(huán)境下對ASCII碼中非控制字符(碼值為32~127,共96個)做歸一化處理,,然后按照隨機組合的方式4個一組輸入至所設計的自編碼神經(jīng)網(wǎng)絡并獲得隱含層的輸出,,將該輸出作為FPGA的測試輸入數(shù)據(jù)保存在SD卡中。所選擇的FPGA硬件平臺是Xilinx VC707 FPGA開發(fā)板,,系統(tǒng)開發(fā)環(huán)境為Xilinx ISE 14.7,,仿真環(huán)境為ModelSim SE 10.1c,如圖7所示為硬件系統(tǒng)測試圖,。
在圖7所示的硬件系統(tǒng)測試圖中,,①為SD卡,②為LCD1602顯示屏,,③為控制按鍵,。系統(tǒng)上電后,,通過控制按鍵的按下操作不斷從SD卡中讀取數(shù)據(jù),經(jīng)過網(wǎng)絡計算模塊計算后將結果顯示在LCD1602顯示屏上,,每次顯示4個字符,,如圖7中LCD1602顯示屏的第二行即為解碼后的4個數(shù)據(jù),,對應于圖1所示神經(jīng)網(wǎng)絡的4個輸出,。
3.1 網(wǎng)絡計算結果分析
神經(jīng)網(wǎng)絡經(jīng)過訓練得到一組最優(yōu)參數(shù),包括網(wǎng)絡權值和偏置,。為了在FPGA中實現(xiàn)所設計自編碼神經(jīng)網(wǎng)絡的解碼器部分,,需要獲取對ASCII碼編碼后的數(shù)據(jù)(神經(jīng)網(wǎng)絡隱含層的輸出數(shù)據(jù))和解碼器部分的網(wǎng)絡權值與偏置。另外由于FPGA僅能對二進制數(shù)據(jù)識別和計算,,因此需要將上述數(shù)據(jù)轉(zhuǎn)換為二進制數(shù)據(jù),。
在FPGA設計中,數(shù)據(jù)的表示方式與FPGA邏輯資源消耗直接相關的,。數(shù)據(jù)表示位數(shù)越多,,數(shù)據(jù)精度越高,邏輯資源的消耗也就越多,,因此在FPGA設計中需要權衡FPGA資源消耗和數(shù)據(jù)精度之間的關系,。結合本文的實際應用,同時為了更好地權衡FPGA設計中的精度,、資源占用和功耗,,本設計采用定點數(shù)表示上述數(shù)據(jù)。
由于在FPGA設計中采用有限位定點數(shù)來表示數(shù)據(jù)時,,對原數(shù)據(jù)進行定點量化的過程中會因為數(shù)據(jù)的截斷而產(chǎn)生誤差,。根據(jù)網(wǎng)絡計算模塊的設計,其輸出為計算結果二進制小數(shù)點后7位,,因此在設計中需要保證這7位數(shù)據(jù)正確,,即與原始輸入數(shù)據(jù)相比,經(jīng)過解碼后輸出結果的誤差需要小于2-7,,即應小于7.812 5×10-3,。本文利用MATLAB下的Fixed Point Toolbox對數(shù)據(jù)進行量化,然后分析本設計中數(shù)據(jù)不同的量化位數(shù)對計算結果誤差的影響,,如圖8所示為定點數(shù)表示中小數(shù)點的位數(shù)和最大誤差之間的關系,。
從圖8可以看出:
(1)隨著定點數(shù)小數(shù)位數(shù)的增加,最大誤差值不斷降低,,即數(shù)據(jù)精度越來越高,;
(2)定點數(shù)小數(shù)位變?yōu)?2位之后,其最大誤差基本保持不變,;
(3)定點數(shù)小數(shù)位為9位時,,其最大誤差與7.812 5×10-3基本一致,;定點數(shù)小數(shù)位為10位時,其最大誤差已符合小于7.812 5×10-3的要求,。
基于圖8所示的分析結果,,本文在對設計中的網(wǎng)絡權值、偏置和編碼數(shù)據(jù)進行定點數(shù)量化時,,小數(shù)位均設計為10位,。進一步通過對網(wǎng)絡的權值、偏置和編碼數(shù)據(jù)的大小范圍進行分析可以確定其整數(shù)位的位數(shù),,3種數(shù)據(jù)的二進制定點數(shù)格式如表1所示,。
本設計在ModelSim環(huán)境下對網(wǎng)絡計算模塊進行仿真,并對模塊輸出的計算結果與軟件中的原始輸入數(shù)據(jù)進行分析比對,,所測試數(shù)據(jù)中的絕對誤差最大值小于7.812 5×10-3,,符合設計中的誤差要求。另外通過硬件實測,,所有被編碼后的數(shù)據(jù)經(jīng)過FPGA計算后均被正確解碼,,并將結果顯示在LCD1602上,即所設計的FPGA硬件系統(tǒng)正確地完成了解碼功能,,從而驗證了對所設計網(wǎng)絡計算模塊的誤差分析,。
3.2 系統(tǒng)性能分析
如表2所示為Xilinx ISE對系統(tǒng)工程綜合實現(xiàn)后列出的主要資源占用情況??梢钥闯?,DSP資源占用較大,主要原因是網(wǎng)絡計算模塊中的乘加計算和激勵函數(shù)運算均含有定點數(shù)乘法和加法操作,,因此會占用較多的DSP資源,。另外,BRAM資源的占用主要來自于FIFO模塊的實現(xiàn)和網(wǎng)絡計算模塊中網(wǎng)絡權值與偏置的存儲,。
如表3所示為FPGA硬件實現(xiàn)數(shù)據(jù)解碼的速度和軟件解碼速度的比較,,軟件解碼是在MATLAB軟件中測試所得,CPU為Intel Core i7,,主頻為2.5 GHz,。FPGA硬件解碼速度是通過在FPGA中設置計數(shù)器,對從讀取解碼器輸入數(shù)據(jù)到最后輸出結果的時鐘進行計數(shù),,然后利用ChipScope工具查看計數(shù)值來計算工作時間,。表3中的結果顯示,相比于CPU軟件解碼,,本文所設計的FPGA硬件解碼器加速了7倍以上,。
通過Xilinx ISE自帶的XPower工具可以得到FPGA的運行功耗大致為0.389 W,所設計系統(tǒng)的外圍設備中LCD1602功耗大致為0.693 W,其余外設的功耗可忽略不計,,因此整個系統(tǒng)總功耗為1 W左右,。而相比之下,Intel Core i7-6500U主頻為2.5 GHz的CPU的功耗可高達65 W,,可見本系統(tǒng)功耗僅為通用CPU的1.5%,,因此特別適合將本文所設計的基于FPGA的解碼器應用于低功耗便攜式設備中。
4 結論
利用神經(jīng)網(wǎng)絡所具有的輸入輸出之間的映射關系,,可以簡單高效地實現(xiàn)數(shù)據(jù)編碼和解碼,。本文根據(jù)自編碼神經(jīng)網(wǎng)絡的結構和特點,將其用于編碼和解碼,,并在FPGA中實現(xiàn)自編碼神經(jīng)網(wǎng)絡的解碼器部分,。通過對軟件算法的設計和網(wǎng)絡計算過程的分析,,按照功能和需求對FPGA模塊進行設計,。利用ModelSim軟件對所設計的各個FPGA模塊進行仿真驗證,利用Xilinx ISE對整個工程進行設計,、綜合和實現(xiàn),,并將編程文件下載至Xilinx VC707 FPGA開發(fā)板中進行驗證,同時對FPGA系統(tǒng)的資源占用,、計算速度和功耗進行評估,。通過測試,對于在軟件中經(jīng)過編碼的數(shù)據(jù),,在FPGA系統(tǒng)中可以正確解碼,。同時相比于通用CPU,該系統(tǒng)計算過程加速了7倍以上,,而運行功耗僅為CPU的1.5%,,因此具有速度快、功耗低的特點,,特別適合將其應用于實時性,、低功耗便攜式設備中。
參考文獻
[1] 曹雪虹,,張宗橙.信息論與編碼[M].北京:清華大學出版社,,2016.
[2] 張定會,李敬紅,,左小五.神經(jīng)網(wǎng)絡編碼和解碼[C].全國青年通信學術會議.2002.
[3] 王雅思.深度學習中的自編碼器的表達能力研究[D].哈爾濱:哈爾濱工業(yè)大學,,2014.
[4] 李時峰.基于自編碼神經(jīng)網(wǎng)絡文本特征選擇的研究[D].天津:天津科技大學,2016.
[5] 白玉婷,,張剛.AVS熵編碼的FPGA實現(xiàn)[J].軟件,,2012,33(2):102-104,156.
[6] 陳章進,,鐘國海,,畢卓.一種基于低成本FPGA的高速8B/10B編解碼器設計[J].微計算機信息,2012,,28(10):189-190,,480.
[7] Li Huimin,F(xiàn)an Xitian,,Jiao Li,,et al.A high performance FPGA-based accelerator for large-scale convolutional neural networks[C].Field Programmable Logic and Applications(FPL),2016 26th International Conference on.IEEE,,2016:1-9.
[8] NURVITADHI E,,VENKATESH G,SIM J,,et al.Can FPGAs beat GPUs in accelerating next-generation deep neural networks?[C].Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays.ACM:5-14.
[9] CYBENKO G.Approximation by superpositions of a sigmoidal function[J].Mathematics of Control,,Signals,and Systems(MCSS),,1989,,2(4):303-314.
[10] BENGIO Y.Learning deep architectures for AI[J].Foundations and trends? in Machine Learning,2009,,2(1):1-127.
[11] 魯亞平.面向深度網(wǎng)絡的自編碼器研究[D].蘇州:蘇州大學,,2016.
[12] Tensorflow.hard_sigmoid definition[EB/OL].[2017-07-26].https://www.tensorflow.org/api_docs/python/tf/contrib/keras/backend/hard_sigmoid.
[13] 張鋒,潘冀寧,,朱振榮.基于SPI模式的Micro SD卡驅(qū)動設計與驗證[J].通訊世界,,2017(12):3-4.
作者信息:
周松江,李圣辰,,劉 明
(北京郵電大學 信息光子學與光通信研究院,,北京100876)