《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于多核DSP的MIMO雷達信號處理的實現(xiàn)
基于多核DSP的MIMO雷達信號處理的實現(xiàn)
2014年電子技術(shù)應(yīng)用第9期
龐 娜1,,2,徐平江3
1.北京理工大學 信息與電子學院,,北京100081,;2.北京無線電測量研究所,北京100854,;3.南瑞集團通信與用電技術(shù)分公司,,北京100192
摘要: 針對MIMO雷達多通道回波信號處理的同步性和實時性需求,在分析MIMO雷達信號處理的特點及多核DSP硬件結(jié)構(gòu)的基礎(chǔ)上,,提出了一種基于多核處理器TMS320C6678的并行實現(xiàn)方法,,并解決了使用過程中的諸多關(guān)鍵技術(shù)。該方法實現(xiàn)了多任務(wù)并行處理和高效通信,。實驗結(jié)果表明,,該方法在較小規(guī)模的硬件平臺上實現(xiàn)了較低功耗且高實時性的應(yīng)用。
關(guān)鍵詞: 多核DSP MIMO雷達 并行處理
中圖分類號: TN492
文獻標識碼: A
文章編號: 0258-7998(2014)09-0004-03
Implementation of MIMO radar signal processing based on multi-core DSP
Pang Na1,2,,Xu Pingjiang3
1.School of Information and Electronic, Beijing Institute of Technology,,Beijing 100081,China,;2.Beijing Institute of Radio Measurement,,Beijing 100854,China,;3.Communications & Power Utilization Technology Subcompany,,NARI Group Corporation,Beijing 100192,,China
Abstract: In the view of the synchronization and real-time requirements of multi-channel echo in MIMO radar system, this paper proposes a method of parallel implementation based on multi-core DSP TMS320C6678 after analyzing characters of the MIMO radar signal processing and hardware structure of multi-core DSP. Many key techniques are solved in the process of design. This method implements task-level parallel processing and efficient communication. The experimental results show that the method realizes the application of low power consumption and high real-time in the use of smaller hardware platform.
Key words : multi-core DSP,;MIMO radar;parallel processing

  MIMO雷達是近十年來發(fā)展起來的新體制雷達,,與普通相控陣雷達相比,,MIMO雷達具有低截獲概率、高速度分辨能力,、高角分辨力,、可同時識別多個目標等優(yōu)點[1]。國內(nèi)外學者們在MIMO雷達技術(shù)的諸多方面進行了深入而全面的理論研究,,其中以美國麻省理工學院林肯實驗室和貝爾實驗室的研究尤為深入[1],,但涉及工程實現(xiàn)方面的文獻很少。

  由于軟硬件發(fā)展水平的限制,,MIMO雷達理論的研究領(lǐng)先于雷達系統(tǒng)的應(yīng)用[2],,而普通的雷達信號處理機的設(shè)計相對比較成熟,這方面的文獻中實現(xiàn)的具體途徑主要有兩種方式,,一種是基于FPGA+DSP的架構(gòu)[3-4],,另一種是基于FPGA+PowerPC的架構(gòu)[5],以第一種的應(yīng)用為主流,。MIMO雷達信號處理需要接收多個通道的數(shù)據(jù),,在多波束采集后的雷達回波數(shù)據(jù)量非常大,實現(xiàn)多波束雷達回波數(shù)據(jù)信號處理的關(guān)鍵是并行同步和實時處理,。近幾年來,,DSP生產(chǎn)商紛紛采用多核架構(gòu)來滿足日益增長的系統(tǒng)實時處理性能要求,實現(xiàn)更快速的數(shù)據(jù)信號處理,。TI公司于2010年推出了基于KeyStone架構(gòu)的,、集成了RISC和8核DSP的高性能信號處理器TMS-

  320C6678(簡稱C6678),初始設(shè)計背景為圖像領(lǐng)域的應(yīng)用,,現(xiàn)在已經(jīng)推廣到視頻處理,、語音識別等領(lǐng)域[6-7],。

  本文以C6678為平臺,研究了MIMO雷達信號處理的實現(xiàn)方法,。首先,,介紹了MIMO雷達信號處理的基本原理以及基于C6678多核芯片的系統(tǒng)架構(gòu)和編程開發(fā)特點,并基于算法給出了并行實現(xiàn)中的關(guān)鍵技術(shù)及解決方法,,然后給出實驗評估并進行了測試性能等方面的對比分析,最后得出基于多核DSP的MIMO雷達信號處理方法,,實現(xiàn)了在降低成本和提高性能等方面的有效性,。

1 MIMO雷達信號處理的原理

  本設(shè)計的MIMO雷達是基于正交波形雙基地集中式MIMO而構(gòu)建,發(fā)射端各子通道發(fā)射相互正交的信號,,形成低增益寬波束,;對于接收端,為恢復出各個發(fā)射端子通道內(nèi)由單個發(fā)射信號形成的回波,,需對每個發(fā)射波形進行匹配濾波,,再根據(jù)發(fā)射陣列的陣元布置,進行接收端等效發(fā)射波束形成,,最后進行動目標檢測,、點跡提取[8]。根據(jù)參考文獻[8]的分析,,先DBF再匹配濾波處理的方式較先匹配濾波再DBF的方式更節(jié)約計算資源,,因此本文采用了先進行DBF再匹配濾波的處理方式,如圖1所示,。

001.jpg

2 MIMO雷達信號處理的硬件架構(gòu)

  2.1 核心平臺介紹

  C6678是基于KeyStone構(gòu)架的高性能多核DSP,,片內(nèi)集成了8個C66x處理器核,每個核都支持定點和浮點處理功能,。其主要性能指標是單核最高工作頻率1.25 GHz,,基于C66x 定點/浮點處理器核,累計處理速率高達10 GHz,,單核最高可達40 GMAC的定點計算能力和20 GFLOPS的浮點運算能力,;存儲器空間為每個核32 KB L1P、32 KB L1D,、512 KB L2,、4 096 KB多核共享存儲區(qū)MCSM、8 GB可尋址的DDR3存儲地址空間,;在處理器內(nèi)部支持高效EDMA3傳輸方式,,可在處理器內(nèi)部存儲空間L2、共享MCSM,、外部DDR3之間進行高效的數(shù)據(jù)傳輸,;集成了x4 Serial RapidIO、x2 PCIe、x4 Hyperlink,、x2 ethernet等眾多高速通信接口,,允許與其他處理器節(jié)點進行高效的數(shù)據(jù)交換;支持多種基于信號量的通信機制進行核間通信[9],。C6678的多核結(jié)構(gòu)不僅縮小了硬件規(guī)模,,而且還降低了整體功耗,其核間任務(wù)調(diào)度及高性能程序優(yōu)化器,、8級并行流水指令集[10]等條件為實現(xiàn)并行信號處理算法提供了有效支撐,。

  2.2 硬件架構(gòu)設(shè)計

  本文設(shè)計了基于VPX總線的數(shù)據(jù)采集板和信號處理板組成的信號處理系統(tǒng)平臺,核心芯片均為C6678芯片,。數(shù)據(jù)采集板集成了Xilinx Virtex-7系列的高性能FPGA和1片C6678,,接口設(shè)計為光纖、網(wǎng)絡(luò)等多種方式,,用于數(shù)據(jù)的接收和預處理,。信號處理板采用8片C6678構(gòu)成計算密集型結(jié)構(gòu),用于完成MIMO多通道并行的信號處理算法,。系統(tǒng)結(jié)構(gòu)示意圖如圖2所示,。

002.jpg

3 算法的并行實現(xiàn)

  3.1 算法映射模型

  3.1.1 基本模型介紹

  應(yīng)用多核處理器的第一個步驟就是確定任務(wù)并行性,并選擇一種最合適的處理模型,。兩個最主要的模型分別是主/從模型和數(shù)據(jù)流模型,。主/從模型是集中控制,分布式執(zhí)行,,主核負責把任務(wù)分配到其他核,,從核之間沒有通信;數(shù)據(jù)流模型就是分布式控制和執(zhí)行,,任務(wù)分級流水執(zhí)行,,核之間有相互通信[10]。本系統(tǒng)采用了兩種方式結(jié)合的方式,,其中各個板卡內(nèi)部采用了主/從處理模型,,板卡之間采用了數(shù)據(jù)流模型。

  3.1.2 算法分割及映射

  本實驗系統(tǒng)采用8個發(fā)射天線和8個接收天線分置的結(jié)構(gòu),,接收波束為7個方位,,發(fā)射波束為7個方位。數(shù)據(jù)量為4K點,,相干處理周期為8,,動目標處理時的FFT點數(shù)為16,脈沖重復周期為2 ms,。功能模塊實現(xiàn)接收波束形成,、匹配濾波,、等效發(fā)射波束形成、動目標處理,、目標搜索和目標跟蹤的處理功能,,進而獲得目標的距離、角度和速度信息,。圖3為處理流程框圖,。

003.jpg

  任務(wù)的分解是:Task A為公共數(shù)據(jù)收發(fā)和準備及同步控制觸發(fā);Task B為數(shù)據(jù)格式的預處理及接收DBF,;Task C為公共數(shù)據(jù)收發(fā)和準備及同步控制觸發(fā),;Task D為匹配濾波、發(fā)射DBF雜波抑制,、相參積累、目標搜索或者目標跟蹤,。

004.jpg

  具體的算法映射如圖4所示,,數(shù)據(jù)采集板上DSP的所有核加載同樣的一個工程 ,完成Task A和Task B,;信號處理板所有的核加載同樣的一個工程,,完成Task C和Task D。數(shù)據(jù)流向是數(shù)據(jù)采集板的DSP0-Core0完成Task A,,Core1~Core7 分別完成Task B,,然后通過板間IPC把數(shù)據(jù)傳送到信號處理板的DSP0~DSP6,通過Task C之后進行Task D,然后再把數(shù)據(jù)送回數(shù)據(jù)采集板的Core0,。

  3.2 關(guān)鍵技術(shù)及方法

  3.2.1 通信與同步

  在進行接收DBF和發(fā)射DBF之前需要進行多核同步,。TI提供了多種成熟的IPC接口,本設(shè)計中采用了效率比較高的Notify Module 進行同步,。Core0循環(huán)接收外部傳輸過來的原始數(shù)據(jù)存儲到DDR3之中,,每次接收到的數(shù)據(jù)分別向Core1~Core7發(fā)送一個Notify消息,Notify消息并不在多核之間進行數(shù)據(jù)的拷貝,,僅進行共享內(nèi)存數(shù)據(jù)的所有權(quán)轉(zhuǎn)移,,極大地節(jié)省了多核間通信的時間。每個Core的TaskB任務(wù)收到Notify消息后,,直接從對應(yīng)的DDR3共享內(nèi)存地址中讀取數(shù)據(jù)即可,。

  在板間傳輸數(shù)據(jù)需要進行板間的通信和同步,TI沒有提供DSP節(jié)點之間的IPC,,因此在本系統(tǒng)中自行開發(fā)了DSP間IPC,。首先開發(fā)了RapidIO底層驅(qū)動,然后通過RapidIO接口進行系統(tǒng)路由配置,,之后完成IPC驅(qū)動的搭建,,它完成的功能是進行DSP的DDR3之間的數(shù)據(jù)拷貝,。

  3.2.2 核內(nèi)數(shù)據(jù)傳輸

  每個核內(nèi)部采用了DMA方式實現(xiàn)MCSM存儲區(qū)和DDR3之間的通信,這種方式傳輸速率比較穩(wěn)定,。C6678處理器內(nèi)部集成了3個高速的EDMA控制器,,允許在處理器內(nèi)部的存儲區(qū)之間進行不需要處理器參與的高速數(shù)據(jù)傳遞。本信號處理算法中,,每個核啟動獨立的EDMA3傳輸通道分次將DDR3中的數(shù)據(jù)傳輸?shù)組CSM/L2中進行計算,,之后再將計算結(jié)果通過EDMA3傳輸通道從MCSM/L2傳輸給DDR3。

005.jpg

  L2,、MCSM和DDR3之間的EDMA3通信性能在采用查詢方式下的測試結(jié)果如表1所示,,測試結(jié)果為100個周期的平均值。

006.jpg

  3.2.3 高速緩存一致性考慮

  C6678處理器核設(shè)計了二級Cache,。當處理器核訪問內(nèi)存中的一段地址時,,存在兩種可能,即Cache命中或Cache缺失,。Cache命中時處理器核可以快速直接從Cache中獲取內(nèi)存數(shù)據(jù)進行處理,。Cache缺失時,處理器核就需要花費較長的時間先將數(shù)據(jù)從內(nèi)存調(diào)入到Cache中,,再從Cache中獲取數(shù)據(jù)進行處理,。處理器的這種內(nèi)存訪問機制就帶來了Cache和內(nèi)存的數(shù)據(jù)一致性問題。在本信號處理算法中,,Cache一致性問題發(fā)生在以下情況:(1)多處理器核對MCSM或DDR3中一段數(shù)據(jù)進行共享訪問,;(2)有EDMA3參與的對MCSM或DDR3中一段數(shù)據(jù)的訪問。當發(fā)生此兩種情況時,,需要執(zhí)行Cache一致性操作,,以確保數(shù)據(jù)訪問的正確性。

  3.2.4 基于平臺的算法優(yōu)化

  設(shè)計中除了采用了通常的代碼優(yōu)化準則外,,基于平臺的優(yōu)化主要包括以下幾個方面:數(shù)據(jù)存儲區(qū)采用兵乓結(jié)構(gòu),,使得數(shù)據(jù)傳輸和算法計算可以同時進行;算法模塊采用細粒度設(shè)計,,通過CCSV5提供的高性能編譯優(yōu)化參數(shù),,并告訴編譯器更多關(guān)于數(shù)據(jù)的信息;使用內(nèi)聯(lián)指令做SIMD的處理,;存儲區(qū)和Cache 優(yōu)化設(shè)計,。這些優(yōu)化方法的綜合利用比不進行優(yōu)化的效率提高達約50倍。

4 實驗評估及分析

  ADSP-TS201S幾乎是ADI公司的最高性能信號處理器,,也是當前雷達信號處理領(lǐng)域主流的硬件平臺的核心,,采用其搭建的平臺(1塊帶有4個DSP的預處理板,8塊帶有8個DSP的信號處理板)與TMS320C6678的搜索處理關(guān)鍵算法的測試性能對比如表2所示,,測試結(jié)果為100個周期的平均值,。首先是TMS320C6678降低了硬件規(guī)模從而降低了成本,,其次提高了效率,還有就是共享存儲區(qū)的運用減少了傳輸延遲,。整體時間比為4.5:1,。

  由實測結(jié)果可見,TMS320C6678平臺由于其高性能的多核處理方式,,適合MIMO雷達信號處理這類需要同步進行并且實時處理的場合應(yīng)用,,但也應(yīng)注意到C6678的存儲區(qū)較小,對于大數(shù)量的使用(大于4K點)可能達不到預期的加速比,,還有待于進一步驗證,。該MIMO雷達信號處理系統(tǒng)在工程樣機中運行良好,通過小規(guī)模硬件系統(tǒng)和較低的功耗達到了信號實時處理和運算快速準確的要求,。

  參考文獻

  [1] Li Jian.STOICA P.MIMO radar signal processing[M].John Wiley & Sons,,Inc.,2009.

  [2] 陳浩文,,黎湘,,莊釗文.一種新興的雷達體制—MIMO雷達[J].電子學報,2012,,40(6):1190-1198.

  [3] 高廣坦.基于TS201平臺的雷達信號處理機設(shè)計[J].信息化研究,2010,,36(11):17-19.

  [4] 周濱,,謝曉霞,傅其祥,,等.基于多DSP的高速通用并行處理系統(tǒng)研究與設(shè)計[J].電子設(shè)計工程,,2012(17):175-178.

  [5] 史鴻聲.基于PowerPC的雷達通用處理機設(shè)計[J].雷達科學與技術(shù),2011,,9(2):140-149.

  [6] 彭益智,,霍家道,徐偉.一種基于TMS320C6678的JPEG編碼算法并行實現(xiàn)方法[J].指揮控制與仿真,,2012,,34(1):119-122.

  [7] 吉立新,劉偉偉,,李邵梅.基于TMS320C6678的語種識別并行算法設(shè)計與實現(xiàn)[J].電子技術(shù)應(yīng)用,,2012,38(10):37-40.

  [8] 葉勝輝.正交波形MIMO雷達技術(shù)及其在雙基地雷達中的應(yīng)用[D].成都:電子科技大學,,2006.

  [9] Texas Instrument.TMS320C6678 multicore fixed and floating-point digital signal processor[Z].2011.[10] Texas Instrument.Multicore programming guide[Z].2009.

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。