《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 基于CUDA技術(shù)模擬雷達余輝的方法
基于CUDA技術(shù)模擬雷達余輝的方法
來源:微型機與應(yīng)用2011年第8期
謝永亮,湯曉迪,劉尚富,,曾海兵
(海軍蚌埠士官學校,,安徽 蚌埠233000)
摘要: 分析了目前基于光柵顯示器模擬雷達余輝的方法,。針對實現(xiàn)逼真余輝效果存在的主要瓶頸,通過采用CUDA技術(shù)可以解決模擬余輝時龐大的計算量的問題。主要采用CPU+GPU的編程模式模擬余輝,在GPU中為每一個像素點創(chuàng)建一個并行執(zhí)行的線程來完成整個屏幕像素的數(shù)據(jù)處理,,使得余輝效果逼真、畫面流暢,、掃描速度大幅提高,。
關(guān)鍵詞: CUDA CPU+GPU 雷達余輝 光柵掃描
Abstract:
Key words :

摘  要: 分析了目前基于光柵顯示器模擬雷達余輝的方法。針對實現(xiàn)逼真余輝效果存在的主要瓶頸,,通過采用CUDA技術(shù)可以解決模擬余輝時龐大的計算量的問題,。主要采用CPU+GPU的編程模式模擬余輝,在GPU中為每一個像素點創(chuàng)建一個并行執(zhí)行的線程來完成整個屏幕像素的數(shù)據(jù)處理,,使得余輝效果逼真,、畫面流暢、掃描速度大幅提高,。
關(guān)鍵詞: CUDA,;CPU+GPU,;雷達余輝,;光柵掃描

 在建立雷達虛擬操作系統(tǒng)或維修訓練系統(tǒng)時,顯示器的仿真效果直接影響模擬器的訓練效果,。目前制約余輝實現(xiàn)的主要瓶頸是余輝效果帶來的龐大的計算量,,使得效果較好的余輝掃描線轉(zhuǎn)速難以超過10轉(zhuǎn)/s,如果要提高轉(zhuǎn)速,,則需要以犧牲顯示畫質(zhì)為代價,。基于光柵掃描余輝模擬的主流方法有畫線法、固定扇掃法,、逐點消隱法,,由于前兩者圖像易出現(xiàn)輻射狀花紋及掃描速率不穩(wěn)定,因此后者的應(yīng)用較多,,效果也明顯強于前者[1],。本文在逐點消隱法的基礎(chǔ)上應(yīng)用CUDA技術(shù),解決了運算量巨大的問題,,在光柵顯示器上得到了余輝效果逼真,、畫面流暢的余輝圖形。
1 余輝仿真的瓶頸
    傳統(tǒng)的雷達P顯采用示波管作為顯示終端,,其內(nèi)部熒光材料具有指數(shù)型衰減的余輝效應(yīng),,電子束掃描線圓周掃過屏幕將留下逐漸消隱的余輝[2]。但光柵顯示器無法自動產(chǎn)生熒光粉的余輝效應(yīng),,因此必須人為地模擬余輝效應(yīng),。
    軟模擬通常采用光柵顯示器,用計算機編程實現(xiàn),。光柵掃描顯示器具有高亮度,、高穩(wěn)定度、大容量顯示的圖文處理能力,、豐富的色彩及多灰度等級的優(yōu)點,。一般采用以下三種方法實現(xiàn)[3-4]。
    (1)畫線法較容易實現(xiàn),,原理是在屏幕上以畫直線的方式畫出每一角度的掃描線,,形成每次畫一個扇面的灰度遞減的直線簇。但是當程序運行時,,掃描線軌跡不斷地在屏幕上轉(zhuǎn)動,,該方法不能無縫地覆蓋整個扇掃區(qū)域,從而產(chǎn)生一個輻射狀的固定花紋,。
    (2)固定扇掃法是在畫線法基礎(chǔ)上改進的一種仿真方法,,控制扇形區(qū)域的圓心角,依次使不同扇形區(qū)域亮度減少,。它雖然消除了輻射狀花紋,,但在沒有目標到有目標信號時,由于數(shù)據(jù)量的增加會造成掃描線的轉(zhuǎn)速不同,。
    (3)逐點消隱法,,主要原理是將每個方位像素的亮度逐次遞減,即每個點都必須被修改,,這樣整個屏幕畫面亮度逐漸衰減,。其產(chǎn)生的余輝效果比較逼真,,掃描線轉(zhuǎn)速也較穩(wěn)定。
    模擬逼真的余輝效果,,一般采用逐點消隱法,,十分逼真的余輝仿真需要非常高的數(shù)據(jù)吞吐率,要求在每一顯示幀的時間內(nèi)(一般為60 Hz的倒數(shù)約16 ms)對屏幕中所有像素進行一次衰減運算,。以公認的高效算法,,即查表法為例:對于一個像素點而言,最少需要1次讀和2次寫操作,,分辨率為1 024×1 024的屏幕中會有1 024×1 024個像素點參與雷達回波的顯示,,數(shù)量約為1 M。即在16 ms的時間內(nèi)需要進行1 M次讀操作和2 M次寫操作,,分給每個像素點的時間為16 ns,。由于Windows屬于通用型操作系統(tǒng),硬件操作過程極其復雜,,無論如何也無法在16 ns內(nèi)完成1次讀和2次寫操作,。需要說明的是,現(xiàn)有的用PC實現(xiàn)的余輝仿真算法都是以犧牲畫質(zhì)為前提條件的,,例如有的算法降低角度分辨率,,有的算法只運算部分像素。

 


2 瓶頸的解決方案
    為了解決此瓶頸,,本文將國外主要應(yīng)用于3D游戲設(shè)計的CUDA技術(shù)移植到余輝的模擬上,。CUDA(統(tǒng)一計算設(shè)備架構(gòu))是NVIDIA公司在2007年推出的針對GPGPU(通用計算GPU)的一個全新構(gòu)想,使專注于圖像處理的GPU超高性能在數(shù)據(jù)處理和科學計算等通用計算領(lǐng)域發(fā)揮優(yōu)勢[5],。
    GPU特別適合并行數(shù)據(jù)運算問題,,同一個程序可操作許多并行數(shù)據(jù)元素,并具有高運算密度(算術(shù)運算與內(nèi)存操作的比例),,且在高密度運算時,,GPU訪問內(nèi)存的延遲可以被掩蓋。目前高端GPU計算性能已達到Teraflops(每秒萬億次浮點運算)級別,,其運算速度遠遠高于CPU的速度[6-7],。2008年初國內(nèi)建成的首套實驗系統(tǒng),其計算性能的理論峰值124 Teraflops,,可用峰值82 Teraflops,。
    但是常規(guī)的GPU通用計算還存在以下問題[7]:編程過于繁雜,難以學習與使用,,在非圖形領(lǐng)域應(yīng)用很不充分,;GPU編程缺乏靈活性,,對GPU性能的發(fā)揮有很大的限制,。
    而CUDA采用GPU+CPU的方式,,通過標準C語言將GPU的眾多的計算特性結(jié)合到一起,由線程來創(chuàng)建應(yīng)用程序,。程序代碼在實際執(zhí)行中分為兩種,,一種是運行在CPU上的主機代碼,另一種是運行在GPU上的設(shè)備代碼,。它類似于CPU上的多線程程序,,但與僅能有很少線程同時工作的多核CPU相比,GPU可以同時執(zhí)行成千上萬個線程[8-9],。CPU程序以異步的方式調(diào)用GPU核程序,,GPU作為CPU的協(xié)處理器(CoProeessor)提供服務(wù)。
    當前CUDA提供的主要功能如下[7]:
    (1)在GPU上提供標準C編程語言,。
    (2)為在支持CUDA的NVIDIA GPU的并行計算提供統(tǒng)一的軟硬件解決方案,。
    (3)支持CUDA的GPU能進行并行數(shù)據(jù)緩存和線程執(zhí)行管理。
    (4)經(jīng)過優(yōu)化的,,從CPU到支持CUDA的GPU的直接上傳,、下載通道。
    (5)CUDA驅(qū)動與DirectX和OpenGL等圖形驅(qū)動程序兼容,。
    為了解決巨大計算量的問題,,主要采用CPU+GPU的編程模式來模擬余輝,在GPU中為每一個像素點創(chuàng)建一個線程獨立進行亮度衰減處理,。由于每個像素的線程并行執(zhí)行,,完成整個屏幕像素的數(shù)據(jù)處理幾乎不需要計算時間,真正花費時間的是畫面繪制和翻轉(zhuǎn),。因此繪制畫面在后臺表面進行,,繪制完成后翻轉(zhuǎn)到前臺顯示,這樣繪制和顯示可以同時進行,,既為畫面的繪制留足了時間,,又能得到流暢不閃爍的畫質(zhì)。
3 采用CUDA技術(shù)來實現(xiàn)余輝效果
    為了產(chǎn)生不同方位的掃描線,,將方位,、距離進行量化,由于掃描區(qū)域的分辨率為1 024×1 024,,因此半徑為512像素,。由于掃描半徑為512個像素,理論上只要角度量化數(shù)N大于3 217就不會出現(xiàn)顯示死地址的現(xiàn)象[10],,方位上量化為4 096個等分,。這樣初始生成一個4 096×512個像素的圓域。雷達P顯中采用的是極坐標系,,而在光柵顯示器中采用的是直角坐標,,通過坐標變換,,將建立一張坐標變換表,如表1所示,。

    通過查表可以避免坐標變換帶來的正余弦計算,,方便地在極坐標和直角坐標間轉(zhuǎn)換,從而節(jié)省大量的運算時間[11],??紤]到近距離區(qū)域,多個角度的距離單元會對應(yīng)相同的像素點,,首先為每個像素點定義一個屬性的結(jié)構(gòu)體:
    typedef  struct
    {    WORD  x;//屏幕直角坐標x
        WORD  y;//屏幕直角坐標y
        WORD  ScanlinePtIndex;//該點在掃描線上的
//距離索引
        BYTE MapTo2Pt;//該點與同一條掃描上的
//點是否重合
        BYTE RadEnd;//標記該條掃描線處理完畢
    }RADIUSPOINT;
    為圓域內(nèi)的點分配內(nèi)存空間:
    RADIUSPOINT m_pRadPtToLintPtMap=new  RADIUSPOINT[4 096×512],。
    對于同一條掃描線上相鄰的兩點,如果直角坐標相同就把MapTo2Pt設(shè)為1,,標記為相同的點,;如果相鄰兩點的直角坐標不相同,則把距離索引值賦給ScanlinePtIndex,,每條線最后一個點設(shè)置RadEnd為1來標記每條線處理已完畢,。對于相鄰兩條線上的點,如果當前線上點與前一條線上相鄰4個點的直角坐標相等,,設(shè)置為m_pPixelOverlap[i]=1,,否則設(shè)為0。
    考慮到余輝呈指數(shù)型衰減,,而指數(shù)運算需要花費大量的時間,,對于計算機,其最快的操作是取值和賦值,,為了提高光柵掃描雷達顯示系統(tǒng)的實時性,,需要提高單位時間內(nèi)能夠處理的像素點個數(shù)。于是對指數(shù)運算采用查表法以提高速度,,維護一張按角度劃分的指數(shù)型衰減因子表m_wAttenuation[4 096]以進行數(shù)值的取值和賦值操作,。
    同時還要建立一個Brightness[4 096×512]的亮度表,來存儲每個像素對應(yīng)的RGB顏色值,。
    以上這些工作在程序的初始化中即完成,,一經(jīng)完成即可在后續(xù)的程序中直接調(diào)用。
    通過CUDA編程時,,GPU可看作為可以并行執(zhí)行非常多個線程的計算設(shè)備,,執(zhí)行并行計算的線程被組織成線程塊(Block),每個線程塊可以包含多達512個線程,,而線程塊又組成了柵格(Grid),。GPU可以支持成百上千萬個并行線程,于是可以為每個像素點開一個線程,,這樣每個像素點可以并行處理,,能極大地提高對整個屏幕像素的處理速度,,為CPU留出足夠多的時間去處理其他相關(guān)的任務(wù)。
    定義線程塊Block包含的線程維數(shù):
    dim3 threads(BLOCK_SIZE,BLOCK_SIZE),;
    定義柵格Grid包含的線程塊數(shù):
    dim3 grid(Width/threads.x,Height/ threads.y),;
    每個像素點對應(yīng)的線程處理工作如下:
    由于某型雷達轉(zhuǎn)速為10轉(zhuǎn)/min,,相當于每次更新的掃描線數(shù)應(yīng)為4 096×10/60/1 000=0.683條/ms,,像素處理在GPU中并行進行,對CPU的占用率幾乎為零,,所消耗的時間主要是Direct3D紋理的繪制和表面的翻轉(zhuǎn),,大約為16 ms,因此每次更新的掃描線數(shù)目約為16×0.683=10.928,,即每次更新11條,。將當前要更新的掃描線上的像素點設(shè)為初始亮度,其后的每條掃描線上的像素點的亮度按與當前掃描線角度差m_anglediff取m_wAttenuation[m_anglediff]的亮度進行衰減,。由于近距離區(qū)域多個角度的距離單元對應(yīng)相同的像素點,,因此中心部位被消隱的次數(shù)明顯要比其他部位多,導致效果有些失真,。于是需要對這些坐標相同的點進行處理,,對于屬性MapTo2Pt為1的點,比較坐標相同的點處于不同距離時的亮度,,取其大者賦值給亮度表Brightness[4 096×512],。對于屬性m_pPixelOverlap為1的點,比較處于各個角度時的亮度,,取其大者賦值給亮度表,。這樣對于同一個點只顯示一次且取其最亮者顯示,較好地避免了中心部位被消隱次數(shù)過多的情況,。
    對于實現(xiàn)余輝等級的情況,,只需要調(diào)制m_wAttenuation的大小就可以方便地調(diào)節(jié)余輝等級。如果需要提高轉(zhuǎn)速,,只需增大每次更新的掃描線數(shù)目即可,,且基本不會影響程序運行速度。
    通過CPU+GPU組合的方式模擬不同等級余輝效果如圖1,、圖2所示,,此時對應(yīng)的CPU占用率幾乎為零,如圖3所示,。該方法得到的余輝效果逼真,、畫面流暢、掃描速度達到了預定的10轉(zhuǎn)/s的要求,,且CPU占用率極低,,并不妨礙CPU處理其他數(shù)據(jù),。

    當把每次需要更新的掃描線數(shù)目增多時,由于GPU能并行高速處理每個像素點,,掃描的速度能迅速提升而不影響顯示畫質(zhì),,在程序調(diào)試時,可以驗證當掃描速度到45轉(zhuǎn)/min時,,畫面依然流暢且占用的系統(tǒng)資源少,。
    余輝實現(xiàn)的逼真程度很大程度上決定了雷達模擬器的效果,本文就當前余輝模擬存在的瓶頸提出了一種基于CUDA的解決方案,,采用“CPU+DPU”編程的方法,,很好地解決了數(shù)據(jù)吞吐量巨大的問題。此方法模擬的余輝易于與雷達回波信號疊加,,便于程序的擴展,,可以應(yīng)用于模擬器的設(shè)計及雷達技術(shù)的研發(fā)。
參考文獻
[1] 朱兵.基于余輝地址表的雷達顯示余輝模擬方法[J].艦船電子對抗,2007,30(3):37-39.
[2] 張澤潤.船舶導航雷達[M].北京:人民交通出版社,,1990.
[3] 樊世友,楊作賓.基于余輝模型的P型雷達顯示器計算機仿真[J].計算機仿真,2003,20(4):6-8.
[4] 劉翠海,溫東.光柵掃描顯示器上實現(xiàn)PPI雷達長余輝仿真[J].計算機仿真,2002,19(2):25-27.
[5] RUEDA A J,,ORTEGA L.Geometric algorithms on CUDA[J].GRAPP,2008,,39(6):59-60.
[6] Wu Enhua,,Liu Youquan.General purpose computation onGPU[J].Journal of Computer-aided Design & Computer Graphics,2004,,16(5):601-611.
[7] 多相復雜系統(tǒng)國家重點實驗室多尺度離散模擬項目組.基于多GPU的多尺度離散模擬并行計算[M].北京:科學出版社,,2009.
[8] 吳恩華,柳有權(quán).基于圖形處理器(GPU)的通用計算[J].計算機輔助設(shè)計與圖形學報,,2004,,16(5):601-611.
[9] RANDINA F.GPU精粹——實時圖形編程的技術(shù)、技巧和技藝[M].姚勇,,工小琴,,譯.北京:人民郵電出版社,2006.
[10] 徐展翼,,歐陽寧,,韓傳久.高速即工光柵掃描顯示系統(tǒng)坐標轉(zhuǎn)換設(shè)計與實現(xiàn)[J].桂林電子工業(yè)學院學報,2003,,23(1):14-18.
[11] 劉翠海,,王文清,袁滿.一種支持雷達P顯仿真的實時坐標變換策略[J].系統(tǒng)仿真學報,,2002,,14(9):57-60.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。