摘 要: StarCore SC140是一款采用指令級并行(ILP)技術(shù)的DSP內(nèi)核,本文從C語言級和匯編代碼" title="匯編代碼">匯編代碼級兩方面探討了其優(yōu)化方法" title="優(yōu)化方法">優(yōu)化方法,。
關(guān)鍵詞: DSP SC140內(nèi)核 優(yōu)化
隨著DSP技術(shù)的不斷發(fā)展和完善,, DSP廠商紛紛推出了自己的高級語言編譯器,但編譯器編譯出的匯編代碼在保證正確性的前提下很難兼顧效率,。在一些實時性要求比較高的場合(如音視頻處理)必須對某些關(guān)鍵的算法和代碼進行優(yōu)化,。StarCore SC140這款DSP內(nèi)核在體系結(jié)構(gòu)、數(shù)據(jù)存取及運算上都與傳統(tǒng)的TI系列有明顯的差異,,它可以在原來的基礎(chǔ)上應(yīng)用一些比較有針對性的方法來大幅度提高程序優(yōu)化效率,。本文根據(jù)作者在SC140上開發(fā)AACPlus_v2音頻解碼器的經(jīng)驗,著重從C語言級和匯編代碼級兩方面探討其優(yōu)化方法,。
1 StarCore SC140體系結(jié)構(gòu)
StarCore SC140內(nèi)核包含三類功能單元:數(shù)據(jù)算術(shù)邏輯單元(DALU),、地址生成單元(AGU)和程序序列器單元(PSEQ)。采用指令級并行技術(shù)(ILP),,共有6 個執(zhí)行單元,,包括4 個ALU和2個AGU,最多可以同時執(zhí)行6 條指令,,而且支持SIMD,。SC140 采用變長執(zhí)行組(VLES)模型,執(zhí)行過程以執(zhí)行組為單位,,采用由指令預(yù)取,、取址、指令分配,、地址生成和執(zhí)行組成的5 級流水線結(jié)構(gòu),。
SC140采用單一的內(nèi)存空間,在內(nèi)存和內(nèi)核之間有兩組數(shù)據(jù)總線和一組程序總線,,可以同時高速存取兩組數(shù)據(jù),。
2 SC140的優(yōu)化技術(shù)
2.1 Profile分析
將高級語言程序代碼用手工匯編優(yōu)化固然可以降低MIPS消耗,但同時也會帶來工作量的提高及出現(xiàn)改寫錯誤,。所以對程序進行Profile分析,,找出消耗MIPS比較集中的模塊或函數(shù)進行手工匯編優(yōu)化是十分必要的。
以音頻編碼器AACPlus_v2為例,,消耗MIPS集中的函數(shù),,即計算和循環(huán)集中的函數(shù),主要包括dit_fft(快速傅立葉變換" title="快速傅立葉變換">快速傅立葉變換),、cplxAnalysisQmfFiltering(分解QMF濾波器),、cplxSynthesisQmfFiltering(合成QMF濾波器)等,。
另外還有一些函數(shù),雖然占據(jù)MIPS的比重較大,,但本身計算并不是很復(fù)雜,,只是包含很多的判斷分支。這樣的函數(shù)用SC140手工匯編優(yōu)化的效率很低,,可以考慮在程序算法上優(yōu)化,。
2.2 C語言級的優(yōu)化
對既有的C代碼進行適當?shù)恼{(diào)整與變換,不僅可以提高編譯效率,,也可以為進一步手工匯編優(yōu)化鋪平道路,。
循環(huán)通常是程序中MIPS可以集中消耗的部分,要真正做好循環(huán)優(yōu)化,,必須要了解所用DSP的體系結(jié)構(gòu)和特點,,做到有的放矢。循環(huán)的優(yōu)化有三類:循環(huán)展開,、循環(huán)合并和循環(huán)拆分,,其中循環(huán)展開是使用頻率最高也是最有效的DSP優(yōu)化技巧。由于篇幅所限,,下面僅針對循環(huán)展開來說明具體的優(yōu)化方法,。
循環(huán)展開就是在循環(huán)內(nèi)部對循環(huán)體的內(nèi)容進行重復(fù),從而減少循環(huán)次數(shù),。這樣做首先減少了循環(huán)跳轉(zhuǎn)的消耗,;其次可充分利用StarCore的結(jié)構(gòu)特點,即4個DALU和2個AGU實現(xiàn)并行,。當然,,這種優(yōu)化方法需要滿足一定的前提條件:
(1)前后循環(huán)體之間不能存在依賴關(guān)系;
(2)數(shù)據(jù)排列要滿足邊界關(guān)系,;
(3)每個循環(huán)體所需要的寄存器不大于DSP可提供的寄存器數(shù),;
(4)循環(huán)體的次數(shù)是展開因子的整數(shù)倍。
另外有兩個問題需說明:(1)針對SC140進行循環(huán)展開,,通常取展開因子為4,,因為SC140的4個ALU可以實現(xiàn)四條計算指令的并行,;(2)若要使用SIMD實現(xiàn)一條指令多個數(shù)據(jù)存取,,就要把存取數(shù)據(jù)的初地址放到8B的邊界上,這也是根據(jù)SC140的數(shù)據(jù)總線為64位決定的,。
2.3 匯編代碼級的優(yōu)化
C語言級的優(yōu)化固然可以使編譯器更有效率,,但在復(fù)雜操作下,編譯器無法代替人的統(tǒng)籌和分析,,生成的代碼會存在明顯的冗余,。對于一些關(guān)鍵的操作,,仍然需要通過手工匯編優(yōu)化提高其執(zhí)行速度。
2.3.1 利用硬件方式優(yōu)化程序
SC140中可以通過修改狀態(tài)寄存器來切換硬件的工作模式,。一些常見的DSP算法在這種硬件的支持下可以大大提高優(yōu)化效率,。
(1)fft倒位序
在數(shù)字信號處理過程中有一類與“順序”相關(guān)的操作,如快速傅立葉變換中常用的按時間抽取(dit-fft)算法等,,在程序中需要通過地址運算來實現(xiàn),。StarCore SC140針對這些運算提供了硬件尋址方式,減少了程序中的地址操作,。
在數(shù)字信號處理中有大量的fft運算,,以按時間抽取的基4圖基fft(dit-tukey fft, radix 4)為例,時域倒序輸入,,頻域順序輸出,。軟件實現(xiàn)程序中有相應(yīng)的倒序函數(shù)(一般是查表算法)來實現(xiàn)時域的倒序,而將其移植到DSP上會發(fā)現(xiàn)這一部分非常耗時,,甚至與fft本身的算法相差無幾,。正是在這樣的前提下,SC140提供了硬件上的倒序進位方式代替軟件倒序算法,,提高了fft的執(zhí)行效率,。其精髓就是將順序存放的時間采樣數(shù)據(jù)存入存儲區(qū)內(nèi),對該存儲區(qū)使用SC140反向進位尋址方式(reverse-carry addressing),。順序和倒序的關(guān)系見表1(以32點fft為例),。
因此,只要對順序存儲的時間數(shù)據(jù)采用方向進位尋址,,就可以輕松實現(xiàn)倒序算法,。還有一點值得注意,在反進位的使用中,,如fft的輸入為2N點,,數(shù)據(jù)寬度為2M字節(jié),則分配的倒序存儲區(qū)起始地址最低(N+M)位均為零,,否則會引起尋址錯誤,。
反向進位尋址只要設(shè)置MCTL寄存器中相應(yīng)寄存器的狀態(tài)位即可。
(2)環(huán)形存儲
在實際應(yīng)用中,,常常需要對緩沖區(qū)進行環(huán)形處理,,即處理完數(shù)據(jù)后再從頭數(shù)據(jù)繼續(xù)處理。如果采用普通的處理方法,,則每次尋址都需用軟件將所尋址地址與尾地址進行比較,,若超出范圍,則尋址至頭地址,。這樣做將非常耗時,。為此,,StarCore在硬件上支持環(huán)形緩沖區(qū)的管理。為了使用該功能,,需要將環(huán)形緩沖區(qū)分配到特定的存儲空間,。
環(huán)形存儲是通過設(shè)置MCTL寄存器相應(yīng)比特位的值實現(xiàn)的。
(3)Scale模式的選擇——用硬件完成移位操作
由于DSP使用定點運算較多,,為了精度要求運算中會有大量Scale調(diào)整,,SC140通過設(shè)置硬件的Scale模式,在寄存器向內(nèi)存存數(shù)據(jù)的同時完成移位,。SC140的Scale模式分為三種:①Scale up:左移一位后存入,;②Scale down:右移一位后存入;③no Scale:不移位直接存入,。
該模式通過設(shè)置SR狀態(tài)寄存器實現(xiàn),。
2.3.2 根據(jù)流水線實現(xiàn)并行處理" title="并行處理">并行處理
SC140支持并行處理是該款DSP內(nèi)核的一大亮點,下面具體闡述如何運用并行處理提高優(yōu)化效率,。
(1)改變指令執(zhí)行順序
將相互不存在依賴關(guān)系的指令并行處理,,最大并行量為4個ALU操作和2個AGU操作。這是根據(jù)流水線實現(xiàn)并行優(yōu)化方法的基礎(chǔ),。
當對某一寄存器同時進行讀和寫操作時,,雖然指令流水線中讀和寫同處于“執(zhí)行”指令周期" title="指令周期">指令周期內(nèi),而對時鐘周期來說,,讀操作先于寫操作,,即遵循先讀后寫的原則。故對同一寄存器先讀取后賦值的操作可以并行于同一指令周期內(nèi)執(zhí)行,。
(2)多使用后加
根據(jù)指令執(zhí)行周期可以看出,,[sp + offset]取址模式需要耗費兩個時鐘周期,在實際優(yōu)化時應(yīng)盡量少用,,而以對sp進行后加直接取址,。后加(post increment)取址模式是在對sp直接取址后將指針移到sp+offset的位置,只用一個指令周期即可實現(xiàn),。
(3)改變循環(huán)體的組合方式
如果遵循“讀操作數(shù)-〉計算-〉存結(jié)果”的循環(huán)順序進行,,則由于三個操作有很明顯的依賴及先后關(guān)系,使循環(huán)無法并行,。若人為打亂這個順序,,則執(zhí)行效率會有很大改觀:
①將第i次循環(huán)結(jié)果儲存,;②計算第i+1次循環(huán)的結(jié)果,;③取第i+2次循環(huán)的操作數(shù),。
此方法只用一個指令周期即可完成循環(huán),,較優(yōu)化前的三個指令周期優(yōu)勢明顯,。
(4)使用判斷執(zhí)行代替分支跳轉(zhuǎn)
傳統(tǒng)DSP處理判斷分支只能使用分支跳轉(zhuǎn)指令,而跳轉(zhuǎn)由于預(yù)取指序列都將被重置而非常耗時,,尤其是在各個分支執(zhí)行語句較少的情況下,,跳轉(zhuǎn)的開銷會顯得更難以接受。SC140的指令集中有判斷執(zhí)行指令I(lǐng)FT/IFF/IFA,,對小分支判斷非常有效,。
在音頻解碼器的程序開發(fā)中,采用了上述針對StarCore SC140的優(yōu)化技巧和方法,,整個工程的MIPS降低至優(yōu)化前的16.4%,。其中按時間抽取32點基4快速傅立葉變換函數(shù)dit_fft完全采用匯編改寫,手工完成代碼337行,,平均執(zhí)行指令周期由優(yōu)化前的5 643降到優(yōu)化后的576,,取得了明顯的效果。
參考文獻
1 程佩青.數(shù)字信號處理教程(第二版)[M].北京:清華大學(xué)出版社,,2001
2 SC140 DSP Core Reference Manual[EB/OL].www.motorola.corn/sps/dsp,,2001
3 SC100 C Compiler User′s Manual[EB/OL].www.metroworks.com,2000