基于StarCore SC140的優(yōu)化技術(shù)-AET-電子技術(shù)應(yīng)用

基于StarCore SC140的優(yōu)化技術(shù)

日期： 2008-05-06

作者：王麗莉，董金明

關(guān)鍵詞： 指令周期優(yōu)化方法并行處理匯編代碼快速傅立葉變換

　　摘　要： StarCore SC140是一款采用指令級(jí)并行(ILP)技術(shù)的DSP內(nèi)核，本文從C語言級(jí)和匯編代碼" title="匯編代碼">匯編代碼級(jí)兩方面探討了其優(yōu)化方法" title="優(yōu)化方法">優(yōu)化方法。
　　關(guān)鍵詞： DSP SC140內(nèi)核優(yōu)化

　　隨著DSP技術(shù)的不斷發(fā)展和完善， DSP廠商紛紛推出了自己的高級(jí)語言編譯器，但編譯器編譯出的匯編代碼在保證正確性的前提下很難兼顧效率。在一些實(shí)時(shí)性要求比較高的場(chǎng)合(如音視頻處理)必須對(duì)某些關(guān)鍵的算法和代碼進(jìn)行優(yōu)化。StarCore SC140這款DSP內(nèi)核在體系結(jié)構(gòu)、數(shù)據(jù)存取及運(yùn)算上都與傳統(tǒng)的TI系列有明顯的差異，它可以在原來的基礎(chǔ)上應(yīng)用一些比較有針對(duì)性的方法來大幅度提高程序優(yōu)化效率。本文根據(jù)作者在SC140上開發(fā)AACPlus_v2音頻解碼器的經(jīng)驗(yàn)，著重從C語言級(jí)和匯編代碼級(jí)兩方面探討其優(yōu)化方法。
1 StarCore SC140體系結(jié)構(gòu)
　　StarCore SC140內(nèi)核包含三類功能單元：數(shù)據(jù)算術(shù)邏輯單元(DALU)、地址生成單元(AGU)和程序序列器單元(PSEQ)。采用指令級(jí)并行技術(shù)(ILP)，共有6 個(gè)執(zhí)行單元，包括4 個(gè)ALU和2個(gè)AGU，最多可以同時(shí)執(zhí)行6 條指令，而且支持SIMD。SC140 采用變長(zhǎng)執(zhí)行組(VLES)模型，執(zhí)行過程以執(zhí)行組為單位，采用由指令預(yù)取、取址、指令分配、地址生成和執(zhí)行組成的5 級(jí)流水線結(jié)構(gòu)。
　　SC140采用單一的內(nèi)存空間，在內(nèi)存和內(nèi)核之間有兩組數(shù)據(jù)總線和一組程序總線，可以同時(shí)高速存取兩組數(shù)據(jù)。
2 SC140的優(yōu)化技術(shù)
2.1 Profile分析
　　將高級(jí)語言程序代碼用手工匯編優(yōu)化固然可以降低MIPS消耗，但同時(shí)也會(huì)帶來工作量的提高及出現(xiàn)改寫錯(cuò)誤。所以對(duì)程序進(jìn)行Profile分析，找出消耗MIPS比較集中的模塊或函數(shù)進(jìn)行手工匯編優(yōu)化是十分必要的。
　　以音頻編碼器AACPlus_v2為例，消耗MIPS集中的函數(shù)，即計(jì)算和循環(huán)集中的函數(shù)，主要包括dit_fft(快速傅立葉變換" title="快速傅立葉變換">快速傅立葉變換)、cplxAnalysisQmfFiltering(分解QMF濾波器)、cplxSynthesisQmfFiltering(合成QMF濾波器)等。
　　另外還有一些函數(shù)，雖然占據(jù)MIPS的比重較大，但本身計(jì)算并不是很復(fù)雜，只是包含很多的判斷分支。這樣的函數(shù)用SC140手工匯編優(yōu)化的效率很低，可以考慮在程序算法上優(yōu)化。
2.2 C語言級(jí)的優(yōu)化
　　對(duì)既有的C代碼進(jìn)行適當(dāng)?shù)恼{(diào)整與變換，不僅可以提高編譯效率，也可以為進(jìn)一步手工匯編優(yōu)化鋪平道路。
　　循環(huán)通常是程序中MIPS可以集中消耗的部分，要真正做好循環(huán)優(yōu)化，必須要了解所用DSP的體系結(jié)構(gòu)和特點(diǎn)，做到有的放矢。循環(huán)的優(yōu)化有三類：循環(huán)展開、循環(huán)合并和循環(huán)拆分，其中循環(huán)展開是使用頻率最高也是最有效的DSP優(yōu)化技巧。由于篇幅所限，下面僅針對(duì)循環(huán)展開來說明具體的優(yōu)化方法。
　　循環(huán)展開就是在循環(huán)內(nèi)部對(duì)循環(huán)體的內(nèi)容進(jìn)行重復(fù)，從而減少循環(huán)次數(shù)。這樣做首先減少了循環(huán)跳轉(zhuǎn)的消耗；其次可充分利用StarCore的結(jié)構(gòu)特點(diǎn)，即4個(gè)DALU和2個(gè)AGU實(shí)現(xiàn)并行。當(dāng)然，這種優(yōu)化方法需要滿足一定的前提條件：
　　(1)前后循環(huán)體之間不能存在依賴關(guān)系；
　　(2)數(shù)據(jù)排列要滿足邊界關(guān)系；
　　(3)每個(gè)循環(huán)體所需要的寄存器不大于DSP可提供的寄存器數(shù)；
　　(4)循環(huán)體的次數(shù)是展開因子的整數(shù)倍。
　　另外有兩個(gè)問題需說明：(1)針對(duì)SC140進(jìn)行循環(huán)展開，通常取展開因子為4，因?yàn)镾C140的4個(gè)ALU可以實(shí)現(xiàn)四條計(jì)算指令的并行；(2)若要使用SIMD實(shí)現(xiàn)一條指令多個(gè)數(shù)據(jù)存取，就要把存取數(shù)據(jù)的初地址放到8B的邊界上，這也是根據(jù)SC140的數(shù)據(jù)總線為64位決定的。
2.3 匯編代碼級(jí)的優(yōu)化
　　C語言級(jí)的優(yōu)化固然可以使編譯器更有效率，但在復(fù)雜操作下，編譯器無法代替人的統(tǒng)籌和分析，生成的代碼會(huì)存在明顯的冗余。對(duì)于一些關(guān)鍵的操作，仍然需要通過手工匯編優(yōu)化提高其執(zhí)行速度。
2.3.1 利用硬件方式優(yōu)化程序
　　SC140中可以通過修改狀態(tài)寄存器來切換硬件的工作模式。一些常見的DSP算法在這種硬件的支持下可以大大提高優(yōu)化效率。
　　(1)fft倒位序
　　在數(shù)字信號(hào)處理過程中有一類與“順序”相關(guān)的操作，如快速傅立葉變換中常用的按時(shí)間抽取(dit-fft)算法等，在程序中需要通過地址運(yùn)算來實(shí)現(xiàn)。StarCore SC140針對(duì)這些運(yùn)算提供了硬件尋址方式，減少了程序中的地址操作。
　　在數(shù)字信號(hào)處理中有大量的fft運(yùn)算，以按時(shí)間抽取的基4圖基fft(dit-tukey fft, radix 4)為例，時(shí)域倒序輸入，頻域順序輸出。軟件實(shí)現(xiàn)程序中有相應(yīng)的倒序函數(shù)(一般是查表算法)來實(shí)現(xiàn)時(shí)域的倒序，而將其移植到DSP上會(huì)發(fā)現(xiàn)這一部分非常耗時(shí)，甚至與fft本身的算法相差無幾。正是在這樣的前提下，SC140提供了硬件上的倒序進(jìn)位方式代替軟件倒序算法，提高了fft的執(zhí)行效率。其精髓就是將順序存放的時(shí)間采樣數(shù)據(jù)存入存儲(chǔ)區(qū)內(nèi)，對(duì)該存儲(chǔ)區(qū)使用SC140反向進(jìn)位尋址方式(reverse-carry addressing)。順序和倒序的關(guān)系見表1(以32點(diǎn)fft為例)。

　　因此，只要對(duì)順序存儲(chǔ)的時(shí)間數(shù)據(jù)采用方向進(jìn)位尋址，就可以輕松實(shí)現(xiàn)倒序算法。還有一點(diǎn)值得注意，在反進(jìn)位的使用中，如fft的輸入為2N點(diǎn)，數(shù)據(jù)寬度為2M字節(jié)，則分配的倒序存儲(chǔ)區(qū)起始地址最低(N+M)位均為零，否則會(huì)引起尋址錯(cuò)誤。
　　反向進(jìn)位尋址只要設(shè)置MCTL寄存器中相應(yīng)寄存器的狀態(tài)位即可。
　　(2)環(huán)形存儲(chǔ)
　　在實(shí)際應(yīng)用中，常常需要對(duì)緩沖區(qū)進(jìn)行環(huán)形處理，即處理完數(shù)據(jù)后再?gòu)念^數(shù)據(jù)繼續(xù)處理。如果采用普通的處理方法，則每次尋址都需用軟件將所尋址地址與尾地址進(jìn)行比較，若超出范圍，則尋址至頭地址。這樣做將非常耗時(shí)。為此，StarCore在硬件上支持環(huán)形緩沖區(qū)的管理。為了使用該功能，需要將環(huán)形緩沖區(qū)分配到特定的存儲(chǔ)空間。
　　環(huán)形存儲(chǔ)是通過設(shè)置MCTL寄存器相應(yīng)比特位的值實(shí)現(xiàn)的。
　　(3)Scale模式的選擇——用硬件完成移位操作
　　由于DSP使用定點(diǎn)運(yùn)算較多，為了精度要求運(yùn)算中會(huì)有大量Scale調(diào)整，SC140通過設(shè)置硬件的Scale模式，在寄存器向內(nèi)存存數(shù)據(jù)的同時(shí)完成移位。SC140的Scale模式分為三種：①Scale up：左移一位后存入；②Scale down：右移一位后存入；③no Scale：不移位直接存入。
　　該模式通過設(shè)置SR狀態(tài)寄存器實(shí)現(xiàn)。
2.3.2 根據(jù)流水線實(shí)現(xiàn)并行處理" title="并行處理">并行處理
　　SC140支持并行處理是該款DSP內(nèi)核的一大亮點(diǎn)，下面具體闡述如何運(yùn)用并行處理提高優(yōu)化效率。
　　(1)改變指令執(zhí)行順序
　　將相互不存在依賴關(guān)系的指令并行處理，最大并行量為4個(gè)ALU操作和2個(gè)AGU操作。這是根據(jù)流水線實(shí)現(xiàn)并行優(yōu)化方法的基礎(chǔ)。
　　當(dāng)對(duì)某一寄存器同時(shí)進(jìn)行讀和寫操作時(shí)，雖然指令流水線中讀和寫同處于“執(zhí)行”指令周期" title="指令周期">指令周期內(nèi)，而對(duì)時(shí)鐘周期來說，讀操作先于寫操作，即遵循先讀后寫的原則。故對(duì)同一寄存器先讀取后賦值的操作可以并行于同一指令周期內(nèi)執(zhí)行。
　　(2)多使用后加
　　根據(jù)指令執(zhí)行周期可以看出，[sp + offset]取址模式需要耗費(fèi)兩個(gè)時(shí)鐘周期，在實(shí)際優(yōu)化時(shí)應(yīng)盡量少用，而以對(duì)sp進(jìn)行后加直接取址。后加(post increment)取址模式是在對(duì)sp直接取址后將指針移到sp+offset的位置，只用一個(gè)指令周期即可實(shí)現(xiàn)。
　　(3)改變循環(huán)體的組合方式
　　如果遵循“讀操作數(shù)-〉計(jì)算-〉存結(jié)果”的循環(huán)順序進(jìn)行，則由于三個(gè)操作有很明顯的依賴及先后關(guān)系，使循環(huán)無法并行。若人為打亂這個(gè)順序，則執(zhí)行效率會(huì)有很大改觀：
　　①將第i次循環(huán)結(jié)果儲(chǔ)存；②計(jì)算第i+1次循環(huán)的結(jié)果；③取第i+2次循環(huán)的操作數(shù)。
　　此方法只用一個(gè)指令周期即可完成循環(huán)，較優(yōu)化前的三個(gè)指令周期優(yōu)勢(shì)明顯。
　　(4)使用判斷執(zhí)行代替分支跳轉(zhuǎn)
　　傳統(tǒng)DSP處理判斷分支只能使用分支跳轉(zhuǎn)指令，而跳轉(zhuǎn)由于預(yù)取指序列都將被重置而非常耗時(shí)，尤其是在各個(gè)分支執(zhí)行語句較少的情況下，跳轉(zhuǎn)的開銷會(huì)顯得更難以接受。SC140的指令集中有判斷執(zhí)行指令I(lǐng)FT/IFF/IFA，對(duì)小分支判斷非常有效。
　　在音頻解碼器的程序開發(fā)中，采用了上述針對(duì)StarCore SC140的優(yōu)化技巧和方法，整個(gè)工程的MIPS降低至優(yōu)化前的16.4%。其中按時(shí)間抽取32點(diǎn)基4快速傅立葉變換函數(shù)dit_fft完全采用匯編改寫，手工完成代碼337行，平均執(zhí)行指令周期由優(yōu)化前的5 643降到優(yōu)化后的576，取得了明顯的效果。
參考文獻(xiàn)
1 程佩青.數(shù)字信號(hào)處理教程(第二版)[M].北京：清華大學(xué)出版社，2001
2 SC140 DSP Core Reference Manual[EB/OL].www.motorola.corn/sps/dsp，2001
3 SC100 C Compiler User′s Manual[EB/OL].www.metroworks.com，2000

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

基于StarCore SC140的優(yōu)化技術(shù)

日期： 2008-05-06

作者：王麗莉，董金明

相關(guān)內(nèi)容