引言
ARM處理器以其高性能,、低功耗、低成本等優(yōu)勢(shì)被廣泛應(yīng)用于各種成功的32位嵌入式系統(tǒng)中,。提高執(zhí)行速度和減小代碼尺寸是嵌入式軟件設(shè)計(jì)的關(guān)鍵需求,。盡管大多數(shù)的ARM編譯器和調(diào)試器都帶有性能優(yōu)化工具,但是為了保證其正確性,,編譯器必須是穩(wěn)妥和安全的,,而且它還受到處理器自身結(jié)構(gòu)的限制。因此,,編程人員必須在理解編譯器工作特點(diǎn)的基礎(chǔ)上來(lái)實(shí)現(xiàn)代碼優(yōu)化,。代碼的優(yōu)化方法較多,本文針對(duì)函數(shù)優(yōu)化方法進(jìn)行闡述,。
1 函數(shù)局部變量的數(shù)據(jù)類(lèi)型
局部變量包括函數(shù)內(nèi)局部變量,、函數(shù)參數(shù)、函數(shù)返回值,。由于ARM數(shù)據(jù)操作都是32位,,即使數(shù)據(jù)本身只需要8位或16位,對(duì)于這三類(lèi)局部變量也應(yīng)盡可能使用32位的數(shù)據(jù)類(lèi)型int或lONg,,以提高代碼執(zhí)行效率,。下面以簡(jiǎn)單求和函數(shù)為例進(jìn)行分析。
函數(shù)add1計(jì)算包含10個(gè)字的數(shù)組array的累加和,,add2與add1功能相同,,只是將函數(shù)add1的參數(shù)array類(lèi)型改為16位的short,函數(shù)內(nèi)局部變量i類(lèi)型改為8位的char,,sum改為16位的short,。add1、add2的C源代碼如下:
int add1(int *array){
unsigned int i;
int sum=0;
for(i=0;i<10;i++)
sum=sum+array[i];
return sum;
}
short add2(short *array){
char i;
short sum=0;
for(i=0;i<10;i++)
sum= sum+array[i];
return sum;
}
add1經(jīng)編譯產(chǎn)生的匯編代碼:
add1
mov r2,r0
mov r0,#0
mov r1,#0
add1_loop
ldr r3,[r2,r1,lsl #2]
add r1,r1,#1
cmp r1,#0x0a
add r0,r3,r0
bcc add1_loop
mov pc,r14
add2經(jīng)編譯產(chǎn)生的匯編代碼:
add2
mov r2,r0
mov r0,#0
mov r1,#0
add2_loop
add r3,[r2,r1,lsl #1];增加語(yǔ)句①
ldrh r3,[r3,#0]
add r1,r1,#1
and r1,r1,0xff;增加語(yǔ)句②
cmp r1,#0x0a
add r0,r3,r0
bcc add2_loop
mov r0,r0,lsl #16;增加語(yǔ)句③
mov r0,r0,asr #16;增加語(yǔ)句④
mov pc,r14
比較add1和add2兩個(gè)函數(shù)的匯編代碼,,可以發(fā)現(xiàn)add2_loop循環(huán)比add1_loop循環(huán)增加了4條語(yǔ)句,。
語(yǔ)句①:函數(shù)add2中變量sum為16位short類(lèi)型,ARM指令中l(wèi)drh指令不支持移位地址偏移,,因此增加add指令計(jì)算數(shù)組下標(biāo)地址,。
語(yǔ)句②:由于函數(shù)add2中循環(huán)變量i為8位的char類(lèi)型,而ARM處理器的寄存器為32位,,此語(yǔ)句用于處理循環(huán)變量累加過(guò)程中引起的溢出問(wèn)題,。即:當(dāng)i累加到255時(shí),再加1應(yīng)該為0,而不是256,。
語(yǔ)句③,、④:函數(shù)add2中返回結(jié)果sum為short類(lèi)型,,在返回前需將32位寄存器的前16位用符號(hào)位填充,即轉(zhuǎn)換為16位short類(lèi)型,。
2 函數(shù)局部變量的個(gè)數(shù)
為了加快程序的執(zhí)行速度,,函數(shù)編譯時(shí)應(yīng)盡可能將局部變量都分配在寄存器中。*部變量多于可用的寄存器時(shí),,編譯器會(huì)將多余的變量壓入堆棧(即存入存儲(chǔ)器中),因此必須控制局部變量的個(gè)數(shù),。
ARM處理器采用RISC結(jié)構(gòu),,帶有豐富的內(nèi)部寄存器。在編譯器使用apcs開(kāi)關(guān)選項(xiàng),,即支持ATPCS(ARMThumb Procedure Call STandard)標(biāo)準(zhǔn)時(shí),,理論上有14個(gè)寄存器(R0~R12,R14)可以用來(lái)存放局部變量,。但是實(shí)際上有些寄存器有自身特殊的用途,,例如R9在與讀寫(xiě)位置無(wú)關(guān)(RWPI)的編譯情況下作為靜態(tài)基址寄存器使用,R12作為子程序內(nèi)部調(diào)用的臨時(shí)過(guò)渡寄存器使用,。ATPCS規(guī)則中的寄存器名稱(chēng)及說(shuō)明如表1所列,。
表1 ATPCS規(guī)則中寄存器說(shuō)明
因此,應(yīng)盡量限制局部變量的數(shù)目:①對(duì)于函數(shù)的參數(shù)個(gè)數(shù)應(yīng)控制在4個(gè)以?xún)?nèi),,只有R0~R3可用來(lái)保存參數(shù),,當(dāng)參數(shù)多于4個(gè)時(shí)將被壓入堆棧。如果由于實(shí)際應(yīng)用的需要,,參數(shù)多于4個(gè),,也可以采用結(jié)構(gòu)體來(lái)組織參數(shù),傳遞結(jié)構(gòu)體指針來(lái)實(shí)現(xiàn),。②函數(shù)內(nèi)部局部變量的個(gè)數(shù)應(yīng)控制在12個(gè)以?xún)?nèi)(R0~R11),,R12~R15都有特定用途。
3 函數(shù)內(nèi)代碼的編寫(xiě)
3.1 循環(huán)代碼的編寫(xiě)
循環(huán)的控制條件設(shè)為遞減到零的形式,,可以減少指令條數(shù),。以求10個(gè)數(shù)的累加和為例進(jìn)行分析。
代碼1:
int sum=0;
for(int i=0;i<10;i++)
sum=sum+i;
代碼2:
int sum=0;
for(int i=10;i!=0;i--)
sum=sum+i;
匯編代碼1:
mov r0,#0
mov r1,#0
add1
add r1,r1,#1
cmp r1,#0x0a
add r0,r1,r0
bcc add1
匯編代碼2:
mov r0,#0
mov r1,#0x0a
add2
subs r1,r1,#1
add r0,r1,r0
bne add2
比較代碼1和代碼2,,兩者的功能是相同的,,但是代碼2在循環(huán)中少了1條指令。該循環(huán)的執(zhí)行次數(shù)為10次,,即在執(zhí)行時(shí)共減少了10條指令,。
3.2 內(nèi)聯(lián)函數(shù)的使用
當(dāng)函數(shù)體代碼較少(通常只有一兩條語(yǔ)句),且又被經(jīng)常調(diào)用時(shí),,可將它設(shè)為內(nèi)聯(lián)函數(shù)(inline),。對(duì)內(nèi)聯(lián)函數(shù)的調(diào)用類(lèi)似于宏定義的展開(kāi),,因此沒(méi)有函數(shù)調(diào)用的開(kāi)銷(xiāo)(即參數(shù)的傳遞和函數(shù)值的返回),只是增加了被調(diào)用函數(shù)的代碼量,。
例如在嵌入式系統(tǒng)中,,經(jīng)常訪問(wèn)的外設(shè)端口的讀寫(xiě)代碼就可以設(shè)成內(nèi)聯(lián)函數(shù),以提高執(zhí)行效率,。外設(shè)寄存器的讀寫(xiě)函數(shù)如下:
inline unsigned short reg_read(unsigned short reg){
return (unsigned short)*(volatile unsigned short *)( reg);//外設(shè)寄存器的讀函數(shù)
}
inline void reg_write(unsigned short reg, unsigned short val){
*(volatile unsigned short *)(reg)=val;//外設(shè)寄存器的寫(xiě)函數(shù)
}
這兩個(gè)函數(shù)的共同特點(diǎn)是:函數(shù)體的代碼很少,,只有1個(gè)語(yǔ)句;使用的局部變量很少,,只有1~2個(gè)參數(shù),。由于定義為內(nèi)聯(lián)函數(shù),程序的可讀性較好,;在執(zhí)行時(shí)由于沒(méi)有調(diào)用開(kāi)銷(xiāo),,執(zhí)行效率較高;函數(shù)體很小,,在被展開(kāi)時(shí)空間開(kāi)銷(xiāo)不大,。
結(jié)語(yǔ)
由于嵌入式系統(tǒng)對(duì)存儲(chǔ)空間的限制和實(shí)時(shí)性的需求,在編寫(xiě)代碼時(shí)必須采用相應(yīng)的方法和原則以減少代碼的空間開(kāi)銷(xiāo)和時(shí)間開(kāi)銷(xiāo),。代碼優(yōu)化需要花費(fèi)時(shí)間,,并且代碼優(yōu)化后將降低源代碼的可讀性。因此,,只有對(duì)經(jīng)常被調(diào)用且對(duì)性能影響較大的函數(shù)進(jìn)行優(yōu)化,,才能最有效地優(yōu)化系統(tǒng)。