腳本虛擬機(jī)前段時間就已經(jīng)做好,,如果沒有跑在上面的語言,光有虛擬機(jī)沒太大意義,。所以腳本編譯器一早就開始做了。中間因為去上海參加 C++ 大會,,又去了成都做招聘,,弄的心力疲憊。這幾天才回來,,有那么幾天去實現(xiàn),。
編譯原理的課程大學(xué)本科就應(yīng)該開過吧,我不是科班出身,,反正是沒正經(jīng)上過,。不過依稀記得自己是學(xué)過的,記得是上中學(xué)的時候,,跑到一個大學(xué)上課,,老師教的就是編譯原理。那個時候 C 語言還沒玩轉(zhuǎn),,最熟的是 basic 和 6502 匯編,。理解那些東西很有困難。囫圇吞棗的記了一點,,算是有點印象,逢人也可以吹吹牛,。
記得前段<a href="http://codingnow.com/mailman/listinfo/cpp">我們 C++ 的 maillist</a> 曾經(jīng)有人說,,不是說會寫編譯器的就很牛,做 UI 的就沒水平,。每個領(lǐng)域研究下去都有很多東西,。俺深以為然也。記得會有人這么覺得,,編譯器這玩意應(yīng)當(dāng)不大好寫吧,。
這次我不想用什么 yacc/lex ,甚至不想按什么詞法分析,,語法分析什么的一遍遍掃描,,一步步轉(zhuǎn)換。心里無恥的認(rèn)為,,之所以人家要分那么多步驟,,是因為年紀(jì)大了,腦子不好使,,或者需要好多人一起合作,,需要把事情硬拆分成獨立的步驟,保持編程時的頭腦清晰,。偶還年輕,,腦子里可以同時多裝點東西。我自己大腦看代碼的時候可不用多遍掃描,順著讀就能讀懂,,理論上一遍掃描就 OK 了,。
據(jù)說當(dāng)年 turbo pascal 的編譯器的原作者就很牛,用匯編寫的編譯器,,應(yīng)該也是一遍掃描的,,編譯速度超快,幾乎不占什么內(nèi)存,。當(dāng)然了,,一遍掃描,內(nèi)存就只用保留最少的上下文環(huán)境,,一但處理完就退回去了,,對 CPU cache 的命中率也是極有好處的。把幾個分析步驟混雜在一起做,,更是可以減少重復(fù)運算的步驟,。唯一的麻煩就是,對程序員是一個挑戰(zhàn),。在編程這件事情上,,我一向不懼啥挑戰(zhàn)的。
一開始很莽撞,,連 BNF 都沒列,,一點頭緒都沒有,只知道分析過程一定是遞歸向下的,。人家匯編都寫了,,我這還是 C++ 呢,不是一個重量級的武器嘛,。不過寫起來,,腦子真是一團(tuán)糨糊啊。我的語言定義是類 C 的,,雖然去掉了那些變態(tài)的三元操作符,,和復(fù)雜的指針解析這種東西。左值右值的問題上還是非常復(fù)雜,。畢竟還是保留了許多從右向左的運算,。比如函數(shù)調(diào)用,就需要先算參數(shù)再算函數(shù)引用,。而函數(shù)本身又可以返回函數(shù)引用,,一次掃描的時候,最麻煩就是從左向右和從右向左的操作混合,。因為有回退問題,,有些符號在不同的環(huán)境下又有不同的意義,,既然我想把幾個分析步驟一起做了,自然不會產(chǎn)生太多中間數(shù)據(jù)增加重復(fù)運算,。這帶來很大的設(shè)計難度,。
比 C 語言增加的是類 lua 的多返回值設(shè)計,這個在沒有指針類型的時候,,可以提高虛擬機(jī)的運行效率,。否則返回多個值只能借助 table 了。臨時 table 會有內(nèi)存分配的開銷,,內(nèi)存分配有可能引起 gc,,導(dǎo)致虛擬機(jī)在處理完畢后要多一些檢查做代碼重定位,效率上會打折扣,。而我的目的是讓我的腳本效率高于 lua,,自然這個特性一定要支持了。
可是多返回值的設(shè)定引起了函數(shù)調(diào)用的返回行為根據(jù)上下文的不同,,lua 里定義了尾調(diào)用,,只有當(dāng)函數(shù)調(diào)用發(fā)生在尾部時,才按真實返回值返回,。否則強(qiáng)制切成一個返回值,。我照搬了這個設(shè)定。不過在實現(xiàn)時折磨了我?guī)讉€晚上,。
這周開始寫的時候,,距離上次 coding 已經(jīng)過去了兩周,導(dǎo)致以前寫的大部分代碼不可繼續(xù),。我覺得這種對于我來說高難度的算法,對編寫者我自己來說需要一個思維連續(xù)的過程,,思路一旦出了腦子里的 cache 就很難找回來了,。寫注釋的幫助不大,頂多在代碼中留下許多 todo 提醒自己別漏掉什么,。連續(xù)奮戰(zhàn)了幾天后,,昨天夜里終于小有成績了。
回過頭來看,,核心的編譯部分,,幾乎被翻新了3遍。整個過程基本重復(fù)這樣一個過程,,先用很丑陋的代碼把有限的功能搭起來,。這些代碼是非常 buggy 的,只能完成特定的分析,,很容易出錯,,和大量未完成的特性,。然后給自己一個大體的思路后,開始重構(gòu),。每次都選一種比較簡單的情況,,換一個方法重新編寫,確定比上一版好了以后再逐步取消前一版本的功能,。函數(shù)并不是逐個改寫的,。因為設(shè)計本身是在變化的。原來幾個函數(shù)交叉做的事情,,改了之后可能合并到另幾個函數(shù)中,。最后發(fā)現(xiàn)代碼逐漸被全部翻新了。非??上驳氖?,總的代碼量縮減到最多時的 70%,但是完成的特性卻增加了不少,。慢慢的程序就清晰了,,
在那一刻,有一種豁然開朗的感覺,。腦子里翁翁的聲音沒了,,心情非常的愉快。很久沒有體驗這種味道,?;蛟S是自己控制代碼的技術(shù)提高了許多,長期沒有遇到這么復(fù)雜的程序了,。
下面的工作很簡單,,好象剛剛把表達(dá)式解析做了,上百行代碼一氣喝成,,幾乎沒有出錯,,立刻可以解析非常復(fù)雜的表達(dá)式。再此之前,,編譯器只能分析只帶有 table 操作的式子,。這兩天打算把各種語句控制塊加上,感覺一下就能做了,。心里已經(jīng)在想給語言加各種新特性了,,錦上添花的事情本就沒啥難度,只是看想不想的到的事情了,。