摘 要: 利用固定區(qū)域坐標(biāo)提取固定區(qū)域的單行數(shù)據(jù)字符塊;基于高斯模糊提取隨機(jī)手寫(xiě)黑子信息字符區(qū),;結(jié)合Hough變換與投影技術(shù)完成隨機(jī)手寫(xiě)區(qū)域中包含多個(gè)黑子記錄字符塊的分割,,并將包含單個(gè)黑子記錄字符塊分割為3個(gè)僅包含單行數(shù)據(jù)的字符塊;利用顏色填充分割算法分割出單行數(shù)據(jù)字符塊中的單個(gè)字符和粘連字符,,結(jié)合平均字符寬度信息進(jìn)一步分割粘連字符,。實(shí)驗(yàn)結(jié)果表明,每幅手繪太陽(yáng)黑子圖的固定區(qū)域和隨機(jī)區(qū)域的字符分割平均正確率分別達(dá)到95.5%和79.6%,。
關(guān)鍵詞: Hough變換,;投影算法;顏色填充分割算法,;粘連字符,;字符寬度
0 引言
在光球觀測(cè)照相之前,太陽(yáng)黑子觀測(cè)長(zhǎng)期以來(lái)一直采用投影法手工描跡黑子的大小,、形狀和位置[1],。對(duì)手繪太陽(yáng)黑子圖進(jìn)行數(shù)字化具有極為重要的意義,可降低珍貴數(shù)據(jù)丟失的風(fēng)險(xiǎn),,快捷簡(jiǎn)單地查詢有關(guān)黑子的信息,,匯聚各個(gè)天文臺(tái)的觀測(cè)數(shù)據(jù)進(jìn)行有效的整理,為科學(xué)家和用戶提供數(shù)據(jù)服務(wù),。
國(guó)際上較早開(kāi)展了手繪太陽(yáng)黑子圖的數(shù)字化研究工作,,西班牙和比利時(shí)分別開(kāi)發(fā)出了HSUNSPOTS和DigiSun的手繪太陽(yáng)黑子圖數(shù)字化軟件。中國(guó)自20世紀(jì)30年代末開(kāi)始太陽(yáng)黑子觀測(cè),,云南天文臺(tái)已積累圖1所示的手繪太陽(yáng)黑子圖[2]達(dá)20 000多張,。由圖1可見(jiàn),手寫(xiě)黑子信息可分為固定區(qū)域和隨機(jī)區(qū)域兩部分,,分別如圖1中類似矩形框標(biāo)記部分和類似橢圓框標(biāo)記部分,。提取手寫(xiě)記錄信息并保存在計(jì)算機(jī)中是手繪太陽(yáng)黑子圖數(shù)字化的重要內(nèi)容,因此手寫(xiě)字符的提取和分割是其中一個(gè)重要的環(huán)節(jié),。
目前關(guān)于手寫(xiě)字符分割的方法有很多[3-5],。基于投影和輪廓特征的方法對(duì)具體的應(yīng)用對(duì)象缺乏針對(duì)性,,如投影分析法對(duì)字符發(fā)生嚴(yán)重傾斜或交錯(cuò)的情況無(wú)法處理,;外輪廓分析法在字符間粘連筆劃為直線的情況下,因找不到輪廓線上的凹點(diǎn)而不太適用,?;诮Y(jié)構(gòu)特征的方法由于缺乏識(shí)別的指導(dǎo),,往往導(dǎo)致分割質(zhì)量不高?;谀0遄R(shí)別的方法是以字符識(shí)別器提供的置信度作為分割的度量,,選取真實(shí)反映識(shí)別結(jié)果的置信度是提高分割正確率的關(guān)鍵??紤]上述字符分割方法的缺點(diǎn)和復(fù)雜性,,以及隨機(jī)手寫(xiě)黑子信息區(qū)字符中帶有圓圈的特殊性,本文研究圖1所示的固定區(qū)域和隨機(jī)區(qū)域手寫(xiě)字符的提取與分割方法,。
1 固定區(qū)域手寫(xiě)黑子信息字符提取與分割
1.1 基于坐標(biāo)的固定區(qū)域手寫(xiě)字符區(qū)提取
將原始圖進(jìn)行大小歸一化,,每幅圖中各固定區(qū)域的相對(duì)位置相同,計(jì)算出圖中各固定區(qū)域橫縱坐標(biāo)最小和最大兩像素點(diǎn),,提取兩坐標(biāo)點(diǎn)確定矩形框中原始圖像的像素值,,即字符塊,如圖2(a)所示,。
1.2 基于CFS算法與平均字符寬度的固定區(qū)域字符分割
利用顏色填充分割[6](Color Filling Segmentation,,CFS)算法進(jìn)行分割,若字符寬度小于最小字符寬度43,,則為干擾字符(小數(shù)點(diǎn),、度符號(hào)、撇符號(hào)和等號(hào)),,刪除,;若字符寬度大于最大字符寬度61,則為粘連字符,,結(jié)合平均字符寬度利用投影分割粘連字符,,若其中存在干擾字符,刪除,;其他則為單個(gè)字符,。部分結(jié)果如圖2(b)所示。
2 隨機(jī)區(qū)域手寫(xiě)黑子信息字符提取與分割
2.1 基于高斯模糊的隨機(jī)區(qū)域手寫(xiě)字符區(qū)提取
對(duì)提取出固定區(qū)域字符塊后的圖利用全局閾值轉(zhuǎn)換為黑白圖,,利用高斯模糊算法[7],,使用大小為901×901、標(biāo)準(zhǔn)偏差為300的高斯模糊算子進(jìn)行卷積運(yùn)算,,尋找所有的八鄰接連通域,,刪除面積小于一定閾值的連通域,通過(guò)標(biāo)注連接分量標(biāo)記所有的連通域,,利用標(biāo)號(hào)尋找各連通域中橫縱坐標(biāo)最小和最大兩像素點(diǎn),,提取稍大于兩坐標(biāo)點(diǎn)確定矩形框范圍中原始圖像像素點(diǎn)的值,即字符塊,,部分結(jié)果如圖3所示,。
2.2 基于Hough變換與投影的隨機(jī)區(qū)域字符塊分割
2.2.1 包含多個(gè)黑子記錄字符塊的分割
部分類似圖3(b)所示字符塊含有多個(gè)黑子記錄,,需將其分割為類似圖3(a)所示僅包含單個(gè)黑子記錄的字符塊,利用Hough變換[8]來(lái)檢測(cè)圖中的圓圈,,利用圓心坐標(biāo)來(lái)判斷黑子的分布結(jié)構(gòu)。若兩圓心縱坐標(biāo)差的絕對(duì)值遠(yuǎn)大于兩圓心橫坐標(biāo)差的絕對(duì)值,,則為上下結(jié)構(gòu),,以第二個(gè)圓圈圓心縱坐標(biāo)減去半徑值為投影分割點(diǎn)進(jìn)行垂直投影分割;反之,,則為左右結(jié)構(gòu),,以第二個(gè)圓圈圓心橫坐標(biāo)減去半徑值為投影分割點(diǎn)進(jìn)行水平投影分割。
2.2.2 包含單個(gè)黑子記錄字符塊的分割
由于圓圈的高度大于緊隨其后的行數(shù)據(jù)高度,,對(duì)具有單個(gè)黑子記錄的字符塊進(jìn)行垂直投影分割前需將圓圈去除,;通過(guò)Hough變換檢測(cè)圓圈,利用圓心和半徑提取圓圈及圓圈中數(shù)據(jù),,為第一行數(shù)據(jù),;通過(guò)垂直投影選取合適的局部極小值點(diǎn)作為分割點(diǎn),對(duì)剩余字符塊進(jìn)行分割得到單行數(shù)據(jù)字符塊,,分別為第二行數(shù)據(jù)和第三行數(shù)據(jù)字符塊,,部分結(jié)果如圖4所示。
2.3 基于CFS算法與平均字符寬度的隨機(jī)區(qū)域字符分割
利用CFS算法進(jìn)行分割,,若第二行字符塊中字符滿足寬度<13或者>31且高度均≤100且字符面積處于574~2 170之間或者第三行字符塊中字符滿足高度≥42且字符面積處于574~2 170之間,,則認(rèn)為單個(gè)字符或者粘連字符,保留并判斷字符的寬度,,若寬度>62,,則為是粘連字符,結(jié)合平均字符寬度利用投影對(duì)粘連字符分割,,若其中存在干擾字符,,刪除;反之,,則為是單個(gè)字符,,部分結(jié)果如圖5所示。
3 手寫(xiě)字符分割實(shí)驗(yàn)結(jié)果及分析
選取中國(guó)科學(xué)院云南天文臺(tái)2000年2月至4月共43張分辨率達(dá)到5 000×6 000的手繪太陽(yáng)黑子圖,,人工統(tǒng)計(jì)共有13 717個(gè)字符,,固定區(qū)域共有2 279個(gè)字符,隨機(jī)手寫(xiě)區(qū)域共有11 438個(gè)字符,。利用投影和本文方法分別對(duì)固定區(qū)域和隨機(jī)區(qū)域的手寫(xiě)字符進(jìn)行分割,,以人工對(duì)比和確認(rèn)的方式對(duì)字符分割的結(jié)果進(jìn)行統(tǒng)計(jì)。
采用投影算法進(jìn)行字符分割,,固定區(qū)域字符分割正確的字符共2 156個(gè),,分割錯(cuò)誤的字符共123個(gè),,分割正確率達(dá)94.6%;隨機(jī)區(qū)域字符分割正確的字符共 8 716個(gè),,分割錯(cuò)誤的字符共2 722個(gè),,正確分割率達(dá)76.2%。采用本文方法進(jìn)行字符分割,,固定區(qū)域字符分割正確的字符共2 176個(gè),,分割錯(cuò)誤的字符共103個(gè),分割正確率達(dá)95.5%,;隨機(jī)手寫(xiě)區(qū)域字符分割正確的字符共9 109個(gè),,分割錯(cuò)誤的字符共2 329個(gè),正確分割率達(dá)79.6%,。
4 結(jié)論
本文方法使固定區(qū)域字符和隨機(jī)區(qū)域字符分割平均正確率分別提高了0.9%和3.4%,,表明采用方法得當(dāng),能較好地將包含單行數(shù)據(jù)的字符塊分割為多個(gè)完整的單個(gè)字符,。
參考文獻(xiàn)
[1] 劉學(xué)富.太陽(yáng)黑子觀測(cè)[J].天文愛(ài)好者,,1999(6):24-26.
[2] 云南天文臺(tái)太陽(yáng)觀測(cè)數(shù)據(jù)服務(wù)系統(tǒng)[EB/OL].(2015-05-25).http://www1.ynao.ac.cn/~solar/datadownload.php.
[3] 丁杰,楊靜宇.一種基于模糊規(guī)則的手寫(xiě)體粘連數(shù)字串分割[J].中國(guó)圖象圖形學(xué)報(bào),,2009,,14(11):2292-2298.
[4] 胡濤,呂紅,,孫小虎,,等.基于水平垂直灰度開(kāi)運(yùn)算的車牌字符分割算法[J].電子技術(shù)應(yīng)用,2012,,38(10):109-111.
[5] 高慶吉,,王曉華,趙為平.對(duì)粘連和缺損數(shù)字串分割的研究[J].模式識(shí)別與人工智能,,2000,,13(1):99-1021.
[6] YAN J, AHMAD A S E. A low-cost attack on a Microsoft CAPTCHA[C]. Proceedings of the 15th ACM Conference on Computer and Communications Security,, 2008: 543-554.
[7] 丁怡心,,廖勇毅.高斯模糊算法優(yōu)化及實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī),2010(8):76-78.
[8] 姜文,,盧朝陽(yáng),,李靜.基于Hough變換的手寫(xiě)體維文字符傾斜校正算法[J].微型機(jī)與應(yīng)用,2013,,32(8):29-31.