《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于Bayes算法實(shí)現(xiàn)圖像語(yǔ)義分類
基于Bayes算法實(shí)現(xiàn)圖像語(yǔ)義分類
許天兵
濟(jì)南山東財(cái)政學(xué)院計(jì)算機(jī)信息工程系(250014)
摘要: 介紹了根據(jù)圖像的邏輯特征和抽象屬性進(jìn)行檢索的基于語(yǔ)義分類的圖像檢索技術(shù),,并用Bayes分類算法設(shè)計(jì)了一個(gè)語(yǔ)義分類器,,該語(yǔ)義分類器通過(guò)計(jì)算用戶要查詢圖像的后驗(yàn)概率,對(duì)被查詢的圖像進(jìn)行語(yǔ)義分類。
Abstract:
Key words :

 摘 要: 介紹了根據(jù)圖像的邏輯特征和抽象屬性進(jìn)行檢索的基于語(yǔ)義分類圖像檢索技術(shù),,并用Bayes分類算法設(shè)計(jì)了一個(gè)語(yǔ)義分類器,,該語(yǔ)義分類器通過(guò)計(jì)算用戶要查詢圖像的后驗(yàn)概率,,對(duì)被查詢的圖像進(jìn)行語(yǔ)義分類,。
關(guān)鍵詞: 語(yǔ)義分類  圖像檢索  Bayes算法  特征向量

1  語(yǔ)義圖像檢索
  圖像檢索的傳統(tǒng)方法是基于文本的,使用關(guān)鍵字注釋是最常用的方法,。這樣,,對(duì)圖像的檢索就變成了對(duì)關(guān)鍵字的查找。但是,,基于文本的檢索存在的主要問(wèn)題是:由于圖像注解的主觀性和不完備性,,因而不能保證檢全率。為了克服基于文本方法的局限性,,20世紀(jì)90年代出現(xiàn)了基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,,CBIR)。CBIR系統(tǒng)是指直接采用圖像內(nèi)容進(jìn)行圖像信息查詢的檢索系統(tǒng)[1],。按照?qǐng)D像檢索復(fù)雜度的遞增,,CBIR可以分為以下3個(gè)層次上的圖像檢索。
  (1)原始特征,。使用顏色,、紋理、形狀等視覺(jué)特征進(jìn)行圖像檢索,。這些特征是客觀的,,是圖像本身的屬性,不需要任何外部知識(shí),。在這一層次上的檢索一般應(yīng)用于特定領(lǐng)域的專家系統(tǒng),,如商標(biāo)登記、檔案識(shí)別等,。
  (2)導(dǎo)出特征,。導(dǎo)出特征又稱為邏輯特征,是通過(guò)對(duì)圖像中所描述對(duì)象進(jìn)行某種程度的邏輯推理而得到的,。例如,,“查詢雙層公共汽車的圖片”,這一層次的檢索需要得到一些外部知識(shí)的幫助,。目前,,報(bào)紙、雜志等圖像數(shù)據(jù)庫(kù)的檢索主要是在這一層次上進(jìn)行,。
  (3)抽象屬性,。該層次的檢索涉及到對(duì)圖像中所包含物體的含義和場(chǎng)景的描述進(jìn)行大量的高層次的推理。例如,,“查詢描寫苦難的圖片”,,要想檢索成功,需要較復(fù)雜的搜索引擎,,運(yùn)用推理和主觀判斷,,在圖像內(nèi)容和抽象概念之間建立聯(lián)系。
  按導(dǎo)出特征和抽象屬性進(jìn)行檢索又稱為語(yǔ)義圖像檢索[2],。目前,,大部分CBIR是按照?qǐng)D像的原始視覺(jué)特征,在第一層次上進(jìn)行檢索,。然而,,基于語(yǔ)義的圖像檢索的應(yīng)用范圍更為廣闊,現(xiàn)在已成為基于內(nèi)容的圖像檢索的發(fā)展熱點(diǎn),。
2  基于Bayes算法的圖像語(yǔ)義分類
  特征(即內(nèi)容)的提取是CBIR的基礎(chǔ),。CBIR的特征主要是指視覺(jué)特征,包括顏色,、紋理,、形狀和位置關(guān)系等特征,。但是,按照原始視覺(jué)特征檢索的CBIR系統(tǒng)存在的主要問(wèn)題是沒(méi)有建立視覺(jué)內(nèi)容和圖像語(yǔ)義之間的關(guān)聯(lián),,如木紋圖像和水紋圖像的紋理特征向量之間的距離很小,,一片楓葉圖像的顏色特征和紅色油漆木門圖像的顏色特征非常相似,但它們的語(yǔ)義卻截然不同,。為了填補(bǔ)視覺(jué)內(nèi)容和內(nèi)容解釋之間的語(yǔ)義縫隙,,本文提出語(yǔ)義圖像檢索,其核心部分是圖像的語(yǔ)義分類[3],。這里,,用Bayes分類算法來(lái)計(jì)算在特征值為[xi1,xi2,,……]的條件下,,圖像屬于語(yǔ)義類型cj的概率P(cj|[xi1,xi2,,……]),。
  Bayes分類算法是根據(jù)先驗(yàn)概率計(jì)算出后驗(yàn)概率。通過(guò)訓(xùn)練樣本,,可以構(gòu)造出語(yǔ)義分類器,,語(yǔ)義分類器根據(jù)用戶要查詢圖像的后驗(yàn)概率對(duì)被查詢圖像進(jìn)行語(yǔ)義分類。
  圖像的語(yǔ)義,,即對(duì)圖像內(nèi)容的解釋,。簡(jiǎn)單語(yǔ)義通常就是圖像的主題詞,復(fù)雜語(yǔ)義則是對(duì)圖像內(nèi)容的敘事型描述,。本文采用簡(jiǎn)單語(yǔ)義的標(biāo)記方式,,即:
  圖像語(yǔ)義s∷=圖像標(biāo)識(shí)+{主題詞注釋}
  這里,圖像主題詞注釋既包括圖像名稱,、圖像中顯示出的物體,,也包括圖像的視覺(jué)屬性。圖像可以按照語(yǔ)義歸類,。
  

  在計(jì)算出先驗(yàn)概率P(c)和條件概率P(x|c)后即可得到后驗(yàn)概率P(c|x),。
  對(duì)于給定的一組訓(xùn)練樣本圖像,若樣本總數(shù)為N,,語(yǔ)義類型c中包含的樣本個(gè)數(shù)為Nc,,則記為:
    

  研究表明,人類的視覺(jué)內(nèi)容往往存在一定的偏差,。這種偏差可以通過(guò)正態(tài)分布擬合給予彌補(bǔ),,即對(duì)于任一種語(yǔ)義類型c,首先把同樣的Gaussian內(nèi)核放入它的所有訓(xùn)練樣本的特征向量Xi,,然后再把這些Gaussian內(nèi)核累加起來(lái)作為條件概率P(x|c)的估計(jì):
    

  這里,,G(X-μ,,σ)是Gaussian內(nèi)核,μ是平均值,,σ是模糊度(即標(biāo)準(zhǔn)差),。模糊度根據(jù)圖像質(zhì)量由用戶指定。
  不同的視覺(jué)特征對(duì)不同語(yǔ)義的圖像有不同的辯識(shí)能力?,F(xiàn)在的問(wèn)題是:如何從圖像特征向量集合中選擇一類或幾類特征,使得被選擇特征對(duì)特定語(yǔ)義類型的圖像具有最強(qiáng)的表達(dá)能力,。圖像,、圖像特征和圖像語(yǔ)義三者的關(guān)系如圖1所示。

  定義3 給定一個(gè)語(yǔ)義類型集C,,尋找一個(gè)從圖像I到圖像特征向量集合X的映射f(I)=X,,使MAX(p(I∈ci|f(I)=X),i=1,,2,,……m)成立,這一過(guò)程稱為基于語(yǔ)義分類的圖像檢索,。
3  語(yǔ)義分類器
  直接利用圖像的原始視覺(jué)特征進(jìn)行語(yǔ)義分類較困難,。常用的方法是:用戶先對(duì)一組圖像(訓(xùn)練樣本)進(jìn)行手工語(yǔ)義分類,設(shè)定好CBIR系統(tǒng)的語(yǔ)義分類器,。當(dāng)用戶查詢圖像時(shí),,系統(tǒng)根據(jù)查詢圖像的視覺(jué)特征識(shí)別其語(yǔ)義,把查詢圖像和具有相同語(yǔ)義類型的圖像庫(kù)進(jìn)行比較,,按相似性大小返回查詢結(jié)果,。對(duì)圖像按語(yǔ)義分類的具體流程如圖2所示。

  下面設(shè)計(jì)一個(gè)語(yǔ)義分類器,,其圖像語(yǔ)義層次結(jié)構(gòu)如圖3所示,。該語(yǔ)義分類器具有以下特點(diǎn):
  (1)圖像的語(yǔ)義按層次結(jié)構(gòu)分類。
  (2)圖像的語(yǔ)義為自頂向下分類,。
  (3)圖像的語(yǔ)義分類結(jié)構(gòu)為可擴(kuò)充的體系結(jié)構(gòu),。

  先利用一組訓(xùn)練圖像數(shù)據(jù)進(jìn)行語(yǔ)義分類,對(duì)于訓(xùn)練數(shù)據(jù)中的圖像,,按上述語(yǔ)義層次結(jié)構(gòu),,用手工方法把圖像歸入一個(gè)語(yǔ)義類型中,并給圖像貼上相應(yīng)的語(yǔ)義標(biāo)簽,。城市風(fēng)貌可以歸納為具有人工建筑和人造物品,,如建筑物、汽車,、道路等,。自然風(fēng)景沒(méi)有這些特征,。在自然風(fēng)景下有3個(gè)子類:日出、森林和山峰,。日出可以用飽和度較高的顏色(紅色,、橙黃色、黃色)來(lái)表示,,森林中綠色為主色調(diào),,山峰可以用長(zhǎng)距離的山區(qū)景色來(lái)標(biāo)識(shí)。
  衡量視覺(jué)特征對(duì)語(yǔ)義類型的區(qū)別能力還很困難,。通常認(rèn)為,,如果一個(gè)視覺(jué)特征使同一語(yǔ)義類型內(nèi)的圖像距離較小,而使不同語(yǔ)義類型中的圖像距離較大,,則該視覺(jué)特征對(duì)語(yǔ)義類型的區(qū)別能力是較強(qiáng)的,。通過(guò)計(jì)算一個(gè)語(yǔ)義類型內(nèi)每一對(duì)圖像之間的距離,可以得到該語(yǔ)義類型內(nèi)的圖像的距離分布,。通過(guò)計(jì)算不同語(yǔ)義類型(如城市風(fēng)貌和自然風(fēng)景)之間每一對(duì)圖像之間的距離,,可以得到不同語(yǔ)義類型之間的圖像的距離分布。
在每個(gè)語(yǔ)義類型(城市風(fēng)貌和自然風(fēng)景)中選擇k個(gè)最相似的圖像,,用戶的查詢圖像通過(guò)與這k幅圖像的比較,,可以判斷查詢圖像屬于哪個(gè)語(yǔ)義類型。
  對(duì)于本文設(shè)計(jì)的語(yǔ)義分類器,,經(jīng)過(guò)計(jì)算發(fā)現(xiàn),,形狀特征對(duì)城市風(fēng)貌和自然風(fēng)景2種語(yǔ)義類型的區(qū)別能力比其他視覺(jué)特征要強(qiáng)。城市風(fēng)貌中的人造物體具有較明顯的水平和垂直邊,,而自然風(fēng)景對(duì)象的邊緣就比較隨意,。因此用形狀特征能夠比較容易地區(qū)別二者。以顏色特征區(qū)別自然風(fēng)景下的日出,、森林,、山峰更加理想,如草地用綠色表示,,天空用藍(lán)色表示等,。
4  結(jié)束語(yǔ)
  本文根據(jù)Bayes分類方法對(duì)圖像語(yǔ)義進(jìn)行分類,設(shè)計(jì)了一個(gè)語(yǔ)義分類器,。利用訓(xùn)練數(shù)據(jù)定義好語(yǔ)義類型后,,就可以根據(jù)圖像的視覺(jué)特征找到圖像的語(yǔ)義類型。這樣相似性匹配即可在同一語(yǔ)義類型下進(jìn)行,,因而提高了圖像檢索效率,。
參考文獻(xiàn)
1   付巖,王耀威.SVM用于基于內(nèi)容的自然圖像分類和檢索. 計(jì)算機(jī)學(xué)報(bào),2003,;26(10)
2   Smeulders A,,Worring M.Content-based Image Retrieval  at the End of the Early Years.IEEE Transactions on  Pattern Analysis and Machine Intelligence,2000,;22(12)
3   莊越挺,,潘云鶴.基于內(nèi)容的圖像檢索綜述.模式識(shí)別與人工智能,1999,;12(2)
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。