《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于聽覺模型的說話人語音特征提取
基于聽覺模型的說話人語音特征提取
來源:微型機(jī)與應(yīng)用2012年第1期
何朝霞,,潘 平
(貴州大學(xué) 計算機(jī)科學(xué)與信息學(xué)院,,貴州 貴陽 550025)
摘要: 基于聽覺模型的特性,仿照MFCC參數(shù)提取過程,,提出了一種基于Gammatone濾波器組的說話人語音特征提取方法。該方法用Gammatone濾波器組代替三角濾波器組求得倒譜系數(shù),,并且可以調(diào)整Gammatone濾波器組的通道數(shù)和帶寬,。將該方法所求得的特征在高斯混合模型識別系統(tǒng)中進(jìn)行仿真實驗,實驗結(jié)果表明,,該特征在一定情況下優(yōu)于MFCC特征在系統(tǒng)的識別率,,同時在Gammatone濾波器組通道數(shù)較高或濾波器帶寬較小的情況下,系統(tǒng)具有較高的識別率,。
Abstract:
Key words :

摘  要: 基于聽覺模型的特性,,仿照MFCC參數(shù)提取過程,提出了一種基于Gammatone濾波器組的說話人語音特征提取方法,。該方法用Gammatone濾波器組代替三角濾波器組求得倒譜系數(shù),,并且可以調(diào)整Gammatone濾波器組的通道數(shù)和帶寬。將該方法所求得的特征在高斯混合模型識別系統(tǒng)中進(jìn)行仿真實驗,,實驗結(jié)果表明,,該特征在一定情況下優(yōu)于MFCC特征在系統(tǒng)的識別率,,同時在Gammatone濾波器組通道數(shù)較高或濾波器帶寬較小的情況下,系統(tǒng)具有較高的識別率,。
關(guān)鍵詞: 聽覺模型,;Gammatone濾波器組;MFCC,;特征,;識別率

 聲音的感受細(xì)胞在內(nèi)耳的耳蝸部分,而基底膜是耳蝸接收聲音最重要的組織,。聲波在外耳腔引起空氣振動,,從而引起行波沿基底膜的傳播[1]?;啄?nèi)有許多平行走向的膠原樣纖維,,稱為聽弦。聽弦長短不同,,靠近蝸底較窄,,靠近蝸頂較寬?;啄ぜs有24 000條聽弦,,能夠?qū)Σ煌l率的聲音產(chǎn)生共鳴,分別反映不同頻率的聲音[2],。不同頻率的聲音產(chǎn)生不同的行波,,其峰值出現(xiàn)在基底膜的不同位置上,研究發(fā)現(xiàn),,不同的聲音頻率沿著基底膜的分布是對數(shù)型的[3],。
 早在1992年,PATTERSON R就提出了耳蝸模型,,該模型是基于一系列帶通濾波器——Gammatone濾波器組[4]實現(xiàn)的,,該濾波器組能夠很好地模擬基底膜的分頻特性。本文提出了一種基于Gammatone濾波器組的特征提取方法,,該方法能夠很好地提取說話人語音信號的特征,,并且具有很高的識別率。


 



 從圖6可以看出,,64通道的GFCC靜態(tài)特征參數(shù)比MFCC靜態(tài)特征具有更好的識別率,。
 同時,將不同order值,、不同濾波器組通道數(shù)所得的GFCC參數(shù)在識別系統(tǒng)中進(jìn)行了識別率比較,,如圖7所示。其中,,order值分別為0.1,、0.5、1,,濾波器組通道數(shù)分別為48,、64、128,。從圖7可以看出,,濾波器組通道數(shù)越高,識別率越高,;order值越小,,識別率越高。

 本文介紹了基于人耳聽覺特性的Gammatone濾波器組的特征提取方法,,并通過實驗驗證了該特征在濾波器通道數(shù)較多或ERB(f)較小時具有較高的識別率,。但是同時也得出只有在濾波器組通道數(shù)較高時才有較高的識別率,增加了數(shù)據(jù)的復(fù)雜度,。在以后的研究中需要考慮通過降低濾波器組的通道數(shù)提高識別率的方法,。
參考文獻(xiàn)
[1] JOHANNESMA P I M. The pre-response stimulus ensemble of neurons in the cochlear nucleus[C]. Proceedings of the Symposium on Hearing Theory, 1972:58-69.
[2] COOKE M P. Modeling auditory proeessing and organization[M]. Cambridge,,U.K: Cambridge University Press,,1993.
[3] 韓紀(jì)慶,張磊,,鄭浩然.語音信號處理[M].北京:清華大學(xué)出版社,,2008.
[4] SLANEY M. An efficient implementation of the patterson-holdswort auditory filter bank. Apple ComPuter Teehnieal RePort#35 Pereeption GrouP-Advaneed Technology GrouP[R]. ComPuter, Inc:Apple,, 1993.
[5] Shao Yang,, Wang Deliang. Robust speaker identification using auditory features and computational auditory scene analysis[C]. IEEE International Conference on Acoustics, Speech,, and Signal Processing,,2008,5:1589.
[6] SRINIVASAN S,, Wang Deliang. Transforming Binary uncertainties for robust speech recognition[C]. IEEE Transactions on Audio,, Speech and Language Processing, 2007,,15(7):2130-2140.
[7] Wang  Deliang,, BROWN G J. Computational auditory scene analysis: principles, algorithms,, and applications[M]. Hoboken,, NJ: Wiley-IEEE Press, 2006.
[8] 王男,,錢志鴻,,王雪,,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學(xué)報,2010,,38(3).

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。