文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2011)05-0110-04
一個(gè)典型的說話人識(shí)別系統(tǒng)提取的說話人特征通常為時(shí)變特性參數(shù)如梅爾倒譜系數(shù)MFCC(Mel-Frequency Cepstrum Coefficients)[1],、感知線性預(yù)測(cè)系數(shù)PLP(Perceptual Linear Prediction)[2]或韻律特征[3],。然而,實(shí)際使用時(shí)由于受到噪音干擾,,或者訓(xùn)練與識(shí)別傳輸通道不匹配,,識(shí)別系統(tǒng)通常不能表現(xiàn)良好[4]。目前解決這一問題的手段主要集中在特征域,、模型域和得分域?,F(xiàn)有特征域魯棒性處理方法主要有:RASTA濾波[5]、倒譜均值歸一化(CMN)[6],、直方圖均衡[7]和倒譜規(guī)整[8-11]等,。這些算法通常以在識(shí)別前增加額外的運(yùn)算來換取魯棒性的提高,如統(tǒng)計(jì)概率密度分布及計(jì)算各階矩等,。
本文算法主要從特征域入手,,旨在減少識(shí)別階段運(yùn)算時(shí)間的同時(shí)提高識(shí)別系統(tǒng)的魯棒性。參考文獻(xiàn)[12]采用了觀察值的各階矩和中心矩作為段級(jí)特征,,并與模型結(jié)合,,在不顯著影響識(shí)別率的情況下提高了識(shí)別速度。其缺點(diǎn)是,,采用段級(jí)特征與采用幀級(jí)特征相比較識(shí)別率較低,。參考文獻(xiàn)[13]提出了一種改進(jìn)的PCA方法用于掌紋識(shí)別,通過提取更有利于分類的基向量,,提高了降維后特征的魯棒性,。本文結(jié)合了兩者的優(yōu)點(diǎn),提出了一種基于PCA的段級(jí)特征PCAULF(PCA based Utterance Level Feature)提取算法,。該算法特點(diǎn)如下:
(1)以段級(jí)特征代替幀級(jí)特征,,可減少識(shí)別過程中模板匹配的次數(shù),,通過減少運(yùn)算量來提高識(shí)別速度;
(2)在段級(jí)特征降維時(shí)引入改進(jìn)的PCA算法,,一方面實(shí)現(xiàn)了數(shù)據(jù)的降維,既抑制了噪聲對(duì)識(shí)別系統(tǒng)的影響,,又提高了識(shí)別的速度;另一方面,,選擇更利于分類的特征向量組成變換矩陣,提高識(shí)別系統(tǒng)的魯棒性,。
實(shí)驗(yàn)結(jié)果表明,,在三種不同噪聲背景下進(jìn)行測(cè)試比對(duì),段級(jí)特征獲得了較高的識(shí)別率和較快的識(shí)別速度,。
1 段級(jí)特征提取算法
1.1 段級(jí)特征的定義
由于語音的短時(shí)平穩(wěn)特性,,可以考慮在一段語音中提取特征,這樣就使得同樣的語音長度用更少的語音特征去描述,該特征被稱為段級(jí)特征,。它是和傳統(tǒng)的按幀提取語音特征相對(duì)應(yīng)的一個(gè)概念,。段級(jí)特征的一般表示形式是:
其中,ULFi,、ULFi′代表第i個(gè)段級(jí)特征矢量,,式(1)表示ULFi′從連續(xù)的G幀語音信號(hào)s中直接提取,式(2)表示ULFi從連續(xù)的G個(gè)幀級(jí)特征矢量a中提取,。使用段級(jí)特征的關(guān)鍵在于段長G的選取和函數(shù)fG(·)的選取,。首先討論函數(shù)的選取,段級(jí)特征是觀察值的函數(shù),。本文中,,fG(·)主要包括以下兩個(gè)步驟:
(1)以G為段長、Ginc為段移,,將G個(gè)幀級(jí)特征矢量組合成超矢量,。組成超矢量的操作類似于對(duì)數(shù)據(jù)的取幀操作,如圖1所示,。
(2)采用改進(jìn)的主成分分析方法對(duì)超矢量進(jìn)行降維,,得到段級(jí)特征。
1.2 PCA方法
主成分分析PCA(Principal Component Analysis)是一種掌握事物主要矛盾的統(tǒng)計(jì)分析方法,,它可以從多元事物中解析出主要影響因素,,簡化復(fù)雜的問題。PCA假定具有大變化的方向的數(shù)據(jù)比有很少變化的方向上的數(shù)據(jù)攜帶有更多的信息,,因而它尋找具有最大方差的那些稱之為主軸的方向來表征原始數(shù)據(jù),。計(jì)算主成分的目的是在最小均方誤差意義下將高維數(shù)據(jù)投影到較低維空間。
的形式有效表示X,。其中,,通過K-L變換(Karhunen-Loeve Transform)計(jì)算相互正交的一組基向量,可以得到P。
具體的PCA分析步驟如下:
2 實(shí)驗(yàn)配置及結(jié)果分析
采用PCAULF作為特征參數(shù)的說話人識(shí)別模型如圖2所示,。語音數(shù)據(jù)經(jīng)過預(yù)處理和特征提取兩個(gè)步驟,,得到幀級(jí)特征矢量集。訓(xùn)練時(shí),,由PCA對(duì)所有語音的段級(jí)特征求取降維變換矩陣,,之后通過訓(xùn)練得到模板參數(shù);識(shí)別時(shí),,首先使用訓(xùn)練時(shí)得到的變換矩陣對(duì)待測(cè)語音的段級(jí)特征進(jìn)行降維,之后再通過模板匹配得到識(shí)別結(jié)果,。
語音數(shù)據(jù)采用TIMIT語音數(shù)據(jù)庫,隨機(jī)選取50人,,每人共10條語音,,每條語音長4~6 s,其中8條用于訓(xùn)練,2條用于識(shí)別,,保證了訓(xùn)練與識(shí)別語音的不一致,。噪聲庫采用NoiseX-92專業(yè)噪聲庫中的三種常見噪聲,分別為平穩(wěn)高斯白噪聲,、粉噪聲和Babble噪聲,。基線系統(tǒng)聲學(xué)特征采用能量和12階MFCC特征以及衍生的ΔMFCC,共26維,之后進(jìn)行了倒譜提升和RASTA濾波,;模型采用訓(xùn)練和識(shí)別較為快速的矢量量化(VQ),,碼本大小取32。語音采樣頻率為8 kHz,,幀長為32 ms,,幀移為12.5 ms。
本節(jié)主要開展了以下三個(gè)實(shí)驗(yàn):
實(shí)驗(yàn)一:對(duì)純凈的語音進(jìn)行訓(xùn)練,,以段長分別為G=1,2,…,,8,段移分別為Ginc=1,2,…,G求取段級(jí)特征,,設(shè)累積貢獻(xiàn)率門限為1,,得到變換矩陣(該變換矩陣并沒有實(shí)現(xiàn)降維);在識(shí)別階段,,先對(duì)G幀語音特征組成的超矢量進(jìn)行變換,,再測(cè)試其識(shí)別率。該實(shí)驗(yàn)主要用于分析合適的段長和段移,。
實(shí)驗(yàn)二:在純凈語音基礎(chǔ)上,,以信噪比SNR(Signal Noise Ratio)為20 dB、10 dB,、5 dB分別混疊了NoiseX-92專業(yè)噪聲庫中的平穩(wěn)高斯白噪聲(White),、粉噪聲(Pink)和Babble噪聲(Babble),取實(shí)驗(yàn)一分析得出的段長和段移,,采用不同的PCA降維參數(shù),,對(duì)幀級(jí)特征和段級(jí)特征進(jìn)行變換,測(cè)試識(shí)別率,,并對(duì)各種噪聲和SNR條件下的識(shí)別率求平均,,得到不同PCA參數(shù)所對(duì)應(yīng)的識(shí)別率。該實(shí)驗(yàn)主要用于分析降維參數(shù)對(duì)識(shí)別率的影響,。
實(shí)驗(yàn)三:根據(jù)實(shí)驗(yàn)一、二得到的段長,、段移和降維參數(shù),,采用實(shí)驗(yàn)二的加噪方法對(duì)純凈語音進(jìn)行加噪,對(duì)段級(jí)特征、經(jīng)過PCA降維處理的幀級(jí)特征以及基線系統(tǒng)的幀級(jí)特征的識(shí)別性能進(jìn)行了測(cè)試,。該實(shí)驗(yàn)主要用于對(duì)本文提出的算法的識(shí)別精度和速度進(jìn)行測(cè)試,。
2.1 段長與段移分析
實(shí)驗(yàn)一結(jié)果如表1所示。
由表1可見,,當(dāng)以幀級(jí)特征作為訓(xùn)練和識(shí)別的特征時(shí),,其識(shí)別率明顯低于經(jīng)PCA方法變換后的段級(jí)特征的識(shí)別率??傮w來說,,當(dāng)G固定時(shí),隨著Ginc的增加,,識(shí)別率逐漸降低,;當(dāng)Ginc固定時(shí),隨著G的增加,,識(shí)別率也逐漸降低,。當(dāng)G≥8時(shí),段級(jí)特征識(shí)別率不如幀級(jí)特征,。當(dāng)G=1,,Ginc=1時(shí),等效為直接用PCA方法對(duì)幀級(jí)特征進(jìn)行變換,。由于幀級(jí)特征(能量+MFCC+ΔMFCC)中計(jì)算一階差分時(shí)引入了冗余,,PCA方法正是為了去除各個(gè)主成分之間的冗余,故經(jīng)PCA變換后的幀級(jí)特征(G=1,Ginc=1)擁有更好的識(shí)別性能,。但當(dāng)語音信號(hào)為帶噪數(shù)據(jù)時(shí),,該特征識(shí)別性能不如段級(jí)特征(見2.3節(jié))。
由于當(dāng)G和Ginc均較大時(shí),,模板匹配次數(shù)減小,,識(shí)別速度會(huì)得到明顯提高,因此,,為了兼顧識(shí)別速度和精度,,結(jié)合表1的結(jié)果,本文選取G=6,Ginc=4,。
2.2 PCA降維參數(shù)分析
實(shí)驗(yàn)二結(jié)果如圖3(a),、(b)所示。其中,,PCA參數(shù)主要指的是設(shè)定的累積貢獻(xiàn)率門限,,即選用累積貢獻(xiàn)率不小于累積貢獻(xiàn)率門限的多個(gè)特征矢量組成降維變換矩陣。
由圖3(a)可見,,對(duì)于幀級(jí)特征,,當(dāng)訓(xùn)練語音和待測(cè)語音較純凈時(shí),,累積貢獻(xiàn)率門限值越大,識(shí)別率越高,。圖3(b)表明,,對(duì)于段級(jí)特征,累積貢獻(xiàn)率門限值位于94%附近時(shí),,識(shí)別效果較好,。門限太大易造成噪聲參與識(shí)別,影響識(shí)別精度,;門限太小,,易造成降維后的特征包含語音信息不充分,雖然能提高識(shí)別速度,,但卻降低了識(shí)別精度,。因此,本文在進(jìn)行PCA降維時(shí),,選用累積貢獻(xiàn)率不小于94%的特征向量組成降維變換矩陣,。
2.3 帶噪環(huán)境下基于PCAULF的說話人識(shí)別系統(tǒng)性能分析
實(shí)驗(yàn)三結(jié)果如圖4~圖6所示。
由圖4~6可以看出:(1)總體來說,,在三種常見噪聲環(huán)境下,,段級(jí)特征與經(jīng)PCA降維后的幀級(jí)特征識(shí)別率相近,均高于直接采用幀級(jí)特征時(shí)的識(shí)別率,。(2)由于段級(jí)特征引入了長時(shí)特征,,且PCA降維在一定程度上抑制了噪聲對(duì)識(shí)別的影響,因此,,在SNR較低時(shí)(SNR<20 dB時(shí))具有更好的魯棒性,。
以上實(shí)驗(yàn)的PC配置為:Intel Core(TM)2 Duo CPU E7500 @2.93 GHz,1.96 GB內(nèi)存,。三種特征在所有語音的識(shí)別階段的平均運(yùn)算時(shí)延如表2所示,。
可見,由于識(shí)別時(shí),,模板匹配的運(yùn)算時(shí)延遠(yuǎn)大于對(duì)數(shù)據(jù)進(jìn)行降維的運(yùn)算時(shí)延,,而段級(jí)特征的引入帶來了模板匹配次數(shù)的減小,因此,,段級(jí)特征在識(shí)別階段的運(yùn)算速度明顯大于幀級(jí)特征,,約為幀級(jí)特征的2.8倍,更加適用于實(shí)時(shí)說話人識(shí)別系統(tǒng),。
本文以現(xiàn)有的幀級(jí)語音特征為基礎(chǔ),,結(jié)合語音的長時(shí)特性和改進(jìn)PCA方法,提出了一種適用于說話人識(shí)別的段級(jí)語音特征,,并分析了算法中的參數(shù)對(duì)識(shí)別性能的影響,。實(shí)驗(yàn)結(jié)果表明,,該算法在提高語音特征魯棒性的同時(shí),,提高了識(shí)別速度,,適用于實(shí)時(shí)說話人識(shí)別系統(tǒng)。
參考文獻(xiàn)
[1] FURUI S. Digital speech processing, synthesis, and recognition[M]. New York: Marcel Dekker, 2001.
[2] GISH H, SCHMIDT M. Text independent speaker identification[J]. IEEE Signal Proc, 1994,11(4):18-32.
[3] REYNOLDS D A. The super SID project: Exploiting high level information for high accuracy speaker recognition[A]. In IEEE International Conference on Acoustics, Speech and Signal Processing[C]. Hong Kong, China, 2003:784-787.
[4] DRYGAJLO A,MALIKI M E. Speaker verification in noisy environments with combined spectral subtraction and missing feature theory[A]. In IEEE International Conference on Acoustics, Speech and Signal Processing[C]. Seattle, USA, 1998,1:121-124.
[5] HERMANSKY H, MORGAN N. Rasta processing of speech[J]. IEEE Trans on Speech and Audio Processing. 1994,2(4):578-589.
[6] WANG L ,KITAOKA N,NAKAGAWA S. Analysis of effect of compensation parameter estimation for CMN on speech/speaker recognition[A]. In 9th International Symposium on Signal Processing and Its Applications(ICASSP’07)[C]. Sharjah, 2007:1-4.
[7] TORRE A, SEGURA J C,BENITEZ C. Non-linear transformations of the feature space for robust speech recognition[A]. In IEEE Proc. Of ICASSP[C]. Orlando, USA, 2002:401-404.
[8] VIIKKI O, LAURILA K. Cepstral domain segmental feature vector normalization for noise robust speech recognition[J]. Speech Communication, 1998, 25(1):133-147.
[9] HSU C W, LEE L S. High order cestral moment normalization(HOCMN) for robust speech recognition[A]. In IEEE Proc of ICASSP[C]. Montreal, Canada, 2004:197-200.
[10] LIU B, DAI L R,LI J Y. Double gaussian based feature normalization for robust speech recognition[A]. In Proc of ISCSLP[C]. Hong Kong, 2004:253-256.
[11] DU J, Wang Renhua. Cepstral shape normalization(CSN) for robust speech recognition[A]. In Proc of ICASSP[C]. Las Vegas, USA, 2008: 4389-4392.
[12] 王波, 徐毅瓊, 李弼程. 基于段級(jí)特征的對(duì)話環(huán)境下說話人分段算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 28(10):2401-2416.
[13] 任蘇亞, 基于改進(jìn)的PCA和ICA算法的掌紋識(shí)別研究[D]. 北京: 北京交通大學(xué), 2007:35-39.
[14] NALIN P S, MAYUR D J, PRAKASH C,et al. Palm print recognition: two level structure matching[A]. In Proc. of IJCNN [C]. Vancouver, Canada, 2006: 664-669.