国产香港一级毛片在线看,男人天堂久久,日本加勒比在线播放

基于聽(tīng)覺(jué)模型的說(shuō)話人語(yǔ)音特征提取

來(lái)源：微型機(jī)與應(yīng)用2012年第1期

何朝霞，潘平

（貴州大學(xué) 計(jì)算機(jī)科學(xué)與信息學(xué)院，貴州貴陽(yáng) 550025）

摘要： 基于聽(tīng)覺(jué)模型的特性，仿照MFCC參數(shù)提取過(guò)程，提出了一種基于Gammatone濾波器組的說(shuō)話人語(yǔ)音特征提取方法。該方法用Gammatone濾波器組代替三角濾波器組求得倒譜系數(shù)，并且可以調(diào)整Gammatone濾波器組的通道數(shù)和帶寬。將該方法所求得的特征在高斯混合模型識(shí)別系統(tǒng)中進(jìn)行仿真實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明，該特征在一定情況下優(yōu)于MFCC特征在系統(tǒng)的識(shí)別率，同時(shí)在Gammatone濾波器組通道數(shù)較高或?yàn)V波器帶寬較小的情況下，系統(tǒng)具有較高的識(shí)別率。

關(guān)鍵詞： 軟件聽(tīng)覺(jué)模型 Gammatone濾波器組 MFCC 特征識(shí)別率

Abstract：

Key words :

　聲音的感受細(xì)胞在內(nèi)耳的耳蝸部分，而基底膜是耳蝸接收聲音最重要的組織。聲波在外耳腔引起空氣振動(dòng)，從而引起行波沿基底膜的傳播[1]。基底膜內(nèi)有許多平行走向的膠原樣纖維，稱為聽(tīng)弦。聽(tīng)弦長(zhǎng)短不同，靠近蝸底較窄，靠近蝸?lái)斴^寬。基底膜約有24 000條聽(tīng)弦，能夠?qū)Σ煌l率的聲音產(chǎn)生共鳴，分別反映不同頻率的聲音[2]。不同頻率的聲音產(chǎn)生不同的行波，其峰值出現(xiàn)在基底膜的不同位置上，研究發(fā)現(xiàn)，不同的聲音頻率沿著基底膜的分布是對(duì)數(shù)型的[3]。
　早在1992年，PATTERSON R就提出了耳蝸模型，該模型是基于一系列帶通濾波器——Gammatone濾波器組[4]實(shí)現(xiàn)的，該濾波器組能夠很好地模擬基底膜的分頻特性。本文提出了一種基于Gammatone濾波器組的特征提取方法，該方法能夠很好地提取說(shuō)話人語(yǔ)音信號(hào)的特征，并且具有很高的識(shí)別率。

　從圖6可以看出，64通道的GFCC靜態(tài)特征參數(shù)比MFCC靜態(tài)特征具有更好的識(shí)別率。
　同時(shí)，將不同order值、不同濾波器組通道數(shù)所得的GFCC參數(shù)在識(shí)別系統(tǒng)中進(jìn)行了識(shí)別率比較，如圖7所示。其中，order值分別為0.1、0.5、1，濾波器組通道數(shù)分別為48、64、128。從圖7可以看出，濾波器組通道數(shù)越高，識(shí)別率越高；order值越小，識(shí)別率越高。

　本文介紹了基于人耳聽(tīng)覺(jué)特性的Gammatone濾波器組的特征提取方法，并通過(guò)實(shí)驗(yàn)驗(yàn)證了該特征在濾波器通道數(shù)較多或ERB（f）較小時(shí)具有較高的識(shí)別率。但是同時(shí)也得出只有在濾波器組通道數(shù)較高時(shí)才有較高的識(shí)別率，增加了數(shù)據(jù)的復(fù)雜度。在以后的研究中需要考慮通過(guò)降低濾波器組的通道數(shù)提高識(shí)別率的方法。
參考文獻(xiàn)
[1] JOHANNESMA P I M. The pre-response stimulus ensemble of neurons in the cochlear nucleus[C]. Proceedings of the Symposium on Hearing Theory， 1972：58-69.
[2] COOKE M P. Modeling auditory proeessing and organization[M]. Cambridge，U.K： Cambridge University Press，1993.
[3] 韓紀(jì)慶，張磊，鄭浩然.語(yǔ)音信號(hào)處理[M].北京：清華大學(xué)出版社，2008.
[4] SLANEY M. An efficient implementation of the patterson-holdswort auditory filter bank. Apple ComPuter Teehnieal RePort#35 Pereeption GrouP-Advaneed Technology GrouP[R]. ComPuter， Inc：Apple， 1993.
[5] Shao Yang， Wang Deliang. Robust speaker identification using auditory features and computational auditory scene analysis[C]. IEEE International Conference on Acoustics， Speech， and Signal Processing，2008，5：1589.
[6] SRINIVASAN S， Wang Deliang. Transforming Binary uncertainties for robust speech recognition[C]. IEEE Transactions on Audio， Speech and Language Processing， 2007，15（7）：2130-2140.
[7] Wang Deliang， BROWN G J. Computational auditory scene analysis： principles， algorithms， and applications[M]. Hoboken， NJ： Wiley-IEEE Press， 2006.
[8] 王男，錢志鴻，王雪，等.基于伽馬通濾波器組的聽(tīng)覺(jué)特征提取算法研究[J].電子學(xué)報(bào)，2010，38（3）.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容