隨著我國科技發(fā)展,人們的生活也越來越快節(jié)奏,這個(gè)改變促進(jìn)了更多智能高效的產(chǎn)品的發(fā)展,比如智能家居。其中智能家居有很多新型技術(shù),比如:指紋識別、虹膜識別、人臉識別和聲紋識別等等。今天讓我們跟隨智能家居廠家的腳步一起來認(rèn)識一下聲紋識別吧。
首先讓我們來看看聲紋識別原理。聲紋是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜。人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官—舌、齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。這也使得聲紋識別也可以稱為身份認(rèn)證的一種方式。
其中聲紋識別過程包括:語音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等。
聲紋識別技術(shù)的關(guān)鍵在于對各種聲學(xué)特征參數(shù)進(jìn)行處理,并確定模式匹配方法,主要的模式匹配方法包括:
1、多項(xiàng)式分類器方法:有較高的精度,但模型存儲和計(jì)算量都比較大;
2、VQ聚類方法(如LBG):效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來更可以收到更好的效果;
3、模板匹配方法:利用動(dòng)態(tài)時(shí)間彎折( DTW )以對準(zhǔn)訓(xùn)練和測試特征序列,主要用于固定詞組的應(yīng)用(通常為文本相關(guān)務(wù));
4、神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)( RBF )等,可以顯式訓(xùn)練以區(qū)分說話人和其背景說話人,其訓(xùn)練量很大,且模型的可推廣性不好;
5、最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識別時(shí)對每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識別,通常模型存儲和相似計(jì)算的量都很大;
此外還有概率統(tǒng)計(jì)方法、動(dòng)態(tài)時(shí)間規(guī)整方法、矢量量化方法等等。
在對聲紋識別有了初步了解之后,相信大家一定很好奇聲紋識別有哪些優(yōu)缺點(diǎn)。聲紋識別的優(yōu)勢在于:
1、聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;
2、聲紋提取方便,可在不知不覺中完成,因此使用者的接受程度也高;
3、適合遠(yuǎn)程身份確認(rèn),只需要一個(gè)麥克風(fēng)或電話、 手機(jī)就可以通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;
4、配合一些其他措施 ,如通過語音識別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率。這些優(yōu)勢使得聲紋識別的應(yīng)用越來越受到系統(tǒng)開發(fā)者和用戶青睞;
5、獲取語音的識別成本低廉,使用簡單, 一個(gè)麥克風(fēng)即可,在使用通訊設(shè)備時(shí)更無需額外的錄音設(shè)備。
當(dāng)然,聲紋識別的應(yīng)用有一些缺點(diǎn) ,比如同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風(fēng)和信道對識別性能有影響;比如環(huán)境噪音對識別有干擾;又比如混合說話人的情形下人的聲紋特征不易提取等等。
目前,聲紋識別技術(shù)的市場應(yīng)用并不廣泛,,但并非這項(xiàng)技術(shù)本身不成熟,而是由于實(shí)際商業(yè)應(yīng)用場景的復(fù)雜性,很可能導(dǎo)致身份識別產(chǎn)生較大誤差。
首先,說話人的語音聲學(xué)特征不可避免地具有發(fā)展性和變異性,既便是同一個(gè)人,即便采集到的兩段語音內(nèi)容都是相同的,但是在不同的時(shí)期或特殊的情境下,由于情緒、語速、疲勞程度等原因,聲紋特征也不盡一致。
其次,聲紋特征提取是在現(xiàn)實(shí)環(huán)境中進(jìn)行的,如何降噪以及去混響依然是聲紋識別的一大難題。在外部環(huán)境中,各種噪音都會通過錄音設(shè)備采集進(jìn)來,這些噪音會在一定程度上混淆或者淹沒說話人信息,使得聲紋系統(tǒng)無法獲取準(zhǔn)確的說話人聲紋特征。因此,應(yīng)用聲紋識別技術(shù)的產(chǎn)品大多適合在相對安靜的場合使用。在未來,聲紋識別技術(shù)也還有很長一段路要走。