溫馨提示:山東省質(zhì)量檢測(cè)機(jī)構(gòu)新舊資質(zhì)過(guò)渡 [詳細(xì)]
聲紋識(shí)別,生物識(shí)別技術(shù)的一種,也稱為說(shuō)話人識(shí)別,包括說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)。聲紋識(shí)別就是把聲信號(hào)轉(zhuǎn)換成電信號(hào),再用計(jì)算機(jī)進(jìn)行識(shí)別。不同的任務(wù)和應(yīng)用會(huì)使用不同的聲紋識(shí)別技術(shù)。
新冠病毒影響呼吸系統(tǒng),患者的聲音和呼吸模式也會(huì)出現(xiàn)跡象,出現(xiàn)獨(dú)特的“聲紋”。以色列公司Vocalis Health將與醫(yī)院合作牽頭研究通過(guò)移動(dòng)應(yīng)用程序?qū)Υ_診患者的聲音采樣。基于AI算法對(duì)語(yǔ)音樣本進(jìn)行分析,有助于識(shí)別感染者的聲音。
聲紋識(shí)別
所謂聲紋是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。人類語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過(guò)程,人在講話時(shí)使用的發(fā)聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。每個(gè)人的語(yǔ)音聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。這種變異可來(lái)自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。聲紋識(shí)別的主要任務(wù)包括:語(yǔ)音信號(hào)處理、聲紋特征提取、聲紋建模、聲紋比對(duì)、判別決策等。
聲紋識(shí)別可以說(shuō)有兩個(gè)關(guān)鍵問(wèn)題,一是特征提取,二是模式匹配(模式識(shí)別)。
如何進(jìn)行聲紋識(shí)別特征提取
是提取并選擇對(duì)說(shuō)話人的聲紋具聲紋識(shí)別有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語(yǔ)言特征。與語(yǔ)音識(shí)別不同,聲紋識(shí)別的特征必須是“個(gè)性化”特征,而說(shuō)話人識(shí)別的特征對(duì)說(shuō)話人來(lái)講必須是“共性特征”。雖然大部分聲紋識(shí)別系統(tǒng)用的都是聲學(xué)層面的特征,但是表征一個(gè)人特點(diǎn)的特征應(yīng)該是多層面的,包括:
(1)與人類的發(fā)音機(jī)制的解剖學(xué)結(jié)構(gòu)有關(guān)的聲學(xué)特征(如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;
(2)受社會(huì)經(jīng)濟(jì)狀況、受教育水平、出生地等影響的語(yǔ)義、修辭、發(fā)音、言語(yǔ)習(xí)慣等;
(3)個(gè)人特點(diǎn)或受父母影響的韻律、節(jié)奏、速度、語(yǔ)調(diào)、音量等特征。
從利用數(shù)學(xué)方法可以建模的角度出發(fā),聲紋自動(dòng)識(shí)別模型可以使用的特征包括:
(1)聲學(xué)特征(倒頻譜);
(2)詞法特征(說(shuō)話人相關(guān)的詞n-gram,音素n-gram);
(3)韻律特征(利用n-gram描述的基音和能量“姿勢(shì)”);
(4)語(yǔ)種、方言和口音信息;
(5)通道信息(使用何種通道);等等。
聲紋模式識(shí)有以下幾大類方法:
(1)模板匹配方法:利用動(dòng)態(tài)時(shí)間彎折(DTW)以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列,主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));
(2)最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大;
(3)神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)(RBF)等,可以顯式訓(xùn)練以區(qū)分說(shuō)話人和其背景說(shuō)話人,其訓(xùn)練量很大,且模型的可推廣性不好;
(4)隱式馬爾可夫模型(HMM)方法:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
(5)VQ聚類方法(如LBG):效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來(lái)更可以收到更好的效果;
(6)多項(xiàng)式分類器方法:有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大;
聲紋識(shí)別需要解決的關(guān)鍵問(wèn)題還有很多,諸如:短話音問(wèn)題,能否用很短的語(yǔ)音進(jìn)行模型訓(xùn)練,而且用很短的時(shí)間進(jìn)行識(shí)別,這主要是聲音不易獲取的應(yīng)用所需求的;聲音模仿(或放錄音)問(wèn)題,要有效地區(qū)分開(kāi)模仿聲音(錄音)和真正的聲音;多說(shuō)話人情況下目標(biāo)說(shuō)話人的有效檢出;消除或減弱聲音變化(不同語(yǔ)言、內(nèi)容、方式、身體狀況、時(shí)間、年齡等)帶來(lái)的影響;消除信道差異和背景噪音帶來(lái)的影響;……此時(shí)需要用到其他一些技術(shù)來(lái)輔助完成,如去噪、自適應(yīng)等技術(shù)。