精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

谷歌發(fā)布新一代定向人聲分離系統(tǒng),2.2MB模型提升設(shè)備端語音識別

2020-11-16 11:38:39AI云資訊1285

2018 年,谷歌科學(xué)家王泉等人發(fā)表 VoiceFilter 系統(tǒng),利用聲紋識別實現(xiàn)定向人聲分離。最近,王泉等人挑戰(zhàn)設(shè)備端語音識別難題,提出新一代定向人聲分離系統(tǒng) VoiceFilter-Lite,只需 2.2MB 大小的模型,就能將重疊語音的詞錯率(word error rate)降低 25.1%。
雞尾酒會問題一直是語音識別領(lǐng)域中的重要研究課題。在一場人聲嘈雜的雞尾酒會上,人們難以專注于眼前正與自己交談的那個人的聲音。而對于語音識別算法而言,重疊語音信號會使識別準(zhǔn)確率大幅降低,甚至有時無法識別出任何文字。
傳統(tǒng)的聲源分離算法在用于語音識別時,往往面臨挑戰(zhàn),例如未知的說話人數(shù)量、訓(xùn)練過程中的置換不變性(Permutation Invariant),以及如何從最終分離的多個信號源中找出需要識別的信號源。谷歌 2018 年發(fā)表的 VoiceFilter 系統(tǒng),巧妙地利用聲紋識別技術(shù),實現(xiàn)了對特定說話人聲音的定向分離,詳見機(jī)器之心 2018 年的報道:。
VoiceFilter 系統(tǒng)處理重疊語音的示例。
然而,VoiceFilter 系統(tǒng)在用于設(shè)備端語音識別時,會面臨更多挑戰(zhàn),例如模型大小的限制、對 CPU 和內(nèi)存的占用,以及設(shè)備電池和系統(tǒng)延遲方面的考量。
為解決這些問題,近日谷歌發(fā)布博客,介紹了新一代定向人聲分離系統(tǒng) VoiceFilter-Lite。該方法同樣基于谷歌的聲紋識別技術(shù),但只需要 2.2MB 大小的模型,就能將重疊語音的詞錯率(word error rate)降低 25.1%。該模型能夠用于設(shè)備端語音識別,從而讓用戶在沒有網(wǎng)絡(luò)連接的情況下,也能在嘈雜的背景噪聲環(huán)境下使用語音助手。
VoiceFilter-Lite 在設(shè)備端的使用 demo。
VoiceFilter-Lite 模型:改善設(shè)備端語音識別
與之前的 VoiceFilter 系統(tǒng)相比,新的 VoiceFilter-Lite 模型采用了許多巧妙的優(yōu)化。例如,模型的輸入和輸出不再是音頻波形,而是直接對語音識別模型的輸入特征(對數(shù)梅爾濾波器組)進(jìn)行分離,將該特征中不屬于目標(biāo)說話人的成分濾除掉。為進(jìn)一步壓縮模型大小,VoiceFilter-Lite 對模型結(jié)構(gòu)也進(jìn)行了優(yōu)化,并通過 TensorFlow Lite 庫,對參數(shù)進(jìn)行了量化。模型架構(gòu)如下圖所示:
VoiceFilter-Lite 模型架構(gòu)。
VoiceFilter-Lite 與其他方法相比,一個重要優(yōu)勢在于「即插即用」的特性。也就是說,如果用戶沒有錄入其聲紋,系統(tǒng)可以很方便地跳過 VoiceFilter-Lite 模型。因此,VoiceFilter-Lite 模型可以和語音識別模型分別進(jìn)行訓(xùn)練與更新,這將大幅簡化語音模型的工程部署工作。
如何解決過度抑制問題
人聲分離算法被用于語音識別時,一個常見的問題是過度抑制(over-suppression),也就是將本應(yīng)保留的部分有用信號錯誤地過濾掉,導(dǎo)致識別出的文本缺失大量字詞。由于最近的語音識別模型普遍采用大量數(shù)據(jù)增強方法,所以過度抑制造成的問題遠(yuǎn)大于抑制不足(under-suppression)。
VoiceFilter-Lite 在設(shè)計過程中采用了兩種方法來解決過度抑制的問題。首先,在訓(xùn)練過程中,損失函數(shù)采用了非對稱的形式,也就是過度抑制相比抑制不足會有更大的權(quán)重。此外,模型被設(shè)計為可以動態(tài)檢測重疊語音的存在。當(dāng)檢測到輸入信號包含重疊語音時,模型將采用更大的抑制強度。
這兩種方法的結(jié)合使用,讓 VoiceFilter-Lite 模型不僅能大幅提升重疊語音的識別準(zhǔn)確率,還能在任何其他環(huán)境下都不對識別準(zhǔn)確率造成負(fù)面影響,包括各種噪聲背景下的單說話人語音識別場景。
未來工作

最后,博客作者、谷歌聲紋識別與語言識別團(tuán)隊負(fù)責(zé)人王泉指出,目前的 VoiceFilter-Lite 技術(shù)只被應(yīng)用于提升英語的語音識別,未來谷歌將會用相同的技術(shù)提升其他語言的語音識別。另外,作者考慮在 VoiceFilter-Lite 的訓(xùn)練過程中直接對語音識別損失函數(shù)進(jìn)行優(yōu)化,從而進(jìn)一步提升各種環(huán)境下的識別準(zhǔn)確率。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews