谷歌發(fā)布新一代定向人聲分離系統(tǒng),2.2MB模型提升設(shè)備端語音識別
2020-11-16 11:38:39AI云資訊1285
2018 年,谷歌科學(xué)家王泉等人發(fā)表 VoiceFilter
系統(tǒng),利用聲紋識別實現(xiàn)定向人聲分離。最近,王泉等人挑戰(zhàn)設(shè)備端語音識別難題,提出新一代定向人聲分離系統(tǒng) VoiceFilter-Lite,只需
2.2MB 大小的模型,就能將重疊語音的詞錯率(word error rate)降低 25.1%。
雞尾酒會問題一直是語音識別領(lǐng)域中的重要研究課題。在一場人聲嘈雜的雞尾酒會上,人們難以專注于眼前正與自己交談的那個人的聲音。而對于語音識別算法而言,重疊語音信號會使識別準(zhǔn)確率大幅降低,甚至有時無法識別出任何文字。
傳統(tǒng)的聲源分離算法在用于語音識別時,往往面臨挑戰(zhàn),例如未知的說話人數(shù)量、訓(xùn)練過程中的置換不變性(Permutation Invariant),以及如何從最終分離的多個信號源中找出需要識別的信號源。谷歌 2018 年發(fā)表的 VoiceFilter 系統(tǒng),巧妙地利用聲紋識別技術(shù),實現(xiàn)了對特定說話人聲音的定向分離,詳見機(jī)器之心 2018 年的報道:。
VoiceFilter 系統(tǒng)處理重疊語音的示例。
然而,VoiceFilter 系統(tǒng)在用于設(shè)備端語音識別時,會面臨更多挑戰(zhàn),例如模型大小的限制、對 CPU 和內(nèi)存的占用,以及設(shè)備電池和系統(tǒng)延遲方面的考量。
為解決這些問題,近日谷歌發(fā)布博客,介紹了新一代定向人聲分離系統(tǒng) VoiceFilter-Lite。該方法同樣基于谷歌的聲紋識別技術(shù),但只需要 2.2MB 大小的模型,就能將重疊語音的詞錯率(word error rate)降低 25.1%。該模型能夠用于設(shè)備端語音識別,從而讓用戶在沒有網(wǎng)絡(luò)連接的情況下,也能在嘈雜的背景噪聲環(huán)境下使用語音助手。
VoiceFilter-Lite 在設(shè)備端的使用 demo。
VoiceFilter-Lite 模型:改善設(shè)備端語音識別
與之前的 VoiceFilter 系統(tǒng)相比,新的 VoiceFilter-Lite 模型采用了許多巧妙的優(yōu)化。例如,模型的輸入和輸出不再是音頻波形,而是直接對語音識別模型的輸入特征(對數(shù)梅爾濾波器組)進(jìn)行分離,將該特征中不屬于目標(biāo)說話人的成分濾除掉。為進(jìn)一步壓縮模型大小,VoiceFilter-Lite 對模型結(jié)構(gòu)也進(jìn)行了優(yōu)化,并通過 TensorFlow Lite 庫,對參數(shù)進(jìn)行了量化。模型架構(gòu)如下圖所示:
VoiceFilter-Lite 模型架構(gòu)。
VoiceFilter-Lite 與其他方法相比,一個重要優(yōu)勢在于「即插即用」的特性。也就是說,如果用戶沒有錄入其聲紋,系統(tǒng)可以很方便地跳過 VoiceFilter-Lite 模型。因此,VoiceFilter-Lite 模型可以和語音識別模型分別進(jìn)行訓(xùn)練與更新,這將大幅簡化語音模型的工程部署工作。
如何解決過度抑制問題
人聲分離算法被用于語音識別時,一個常見的問題是過度抑制(over-suppression),也就是將本應(yīng)保留的部分有用信號錯誤地過濾掉,導(dǎo)致識別出的文本缺失大量字詞。由于最近的語音識別模型普遍采用大量數(shù)據(jù)增強方法,所以過度抑制造成的問題遠(yuǎn)大于抑制不足(under-suppression)。
VoiceFilter-Lite 在設(shè)計過程中采用了兩種方法來解決過度抑制的問題。首先,在訓(xùn)練過程中,損失函數(shù)采用了非對稱的形式,也就是過度抑制相比抑制不足會有更大的權(quán)重。此外,模型被設(shè)計為可以動態(tài)檢測重疊語音的存在。當(dāng)檢測到輸入信號包含重疊語音時,模型將采用更大的抑制強度。
這兩種方法的結(jié)合使用,讓 VoiceFilter-Lite 模型不僅能大幅提升重疊語音的識別準(zhǔn)確率,還能在任何其他環(huán)境下都不對識別準(zhǔn)確率造成負(fù)面影響,包括各種噪聲背景下的單說話人語音識別場景。
未來工作
雞尾酒會問題一直是語音識別領(lǐng)域中的重要研究課題。在一場人聲嘈雜的雞尾酒會上,人們難以專注于眼前正與自己交談的那個人的聲音。而對于語音識別算法而言,重疊語音信號會使識別準(zhǔn)確率大幅降低,甚至有時無法識別出任何文字。
傳統(tǒng)的聲源分離算法在用于語音識別時,往往面臨挑戰(zhàn),例如未知的說話人數(shù)量、訓(xùn)練過程中的置換不變性(Permutation Invariant),以及如何從最終分離的多個信號源中找出需要識別的信號源。谷歌 2018 年發(fā)表的 VoiceFilter 系統(tǒng),巧妙地利用聲紋識別技術(shù),實現(xiàn)了對特定說話人聲音的定向分離,詳見機(jī)器之心 2018 年的報道:。
VoiceFilter 系統(tǒng)處理重疊語音的示例。
然而,VoiceFilter 系統(tǒng)在用于設(shè)備端語音識別時,會面臨更多挑戰(zhàn),例如模型大小的限制、對 CPU 和內(nèi)存的占用,以及設(shè)備電池和系統(tǒng)延遲方面的考量。
為解決這些問題,近日谷歌發(fā)布博客,介紹了新一代定向人聲分離系統(tǒng) VoiceFilter-Lite。該方法同樣基于谷歌的聲紋識別技術(shù),但只需要 2.2MB 大小的模型,就能將重疊語音的詞錯率(word error rate)降低 25.1%。該模型能夠用于設(shè)備端語音識別,從而讓用戶在沒有網(wǎng)絡(luò)連接的情況下,也能在嘈雜的背景噪聲環(huán)境下使用語音助手。
VoiceFilter-Lite 在設(shè)備端的使用 demo。
VoiceFilter-Lite 模型:改善設(shè)備端語音識別
與之前的 VoiceFilter 系統(tǒng)相比,新的 VoiceFilter-Lite 模型采用了許多巧妙的優(yōu)化。例如,模型的輸入和輸出不再是音頻波形,而是直接對語音識別模型的輸入特征(對數(shù)梅爾濾波器組)進(jìn)行分離,將該特征中不屬于目標(biāo)說話人的成分濾除掉。為進(jìn)一步壓縮模型大小,VoiceFilter-Lite 對模型結(jié)構(gòu)也進(jìn)行了優(yōu)化,并通過 TensorFlow Lite 庫,對參數(shù)進(jìn)行了量化。模型架構(gòu)如下圖所示:

VoiceFilter-Lite 與其他方法相比,一個重要優(yōu)勢在于「即插即用」的特性。也就是說,如果用戶沒有錄入其聲紋,系統(tǒng)可以很方便地跳過 VoiceFilter-Lite 模型。因此,VoiceFilter-Lite 模型可以和語音識別模型分別進(jìn)行訓(xùn)練與更新,這將大幅簡化語音模型的工程部署工作。

人聲分離算法被用于語音識別時,一個常見的問題是過度抑制(over-suppression),也就是將本應(yīng)保留的部分有用信號錯誤地過濾掉,導(dǎo)致識別出的文本缺失大量字詞。由于最近的語音識別模型普遍采用大量數(shù)據(jù)增強方法,所以過度抑制造成的問題遠(yuǎn)大于抑制不足(under-suppression)。
VoiceFilter-Lite 在設(shè)計過程中采用了兩種方法來解決過度抑制的問題。首先,在訓(xùn)練過程中,損失函數(shù)采用了非對稱的形式,也就是過度抑制相比抑制不足會有更大的權(quán)重。此外,模型被設(shè)計為可以動態(tài)檢測重疊語音的存在。當(dāng)檢測到輸入信號包含重疊語音時,模型將采用更大的抑制強度。

未來工作
最后,博客作者、谷歌聲紋識別與語言識別團(tuán)隊負(fù)責(zé)人王泉指出,目前的 VoiceFilter-Lite 技術(shù)只被應(yīng)用于提升英語的語音識別,未來谷歌將會用相同的技術(shù)提升其他語言的語音識別。另外,作者考慮在 VoiceFilter-Lite 的訓(xùn)練過程中直接對語音識別損失函數(shù)進(jìn)行優(yōu)化,從而進(jìn)一步提升各種環(huán)境下的識別準(zhǔn)確率。
相關(guān)文章
- 谷歌公布Gemini使用權(quán)限
- 蘋果為Siri開發(fā)的AI搜索工具或?qū)⒗霉雀璧腉emini AI模型來匯總網(wǎng)絡(luò)信息
- 谷歌已完成AI眼鏡開發(fā),或由HTC代工量產(chǎn)
- 告別短信驗證碼:谷歌測試二維碼驗證技術(shù),讓短信更安全
- 蘋果與谷歌洽談使用Gemini AI模型改造Siri
- 谷歌Gemini人工智能推出全新引導(dǎo)學(xué)習(xí)模式
- 谷歌搜索的AI模式升級,新增作業(yè)識別功能
- 谷歌CEO桑達(dá)爾·皮查伊表示,人工智能對谷歌每個領(lǐng)域的業(yè)務(wù)都產(chǎn)生了積極影響
- 谷歌持續(xù)加碼人工智能領(lǐng)域?qū)е绿寂欧帕吭俅闻噬?較2019年激增51%
- 谷歌發(fā)布新一代AR眼鏡 立訊精密深度賦能
- “5G核心網(wǎng)絡(luò)即服務(wù)”時代來臨:愛立信攜手谷歌云共譜AI新篇章
- 云從科技超越谷歌、OpenAI問鼎全球多模態(tài)榜單 中國自研AI實現(xiàn)歷史性突破
- 谷歌與大朋VR 聚焦AI 眼鏡賽道,技術(shù)布局凸顯行業(yè)新方向
- 蘋果推進(jìn)智能眼鏡暗戰(zhàn)谷歌,Meta/微美全息深耕AR賽道搶占XR市場新機(jī)遇
- 海信通過谷歌Home API拓展ConnectLife平臺,實現(xiàn)第三方設(shè)備兼容
- 谷歌推出專為UI設(shè)計打造的人工智能編程工具Stitch
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案