百度語音交互持續(xù)迭代 打造端到端信號聲學(xué)一體化建模等前沿技術(shù)
2020-09-16 12:36:38AI云資訊1113
9月15日,AI領(lǐng)域的行業(yè)盛會“百度世界2020”大會于線上隆重召開,一大波硬核技術(shù)襲來:百度創(chuàng)始人、董事長兼CEO李彥宏與總臺央視主持人康輝“虛擬人”亮相、顛覆搜索形態(tài)的“度曉曉”、沒有駕駛員的“全自動駕駛”、各行各業(yè)賦能案例……既有硬核技術(shù),又有“接地氣”的落地應(yīng)用。
(百度世界2020央視新聞直播間)
在當(dāng)天的百度大腦分論壇上,百度語音首席架構(gòu)師賈磊重點(diǎn)講解了百度端到端語音交互技術(shù)。他表示,百度語音交互技術(shù)持續(xù)迭代升級,已發(fā)展成為基于深度學(xué)習(xí)技術(shù)的端到端的語音識別和語音合成技術(shù)。在語音識別層面,百度推出端到端信號聲學(xué)一體化建模的技術(shù),語音合成方面,最新的Meitron和單人千面合成個性化技術(shù)亮相。同時交出了百度語音技術(shù)最新成績單:日均調(diào)用量超過155億次,廣泛應(yīng)用在移動端、智能家居、和語音IoT等場景,智能語音產(chǎn)業(yè)化成果豐碩。
(百度語音首席架構(gòu)師賈磊)
會上,賈磊分別從語音識別和語音合成兩個技術(shù)維度詳解了百度語音技術(shù)的發(fā)展迭代和最新成果。在語音識別方面,百度語音識別技術(shù)持續(xù)創(chuàng)新,從2012年首推深度學(xué)習(xí)技術(shù),到2019年在業(yè)內(nèi)首先把注意力模型應(yīng)用于在線語音識別,推出流式多級的截?cái)嘧⒁饬δP? SMLTA;再到如今全面進(jìn)化為端到端的信號聲學(xué)一體化建模技術(shù),在助力百度自身業(yè)務(wù)發(fā)展的同時,更好地賦能多場景、多產(chǎn)業(yè)應(yīng)用。
作為百度語音識別技術(shù)的最新成果,端到端的信號聲學(xué)一體化建模技術(shù)很好地解決了傳統(tǒng)數(shù)字信號處理和語音識別級聯(lián)系統(tǒng)的各種問題,拋棄了各自學(xué)科的學(xué)科假設(shè),通過端到端的建模,大幅提升了遠(yuǎn)場語音識別率。
據(jù)賈磊介紹,端到端的信號聲學(xué)一體化建模技術(shù)由模型波束技術(shù)和模型AEC技術(shù)組成。前者進(jìn)化為多分區(qū)融合的模型波束建模技術(shù),在國際上由百度首次提出,較單分區(qū)技術(shù)進(jìn)一步提升識別性能15%以上;后者是升級為基于雙LOSS實(shí)值掩蔽的模型AEC技術(shù),可以解決設(shè)備有非線性情況下的回波消除問題,使得設(shè)備即使在播放音樂的時候,也能夠進(jìn)行成功的打斷和高精準(zhǔn)的語音識別。
此外,賈磊還在會上介紹了百度今年推出的端側(cè)全雙工語音交互技術(shù)。據(jù)他介紹,百度端側(cè)全雙工語音交互技術(shù)將復(fù)雜的建模過程轉(zhuǎn)化為3個端到端的深度學(xué)習(xí)過程,即信號聲學(xué)一體化建模、聲學(xué)語言一體化建模以及語義置信一體化建模。通過端到端的建模,該技術(shù)能夠?qū)⒄麄€復(fù)雜的端側(cè)交互轉(zhuǎn)變成若干個深度學(xué)習(xí)計(jì)算,使得依靠一顆AI芯片就能完成端側(cè)的全雙工語音交互,從而大幅度提升車載手機(jī)等語音交互性能,顯著改善用戶體驗(yàn)。
而在語音合成方面,百度自2013年啟動語音合成研發(fā),歷經(jīng)參數(shù)合成、拼接合成、深度學(xué)習(xí)語音合成和端到端的語音合成,到如今全新升級為包含個性化、多風(fēng)格多角色、單人千面的語音合成系統(tǒng),百度語音合成技術(shù)始終處于升級迭代中。
會上,賈磊依次介紹了百度語音合成技術(shù)的最新成果——個性化TTS,多風(fēng)格、多角色,單人千面。個性化TTS是個性化定制的Meitron語音合成系統(tǒng)的最新演進(jìn),是基于子帶分解和GAN_loss的端側(cè)神經(jīng)網(wǎng)絡(luò)聲碼器,也是業(yè)內(nèi)首個在手機(jī)端多人通用的端側(cè)的基于神經(jīng)計(jì)算的聲碼器。個性化TTS相較于傳統(tǒng)的基于信號處理和參數(shù)的聲碼器,ABX提升可以達(dá)到65:35,其已應(yīng)用于地圖導(dǎo)航,目前每日的導(dǎo)航播報(bào)超過1億次。
多風(fēng)格、多角色的語音合成,則是針對娛樂內(nèi)容產(chǎn)業(yè)(例如小說)中存在的多個角色交替、多種情感需求并存的播報(bào)需求而研發(fā)的新技術(shù)。此前,用單一音色播報(bào)缺乏表現(xiàn)力,播報(bào)語音和文字本身的角色情感不一致,用戶長時間聽感到單調(diào)疲倦。百度通過深度學(xué)習(xí)技術(shù)對小說文本進(jìn)行分析,判斷出角色、身份、情感,再借助多風(fēng)格、多角色語音合成技術(shù)去合成小說中的聲音,從而實(shí)現(xiàn)聲音自然流暢、情感表現(xiàn)力豐富、用戶體驗(yàn)優(yōu)美的效果。
針對一個發(fā)音人需要用不同風(fēng)格播報(bào)文本的應(yīng)用場景,百度推出單人千面語音合成技術(shù)。該技術(shù)能夠把說話人的語音、文本、風(fēng)格、內(nèi)容、音色都進(jìn)行分離,在進(jìn)行語音合成的時候自由組合,從而能夠讓一個發(fā)音人同時去播報(bào)新聞、小說、脫口秀、讀書、詩歌等不同風(fēng)格。
“百度智能語音交互的產(chǎn)業(yè)化成果豐碩,目前百度智能語音的日均調(diào)用量超過155億次,廣泛應(yīng)用于移動端、智能家居、智能車載、智能服務(wù)以及語音IoT,極大地提高了中國社會的智能化程度?!辟Z磊表示。語音技術(shù)作為百度大腦的重要AI能力之一,不但應(yīng)用于百度搜索、百度輸入法、百度地圖、小度音箱等百度系列產(chǎn)品,更通過百度大腦AI開放平臺廣泛賦能眾多行業(yè)和場景的合作伙伴。未來,百度還將持續(xù)創(chuàng)新升級語音交互技術(shù),推進(jìn)語音技術(shù)應(yīng)用落地,助力更多產(chǎn)業(yè)智能化轉(zhuǎn)型升級。
相關(guān)文章
- 「百度智能云學(xué)堂」重磅發(fā)布,加速“云智一體”時代AI原生人才培養(yǎng)
- 百度首批簽署聯(lián)合國“創(chuàng)建可持續(xù)品牌”愿景倡議
- 百度商家智能體全新升級,以技術(shù)革新賦能商家轉(zhuǎn)化經(jīng)營新突破
- 新達(dá)內(nèi)與百度智能云達(dá)成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 未來已來,百度APP與創(chuàng)作者攜手打造全新AIGC內(nèi)容生態(tài)
- 百度:中國自動駕駛的黃埔軍校
- DPVR 全新 AI 眼鏡即將登場,百度云智大會揭秘三大核心亮點(diǎn)
- 煥新出發(fā)!鴻蒙版百度地圖上新小度語音、美食推薦等實(shí)用功能
- 鴻蒙版百度地圖新增小度語音、美食推薦,導(dǎo)航更智能,體驗(yàn)更完善
- 飛槳入選中國人工智能產(chǎn)業(yè)創(chuàng)新成果展,百度打造AI產(chǎn)業(yè)基礎(chǔ)設(shè)施“國家隊(duì)”樣板
- DPVR AI眼鏡亮相百度云大會
- 領(lǐng)先OpenAI三個月,百度文庫GenFlow支持自主調(diào)用數(shù)百Agent、多模內(nèi)容并行生成,2.0版本8月上線
- 鴻蒙版百度地圖導(dǎo)航視野升級!界面煥新,體驗(yàn)再進(jìn)階
- 百度商業(yè)視頻生成模型MuseSteamer來了:音畫一步到位,出廠自帶bgm!
- 百度文心大模型4.5系列模型開源,國內(nèi)首發(fā)平臺GitCode現(xiàn)已開放下載!
- 百度文庫智能PPT月訪問量超3400萬、位列全球第一,市場份額斷崖式領(lǐng)先
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動,助推智能建造實(shí)戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機(jī)賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營報(bào)名企業(yè)超300家
- 首都機(jī)場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案