精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

百度語(yǔ)音的“一小步”,可能是語(yǔ)音技術(shù)“登月計(jì)劃”的一大步

2019-01-17 17:03:32AI云資訊816

語(yǔ)音作為人機(jī)交互的全新入口,已經(jīng)在過(guò)去幾年席卷全世界。語(yǔ)音技術(shù)的進(jìn)步,不僅體現(xiàn)在各式各樣的智能設(shè)備里,還在不斷賦能移動(dòng)設(shè)備輸入法的變革,依托語(yǔ)音便捷的交互方式,輸入法里語(yǔ)音輸入也在悄然改變著用戶與設(shè)備交互的模式。

在技術(shù)領(lǐng)域,某些影響深遠(yuǎn)的技術(shù)研發(fā)往往被稱為「登月計(jì)劃」。本周,百度在語(yǔ)音領(lǐng)域的「一小步」,也實(shí)現(xiàn)了人類語(yǔ)音「登月」的一大步。

在百度輸入法發(fā)布會(huì)上,百度公布了語(yǔ)音領(lǐng)域的四項(xiàng)重大技術(shù)突破。這其中,在線語(yǔ)音領(lǐng)域全球首創(chuàng)的流式多級(jí)的截?cái)嘧⒁饬δP停⊿MLTA,全稱為「Streaming trancated multi-layer attention」)成為焦點(diǎn),這也意味著,學(xué)術(shù)界談?wù)摱嗄甑淖⒁饬δP徒K于實(shí)現(xiàn)了大規(guī)模在線商用。

此舉意義重大。一方面,這是業(yè)界第一個(gè)基于注意力模型的在線語(yǔ)音產(chǎn)品,凸顯出百度在語(yǔ)音技術(shù)研發(fā)的領(lǐng)先;另一方面,作為 AI 的基礎(chǔ)功能,語(yǔ)音技術(shù)在百度 AI 技術(shù)賦能產(chǎn)品創(chuàng)新的作用越來(lái)越大,這也是當(dāng)下百度 AI 戰(zhàn)略落地的重要觀察窗口。

接下來(lái),本文將從此次公布的流式多級(jí)的截?cái)嘧⒁饬δP腿胧?,揭秘這項(xiàng)技術(shù)背后的意義,同時(shí)結(jié)合語(yǔ)音技術(shù)賦能百度其他產(chǎn)品線的案例,進(jìn)一步探討這家公司的 AI 戰(zhàn)略方向。

1. 技術(shù)突破:學(xué)術(shù)界一大難題的落地

過(guò)去幾年,AI 被詬病的一大原因就是技術(shù)落地困難,一項(xiàng)實(shí)驗(yàn)室的技術(shù)即便再怎么先進(jìn),倘若無(wú)法再商業(yè)化的場(chǎng)景里得以應(yīng)用,多少都有些當(dāng)代「屠龍術(shù)」的意味。

比如語(yǔ)音領(lǐng)域的注意力模型(Attention模型)。

注意力模型是一種基于對(duì)一句話里每個(gè)音節(jié)或漢字音頻特征的機(jī)器學(xué)習(xí)模型。通過(guò)機(jī)器學(xué)習(xí)的方法,將音頻特征自動(dòng)挖掘出來(lái)。也就是說(shuō),這種方法下的語(yǔ)音識(shí)別過(guò)程,變成了一個(gè)字一個(gè)字的滾動(dòng)生成過(guò)程。

由于擺脫了傳統(tǒng)語(yǔ)音識(shí)別的狀態(tài)建模和按語(yǔ)音幀進(jìn)行解碼,該模型可以直接實(shí)現(xiàn)語(yǔ)音和文本一體化的端到端建模,擁有學(xué)術(shù)界公認(rèn)的建模精度。

但這個(gè)技術(shù)長(zhǎng)期以來(lái)無(wú)法得以大規(guī)模應(yīng)用。一方面,無(wú)法解決流式解碼的問(wèn)題,傳統(tǒng)的注意力模型大都是基于整句的建模,比如 Google 的 LAS 模型就是其中的代表。整個(gè)建模過(guò)程需要通過(guò)云端/服務(wù)器的解碼能力。這也意味著,當(dāng)用戶通過(guò)語(yǔ)音交互時(shí),語(yǔ)音需要上傳到云端,這對(duì)于移動(dòng)設(shè)備的用戶體驗(yàn)影響非常大。

另一方面,如上文所言,在傳統(tǒng)的注意力模型里,一般是通過(guò)機(jī)器學(xué)習(xí)提取整句音頻信息,也就是說(shuō)語(yǔ)音輸入的句子越長(zhǎng),進(jìn)行特征選擇的難度越大。出錯(cuò)的概率越高,而一旦某個(gè)環(huán)節(jié)出現(xiàn)錯(cuò)誤,錯(cuò)誤的傳導(dǎo)還會(huì)進(jìn)一步提過(guò)錯(cuò)誤率,最終反映在用戶體驗(yàn)上的感受則是,用戶語(yǔ)音說(shuō)完一段話后,機(jī)器完全理解不了。

這也是此次百度流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA 所要解決的難題。主要包括兩個(gè)重要的技術(shù)突破,其一,利用 CTC 語(yǔ)音識(shí)別算法,對(duì)連續(xù)語(yǔ)音進(jìn)行自動(dòng)截?cái)?,然后在這一系列語(yǔ)音小段的基礎(chǔ)上搭建注意力模型。其二,引入一種特殊的多級(jí)Attention機(jī)制,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇。

根據(jù)百度官方的說(shuō)法,由于所有計(jì)算通過(guò) CPU 實(shí)現(xiàn),不需要額外增加GPU,整個(gè)云端的計(jì)算資源消耗與此前的語(yǔ)音模型持平。而在輸入法精度上,大量數(shù)據(jù)測(cè)試結(jié)果顯示,相對(duì)于早先的模型,相對(duì)準(zhǔn)確率提升了 15%。

更重要的是,這不僅是業(yè)界第一次提出了流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA,也在全球范圍內(nèi),實(shí)現(xiàn)了基于注意力模型的在線語(yǔ)音識(shí)別服務(wù)的首次規(guī)?;瘧?yīng)用。百度已成功將這種注意力模型部署上線到語(yǔ)音輸入法全線產(chǎn)品,服務(wù)中國(guó)數(shù)億用戶,也因此,此次技術(shù)突破不再僅僅是一個(gè)實(shí)驗(yàn)室技術(shù)的展現(xiàn),而是成為一個(gè)個(gè)普通用戶都可以享受的技術(shù)紅利。

2. 賦能:從內(nèi)到外

一年前的百度輸入法升級(jí)里,基于 Deep Peak 2模型的語(yǔ)音模型,大幅提升了不同場(chǎng)景下語(yǔ)音識(shí)別的準(zhǔn)確率。而一年后,輸入法升級(jí)還帶來(lái)了離線語(yǔ)音、中英混合輸入、普通話方言混合輸入的升級(jí)。

這其中,離線語(yǔ)音識(shí)別的場(chǎng)景最特殊。由于語(yǔ)音識(shí)別需要網(wǎng)絡(luò)的支持,當(dāng)沒(méi)有網(wǎng)絡(luò)或者網(wǎng)絡(luò)穩(wěn)定的時(shí)候,常常出現(xiàn)語(yǔ)音識(shí)別成功率低、識(shí)別速度慢等情況。

雖然通過(guò)離線語(yǔ)音已解決一部體驗(yàn)問(wèn)題,但過(guò)去離線語(yǔ)音與在線語(yǔ)音相比,準(zhǔn)確率相差懸殊,體驗(yàn)得不到根本解決。

針對(duì)這一場(chǎng)景,百度語(yǔ)音技術(shù)團(tuán)隊(duì)優(yōu)化了輸入法上嵌入式識(shí)別的 deep peak2 系統(tǒng),大幅提升了離線語(yǔ)音識(shí)別準(zhǔn)確率。根據(jù)百度透露的數(shù)字,目前百度輸入法離線語(yǔ)音輸入準(zhǔn)確率已高于行業(yè)平均水平35%,這也讓用戶可以在沒(méi)有網(wǎng)絡(luò)的場(chǎng)景里流暢快速使用。

上述注意力模型等一系列技術(shù)創(chuàng)新也是百度語(yǔ)音技術(shù)推動(dòng)產(chǎn)品發(fā)展的一個(gè)縮影。

比如地圖。去年 12 月的新版地圖里,語(yǔ)音就作為一個(gè)重要的交互方式,涵蓋了導(dǎo)航路線、地點(diǎn)查找以及小度助手等等。

而在翻譯領(lǐng)域,去年 10 月,百度研發(fā)的具備預(yù)測(cè)能力和可控延遲的即時(shí)機(jī)器翻譯系統(tǒng),實(shí)現(xiàn)了兩種語(yǔ)言之間的高質(zhì)量、低延遲翻譯。這其中,通過(guò)上下文無(wú)關(guān)音素組合的中英文混合建模單元,讓語(yǔ)音識(shí)別的方法具有泛化性能好、對(duì)噪聲魯棒、中英文混合識(shí)別等特點(diǎn)。

與此同時(shí),正如百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰在百度大腦論壇上所言,「百度大腦既帶動(dòng)了百度業(yè)務(wù)的升級(jí),也在推動(dòng)社會(huì)智能化升級(jí)」。與行業(yè)其他 AI 巨頭們目前的策略一致,語(yǔ)音技術(shù)不僅是百度多個(gè)產(chǎn)品線創(chuàng)新的動(dòng)力,也已經(jīng)并正在通過(guò)百度大腦向行業(yè)賦能。

以遠(yuǎn)場(chǎng)識(shí)別算法為例,通過(guò)麥克風(fēng)陣列前端處理算法,可以識(shí)別目標(biāo)說(shuō)話人 3-5米距離的說(shuō)話。目前,基于語(yǔ)音遠(yuǎn)場(chǎng)方案技術(shù)的「小度機(jī)器人人機(jī)語(yǔ)音交互點(diǎn)餐」已在上海肯德基旗艦店投入應(yīng)用。

2018 年的百度世界大會(huì)上,百度大腦也帶來(lái)多個(gè)語(yǔ)音技術(shù)升級(jí)。比如「一次喚醒連續(xù)交互」的技術(shù)突破,用戶只需喚醒一次就可以連續(xù)多輪對(duì)話,機(jī)器能夠準(zhǔn)確識(shí)別用戶說(shuō)話時(shí)的猶豫停頓、能夠區(qū)分并跟隨首次喚醒的用戶等,用戶的體驗(yàn)更自然、流暢,為語(yǔ)音交互提供了更多想象空間。

3. 寫(xiě)在最后

作為當(dāng)下 AI 的一個(gè)單項(xiàng)技能,語(yǔ)音技術(shù)依然有巨大的突破空間。一方面,語(yǔ)音識(shí)別在安靜環(huán)境、普通話識(shí)別的識(shí)別率的確已經(jīng)比較高了,但在復(fù)雜環(huán)境以及口音、方言等環(huán)境里的識(shí)別率還不盡如人意。

另一方面,語(yǔ)音技術(shù)不僅是聲音與文字之間的轉(zhuǎn)換問(wèn)題,也不是單純的軟件或硬件問(wèn)題,面向未來(lái)的語(yǔ)音技術(shù)是硬軟一體、語(yǔ)音語(yǔ)言一體、識(shí)別和交互一體。

百度這次推出的流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,無(wú)疑是中文在線語(yǔ)音識(shí)別歷史上的又一次突破。

而未來(lái),百度語(yǔ)音的重要著力點(diǎn)是向下朝低端芯片發(fā)展,向上超語(yǔ)音語(yǔ)義一體化和交互發(fā)展。最終,百度語(yǔ)音將建立從硬件底層芯片、到上層的智能硬件系統(tǒng),再到系統(tǒng)軟件,語(yǔ)音客戶端,語(yǔ)音服務(wù)器及后端交互一體化的全鏈路語(yǔ)音交互技術(shù)。

基于百度龐大的用戶和豐富的產(chǎn)品,這些技術(shù)將讓用戶享受 AI 的福利,而透過(guò)百度大腦,還將持續(xù)賦能各行各業(yè)。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews