百度語(yǔ)音識(shí)別新算法準(zhǔn)確率提升超30%,鴻鵠芯片彰顯AI落地新打法
2019-11-29 15:57:45AI云資訊1250
今年 7 月,在開(kāi)發(fā)者大會(huì)上,百度公布了其在 AI 技術(shù)上的進(jìn)展。而短短四個(gè)月后,在昨日的百度語(yǔ)音能力引擎論壇上,百度在語(yǔ)音領(lǐng)域再次公開(kāi)了最新的算法成果。同樣引人關(guān)注的還有百度鴻鵠芯片的最新進(jìn)展。
昨日,百度語(yǔ)音能力引擎論壇在北京召開(kāi)。在論壇上,百度展示了其在語(yǔ)音技術(shù)上的最新成果,并公開(kāi)了語(yǔ)音專用終端芯片——百度鴻鵠的落地情況。此外,機(jī)器之心也采訪了百度語(yǔ)音首席架構(gòu)師賈磊。百度通過(guò)本次發(fā)布說(shuō)明,深度學(xué)習(xí)端到端技術(shù)依然大有發(fā)展空間,軟件驅(qū)動(dòng)專用芯片設(shè)計(jì)成 AI 落地新打法。
語(yǔ)音能力 100 億次日調(diào)用,百度大腦勢(shì)頭正勁
論壇開(kāi)始,百度 CTO 王海峰博士公布了百度在語(yǔ)音技術(shù)方面的最新成績(jī)單。目前,百度語(yǔ)音技術(shù)的日調(diào)用量已突破 100 億。
而目前,百度大腦已開(kāi)發(fā) AI 能力 228 項(xiàng),接入開(kāi)發(fā)者數(shù)量超過(guò) 150 萬(wàn),現(xiàn)已成為國(guó)內(nèi)最大的 AI 開(kāi)放平臺(tái)。
王海峰博士還介紹了百度在 AI 方面的兩大目標(biāo),即「進(jìn)化」和「賦能」。通過(guò)技術(shù)的不斷進(jìn)化,推動(dòng) AI 的進(jìn)一步發(fā)展,同時(shí)通過(guò)賦能合作廠商和開(kāi)發(fā)者的方式,創(chuàng)造活躍的 AI 生態(tài)環(huán)境。
在發(fā)布會(huì)上,百度語(yǔ)音識(shí)別新算法和百度鴻鵠芯片的最新進(jìn)展最引人注目。它們無(wú)疑是對(duì)進(jìn)化和賦能兩詞最好的注解。
完全端到端,深度學(xué)習(xí)再次顛覆語(yǔ)音識(shí)別
在論壇上,百度語(yǔ)音首席架構(gòu)師賈磊介紹了百度近一段時(shí)間的語(yǔ)音技術(shù)突破。其中最受矚目的便是百度最新研發(fā)的「基于復(fù)數(shù) CNN 網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別一體化建?!辜夹g(shù)。
現(xiàn)有方法面臨瓶頸
目前主要的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別方案主要將語(yǔ)音識(shí)別分為兩個(gè)步驟:數(shù)字信號(hào)處理和語(yǔ)音識(shí)別。具體而言,用戶首先需要對(duì)語(yǔ)音識(shí)別終端進(jìn)行喚醒,當(dāng)設(shè)備收到信號(hào)后,采用聲學(xué)模型和硬件對(duì)波束來(lái)源進(jìn)行定位,定位后再繼續(xù)接收目標(biāo)聲音。
接收到目標(biāo)聲音后,識(shí)別終端通過(guò)方位信息,增強(qiáng)目標(biāo)信號(hào)并壓制干擾信號(hào),從而將增強(qiáng)后的信號(hào),輸入到語(yǔ)音識(shí)別聲學(xué)建模模塊中。
這一方法主要存在兩個(gè)問(wèn)題。首先,語(yǔ)音增強(qiáng)算法大都是基于 mse 準(zhǔn)則優(yōu)化語(yǔ)音的聽(tīng)覺(jué)感知,聽(tīng)覺(jué)感知變得更清晰,并不一定對(duì)應(yīng)識(shí)別率提升。其次,此方法需要首先喚醒語(yǔ)音識(shí)別終端,并要求說(shuō)話者的位置保持固定。如果在識(shí)別過(guò)程中目標(biāo)信號(hào)源發(fā)送移動(dòng),或波束方向上存在噪聲,則識(shí)別準(zhǔn)確率會(huì)大幅下降。
深度學(xué)習(xí)讓信號(hào)處理和語(yǔ)音識(shí)別終成一體
而百度提出的新算法不再需要首次喚醒。在識(shí)別開(kāi)始時(shí),目標(biāo)聲音信號(hào)直接被多路麥克風(fēng)輸入到模型中,采用復(fù)數(shù)個(gè) CNN 網(wǎng)絡(luò)提取聲音信號(hào)中的多種特征,包括不同麥克風(fēng)輸入信息的特征,和跨頻率耦合的聲學(xué)特征。在這一過(guò)程中直接實(shí)現(xiàn)了前端聲源定位、波束形成和增強(qiáng)特征提取。特征提取后,直接進(jìn)行聲學(xué)建模,并生成最終的文字結(jié)果。
據(jù)賈磊介紹,這一算法從根本上打通了前端的信處理和后端語(yǔ)音識(shí)別過(guò)程,真正實(shí)現(xiàn)了端到端的語(yǔ)音識(shí)別解決方案。該算法具有以下優(yōu)勢(shì)。其一,這一算法不需要事先根據(jù)前一個(gè)喚醒詞的方向來(lái)定人的說(shuō)話方向,定出人說(shuō)話方向之后,再做波束生成,這樣的話,波束生成只能對(duì)下一句話的喚醒或者是識(shí)別有提升作用。這個(gè)方法是根據(jù)當(dāng)前喚醒詞或者是語(yǔ)音指令,一次性的同時(shí)做聲源定向和波數(shù)生成。使得當(dāng)前這一個(gè)次喚醒或者是識(shí)別就能夠顯著提升。
其次,由于使用 CNN 網(wǎng)絡(luò)捕捉多種特征,因此能夠最大程度捕捉聲音波形中的最本質(zhì)特征信息,尤其是跨頻波形特征等,因此能夠模型具有更好的學(xué)習(xí)能力,性能也更好。
另外,模型最終端到端直接輸出文字結(jié)果,通過(guò)字錯(cuò)誤率進(jìn)行調(diào)優(yōu),因此能夠最大限度上優(yōu)化模型性能。
由于沒(méi)有了波束定位的環(huán)節(jié),這一方面面臨的挑戰(zhàn)在于,如何能夠區(qū)分多個(gè)聲音源,并只識(shí)別真正的目標(biāo)聲音源。
在采訪中,賈磊提到,在多個(gè)聲源存在的情況下,該算法可結(jié)合語(yǔ)義信息進(jìn)行區(qū)分。這是因?yàn)樗惴ㄖ腥诤狭?SMLTA 架構(gòu),能夠進(jìn)行從語(yǔ)音到語(yǔ)言文字的映射,因此可以學(xué)習(xí)到語(yǔ)義知識(shí)。在識(shí)別過(guò)程中,算法可根據(jù)語(yǔ)義,選擇正確的 query。
據(jù)悉,這一算法的識(shí)別準(zhǔn)確率(即字錯(cuò)誤率)提升超過(guò) 30%。和百度鴻鵠 AI 芯片配合使用的情況下,甚至可以提升更多。
在語(yǔ)音轉(zhuǎn)文字方面,百度公開(kāi)了 SMLTA 算法方面的最新成果。目前該算法能夠識(shí)別更多方言、中英文混輸?shù)葓?chǎng)景上也進(jìn)一步提升。通過(guò)和端到端方法結(jié)合,百度已徹底實(shí)現(xiàn)了從語(yǔ)音輸入、信號(hào)處理和增強(qiáng)、語(yǔ)音識(shí)別到文字輸出的完全端到端深度學(xué)習(xí)解決方案。
此外,論壇上,賈磊也介紹了百度在語(yǔ)音合成方面的技術(shù)進(jìn)展。通過(guò) WaveRNN 算法的進(jìn)一步改進(jìn),模型可提取人聲中的通用特征,結(jié)合被合成者特有的聲學(xué)特征,最終輸出合成語(yǔ)音結(jié)果。
目前百度已實(shí)現(xiàn)無(wú)監(jiān)督的語(yǔ)音合成模型訓(xùn)練,并應(yīng)用于百度地圖產(chǎn)品上。用戶只需要輸入 20 句話,就可以使用合成語(yǔ)音進(jìn)行地圖導(dǎo)航等操作。
百度鴻鵠芯片:用硬件落地算法
除了最新的語(yǔ)音技術(shù)進(jìn)展,百度也公開(kāi)了百度鴻鵠芯片的最新進(jìn)展。百度鴻鵠芯片是百度第一款專門(mén)針對(duì)語(yǔ)音技術(shù)領(lǐng)域開(kāi)發(fā)的 AI 芯片,是百度推動(dòng)語(yǔ)音識(shí)別能力落地應(yīng)用的新打法。
語(yǔ)音能力集于一芯
據(jù)百度度 AI 技術(shù)生態(tài)部總經(jīng)理喻友平介紹,百度鴻鵠芯片已集成了語(yǔ)音方面的所有能力,包括波束定位、語(yǔ)音信號(hào)增強(qiáng)、回聲處理、降噪、語(yǔ)音識(shí)別等方面的所有功能。整個(gè)芯片提供了完整的解決方案。
目前,百度鴻鵠芯片已提供了相關(guān)的硬件模組,包括安卓開(kāi)發(fā)板等。同時(shí),百度也邀請(qǐng)到了合作廠商,展示集成了百度鴻鵠芯片的智能家電——如創(chuàng)維智能電視等,在語(yǔ)音識(shí)別賦能后產(chǎn)生的新交互體驗(yàn)。
目前,百度已經(jīng)完成了百度鴻鵠的智能音箱的產(chǎn)品原型。產(chǎn)品使用雙麥克結(jié)構(gòu),將百度鴻鵠芯片作為語(yǔ)音處理芯片,來(lái)處理所有的語(yǔ)音的功能和任務(wù),并最終集成到遠(yuǎn)場(chǎng)語(yǔ)音交互方案中。
專用芯片讓語(yǔ)音識(shí)別模型真正落地
為什么要為語(yǔ)音技術(shù)設(shè)計(jì)專用芯片,通過(guò)發(fā)布可以看到,百度鴻鵠芯片能夠滿足了落地深度學(xué)習(xí)算法的要求。首先,深度學(xué)習(xí)需要大量的內(nèi)存占用、計(jì)算并行化能力,更要求芯片的 Cache 足夠大,模型的加載速度要夠快。ARM 架構(gòu)的通用芯片在這些指標(biāo)上多有不及,只有專門(mén)為深度學(xué)習(xí)設(shè)計(jì)的架構(gòu)和指令集能夠讓模型在專用硬件上發(fā)揮更好的性能。
同時(shí),相比 ARM 架構(gòu)芯片,百度鴻鵠芯片可以更加低功耗。百度本次發(fā)布的新算法在百度鴻鵠芯片上,在待機(jī)狀態(tài)下功耗不足 100mW。我國(guó)節(jié)能家電標(biāo)準(zhǔn)要求待機(jī)狀態(tài)功耗不高于 0.5W,有了百度鴻鵠芯片,各類家電可以集成語(yǔ)音識(shí)別能力,也同時(shí)滿足節(jié)能家電的認(rèn)證標(biāo)準(zhǔn)。
據(jù)賈磊介紹,本次公開(kāi)的端到端算法在百度鴻鵠芯片上只占用 200K 的內(nèi)存,可完全實(shí)現(xiàn)終端語(yǔ)音識(shí)別功能。
這樣一來(lái),以百度鴻鵠芯片為載體,以算法為核心,百度實(shí)現(xiàn)了通過(guò)提供硬件和算法的方式,將語(yǔ)音能力賦予合作商和開(kāi)發(fā)者,實(shí)現(xiàn)了整體解決方案的開(kāi)源開(kāi)放。
本次論壇上,百度還介紹了其語(yǔ)音生態(tài)中的很多新產(chǎn)品和應(yīng)用,說(shuō)明了百度 AI 生態(tài)的日臻成熟。
語(yǔ)音技術(shù)落地體現(xiàn)百度新打法
通過(guò)本次論壇發(fā)布可以看出,百度的 AI 落地新打法已呼之欲出。在新技術(shù)的開(kāi)發(fā)上,百度全面采用深度學(xué)習(xí)方式,進(jìn)一步擴(kuò)展 AI 能力和應(yīng)用場(chǎng)景。在技術(shù)的落地環(huán)節(jié),則通過(guò)軟件驅(qū)動(dòng)硬件發(fā)展的方式,讓專用硬件承接算法模型,最終實(shí)現(xiàn)技術(shù)賦能。
深度學(xué)習(xí)推動(dòng)跨學(xué)科融合
在談到基于復(fù)數(shù) CNN 網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別一體化建模技術(shù)時(shí),賈磊表示,這一技術(shù)說(shuō)明了深度學(xué)習(xí)在推動(dòng)跨學(xué)科融合方面的能力。
換句話說(shuō),通過(guò)端到端技術(shù),百度實(shí)現(xiàn)了信號(hào)處理和語(yǔ)音識(shí)別兩個(gè)部分的融合。在前端信號(hào)處理的過(guò)程中,不再需要考慮聲學(xué)模型和相關(guān)的先驗(yàn)知識(shí),從語(yǔ)音信號(hào)的輸入到輸出文字完全模擬人類的認(rèn)知過(guò)程。
采訪中賈磊表示,盡管目前深度學(xué)習(xí)看似進(jìn)入到了「平臺(tái)期」,但在端到端跨學(xué)科整合方面,其仍有很大的發(fā)展空間。
軟件驅(qū)動(dòng)芯片設(shè)計(jì)
在算法落地賦能方面,可以看到百度用「軟件驅(qū)動(dòng)芯片設(shè)計(jì)」的發(fā)展戰(zhàn)略。在百度大腦開(kāi)放了眾多 AI 能力的時(shí)候,百度根據(jù)算法對(duì)硬件的要求,定制相應(yīng)的硬件設(shè)備。相比傳統(tǒng)的芯片廠商,這些專用芯片都是根據(jù)模型的大小、特性和計(jì)算方式特殊定制的,只有掌握算法細(xì)節(jié)的廠商才能夠定制開(kāi)發(fā)。
這樣的算法落地方式無(wú)疑有著獨(dú)特的優(yōu)勢(shì)。首先算法能夠和硬件深度結(jié)合,通過(guò)硬件開(kāi)放的方式融合到各類場(chǎng)景中,發(fā)揮最佳的性能。
此外,硬件能夠提供更為端到端的解決方案,顯著降低算法落地的成本。例如,百度鴻鵠芯片整合了語(yǔ)音識(shí)別中的所有能力,提供了綜合的解決方案。這樣在落地算法的過(guò)程中,合作商不再需要關(guān)心各種算法的運(yùn)行情況,以及和硬件適配的相關(guān)問(wèn)題。
同時(shí),專用芯片的功耗更低,在保證模型性能的同時(shí),不會(huì)對(duì)集成的系統(tǒng)(如家電產(chǎn)品等)帶來(lái)很高的功耗。
從這些新打法中可以看出百度的堅(jiān)持和創(chuàng)新探索。不變的是百度對(duì)深度學(xué)習(xí)算法的堅(jiān)持。即使目前深度學(xué)習(xí)看似進(jìn)入平臺(tái)期,但百度持續(xù)推動(dòng)深度學(xué)習(xí)以端到端的方式進(jìn)入新的場(chǎng)景,逐漸取代需要過(guò)去傳統(tǒng)學(xué)科長(zhǎng)期積累和大量先驗(yàn)知識(shí)的領(lǐng)域。
與此同時(shí),百度仍在探索 AI 落地的新形式。鴻鵠芯片的公布無(wú)疑是其以互聯(lián)網(wǎng)企業(yè)的方式進(jìn)入到芯片設(shè)計(jì)領(lǐng)域的新思路。圍繞算法對(duì)算力和硬件的需求,定制專用的硬件,讓算法更好地發(fā)揮性能優(yōu)勢(shì),也在同時(shí)降低廠商合作落地 AI 的成本和門(mén)檻,實(shí)現(xiàn)其讓 AI 進(jìn)化和賦能行業(yè)生態(tài)的目標(biāo)。
相關(guān)文章
- 「百度智能云學(xué)堂」重磅發(fā)布,加速“云智一體”時(shí)代AI原生人才培養(yǎng)
- 百度首批簽署聯(lián)合國(guó)“創(chuàng)建可持續(xù)品牌”愿景倡議
- 百度商家智能體全新升級(jí),以技術(shù)革新賦能商家轉(zhuǎn)化經(jīng)營(yíng)新突破
- 新達(dá)內(nèi)與百度智能云達(dá)成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 未來(lái)已來(lái),百度APP與創(chuàng)作者攜手打造全新AIGC內(nèi)容生態(tài)
- 百度:中國(guó)自動(dòng)駕駛的黃埔軍校
- DPVR 全新 AI 眼鏡即將登場(chǎng),百度云智大會(huì)揭秘三大核心亮點(diǎn)
- 煥新出發(fā)!鴻蒙版百度地圖上新小度語(yǔ)音、美食推薦等實(shí)用功能
- 鴻蒙版百度地圖新增小度語(yǔ)音、美食推薦,導(dǎo)航更智能,體驗(yàn)更完善
- 飛槳入選中國(guó)人工智能產(chǎn)業(yè)創(chuàng)新成果展,百度打造AI產(chǎn)業(yè)基礎(chǔ)設(shè)施“國(guó)家隊(duì)”樣板
- DPVR AI眼鏡亮相百度云大會(huì)
- 領(lǐng)先OpenAI三個(gè)月,百度文庫(kù)GenFlow支持自主調(diào)用數(shù)百Agent、多模內(nèi)容并行生成,2.0版本8月上線
- 鴻蒙版百度地圖導(dǎo)航視野升級(jí)!界面煥新,體驗(yàn)再進(jìn)階
- 百度商業(yè)視頻生成模型MuseSteamer來(lái)了:音畫(huà)一步到位,出廠自帶bgm!
- 百度文心大模型4.5系列模型開(kāi)源,國(guó)內(nèi)首發(fā)平臺(tái)GitCode現(xiàn)已開(kāi)放下載!
- 百度文庫(kù)智能PPT月訪問(wèn)量超3400萬(wàn)、位列全球第一,市場(chǎng)份額斷崖式領(lǐng)先
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開(kāi)——攜產(chǎn)界實(shí)踐洞見(jiàn)共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國(guó)
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動(dòng),助推智能建造實(shí)戰(zhàn)人才培養(yǎng)
- 國(guó)產(chǎn)芯開(kāi)行業(yè)新局,至像Z35國(guó)產(chǎn)芯系列新品打印機(jī)賦能中國(guó)打印
- 神眸榮獲快手“品牌標(biāo)桿獎(jiǎng)”,以芯片級(jí)創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時(shí)延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動(dòng)AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營(yíng)報(bào)名企業(yè)超300家
- 首都機(jī)場(chǎng)“AI繪空港”大賽完美收官,卓特視覺(jué)以技術(shù)賦能創(chuàng)意未來(lái)
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國(guó)首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來(lái)——2025高交會(huì)亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來(lái)
- 破解AI落地難題!北大這場(chǎng)特訓(xùn)營(yíng),為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會(huì)首發(fā)! 螞蟻密算推出AI密態(tài)升級(jí)卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開(kāi)源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 2025外灘大會(huì):王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開(kāi)源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來(lái)落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢(shì)科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案