精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

百度語音首席架構(gòu)師賈磊:讓語音技術(shù)可靠流暢,具備親情和溫暖

2020-12-18 12:26:55AI云資訊1430

在國(guó)內(nèi),談到智能語音技術(shù),肯定繞不開一個(gè)人,那就是現(xiàn)任百度語音首席架構(gòu)師賈磊,他是智能語音界舉足輕重的AI大牛,于2010年加入百度,組建了百度語音團(tuán)隊(duì),主導(dǎo)研發(fā)了百度語音識(shí)別和語音合成等一系列百度自有知識(shí)產(chǎn)權(quán)的語音核心技術(shù)。2016年短暫創(chuàng)業(yè)后又回歸百度,主持研發(fā)了小度智能音箱的遠(yuǎn)場(chǎng)語音交互系統(tǒng)、小度車載語音交互、百度鴻鵠語音芯片、百度智能語音呼叫中心系統(tǒng)等一系列百度語音類產(chǎn)品并將相關(guān)技術(shù)推向中國(guó)社會(huì),他還于2015年獲得了全國(guó)勞模稱號(hào)(互聯(lián)網(wǎng)業(yè)首位全國(guó)勞動(dòng)模范)。

作為 AI 落地的一個(gè)關(guān)鍵組成部分,智能語音交互技術(shù)這一路是如何發(fā)展起來并日趨成熟的?在2020魔幻的一年,智能語音技術(shù)的最新發(fā)展是什么?伴隨著5G、AI算力等技術(shù)的快速發(fā)展,未來智能語音技術(shù)又將在哪些方向進(jìn)行突破和創(chuàng)新?本文將分為上下兩部分,結(jié)合賈磊的從業(yè)經(jīng)歷,從個(gè)人側(cè)和技術(shù)側(cè)詳談智能語音技術(shù)的過去、現(xiàn)在和未來,肯定能讓你收獲頗多。另外,賈磊老師也將于2021年1月8-9日QCon北京站上帶來智能語音的更多精彩分享,歡迎大家現(xiàn)場(chǎng)面基,共同探討、交流。

(上)

作為最早關(guān)注智能語音的業(yè)界大咖之一,賈磊是在什么契機(jī)下選擇走上智能語音之路的?他對(duì)語音交互認(rèn)知的本源是如何理解的?短暫創(chuàng)業(yè)經(jīng)歷又給他帶來了哪些收獲?接下來,本文上篇將你深入認(rèn)識(shí)一下賈磊,全面了解下大牛成長(zhǎng)記。

興趣驅(qū)動(dòng),開啟近20年的智能語音技術(shù)追求之旅

賈磊選擇語音是興趣驅(qū)動(dòng)的。賈磊碩士畢業(yè)后,考入中科院自動(dòng)化所攻讀博士學(xué)學(xué)位。他最初的研發(fā)方向是圖像處理,廣泛涉獵了模式識(shí)別各學(xué)科方方面面的知識(shí),也綜合比較了圖像、語音和NLP等學(xué)科的學(xué)科差異等。這時(shí)候逐漸開始對(duì)語音技術(shù)產(chǎn)生了濃厚的興趣,很好奇人是怎么發(fā)出聲音、感知聲音、并且理解聲音內(nèi)容的。當(dāng)時(shí)IBM的ViaVoice軟件也是風(fēng)靡世界,人們依靠聲音來實(shí)現(xiàn)人機(jī)交互的夢(mèng)想的實(shí)現(xiàn)就擺在眼前,語音產(chǎn)業(yè)化應(yīng)用的明天一片大好。這時(shí)候正巧賈磊中科院自動(dòng)化所的第一任導(dǎo)師因?yàn)楣ぷ髡{(diào)動(dòng)問題,允許他們調(diào)換專業(yè),最終他根據(jù)個(gè)人興趣發(fā)展,申請(qǐng)從圖像處理方向轉(zhuǎn)到語音識(shí)別的技術(shù)方向上。從那時(shí)候開始,賈磊就開始了他近20年的語音技術(shù)追求之旅。

短暫創(chuàng)業(yè)讓賈磊明白了伙伴間的“可依賴”關(guān)系

賈磊曾在2016年有過一段短暫的創(chuàng)業(yè)經(jīng)歷,談及創(chuàng)業(yè)帶給他的最大收獲,賈磊坦言,創(chuàng)業(yè)使他懂得了創(chuàng)業(yè)伙伴之間需要的是“可依賴”,而不是簡(jiǎn)單的“可信賴”。大家因?yàn)樾刨囎叩揭黄穑靶刨嚒敝皇潜舜私Y(jié)緣的開始。創(chuàng)業(yè)伙伴們之間需要維護(hù)的是一種可依賴關(guān)系,這種關(guān)系需要長(zhǎng)期存在,是一個(gè)過程。創(chuàng)業(yè)過程中,經(jīng)常舍死忘生,人力物力財(cái)力都有限,大家各自需要 120% 的投入解決眼前的問題。大家需要把后背交給對(duì)方,無條件的信任對(duì)方。大家背靠背的去戰(zhàn)斗,背靠背的一起拼。每個(gè)人都拼死守住自己前方的戰(zhàn)場(chǎng),把自己的后背托付給一起創(chuàng)業(yè)的伙伴和兄弟。一個(gè)人敗了,其實(shí)也是大家都敗了,再說誰的責(zé)任已經(jīng)毫無意義。創(chuàng)業(yè)會(huì)讓人更加認(rèn)識(shí)到團(tuán)隊(duì)協(xié)作的價(jià)值和團(tuán)隊(duì)的作用。除了對(duì)創(chuàng)業(yè)伙伴之間的關(guān)系理解外,創(chuàng)業(yè)帶給賈磊最大的沖擊是對(duì)資本的敬畏。之前一直在大公司打工做技術(shù),從來沒有意識(shí)到資本對(duì)于技術(shù)發(fā)展的可持續(xù)是如此的重要。經(jīng)過創(chuàng)業(yè)之后,他深刻的理解到,技術(shù)要想有進(jìn)步,不單單是技術(shù)人員的個(gè)人努力,更重要的是技術(shù)人員所屬平臺(tái)的持續(xù)長(zhǎng)期投入。這些投入不單單是技術(shù)人員的工資、實(shí)驗(yàn)以及各種研發(fā)要件的投入,更為具體的是技術(shù)應(yīng)用場(chǎng)景的投入,后者的投入更為巨大。因此創(chuàng)業(yè)之后再回到百度,賈磊更加感恩,百度的長(zhǎng)期不計(jì)回報(bào)的投入,才讓語音技術(shù)這個(gè)小草,在百度內(nèi)能夠長(zhǎng)成參天大樹。賈磊個(gè)人也從語音技術(shù)的普通專業(yè)技術(shù)人才,變成語音行業(yè)的技術(shù)領(lǐng)軍人物。

如何理解語音交互認(rèn)知本源

創(chuàng)業(yè)回到百度后,賈磊從之前側(cè)重語音算法技術(shù)創(chuàng)新,變成算法創(chuàng)新和產(chǎn)業(yè)拓展兼顧。也許是認(rèn)識(shí)到了資本對(duì)于技術(shù)的推動(dòng)作用,賈磊要求團(tuán)隊(duì)成員都要有成本意識(shí)和營(yíng)收意識(shí)(當(dāng)然技術(shù)團(tuán)隊(duì)的營(yíng)收都是概念上的,而不都是絕對(duì)實(shí)際的營(yíng)業(yè)流水),都要具備業(yè)務(wù)整體推進(jìn)能力,而不是單體算法創(chuàng)新。這也是他們投入做百度鴻鵠芯片的一個(gè)背景。講這些乍一聽,好像和人類認(rèn)知沒有關(guān)系,但是真正的把技術(shù)應(yīng)用到實(shí)際的應(yīng)用過程,賈磊越來越發(fā)現(xiàn),人類的認(rèn)知過程,不是一個(gè)簡(jiǎn)單的學(xué)科劃分過程。不是說學(xué)語音的就只解決語音的認(rèn)知,很多時(shí)候認(rèn)知是視覺、聽覺、理解一體化的一個(gè)過程,比如任何人交流中的肢體語言,就對(duì)人的意圖理解起到舉足輕重的作用,再比如語義理解過程和語音識(shí)別過程,在具體的產(chǎn)業(yè)應(yīng)用中,是密不可分的。學(xué)科劃分有邊界,但是人的認(rèn)知本源可能是一體的。解決語音交互的問題,不能單單從語音技術(shù)出發(fā),要放在產(chǎn)業(yè)應(yīng)用中,語音、圖像和NLP一體化的規(guī)劃和解決問題。

時(shí)間就像海綿里的水,努力擠才能平衡工作和家庭

賈磊曾在2015年榮獲全國(guó)勞模稱號(hào)(互聯(lián)網(wǎng)業(yè)首位全國(guó)勞動(dòng)模范),可以想見工作強(qiáng)度非常大,關(guān)于怎樣平衡工作和家庭,他認(rèn)為互聯(lián)網(wǎng)的工作強(qiáng)度都很大,互聯(lián)網(wǎng)工作的朋友們都犧牲了很多自己的生活休息時(shí)間?!拔覀€(gè)人而言和從事互聯(lián)網(wǎng)行業(yè)的伙伴們一樣,都是全身心的投入工作,家庭生活感覺確實(shí)參與的少一些。陪孩子的時(shí)間也比較少,有時(shí)候工作忙了,早晨一大早出來,晚上很晚回去,回去后孩子也早就睡了。早晚兩頭都見不到孩子,非常想她。每次見到孩子沖著我笑的小臉,我都覺得很自責(zé)。如果不是很忙的話,我都盡量早晨早一點(diǎn)起來。陪她吃早飯,送她上學(xué)。上學(xué)路上,我會(huì)教她看紅綠燈、走斑馬線以及避讓綠燈時(shí)候右轉(zhuǎn)的車輛。之后,我趕緊開車奔向公司,正好能趕上大清早開始工作。我覺得時(shí)間就像海綿里面的水,只要你使勁擠,總是能擠出來的。不要錯(cuò)過陪伴孩子長(zhǎng)大的時(shí)間,他們長(zhǎng)大的很快,一晃就不再需要我們的陪伴了?!?

(下)

上篇我們聊到了賈磊老師與智能語音技術(shù)的情結(jié),下篇我們將著重從技術(shù)側(cè)和你聊聊智能語音的過去、現(xiàn)在和未來,干貨滿滿。

智能語音行業(yè)發(fā)展歷程解析

IBM ViaVoice 時(shí)代的語音技術(shù)

語音行業(yè)在2000年左右,迎來了第一個(gè)產(chǎn)業(yè)高潮,也就是IBM的ViaVoice 語音錄入軟件。當(dāng)時(shí)人們把這個(gè)軟件安裝到PC機(jī)器上,就可以在計(jì)算機(jī)前面朗讀報(bào)紙或者新聞內(nèi)容,或者錄入一些簡(jiǎn)單的日常用語,識(shí)別率也還不錯(cuò)。于是工業(yè)界有了一次大規(guī)模連續(xù)語音識(shí)別的產(chǎn)業(yè)化應(yīng)用的熱潮。當(dāng)時(shí),ViaVoice時(shí)代的語音技術(shù)還是以HMM建模和混合高斯系統(tǒng) (GMM) 為聲學(xué)建模核心的建模技術(shù),語言模型采用的是基于 Ngram 的統(tǒng)計(jì)語言模型。因?yàn)?PC 上的內(nèi)存限制,語言模型體積也只有幾十 M。另外,當(dāng)時(shí)可以獲得的文本語料也是有限的,所以語言模型能覆蓋的內(nèi)容范圍很小,當(dāng)時(shí)主要集中在新聞報(bào)紙和日常用語領(lǐng)域。因?yàn)?HMM 系統(tǒng)和混合高斯系統(tǒng)建模能力有限,這時(shí)的連續(xù)語音聲學(xué)訓(xùn)練語料庫也就只有數(shù)百小時(shí)。這個(gè)時(shí)候的語音識(shí)別系統(tǒng)對(duì)說話方式和口音的要求也很嚴(yán)格,說話方式必須是朗讀方式,口音也要求必須是標(biāo)準(zhǔn)普通話,否則,識(shí)別率迅速下降。很快的,人們發(fā)現(xiàn) ViaVoice 難以滿足人們?cè)?PC 上把聲音轉(zhuǎn)成文字的產(chǎn)業(yè)需要。慢慢地,ViaVoice 的產(chǎn)業(yè)熱情就逐漸降溫了。

早期Windows上的ViaVoice軟件

在2003年賈磊畢業(yè)的時(shí)候,基本上人們對(duì)于語音輸入的產(chǎn)業(yè)期望已經(jīng)很低了,各大公司都降低了語音技術(shù)的投入和預(yù)期。賈磊剛畢業(yè)就立刻迎來了語音技術(shù)的第一個(gè)低潮期,當(dāng)時(shí)很多做語音專業(yè)的學(xué)生都轉(zhuǎn)換方向,不少人做語音也是選擇留校,而不是工業(yè)屆。當(dāng)時(shí)國(guó)內(nèi)各大公司比較多見的語音需求是手機(jī)上的數(shù)字和人名撥號(hào)系統(tǒng)、以及車載語音導(dǎo)航等嵌入式產(chǎn)品研發(fā),技術(shù)也大都集中在設(shè)備端側(cè)的單通道語音識(shí)別或者是語音合成。技術(shù)上講,這些應(yīng)用都是嵌入式孤立詞語音識(shí)別系統(tǒng),其特點(diǎn)是只能識(shí)別特定的指令詞和句式。之后的幾年,除了零星的嵌入式設(shè)備應(yīng)用外,語音技術(shù)在工業(yè)界的拓展乏陳可新,語音產(chǎn)業(yè)持續(xù)低迷。

語音技術(shù)的產(chǎn)業(yè)應(yīng)用迎來第二波高潮

痛苦的日子總算沒有太長(zhǎng)。在2007年,微軟公司收購語音識(shí)別技術(shù)企業(yè)Tellme Networks,并開始組建自己的語音團(tuán)隊(duì),語音技術(shù)的產(chǎn)業(yè)應(yīng)用又重新回到大公司的關(guān)注熱點(diǎn)中。很快,谷歌于2008年在美國(guó)發(fā)布了英文語音搜索服務(wù)Voice Search,并應(yīng)用于Android、諾基亞S60、黑莓、iPhone 等多個(gè)系列的手機(jī)。之后,谷歌又在 2009 年發(fā)布了中文語音搜索,語音的產(chǎn)業(yè)應(yīng)用迎來了新一波高潮。這一波熱潮的核心特點(diǎn)是以互聯(lián)網(wǎng)需求和實(shí)現(xiàn)為基礎(chǔ),此時(shí)模型處在云端,所以體積可以更大。例如語言模型,由于位于云端,語言模型體積可以達(dá)到上G,這是之前2000年左右的ViaVoice 語音系統(tǒng)所不可能達(dá)到的(2000年的比較好的PC計(jì)算機(jī)內(nèi)存才256M,那是語言模型位于終端,也只有幾十M)。語言模型位于云端后,熱詞新詞的信息更新也更加及時(shí),同時(shí)大的模型體積意味著對(duì)支持的語言領(lǐng)域更加廣泛。同時(shí),技術(shù)上雖然聲學(xué)模型仍然是以 HMM 框架 GMM 建模為主體,但是可以采用更多更大的訓(xùn)練語料。數(shù)千小時(shí)乃至上萬小時(shí)的聲學(xué)訓(xùn)練語料庫已經(jīng)開始進(jìn)入工業(yè)界。因此從 2000 年到 2010 年左右的十年期間,雖然語音識(shí)別的核心算法技術(shù)仍然是 HMM、GMM 和 Ngram 統(tǒng)計(jì)語言模型,但是因?yàn)榛ヂ?lián)網(wǎng)技術(shù)的引入,可以采用云端體積更大的聲學(xué)模型和語言模型,訓(xùn)練這些模型的語料庫也顯著增加,最終導(dǎo)致語音交互的用戶體驗(yàn)得到很大提升,語音技術(shù)的云端應(yīng)用逐漸開始流行。

深度學(xué)習(xí)首次應(yīng)用語音識(shí)別的系統(tǒng)框圖

2011年, 微軟的鄧力和俞棟兩位學(xué)者通力合作, 把深度學(xué)習(xí)技術(shù)應(yīng)用于工業(yè)級(jí)的大詞匯量連續(xù)語音識(shí)別實(shí)驗(yàn), 獲得相對(duì)于傳統(tǒng)基線系統(tǒng) 23% 的顯著提升,這標(biāo)志著語音識(shí)別技術(shù)最先迎來深度學(xué)習(xí)革命。深度學(xué)習(xí)應(yīng)用于語音識(shí)別,最初的整體建??蚣苋匀皇?HMM,但是聲學(xué)輸出分布 GMM 模型被替換成了深度學(xué)習(xí) DNN 模型。這時(shí)候的語音識(shí)別系統(tǒng)是一種 HMM 和 DNN 混合 (hybrid) 的語音識(shí)別系統(tǒng)。隨著深度學(xué)習(xí)技術(shù)在語音技術(shù)中越來越深入的應(yīng)用,從 DNN 到 CNN,再到 CNN+LSTM,語音識(shí)別系統(tǒng)的字錯(cuò)誤率以每年 10%- 15% 的相對(duì)錯(cuò)誤率降低。再后來伴隨著 CTC 技術(shù)的引入,更大粒度的建模單元(WordPiece 模型,音節(jié)和字)開始逐漸越來越多的被采用,應(yīng)用于語音識(shí)別幾十年的 HMM 框架逐漸被淘汰。

語音識(shí)別技術(shù)進(jìn)入端到端時(shí)代

從 2015 年開始到 2020 年這段時(shí)間,注意力建模技術(shù)的研究,又讓語音識(shí)別技術(shù)開始進(jìn)入端到端的時(shí)代。2019 年之前,Attention(注意力) 技術(shù)早已經(jīng)廣泛應(yīng)用于 NLP、圖像等商業(yè)產(chǎn)品領(lǐng)域。但是語音識(shí)別領(lǐng)域,從 2015 年開始,實(shí)驗(yàn)室內(nèi)就廣泛進(jìn)行了基于 Attention 的聲學(xué)建模技術(shù),也獲得了廣泛的成功。國(guó)際上通常用于語音識(shí)別的注意力模型有兩種,一種是谷歌的以 LSTM 為基礎(chǔ)的 LAS(listening attention and spelling) 模型。另外一種是基于 self attention 的 transformer 模型。這兩種注意力模型在實(shí)驗(yàn)室的各種實(shí)驗(yàn)中,都能夠顯著提升語音識(shí)別系統(tǒng)的識(shí)別率,同時(shí)實(shí)現(xiàn)了一套深度學(xué)習(xí)模型,語音語言一體化的端到端建模。雖然注意力模型在實(shí)驗(yàn)室范圍內(nèi)獲得巨大成功,但是應(yīng)用于工業(yè)界的實(shí)際在線語音交互產(chǎn)品,還存在一系列的技術(shù)障礙。核心難題就是在線需要識(shí)別系統(tǒng)需要流式解碼,而注意力模型需要拿到整段語音才能進(jìn)行解碼,會(huì)造成用戶無法接受的識(shí)別延遲問題。所以注意力模型直到 2019 年初,都沒有在工業(yè)在線語音交互中使用注意力模型做語音識(shí)別的成功案例。2019年1月,百度發(fā)布率先發(fā)布了基于流式置信度建模技術(shù)的語音輸入法產(chǎn)品,首次提出流式多級(jí)截?cái)嗟淖⒁饬δP? (SMLTA),這是國(guó)際上注意力模型在在線語音識(shí)別領(lǐng)域的大規(guī)模工業(yè)應(yīng)用的首個(gè)成功案例。之后,流式注意力模型在學(xué)術(shù)界也開始進(jìn)入廣泛的研究。最近,語音識(shí)別應(yīng)用中的逐漸集中到流式的 self-attention 建模,包括流式的 transformer 等。人類對(duì)于語音識(shí)別的核心技術(shù)提升的腳步從來沒有停止過。

基于注意力機(jī)制的語音識(shí)別端到端建模的通用框架

2015-2020年期間,智能音箱產(chǎn)業(yè)在中國(guó)乃至世界范圍內(nèi),都得到巨大的發(fā)展和普及。在智能音箱使用場(chǎng)景下,目標(biāo)聲源距離拾音器較遠(yuǎn),致使目標(biāo)信號(hào)衰減嚴(yán)重,加之環(huán)境嘈雜干擾信號(hào)眾多,最終導(dǎo)致信噪比較低,語音識(shí)別性能較差。為了提升遠(yuǎn)場(chǎng)語音識(shí)別準(zhǔn)確率,一般會(huì)使用麥克風(fēng)陣列作為拾音器,然后利用數(shù)字信號(hào)處理領(lǐng)域的多通道語音信號(hào)處理技術(shù),增強(qiáng)目標(biāo)信號(hào),最終產(chǎn)生一路清晰信號(hào),送給后面的語音識(shí)別系統(tǒng)進(jìn)行語音識(shí)別。這時(shí)候數(shù)字處理信號(hào)系統(tǒng)和語音識(shí)別系統(tǒng)相互級(jí)聯(lián)是主流的遠(yuǎn)場(chǎng)語音識(shí)別技術(shù),這種級(jí)聯(lián)技術(shù)也成為第一代智能音箱遠(yuǎn)場(chǎng)語音交互技術(shù)的主流技術(shù)。隨后,語音學(xué)術(shù)界開始進(jìn)行一系列的技術(shù)創(chuàng)新,從數(shù)字信號(hào)處理到語音識(shí)別一體化的端到端建模成為熱點(diǎn)。這是一種創(chuàng)新的遠(yuǎn)場(chǎng)語音交互技術(shù),一套深度學(xué)習(xí)模型打穿數(shù)字信號(hào)處理和語音識(shí)別兩個(gè)領(lǐng)域。國(guó)際上,Google 最先試圖解決這個(gè)問題。谷歌的解決方案采用的深度學(xué)習(xí)模型結(jié)構(gòu),來自于類似于 filtering and sum 的數(shù)字信號(hào)處理思想,模型底部的結(jié)構(gòu)設(shè)計(jì),模擬了數(shù)字信號(hào)處理的多路麥克處理過程。在此之上,模型仍然是采用傳統(tǒng)的近場(chǎng)語音識(shí)別的深度學(xué)習(xí)模型。該模型直接建立了從遠(yuǎn)場(chǎng)語音多路信號(hào)到識(shí)別文字之間的端到端的進(jìn)行。百度團(tuán)隊(duì)針對(duì)遠(yuǎn)場(chǎng)語音識(shí)別的特殊需求,也提出了自己的基于復(fù)數(shù) CNN 的遠(yuǎn)場(chǎng)端到端建模方案,并大規(guī)模應(yīng)用于工業(yè)產(chǎn)品。

語音技術(shù)從之前的云端競(jìng)爭(zhēng)開始逐漸向端側(cè)芯片延伸

2020年左右的AI芯片的發(fā)展,也對(duì)語音交互行業(yè)產(chǎn)生了巨大的推動(dòng)作用。在AI技術(shù)快速普及的今天,算力已經(jīng)成為推動(dòng) AI 行業(yè)發(fā)展的根本核心力量。2011年微軟的科學(xué)家能夠把深度學(xué)習(xí)應(yīng)用于語音識(shí)別工業(yè)界,除了科學(xué)家的勤奮工作之外,更重要的背后的推手是GPU。沒有 GPU 的算力支持,就不可能一個(gè)月完成數(shù)千小時(shí)的 DNN 模型訓(xùn)練。從2011年至今,英偉達(dá)的股價(jià)已經(jīng)從十幾美金,暴漲了幾十倍。這一點(diǎn)充分證明了 AI 算力的價(jià)值,在語音識(shí)別行業(yè),遠(yuǎn)場(chǎng)識(shí)別的興起催生了 AI 語音芯片的發(fā)展。一顆芯片完成端側(cè)信號(hào)處理和喚醒成為一個(gè)明顯的市場(chǎng)需求。在智能音箱領(lǐng)域,這種 AI 語音芯片能夠顯著降低音箱的成本,并且提供更高精度的喚醒和識(shí)別能力。在汽車車載導(dǎo)航領(lǐng)域,AI 語音芯片可以保證主芯片的負(fù)載安全,提升駕駛安全。各大語音公司都開始推出自己的語音芯片,語音技術(shù)從之前的云端競(jìng)爭(zhēng)又開始逐漸的向端側(cè)芯片延伸。

2020 年百度語音技術(shù)成果盤點(diǎn)

智能語音交互系統(tǒng)是人工智能產(chǎn)業(yè)鏈的關(guān)鍵環(huán)節(jié),面對(duì)未來智能語音產(chǎn)業(yè)鏈的新需求,百度研發(fā)了新一代適合大規(guī)模工業(yè)化部署的全新端到端語音交互系統(tǒng),實(shí)現(xiàn)了語音交互全鏈路協(xié)同處理,軟硬件一體優(yōu)化,信號(hào)語音一體化建模,語音語言一體建模,語音語義一體交互,語音圖像多模態(tài)融合,全深度學(xué)習(xí)的語音識(shí)別、語音喚醒以及千人千面?zhèn)€性化語音合成等,其中重大技術(shù)創(chuàng)新如下。

1. Attention(注意力) 技術(shù)早已經(jīng)廣泛應(yīng)用于 NLP、圖像等商業(yè)產(chǎn)品領(lǐng)域,但是語音識(shí)別領(lǐng)域,從 2015 年開始,實(shí)驗(yàn)室內(nèi)就廣泛進(jìn)行了基于 Attention 的聲學(xué)建模技術(shù),也獲得了廣泛的成功,但是在語音識(shí)別最廣泛使用的語音交互領(lǐng)域,Attention 機(jī)制一直沒辦法應(yīng)用于工業(yè)產(chǎn)品。核心原因是語音識(shí)別的流式服務(wù)要求:語音必須分片傳輸?shù)椒?wù)器上,解碼過程也必須是分片解碼,用戶話音剛落,語音識(shí)別結(jié)果就要完成,這時(shí)候人的說話過程、語音分片上傳過程和語音識(shí)別的解碼過程三者都是并行的。這樣用戶話音一落,就可以拿到識(shí)別結(jié)果,用戶的絕對(duì)等待時(shí)間最短,用戶體驗(yàn)最佳。傳統(tǒng)注意力建模技術(shù)必須拿到全局語音之后,才開始做注意力特征抽取,然后再解碼,這樣一來解碼器過程的耗時(shí)就不能和語音識(shí)別的解碼過程同步起來,用戶等待時(shí)間就會(huì)很長(zhǎng),不滿足語音交互的實(shí)時(shí)性要求。

SMLTA: 百度流式多級(jí)截?cái)嘧⒁饬δP?2019 年 1 月發(fā)布)

2019 年 1 月,百度語音團(tuán)隊(duì)提出了流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA。該方案采用 CTC 模型和 SMLTA 模型相結(jié)合的辦法,利用 CTC 的 peak 對(duì)連續(xù)語音流進(jìn)行截?cái)?,然后在截?cái)嗟恼Z音流上做截?cái)嗟淖⒁饬δP?。這是全世界范圍內(nèi),第一次基于 Attention(注意力技術(shù)) 的在線語音識(shí)別服務(wù)的大規(guī)模上線。該技術(shù)顯著提升了線上語音交互的語音識(shí)別的準(zhǔn)確率,同時(shí)實(shí)現(xiàn)了語音語言的一體化建模,為云端語音識(shí)別技術(shù)的全面端側(cè)芯片化打下了基礎(chǔ)。2020 年,SMLTA 技術(shù)全面應(yīng)用于百度語音識(shí)別全線產(chǎn)品:語音輸入法、語音搜索、地圖語音交互、智能音箱、汽車導(dǎo)航、智能呼叫中心、會(huì)議在線翻譯等產(chǎn)品上,都能看到 SMLTA 技術(shù)對(duì)語音交互性能的持續(xù)提升。

2. 近些年隨著 5G 的萬物互聯(lián)概念的普及,中國(guó)社會(huì)對(duì)智能設(shè)備的遠(yuǎn)場(chǎng)語音交互需求日益增加。在遠(yuǎn)場(chǎng)環(huán)境下,目標(biāo)聲源距離拾音器較遠(yuǎn),致使目標(biāo)信號(hào)衰減嚴(yán)重,加之環(huán)境嘈雜干擾信號(hào)眾多,最終導(dǎo)致信噪比較低,語音識(shí)別性能較差。為了提升遠(yuǎn)場(chǎng)語音識(shí)別準(zhǔn)確率,一般會(huì)使用麥克風(fēng)陣列作為拾音器,然后利用數(shù)字信號(hào)處理領(lǐng)域的多通道語音信號(hào)處理技術(shù),增強(qiáng)目標(biāo)信號(hào),最終產(chǎn)生一路清晰信號(hào),送給后面的語音識(shí)別系統(tǒng)進(jìn)行語音識(shí)別。這時(shí)候數(shù)字處理信號(hào)系統(tǒng)和語音識(shí)別系統(tǒng)是級(jí)聯(lián)方式,數(shù)字信號(hào)處理系統(tǒng)是以信號(hào)的清晰度為優(yōu)化目標(biāo),語音識(shí)別聲學(xué)建模是以云識(shí)別率為建模目標(biāo),兩個(gè)系統(tǒng)優(yōu)化目標(biāo)不統(tǒng)一,錯(cuò)誤也會(huì)級(jí)聯(lián)放大,最終的交互體驗(yàn)相比于近場(chǎng)識(shí)別差很多。國(guó)際上,Google 試圖采用端到端建模技術(shù)解決這個(gè)問題,一套模型解決遠(yuǎn)場(chǎng)麥克陣列信號(hào)處理和語音識(shí)別聲學(xué)建模問題。谷歌的解決方案采用的深度學(xué)習(xí)模型結(jié)構(gòu),借鑒了數(shù)字信號(hào)處理領(lǐng)域的類似于 filtering and sum 的數(shù)字信號(hào)處理思想,模型結(jié)構(gòu)設(shè)計(jì)模擬經(jīng)典數(shù)字信號(hào)處理過程。這種借鑒使得深度學(xué)習(xí)進(jìn)行端到端建模更容易收斂,但是后期我們通過實(shí)驗(yàn)證明,這種借鑒嚴(yán)重影響了深度學(xué)習(xí)技術(shù)在該方向上的發(fā)揮和延伸,限制了深度學(xué)習(xí)模型的模型結(jié)構(gòu)的演變,制約了技術(shù)的創(chuàng)新和發(fā)展。

基于復(fù)數(shù) CNN 的語音增強(qiáng)和語音識(shí)別一體化的端到端建模

百度語音團(tuán)隊(duì)研發(fā)出完全不依賴于任何先驗(yàn)假設(shè)的信號(hào)、語音一體化的適合遠(yuǎn)場(chǎng)語音交互的深度學(xué)習(xí)建模技術(shù)。該深度學(xué)習(xí)模型以復(fù)數(shù) CNN 為核心,利用復(fù)數(shù) CNN 網(wǎng)絡(luò)挖掘生理信號(hào)本質(zhì)特征的特點(diǎn),采用復(fù)數(shù) CNN、復(fù)數(shù)全連接層以及 CNN 等多層網(wǎng)絡(luò),直接對(duì)原始的多通道語音信號(hào)進(jìn)行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息。在保留原始特征相位信息的前提下,同時(shí)實(shí)現(xiàn)了前端聲源定位、波束形成和增強(qiáng)特征提取。該模型底部 CNN 抽象出來的特征,直接送入百度獨(dú)有的端到端的流式多級(jí)的截?cái)嘧⒁饬δP椭?,從而?shí)現(xiàn)了從原始多路麥克信號(hào)到識(shí)別目標(biāo)文字的端到端一體化建模。整個(gè)網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則完全依賴于語音識(shí)別網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則來做,完全以識(shí)別率提升為目標(biāo)來做模型參數(shù)調(diào)優(yōu)。目前該方法已經(jīng)被集成到百度最新發(fā)布的百度鴻鵠芯片中。

百度鴻鵠芯片結(jié)構(gòu)圖

2020 年,百度在智能音箱、車載導(dǎo)航和智能電視控制方面,落地了百度鴻鵠語音芯片。研發(fā)了以遠(yuǎn)場(chǎng)語音交互為核心的鴻鵠芯片解決方案,一顆芯片解決遠(yuǎn)場(chǎng)陣列信號(hào)處理和語音喚醒的問題,打造了云端芯一體化的語音交互解決方案。百度鴻鵠語音芯片設(shè)計(jì),變革傳統(tǒng)芯片設(shè)計(jì)方法,推出 AI 算法即軟件定義芯片的全新設(shè)計(jì)思路。百度鴻鵠芯片采用雙核 Hifi4 架構(gòu)自定義指令集,2M 以上超大內(nèi)存,臺(tái)積電 40nm 工藝,在此硬件規(guī)格上,100mw 左右平均工作功耗,即可同時(shí)支持遠(yuǎn)場(chǎng)語音交互核心的陣列信號(hào)處理和語音喚醒能力,滿足車規(guī)可靠性標(biāo)準(zhǔn)。同時(shí),百度鴻鵠芯片為遠(yuǎn)場(chǎng)語音交互算法量身定制了芯片架構(gòu),完全契合 AI 算法需求的核內(nèi)內(nèi)存結(jié)構(gòu)設(shè)計(jì)、分級(jí)的內(nèi)存加載策略、依據(jù) AI 算法調(diào)教的 Cache 設(shè)計(jì)和靈活的雙核通信機(jī)制,最終實(shí)現(xiàn)了深度學(xué)習(xí)計(jì)算過程和數(shù)據(jù)加載的高度并行。百度鴻鵠芯片是中國(guó)行業(yè)內(nèi)唯一一顆能夠承載全部遠(yuǎn)場(chǎng)陣列信號(hào)處理和智能音箱喚醒技術(shù)的語音芯片,也已經(jīng)完成了業(yè)內(nèi)首個(gè)支持電視熄屏喚醒的 AI 芯片解決方案并實(shí)現(xiàn)工業(yè)產(chǎn)品落地。

百度鴻鵠芯片之后,賈磊團(tuán)隊(duì)又將整個(gè)語音交互的復(fù)雜算法、邏輯和數(shù)據(jù)模型耦合的語音交互技術(shù),利用百度全新研發(fā)的端到端語音建模技術(shù),抽象成多個(gè)單純的深度學(xué)習(xí)計(jì)算過程,從而可以幾乎在性能無損的情況下將整個(gè)語音識(shí)別過程從云端搬到客戶端?;谝陨纤悸返陌俣萨欩]芯片二代也正在緊鑼密鼓的研發(fā)中,一顆芯片解決遠(yuǎn)場(chǎng)語音識(shí)別和合成問題將不再遙遠(yuǎn)。5G 時(shí)代的云端定義語音交互功能,端側(cè)執(zhí)行語音交互功能,云端一體的語音交互,很快會(huì)成為現(xiàn)實(shí)。

百度智能語音全景圖

在語音技術(shù)的產(chǎn)業(yè)化過程中,賈磊認(rèn)為核心關(guān)鍵的要素是技術(shù)創(chuàng)新要把握產(chǎn)業(yè)需求,而不是閉門造車。比如百度的語音語言一體化的流式多級(jí)截?cái)嗟淖⒁饬<夹g(shù) (SMLTA),核心就是針對(duì)性的解決注意力(Attention)建模技術(shù)不能進(jìn)行流式識(shí)別的問題,后者是在線語音識(shí)別技術(shù)必須的關(guān)鍵要求。再比如百度研發(fā)鴻鵠芯片,核心就是解決一顆芯片集成遠(yuǎn)場(chǎng)信號(hào)處理和遠(yuǎn)場(chǎng)喚醒,從而提升智能音箱的遠(yuǎn)場(chǎng)交互體驗(yàn),降低智能音箱的成本。“文以載道”,技術(shù)提升的首要目標(biāo)是產(chǎn)品體驗(yàn)提升,而非純粹的學(xué)術(shù)創(chuàng)新。管理上要集中優(yōu)勢(shì)兵力優(yōu)先解決技術(shù)工業(yè)應(yīng)用時(shí)的痛點(diǎn)問題,要基于用戶感知體驗(yàn)提升去迭代技術(shù),而非單純的技術(shù)指標(biāo)提升。

端到端語音交互的技術(shù)挑戰(zhàn)和難點(diǎn)

賈磊認(rèn)為最大的挑戰(zhàn)是對(duì)跨學(xué)科端到端的模擬數(shù)據(jù)的生成和大規(guī)模工業(yè)訓(xùn)練的深度學(xué)習(xí)訓(xùn)練平臺(tái)的把握。端到端建模,目前越來越傾向于跨學(xué)科的端到端建模,這時(shí)候首先需要解決跨學(xué)科的數(shù)據(jù)模擬問題。每一個(gè)學(xué)科,都有一個(gè)學(xué)科假設(shè)的學(xué)科邊界。之前幾十年的研究成果,都是在學(xué)科邊界的假設(shè)范圍內(nèi)進(jìn)行的,所積累的各種訓(xùn)練數(shù)據(jù),也是基于學(xué)科邊界假設(shè)的。一旦學(xué)科邊界被打破,每個(gè)學(xué)科的假設(shè)都不成立了,訓(xùn)練數(shù)據(jù)往往需要重新積累。所以,通常需要用模擬的方法產(chǎn)生跨學(xué)科的端到端的訓(xùn)練數(shù)據(jù)。如何模擬跨學(xué)科的場(chǎng)景數(shù)據(jù),是端到端建模的第一個(gè)難題。端到端建模的第二個(gè)難題,是如何應(yīng)對(duì)數(shù)據(jù)倍增時(shí)候的深度學(xué)習(xí)訓(xùn)練,這些問題,對(duì)通常的語音團(tuán)隊(duì),會(huì)成為一個(gè)很大的挑戰(zhàn)。比如在做信號(hào)和聲學(xué)一體化建模的時(shí)候,要在近場(chǎng)語音識(shí)別建模的訓(xùn)練數(shù)據(jù)量上,疊加一個(gè)遠(yuǎn)場(chǎng)信號(hào)的聲場(chǎng)模擬。這樣的話,模擬的數(shù)據(jù)量會(huì)有一個(gè)成倍的增加。考慮到大規(guī)模工業(yè)訓(xùn)練的要求,上面提到的模擬數(shù)據(jù)的生成,還通常需要在 GPU 上進(jìn)行。同時(shí),數(shù)據(jù)成倍增加后,還要在 GPU 上進(jìn)行高速有效的訓(xùn)練。這里面對(duì)深度學(xué)習(xí)訓(xùn)練平臺(tái)的把握是至關(guān)重要的,否則跨學(xué)科端到端建模時(shí)候的訓(xùn)練數(shù)據(jù)模擬和訓(xùn)練速度優(yōu)化中任何一個(gè)問題,都會(huì)是壓垮端到端建模的最后一根稻草。

解決上述問題的核心是要有對(duì)深度學(xué)習(xí)算法技術(shù)和工程技術(shù)都要有深刻的理解,對(duì)深度框架有全面的把握。有能力修改深度學(xué)習(xí)框架的內(nèi)核,解決 GPU 上的訓(xùn)練加速、內(nèi)存優(yōu)化問題和算法調(diào)優(yōu)的問題。如果只是泛泛的理解國(guó)外開源框架的算法技術(shù),只是跑腳本訓(xùn)練模型,那么再遇到上述訓(xùn)練數(shù)據(jù)模擬和訓(xùn)練速度優(yōu)化的時(shí)候,就無從下手,最終難以解決跨學(xué)科的端到端建模問題。

AI 發(fā)展是否進(jìn)入瓶頸期?如何破局 AI 落地難?

賈磊認(rèn)為,人工智能近 10 年的發(fā)展是伴隨著 GPU 算力、數(shù)據(jù)增加和深度學(xué)習(xí)算法創(chuàng)新的發(fā)展而發(fā)展的。目前訓(xùn)練數(shù)據(jù)的增加和深度學(xué)習(xí)算法的創(chuàng)新速度確實(shí)是變慢了,但是AI算力這個(gè)維度,還有很大的增長(zhǎng)潛力。無論是云端的GPU服務(wù)器,還是端側(cè)的AI芯片,都有很大的增長(zhǎng)空間。2018 年,OpenAI 的研究人員發(fā)布了一份分析報(bào)告顯示,從2012年到 2018 年,在最大規(guī)模的人工智能訓(xùn)練中使用的算力增長(zhǎng)了30多萬倍,3.5 個(gè)月的時(shí)間就翻一番,遠(yuǎn)遠(yuǎn)超過了摩爾定律的速度。未來5年,GPU的算力將達(dá)到CPU算力的1000倍。這些都將對(duì)語音交互產(chǎn)生巨大的推動(dòng)作用。比如端側(cè) AI 芯片的發(fā)展,很快將使得端側(cè)芯片具備完成和現(xiàn)在云端服務(wù)一樣的語音交互能力,在一些場(chǎng)合比如汽車智能座艙等領(lǐng)域,語音交互的主體都將是由端上芯片在不需要聯(lián)網(wǎng)情況下獨(dú)立完成,大大提升了汽車行駛過程中的語音交互的可靠性和流暢性。

GPU 算力增長(zhǎng)趨勢(shì)圖

賈磊認(rèn)為智能語音交互技術(shù)落地作為 AI 落地的一個(gè)關(guān)鍵組成部分,破局的關(guān)鍵點(diǎn)是從簡(jiǎn)單的識(shí)別和合成的能力提升,到更加場(chǎng)景化聚焦發(fā)展、更加綜合性發(fā)展。之前我們提到的 AI 能力提升,都是單體的 AI 技術(shù),比如語音識(shí)別技術(shù)、語音合成技術(shù)等單體技術(shù)的學(xué)科發(fā)展。但是綜合語音、視覺、NLP 和知識(shí)圖譜等 AI 綜合能力,在特定場(chǎng)景下的 AI 體驗(yàn)打磨,將使得 AI 技術(shù)從“舊時(shí)王謝堂前燕,飛入尋常百姓家”,這是以語音交互為代表 AI 能力破局的關(guān)鍵。語音交互的發(fā)展也不單單是單一的從語音這個(gè)維度進(jìn)行發(fā)展,而是在具體場(chǎng)景下,綜合視覺、語義、對(duì)話、通訊等技術(shù)在內(nèi)的綜合性技術(shù)。在這一發(fā)展過程中,場(chǎng)景化數(shù)據(jù)的積累和用戶反饋的收集將成為成敗的關(guān)鍵。賈磊認(rèn)為語音交互的算法能力,針對(duì)特定的個(gè)人和特定的場(chǎng)景,做充分的打磨,應(yīng)該是能夠滿足特定需要的?!按蚰ァ钡倪^程,需要我們更清楚的理解用戶的場(chǎng)景,同時(shí)反饋個(gè)性化場(chǎng)景化數(shù)據(jù)。未來語音交互的成熟,一定是伴隨著個(gè)性化和場(chǎng)景化的聚焦而實(shí)現(xiàn)的。

談?wù)勑鹿谝咔榻o AI 行業(yè)帶來的影響

賈磊認(rèn)為,類似新冠疫情這樣的事件,確實(shí)是對(duì)人類社會(huì)的生產(chǎn)和生活產(chǎn)生了巨大的影響。新冠疫情將使得非接觸生產(chǎn)和生活成為社會(huì)生活的必要組織部分。為非接觸生產(chǎn)和生活服務(wù)的一些語音交互技術(shù),也會(huì)得到持續(xù)的發(fā)展。比如音視頻通訊技術(shù),在疫情時(shí)代就得到了很大的發(fā)展,伴隨音視頻通訊的在線翻譯需求就會(huì)繼續(xù)增加。在線會(huì)議內(nèi)容的實(shí)時(shí)識(shí)別和翻譯系統(tǒng)、音視頻通訊的內(nèi)容分析和挖掘等也都會(huì)蓬勃發(fā)展。這些都對(duì)語音技術(shù)的發(fā)展提出了更高的需求。全社會(huì)應(yīng)對(duì)疫情,很多也是靠科技手段,語音技術(shù)在這個(gè)過程中,也起到了很大的作用,比如語音自動(dòng)外呼業(yè)務(wù),對(duì)于落實(shí)人員狀態(tài),溝通緊急信息,都起到了不可缺少的作用。

智能語音未來發(fā)展趨勢(shì)展望

在談及智能語音未來發(fā)展時(shí),賈磊認(rèn)為,基于 AI 語音芯片的端側(cè)語音交互、多模態(tài)語音交互以及個(gè)性化語音交互是他個(gè)人比較看中的語音交互的發(fā)展方向。以上 3 個(gè)領(lǐng)域是他覺得很有希望的語音技術(shù)發(fā)展方向。百度語音團(tuán)隊(duì)會(huì)發(fā)展端側(cè) AI 語音芯片,端側(cè)執(zhí)行語音交互,云端定義語音交互,沿著視覺語音一體化和語音語義一體化的發(fā)展方向發(fā)展多模態(tài)交互技術(shù)。針對(duì)語音交互的環(huán)境噪音和個(gè)體口音差異,發(fā)展個(gè)性化語音識(shí)別、個(gè)性化語音合成和情感語音合成等個(gè)性化相關(guān)的語音交互技術(shù),讓語音技術(shù)不但可靠流暢還同時(shí)具備親情和溫暖。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews