精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

探境科技發(fā)布首個離在線一體語音識別解決方案,自研AI降噪算法提高30%識別準確率

2019-12-28 12:05:48AI云資訊690

AI芯片近年來快速發(fā)展,眾多企業(yè)紛紛布局,新型芯片架構不斷涌現(xiàn),多個場景下的智能芯片應用正在加快部署。其中,智能音箱的火熱以及背后語音交互生態(tài)的成熟,帶動了越來越多設備的語音化、智能化,并迎來了AI語音芯片的高速增長。

近日,探境科技就一舉發(fā)布了由低功耗系列、主打系列、旗艦系列組成的三大系列、六顆AI芯片組成的產(chǎn)品矩陣。值得一提的是,在產(chǎn)品矩陣中,探境發(fā)布了具備AI雙麥降噪功能的語音識別方案,即Voitist音旋風612,以及首個離在線一體的語音識別解決方案:Voitist音旋風621。

在接受獵云網(wǎng)等媒體采訪時,探境科技技術副總裁李同治表示,雖然AI語音芯片快速崛起,但在語音控制技術層面仍面臨諸多挑戰(zhàn)。

例如,由于高噪聲、遠場識別環(huán)境造成低信噪比情況、由于非穩(wěn)態(tài)噪聲對于降噪算法產(chǎn)生影響、以及在語音識別期間,同時播放電視劇、音樂造成的多聲源問題。

如何解決復雜環(huán)境甚至嚴苛環(huán)境下的語音識別?探境科技通過以下幾大技術亮點進行了回答。

AI降噪+HONN,無懼家居噪音

在日常生活的一些典型的高噪聲使用場景中,如抽油煙機或者掃地機器人,噪聲最低也有70分貝;并且MIC也距離這些噪聲源非常近,而實際用戶往往距離MIC的距離會遠些,這些因素疊加會導致我們語音識別設備采集到的信噪比非常低。

信噪比,是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數(shù)。一般將信噪比低于15dB的稱為噪聲環(huán)境。信噪比越低,識別難度越大。

在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環(huán)節(jié)。想做好識別,首先要在降噪處理上下功夫。

注:圖片來自探境科技

探境自研的AI降噪算法基于深度學習,不僅能夠處理穩(wěn)態(tài)的噪聲,非穩(wěn)態(tài)的突發(fā)性噪聲也能很好的過濾。

據(jù)探境科技副總裁李同治介紹,為了驗證探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語音數(shù)據(jù)送到一個知名的云端公開語音識別引擎做了測試,降噪后比降噪前提高30%識別準確率。

在對聲音進行降噪處理之后,就進入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中,神經(jīng)網(wǎng)絡模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。

在傳統(tǒng)的語音識別算法里,用的最多的是全連接的操作,叫DNN/DTNN——目前,國內有多家語音識別芯片采用的都是DNN的方法。

相比較于全連接操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質特征。

探境將其計算機視覺中的一些經(jīng)驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經(jīng)網(wǎng)絡,即HONN(High Operation Neural Network)。

在高計算強度神經(jīng)網(wǎng)絡里,每一個處理單元變成了立體維度的,優(yōu)于平面上的處理,因此高計算強度神經(jīng)網(wǎng)絡的信息量和計算密度,也遠遠超過傳統(tǒng)DNN/DTNN的方法,帶來的直接效果是,多了一個維度的識別,性能提升是顯而易見的。

注:圖片來自探境科技

可以看出高計算強度的模型僅需要350k的存儲空間,而DNN需要1.6M的存儲空間。更低的存儲需求意味著我們可以使用存儲更少、成本更低的芯片來做語音識別。

同時DNN與HONN所需的算力相反,處理高強度模型單幀時,HONN需要超過幾百兆OPS,而一般的DNN模型需要個位數(shù)的算力。

兩者相差超過30倍。對于神經(jīng)網(wǎng)絡來說,模型所需的算力決定了模型識別率的上限。

相對安靜的環(huán)境下兩者之間差別不大,但是當信噪比進一步降低時,基于HONN的方法識別優(yōu)勢非常明顯。

正是依托于AI降噪技術+HONN神經(jīng)網(wǎng)絡,探境的Voitist音旋風611,可以覆蓋絕大部分的生活場景,無懼各種噪音干擾。

端到端雙麥加持,攻克0dB環(huán)境

然而信噪比還有一種更嚴苛的情況,即0dB和負dB,0dB意味著噪聲和信號強度一樣,甚至噪聲比語音信號還要強。

“生活中超強噪音在所難免,為了提升低這些場景下的識別率,還需要使用麥克風陣列來增強語音信號。探境在雙麥算法上有自己的獨門絕技—FCSP雙麥識別算法”,李同治介紹。

傳統(tǒng)的麥克風陣列處理算法有幾大缺點。

首先,在語音信號增強模塊,波束成形依賴于聲源定位(DOA),DOA依賴于單麥克喚醒詞檢測。遠場環(huán)境喚醒詞檢測使用單麥信號不用增強后的信號,會影響最終的喚醒率。

注:圖片來自探境科技

其次,傳統(tǒng)的陣列處理算法包含降噪、信號增強和識別多個環(huán)節(jié),這些環(huán)節(jié)并不以降低識別率為優(yōu)化目標,優(yōu)化目標為提高人耳聽覺的舒適度和最終的識別率并不完全等價,會出現(xiàn)不適配的情況。

再次,由于整套流程對麥克風以及電容元器件的一致性要求非常高,提高了物料成本。

“有時候大家在實驗室做得很好,但是量產(chǎn)后發(fā)現(xiàn)識別率變差,就是因為波束成形和聲源定位的要求高,一旦出現(xiàn)了波動,會影響識別效果”,李同治提到。

另外,波束成形算法原理是增強特定方向波束內的信號強度,衰減波束外的信號幅度。當干擾聲源和目標聲源方向非常接近的時候,兩者在同一個波束內,信號和噪聲同時被增強,無法提升信噪比。

因此,傳統(tǒng)的麥克風陣列處理算法效果并不理想。

“為了克服傳統(tǒng)分模塊語音增強算法的這些缺點,我們設計出了基于FCSP的端到端AI雙麥算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復數(shù)子空間投影算法的簡稱。

這個算法直接輸入陣列信號,輸出的是最終的識別結果,中間部分全部交給基于深度學習的AI算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化,避免了語音增強與語音識別模塊錯配的問題。

注:圖片來自探境科技

另外,在模型訓練期間,采取了“注意力增強”的學習方法,能夠靈敏的檢測到喚醒詞和命令詞,即使干擾信號與目標信號方向接近,也能靈敏的進行喚醒和識別。

“這個類似于在一個嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應過來?!崩钔巫隽艘粋€形象的比喻。

注:圖片來自探境科技

“端到端”是目前國際上最前沿的處理算法。一些大廠如亞馬遜、谷歌公司,也是通過類似的方法。據(jù)媒體報道,谷歌公司采用了Factored Model in Frequency的算法,相對錯誤率降低至16%,雙麥達到了傳統(tǒng)算法7麥的識別率。

探境科技采取了頻域復數(shù)子空間投影,抗噪性能強,在信噪比為0dB時,相對于傳統(tǒng)的處理算法,相對識別錯誤率降低超過20%。

通過AI語音算法+HONN神經(jīng)網(wǎng)絡模型來提升識別率,再通過FCSP“端到端”的雙麥處理算法簡化識別流程,降低最終識別錯誤率,探境的語音算法實現(xiàn)了跨越式的升級。

當然,AI芯片不可能脫離芯片只談算法。性能優(yōu)異的算法,一定需要算力強勁且通用性強的AI芯片來支持,才能展現(xiàn)出強悍的實力。

探境自研的SFA架構,以存儲驅動計算,具有能效比高、資源利用率高、通用性強等特點。在SFA架構上實現(xiàn)深度學習時,只需要一個較高層次的神經(jīng)網(wǎng)絡描述。

SFA的編譯器首先將這個神經(jīng)網(wǎng)絡進行全部融合,然后根據(jù)具體架構實現(xiàn)的規(guī)模產(chǎn)生一個統(tǒng)一的存儲流圖,再進行存儲節(jié)點的時空映射,最后根據(jù)各個節(jié)點之間的計算類型配置計算單元,組合起來形成一個統(tǒng)一的固件供SFA控制器使用。

這意味著SFA架構所采用的各種微觀和宏觀調度算法,比較“類CPU架構”采用的基于總線和指令集的映射方法,在近似存儲量、近似算力、近似外部存儲帶寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益。

“SFA(存儲優(yōu)先)架構是探境的產(chǎn)品基石,正是借助SFA的優(yōu)勢,我們的AI芯片產(chǎn)品才能‘裂變式’的推出,大大加快了探境的商業(yè)化落地速度。”探境CEO魯勇這樣評價SFA架構的意義。

多種產(chǎn)品規(guī)格,實現(xiàn)百萬級出貨

除了支持AI雙麥的Voitist音旋風612之外,還包括在離線一體的Voitist音旋風621、以及語音芯片的旗艦產(chǎn)品——可支持本地NLP的音旋風7系列。

探境目前擁有約30家合作伙伴,出貨量已達百萬級別。探境的戰(zhàn)略合作伙伴關系既有美的、海爾等智能家居制造的大廠,也有像世強科技這樣在垂直領域頗具影響力的渠道商。據(jù)透露知名智能家居制造商阿凡達智控也剛剛與探境達成合作。

注:圖片來自探境科技

據(jù)探境科技創(chuàng)始人&CEO魯勇透露,未來,探境還會將語音產(chǎn)品進行二次升級,推出更多在線離線一體化方案。

“探境不僅僅是一個語音芯片公司,而是一家語音、圖像整體結合的AI芯片公司。AI芯片的蛋糕非常大,探境希望可以聯(lián)合上下游一起,開發(fā)生態(tài),開放SDK和工具鏈,不僅僅是大家可以直接使用我們的產(chǎn)品,我們也希望有大量的合作伙伴,完成更多的場景開發(fā)。”魯勇表示。

另外,探境公布了首個圖像芯片的IPS/W高達800,是目前已知AI芯片中最高的。在已公布的發(fā)展戰(zhàn)略中,探境還瞄準了工業(yè)視覺、新零售、安防、輔助駕駛等市場。

據(jù)魯勇介紹,探境的圖像芯片在2019年Q4就已經(jīng)流片成功,圖像的某些領域甚至已經(jīng)開始產(chǎn)生營收了。

魯勇認為,AI芯片這一領域不像手機APP那樣,瞬間可以憑一款應用獲得數(shù)百萬的用戶,AI芯片更像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。

相關文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews