探境科技發(fā)布首個離在線一體語音識別解決方案,自研AI降噪算法提高30%識別準確率
2019-12-28 12:05:48AI云資訊690
AI芯片近年來快速發(fā)展,眾多企業(yè)紛紛布局,新型芯片架構不斷涌現(xiàn),多個場景下的智能芯片應用正在加快部署。其中,智能音箱的火熱以及背后語音交互生態(tài)的成熟,帶動了越來越多設備的語音化、智能化,并迎來了AI語音芯片的高速增長。
近日,探境科技就一舉發(fā)布了由低功耗系列、主打系列、旗艦系列組成的三大系列、六顆AI芯片組成的產(chǎn)品矩陣。值得一提的是,在產(chǎn)品矩陣中,探境發(fā)布了具備AI雙麥降噪功能的語音識別方案,即Voitist音旋風612,以及首個離在線一體的語音識別解決方案:Voitist音旋風621。
在接受獵云網(wǎng)等媒體采訪時,探境科技技術副總裁李同治表示,雖然AI語音芯片快速崛起,但在語音控制技術層面仍面臨諸多挑戰(zhàn)。
例如,由于高噪聲、遠場識別環(huán)境造成低信噪比情況、由于非穩(wěn)態(tài)噪聲對于降噪算法產(chǎn)生影響、以及在語音識別期間,同時播放電視劇、音樂造成的多聲源問題。
如何解決復雜環(huán)境甚至嚴苛環(huán)境下的語音識別?探境科技通過以下幾大技術亮點進行了回答。
AI降噪+HONN,無懼家居噪音
在日常生活的一些典型的高噪聲使用場景中,如抽油煙機或者掃地機器人,噪聲最低也有70分貝;并且MIC也距離這些噪聲源非常近,而實際用戶往往距離MIC的距離會遠些,這些因素疊加會導致我們語音識別設備采集到的信噪比非常低。
信噪比,是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數(shù)。一般將信噪比低于15dB的稱為噪聲環(huán)境。信噪比越低,識別難度越大。
在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環(huán)節(jié)。想做好識別,首先要在降噪處理上下功夫。
注:圖片來自探境科技
探境自研的AI降噪算法基于深度學習,不僅能夠處理穩(wěn)態(tài)的噪聲,非穩(wěn)態(tài)的突發(fā)性噪聲也能很好的過濾。
據(jù)探境科技副總裁李同治介紹,為了驗證探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語音數(shù)據(jù)送到一個知名的云端公開語音識別引擎做了測試,降噪后比降噪前提高30%識別準確率。
在對聲音進行降噪處理之后,就進入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中,神經(jīng)網(wǎng)絡模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。
在傳統(tǒng)的語音識別算法里,用的最多的是全連接的操作,叫DNN/DTNN——目前,國內有多家語音識別芯片采用的都是DNN的方法。
相比較于全連接操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質特征。
探境將其計算機視覺中的一些經(jīng)驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經(jīng)網(wǎng)絡,即HONN(High Operation Neural Network)。
在高計算強度神經(jīng)網(wǎng)絡里,每一個處理單元變成了立體維度的,優(yōu)于平面上的處理,因此高計算強度神經(jīng)網(wǎng)絡的信息量和計算密度,也遠遠超過傳統(tǒng)DNN/DTNN的方法,帶來的直接效果是,多了一個維度的識別,性能提升是顯而易見的。
注:圖片來自探境科技
可以看出高計算強度的模型僅需要350k的存儲空間,而DNN需要1.6M的存儲空間。更低的存儲需求意味著我們可以使用存儲更少、成本更低的芯片來做語音識別。
同時DNN與HONN所需的算力相反,處理高強度模型單幀時,HONN需要超過幾百兆OPS,而一般的DNN模型需要個位數(shù)的算力。
兩者相差超過30倍。對于神經(jīng)網(wǎng)絡來說,模型所需的算力決定了模型識別率的上限。
相對安靜的環(huán)境下兩者之間差別不大,但是當信噪比進一步降低時,基于HONN的方法識別優(yōu)勢非常明顯。
正是依托于AI降噪技術+HONN神經(jīng)網(wǎng)絡,探境的Voitist音旋風611,可以覆蓋絕大部分的生活場景,無懼各種噪音干擾。
端到端雙麥加持,攻克0dB環(huán)境
然而信噪比還有一種更嚴苛的情況,即0dB和負dB,0dB意味著噪聲和信號強度一樣,甚至噪聲比語音信號還要強。
“生活中超強噪音在所難免,為了提升低這些場景下的識別率,還需要使用麥克風陣列來增強語音信號。探境在雙麥算法上有自己的獨門絕技—FCSP雙麥識別算法”,李同治介紹。
傳統(tǒng)的麥克風陣列處理算法有幾大缺點。
首先,在語音信號增強模塊,波束成形依賴于聲源定位(DOA),DOA依賴于單麥克喚醒詞檢測。遠場環(huán)境喚醒詞檢測使用單麥信號不用增強后的信號,會影響最終的喚醒率。
注:圖片來自探境科技
其次,傳統(tǒng)的陣列處理算法包含降噪、信號增強和識別多個環(huán)節(jié),這些環(huán)節(jié)并不以降低識別率為優(yōu)化目標,優(yōu)化目標為提高人耳聽覺的舒適度和最終的識別率并不完全等價,會出現(xiàn)不適配的情況。
再次,由于整套流程對麥克風以及電容元器件的一致性要求非常高,提高了物料成本。
“有時候大家在實驗室做得很好,但是量產(chǎn)后發(fā)現(xiàn)識別率變差,就是因為波束成形和聲源定位的要求高,一旦出現(xiàn)了波動,會影響識別效果”,李同治提到。
另外,波束成形算法原理是增強特定方向波束內的信號強度,衰減波束外的信號幅度。當干擾聲源和目標聲源方向非常接近的時候,兩者在同一個波束內,信號和噪聲同時被增強,無法提升信噪比。
因此,傳統(tǒng)的麥克風陣列處理算法效果并不理想。
“為了克服傳統(tǒng)分模塊語音增強算法的這些缺點,我們設計出了基于FCSP的端到端AI雙麥算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復數(shù)子空間投影算法的簡稱。
這個算法直接輸入陣列信號,輸出的是最終的識別結果,中間部分全部交給基于深度學習的AI算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化,避免了語音增強與語音識別模塊錯配的問題。
注:圖片來自探境科技
另外,在模型訓練期間,采取了“注意力增強”的學習方法,能夠靈敏的檢測到喚醒詞和命令詞,即使干擾信號與目標信號方向接近,也能靈敏的進行喚醒和識別。
“這個類似于在一個嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應過來?!崩钔巫隽艘粋€形象的比喻。
注:圖片來自探境科技
“端到端”是目前國際上最前沿的處理算法。一些大廠如亞馬遜、谷歌公司,也是通過類似的方法。據(jù)媒體報道,谷歌公司采用了Factored Model in Frequency的算法,相對錯誤率降低至16%,雙麥達到了傳統(tǒng)算法7麥的識別率。
探境科技采取了頻域復數(shù)子空間投影,抗噪性能強,在信噪比為0dB時,相對于傳統(tǒng)的處理算法,相對識別錯誤率降低超過20%。
通過AI語音算法+HONN神經(jīng)網(wǎng)絡模型來提升識別率,再通過FCSP“端到端”的雙麥處理算法簡化識別流程,降低最終識別錯誤率,探境的語音算法實現(xiàn)了跨越式的升級。
當然,AI芯片不可能脫離芯片只談算法。性能優(yōu)異的算法,一定需要算力強勁且通用性強的AI芯片來支持,才能展現(xiàn)出強悍的實力。
探境自研的SFA架構,以存儲驅動計算,具有能效比高、資源利用率高、通用性強等特點。在SFA架構上實現(xiàn)深度學習時,只需要一個較高層次的神經(jīng)網(wǎng)絡描述。
SFA的編譯器首先將這個神經(jīng)網(wǎng)絡進行全部融合,然后根據(jù)具體架構實現(xiàn)的規(guī)模產(chǎn)生一個統(tǒng)一的存儲流圖,再進行存儲節(jié)點的時空映射,最后根據(jù)各個節(jié)點之間的計算類型配置計算單元,組合起來形成一個統(tǒng)一的固件供SFA控制器使用。
這意味著SFA架構所采用的各種微觀和宏觀調度算法,比較“類CPU架構”采用的基于總線和指令集的映射方法,在近似存儲量、近似算力、近似外部存儲帶寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益。
“SFA(存儲優(yōu)先)架構是探境的產(chǎn)品基石,正是借助SFA的優(yōu)勢,我們的AI芯片產(chǎn)品才能‘裂變式’的推出,大大加快了探境的商業(yè)化落地速度。”探境CEO魯勇這樣評價SFA架構的意義。
多種產(chǎn)品規(guī)格,實現(xiàn)百萬級出貨
除了支持AI雙麥的Voitist音旋風612之外,還包括在離線一體的Voitist音旋風621、以及語音芯片的旗艦產(chǎn)品——可支持本地NLP的音旋風7系列。
探境目前擁有約30家合作伙伴,出貨量已達百萬級別。探境的戰(zhàn)略合作伙伴關系既有美的、海爾等智能家居制造的大廠,也有像世強科技這樣在垂直領域頗具影響力的渠道商。據(jù)透露知名智能家居制造商阿凡達智控也剛剛與探境達成合作。
注:圖片來自探境科技
據(jù)探境科技創(chuàng)始人&CEO魯勇透露,未來,探境還會將語音產(chǎn)品進行二次升級,推出更多在線離線一體化方案。
“探境不僅僅是一個語音芯片公司,而是一家語音、圖像整體結合的AI芯片公司。AI芯片的蛋糕非常大,探境希望可以聯(lián)合上下游一起,開發(fā)生態(tài),開放SDK和工具鏈,不僅僅是大家可以直接使用我們的產(chǎn)品,我們也希望有大量的合作伙伴,完成更多的場景開發(fā)。”魯勇表示。
另外,探境公布了首個圖像芯片的IPS/W高達800,是目前已知AI芯片中最高的。在已公布的發(fā)展戰(zhàn)略中,探境還瞄準了工業(yè)視覺、新零售、安防、輔助駕駛等市場。
據(jù)魯勇介紹,探境的圖像芯片在2019年Q4就已經(jīng)流片成功,圖像的某些領域甚至已經(jīng)開始產(chǎn)生營收了。
魯勇認為,AI芯片這一領域不像手機APP那樣,瞬間可以憑一款應用獲得數(shù)百萬的用戶,AI芯片更像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。
相關文章
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球對話
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案