最好看的最新高清中文视频,最近免费中文字幕中文高清

AI芯片近年來快速發(fā)展，眾多企業(yè)紛紛布局，新型芯片架構不斷涌現(xiàn)，多個場景下的智能芯片應用正在加快部署。其中，智能音箱的火熱以及背后語音交互生態(tài)的成熟，帶動了越來越多設備的語音化、智能化，并迎來了AI語音芯片的高速增長。

近日，探境科技就一舉發(fā)布了由低功耗系列、主打系列、旗艦系列組成的三大系列、六顆AI芯片組成的產(chǎn)品矩陣。值得一提的是，在產(chǎn)品矩陣中，探境發(fā)布了具備AI雙麥降噪功能的語音識別方案，即Voitist音旋風612，以及首個離在線一體的語音識別解決方案：Voitist音旋風621。

在接受獵云網(wǎng)等媒體采訪時，探境科技技術副總裁李同治表示，雖然AI語音芯片快速崛起，但在語音控制技術層面仍面臨諸多挑戰(zhàn)。

例如，由于高噪聲、遠場識別環(huán)境造成低信噪比情況、由于非穩(wěn)態(tài)噪聲對于降噪算法產(chǎn)生影響、以及在語音識別期間，同時播放電視劇、音樂造成的多聲源問題。

如何解決復雜環(huán)境甚至嚴苛環(huán)境下的語音識別？探境科技通過以下幾大技術亮點進行了回答。

AI降噪+HONN，無懼家居噪音

在日常生活的一些典型的高噪聲使用場景中，如抽油煙機或者掃地機器人，噪聲最低也有70分貝；并且MIC也距離這些噪聲源非常近，而實際用戶往往距離MIC的距離會遠些，這些因素疊加會導致我們語音識別設備采集到的信噪比非常低。

信噪比，是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數(shù)。一般將信噪比低于15dB的稱為噪聲環(huán)境。信噪比越低，識別難度越大。

在語音識別的研發(fā)過程中，一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環(huán)節(jié)。想做好識別，首先要在降噪處理上下功夫。

注：圖片來自探境科技

探境自研的AI降噪算法基于深度學習，不僅能夠處理穩(wěn)態(tài)的噪聲，非穩(wěn)態(tài)的突發(fā)性噪聲也能很好的過濾。

據(jù)探境科技副總裁李同治介紹，為了驗證探境AI降噪算法的有效性，他曾將一批信噪比在3dB左右的語音數(shù)據(jù)送到一個知名的云端公開語音識別引擎做了測試，降噪后比降噪前提高30%識別準確率。

在對聲音進行降噪處理之后，就進入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中，神經(jīng)網(wǎng)絡模型所需的算力決定了模型的描述能力，同時也決定了模型處理能力和識別率的上限。

在傳統(tǒng)的語音識別算法里，用的最多的是全連接的操作，叫DNN/DTNN——目前，國內有多家語音識別芯片采用的都是DNN的方法。

相比較于全連接操作，卷積操作能夠提供更高的計算強度，且卷積運算與人類大腦負責感知模塊的處理方法類似，能夠提取滿足大腦認知的本質特征。

探境將其計算機視覺中的一些經(jīng)驗遷移到語音識別中，在語音識別算法上加入了更多的卷積操作，重新設計了一個高計算強度的神經(jīng)網(wǎng)絡，即HONN（High Operation Neural Network）。

在高計算強度神經(jīng)網(wǎng)絡里，每一個處理單元變成了立體維度的，優(yōu)于平面上的處理，因此高計算強度神經(jīng)網(wǎng)絡的信息量和計算密度，也遠遠超過傳統(tǒng)DNN/DTNN的方法，帶來的直接效果是，多了一個維度的識別，性能提升是顯而易見的。

注：圖片來自探境科技

可以看出高計算強度的模型僅需要350k的存儲空間，而DNN需要1.6M的存儲空間。更低的存儲需求意味著我們可以使用存儲更少、成本更低的芯片來做語音識別。

同時DNN與HONN所需的算力相反，處理高強度模型單幀時，HONN需要超過幾百兆OPS，而一般的DNN模型需要個位數(shù)的算力。

兩者相差超過30倍。對于神經(jīng)網(wǎng)絡來說，模型所需的算力決定了模型識別率的上限。

相對安靜的環(huán)境下兩者之間差別不大，但是當信噪比進一步降低時，基于HONN的方法識別優(yōu)勢非常明顯。

正是依托于AI降噪技術+HONN神經(jīng)網(wǎng)絡，探境的Voitist音旋風611，可以覆蓋絕大部分的生活場景，無懼各種噪音干擾。

端到端雙麥加持，攻克0dB環(huán)境

然而信噪比還有一種更嚴苛的情況，即0dB和負dB，0dB意味著噪聲和信號強度一樣，甚至噪聲比語音信號還要強。

“生活中超強噪音在所難免，為了提升低這些場景下的識別率，還需要使用麥克風陣列來增強語音信號。探境在雙麥算法上有自己的獨門絕技—FCSP雙麥識別算法”，李同治介紹。

傳統(tǒng)的麥克風陣列處理算法有幾大缺點。

首先，在語音信號增強模塊，波束成形依賴于聲源定位（DOA），DOA依賴于單麥克喚醒詞檢測。遠場環(huán)境喚醒詞檢測使用單麥信號不用增強后的信號，會影響最終的喚醒率。

注：圖片來自探境科技

其次，傳統(tǒng)的陣列處理算法包含降噪、信號增強和識別多個環(huán)節(jié)，這些環(huán)節(jié)并不以降低識別率為優(yōu)化目標，優(yōu)化目標為提高人耳聽覺的舒適度和最終的識別率并不完全等價，會出現(xiàn)不適配的情況。

再次，由于整套流程對麥克風以及電容元器件的一致性要求非常高，提高了物料成本。

“有時候大家在實驗室做得很好，但是量產(chǎn)后發(fā)現(xiàn)識別率變差，就是因為波束成形和聲源定位的要求高，一旦出現(xiàn)了波動，會影響識別效果”，李同治提到。

另外，波束成形算法原理是增強特定方向波束內的信號強度，衰減波束外的信號幅度。當干擾聲源和目標聲源方向非常接近的時候，兩者在同一個波束內，信號和噪聲同時被增強，無法提升信噪比。

因此，傳統(tǒng)的麥克風陣列處理算法效果并不理想。

“為了克服傳統(tǒng)分模塊語音增強算法的這些缺點，我們設計出了基于FCSP的端到端AI雙麥算法”，李同治表示。FCSP（Frequency Complex Subspace Projection）是探境自研的頻域復數(shù)子空間投影算法的簡稱。

這個算法直接輸入陣列信號，輸出的是最終的識別結果，中間部分全部交給基于深度學習的AI算法來處理，不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化，避免了語音增強與語音識別模塊錯配的問題。

注：圖片來自探境科技

另外，在模型訓練期間，采取了“注意力增強”的學習方法，能夠靈敏的檢測到喚醒詞和命令詞，即使干擾信號與目標信號方向接近，也能靈敏的進行喚醒和識別。

“這個類似于在一個嘈雜的環(huán)境里面，如果有人喊自己的名字，一下子就能反應過來?！崩钔巫隽艘粋€形象的比喻。

注：圖片來自探境科技

“端到端”是目前國際上最前沿的處理算法。一些大廠如亞馬遜、谷歌公司，也是通過類似的方法。據(jù)媒體報道，谷歌公司采用了Factored Model in Frequency的算法，相對錯誤率降低至16%，雙麥達到了傳統(tǒng)算法7麥的識別率。

探境科技采取了頻域復數(shù)子空間投影，抗噪性能強，在信噪比為0dB時，相對于傳統(tǒng)的處理算法，相對識別錯誤率降低超過20%。

通過AI語音算法+HONN神經(jīng)網(wǎng)絡模型來提升識別率，再通過FCSP“端到端”的雙麥處理算法簡化識別流程，降低最終識別錯誤率，探境的語音算法實現(xiàn)了跨越式的升級。

當然，AI芯片不可能脫離芯片只談算法。性能優(yōu)異的算法，一定需要算力強勁且通用性強的AI芯片來支持，才能展現(xiàn)出強悍的實力。

探境自研的SFA架構，以存儲驅動計算，具有能效比高、資源利用率高、通用性強等特點。在SFA架構上實現(xiàn)深度學習時，只需要一個較高層次的神經(jīng)網(wǎng)絡描述。

SFA的編譯器首先將這個神經(jīng)網(wǎng)絡進行全部融合，然后根據(jù)具體架構實現(xiàn)的規(guī)模產(chǎn)生一個統(tǒng)一的存儲流圖，再進行存儲節(jié)點的時空映射，最后根據(jù)各個節(jié)點之間的計算類型配置計算單元，組合起來形成一個統(tǒng)一的固件供SFA控制器使用。

這意味著SFA架構所采用的各種微觀和宏觀調度算法，比較“類CPU架構”采用的基于總線和指令集的映射方法，在近似存儲量、近似算力、近似外部存儲帶寬、近似功耗約束的前提下，可以獲得8~12倍的利用率收益。

“SFA（存儲優(yōu)先）架構是探境的產(chǎn)品基石，正是借助SFA的優(yōu)勢，我們的AI芯片產(chǎn)品才能‘裂變式’的推出，大大加快了探境的商業(yè)化落地速度。”探境CEO魯勇這樣評價SFA架構的意義。

多種產(chǎn)品規(guī)格，實現(xiàn)百萬級出貨

除了支持AI雙麥的Voitist音旋風612之外，還包括在離線一體的Voitist音旋風621、以及語音芯片的旗艦產(chǎn)品——可支持本地NLP的音旋風7系列。

探境目前擁有約30家合作伙伴，出貨量已達百萬級別。探境的戰(zhàn)略合作伙伴關系既有美的、海爾等智能家居制造的大廠，也有像世強科技這樣在垂直領域頗具影響力的渠道商。據(jù)透露知名智能家居制造商阿凡達智控也剛剛與探境達成合作。

注：圖片來自探境科技

據(jù)探境科技創(chuàng)始人&CEO魯勇透露，未來，探境還會將語音產(chǎn)品進行二次升級，推出更多在線離線一體化方案。

“探境不僅僅是一個語音芯片公司，而是一家語音、圖像整體結合的AI芯片公司。AI芯片的蛋糕非常大，探境希望可以聯(lián)合上下游一起，開發(fā)生態(tài)，開放SDK和工具鏈，不僅僅是大家可以直接使用我們的產(chǎn)品，我們也希望有大量的合作伙伴，完成更多的場景開發(fā)。”魯勇表示。

另外，探境公布了首個圖像芯片的IPS/W高達800，是目前已知AI芯片中最高的。在已公布的發(fā)展戰(zhàn)略中，探境還瞄準了工業(yè)視覺、新零售、安防、輔助駕駛等市場。

據(jù)魯勇介紹，探境的圖像芯片在2019年Q4就已經(jīng)流片成功，圖像的某些領域甚至已經(jīng)開始產(chǎn)生營收了。

魯勇認為，AI芯片這一領域不像手機APP那樣，瞬間可以憑一款應用獲得數(shù)百萬的用戶，AI芯片更像馬拉松長跑，比的是耐力，而不是沖刺速度，在這場比賽中，不是要看誰跑得快，而是要看誰有潛力到達終點，誰在中途不走岔路。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

探境科技發(fā)布首個離在線一體語音識別解決方案，自研AI降噪算法提高30%識別準確率

相關文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術