技術(shù)魔幻市場難測 無聲語音識別暫難成消費級產(chǎn)品
2019-02-20 11:00:45AI云資訊931
世界知識產(chǎn)權(quán)組織(WIPO)日前公布了一項微軟申請的“無聲語音輸入”(Silent Voice Input)專利,豐富了“機器聽懂人話”的場景。
雖然還很難判斷使用者能否接受該專利的另類語音輸入方法及該專利的市場前景,但很多看似天馬行空的研發(fā)往往孕育著巨大的商機,如果它們能找到正確的市場和恰當(dāng)?shù)耐苿臃椒ā?
驗證了語音交互技術(shù)的又一種可能
語音識別技術(shù)離完美還很遠(yuǎn),噪雜的環(huán)境、吐字不清的詞匯、俚語及方言都會讓機器陷入混亂,開發(fā)更精準(zhǔn)更私密的語言識別技術(shù),仍是包括微軟在內(nèi)的產(chǎn)業(yè)和學(xué)界的主要科研方向。
通常情況下,語音輸入首先要發(fā)出聲音,其次需要一個相對安靜的環(huán)境。根據(jù)微軟這項專利的說明,只要讓麥克風(fēng)等設(shè)備靠近嘴巴,該語音輸入解決方案就能捕捉到極低的,如同耳語般的聲音信號,并過濾掉周圍的雜音。除自己之外,別人聽不見或聽不懂。
當(dāng)然,說話方式可能需要練習(xí)。一般情況下,我們講話時吐氣,微軟的解決方案要求使用者在吸氣時執(zhí)行語音輸入。
此外,盡管語音輸入的性能持續(xù)被改善,但除了“調(diào)戲”siri,很少有人會在公共場所一本正經(jīng)的用語音輸入,怕打擾別人,也有語音內(nèi)容私密性的顧慮。在這種情況下,微軟的專利不失為一種妥善的解決方案。
而麻省理工學(xué)院的研究人員開發(fā)的新型人機接口“AlterEgo”則更為魔幻,骨傳導(dǎo)耳機環(huán)繞用戶的耳朵和下巴,計算機系統(tǒng)處理并翻譯耳機接收的數(shù)據(jù)并輸出反應(yīng),如同人們在閱讀時的“默念”。
這個系統(tǒng)有點像“肌電假體”,當(dāng)你準(zhǔn)備作出某種行為時,大腦會告訴肌肉怎么做,同理,當(dāng)你想著某個詞時,大腦會向面部及喉部肌肉發(fā)送信號。
主要研究人員Arnav Kapur表示,他們的初衷是將人類和機器以某種方式進(jìn)行混合,仿佛人類自身認(rèn)知的內(nèi)部延伸。
如果這臺設(shè)備真的能商用,確實意義非凡。但是,當(dāng)前的無聲語音識別都處在技術(shù)驗證階段,這究竟是一種無用的“情懷技術(shù)”,還是可演變?yōu)橛糜谔厥鈭鼍暗漠a(chǎn)品,尚待業(yè)界探索。
工程師們還在努力彌補語音技術(shù)缺陷
語音技術(shù)不僅具有典型的“賦能”特征,更是當(dāng)前人們與人工智能互動的最重要界面,已同焦土戰(zhàn)般激烈的“百箱大戰(zhàn)”給語音技術(shù)市場帶來很多幻象。
事實上,現(xiàn)在大多數(shù)基于語音技術(shù)的硬件產(chǎn)品與智能服務(wù)交互體驗仍然存在很多缺陷,研究機構(gòu)與產(chǎn)業(yè)公司還在技術(shù)研發(fā)層面不斷努力完善。
微軟全球資深技術(shù)院士、微軟云與人工智能事業(yè)部負(fù)責(zé)人黃學(xué)東博士,是微軟語音技術(shù)的創(chuàng)始人,微軟的語音識別、語音合成技術(shù)研發(fā)團(tuán)隊都由他一手組建。
在黃學(xué)東的帶領(lǐng)下,2016年10月18日,微軟語音團(tuán)隊識別研究團(tuán)隊在 Switchboard語音識別基準(zhǔn)測試中刷新自己的紀(jì)錄,詞錯率低至5.9%,達(dá)到了人類的水平。
306天后,這一紀(jì)錄再次被微軟刷新,詞錯率降低到 5.1%,超過專業(yè)速記員的誤差水平,被學(xué)術(shù)界看作是“人工智能在感知上的一重大里程碑”。
微軟全球執(zhí)行副總裁沈向洋說:“盡管這項語音識別系統(tǒng)還存在一些應(yīng)用場景的限制,但我相信未來幾年內(nèi),機器將會完全超越人類的識別水平?!?
盡管各類科研機構(gòu)為了實現(xiàn)語音識別準(zhǔn)確率的“人類對等”,奮斗了二十幾年,但目前在嘈雜環(huán)境下較遠(yuǎn)的麥克風(fēng)的語音識別、方言識別、訓(xùn)練數(shù)據(jù)有限的特定說話風(fēng)格或較少人使用的語言的語音識別等,都未達(dá)到人類水平。
與此同時,Switchboard雖然是全球語音研究人員用了20多年的通用測試數(shù)據(jù)集,很多技術(shù)公司與組織在上面做語音方面的相關(guān)研究,它有著全球開發(fā)人員多年來的技術(shù)積累,但并不意味著測試結(jié)果可以“平移”到現(xiàn)實環(huán)境中。
如黃學(xué)東所說,公開性的測試、發(fā)表的學(xué)術(shù)文章,與現(xiàn)實產(chǎn)品雖然不能完全割裂,但消費級產(chǎn)品與商業(yè)場景,需要不一樣的評判標(biāo)準(zhǔn)。相關(guān)文章
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案