聲網(wǎng) AI x IoT 解決方案 構(gòu)建智能硬件低延時語音交互體驗
2024-10-12 17:02:02AI云資訊6975
在 GenAI 的浪潮下,各行各業(yè)正迎來全新的變革,作為 AI 載體的智能硬件行業(yè)也不例外,一方面,AIGC 與機(jī)器人的結(jié)合,推動具身智能產(chǎn)業(yè)快速發(fā)展,科幻電影里善解人意的清掃機(jī)器人“瓦力”、醫(yī)療機(jī)器人“大白”正在走進(jìn)現(xiàn)實。另一方面,以智能手表、智能眼鏡、智能耳機(jī)為首的穿戴式智能硬件與多模態(tài)大模型的結(jié)合也成為當(dāng)下的新趨勢。
在2017年以天貓精靈、小愛同學(xué)、小度等語音助手驅(qū)動的智能設(shè)備被視為第一批 AI 硬件革命,這類智能設(shè)備雖然經(jīng)過多年的市場教育已逐漸融入了我們的生活,成為不少家庭的語音助手,但其中 AI 的智能化還較為初級。近兩年伴隨 GenAI 的興起,更智能化的多模態(tài)大模型賦予了智能硬件新的生命,帶來全新的人機(jī)交互體驗,催生智能硬件行業(yè)新的變革。
智能硬件+多模態(tài)大模型 穿戴式設(shè)備交互體驗迎來變革
聲網(wǎng)經(jīng)過市場調(diào)研發(fā)現(xiàn),目前多模態(tài)大模型在智能硬件場景的落地主要以智能眼鏡、智能手表、智能耳機(jī)等穿戴式設(shè)備為主,同時在智能門鈴、智能陪伴玩具等 IoT 場景也有一些應(yīng)用。不同場景展現(xiàn)出的用戶需求與場景特點存在一定的差異化,例如:
●智能手表:智能兒童手表是多模態(tài)大模型最早落地 IoT 行業(yè)的硬件場景之一,目前 360兒童手表、小天才等兒童手表中已率先集成應(yīng)用。流暢的 AI 互動問答可以填充兒童空閑時間,智能化的回答也為兒童帶來了知識科普的價值,起到教育學(xué)習(xí)的輔助作用。同時,智能手表的屏幕較小,對語音交互的訴求更強(qiáng),加入對話式 AI 顯得更順其自然。
●智能眼鏡:不同于將重點放在虛擬與現(xiàn)實結(jié)合的AR眼鏡,智能眼鏡更加注重通過 AI 提升語音交互能力,今年 Meta 聯(lián)合雷朋推出的「Ray-Ban Meta」智能眼鏡就是代表產(chǎn)品。通過在智能眼鏡中加入攝像頭、AI 等功能,用戶可通過語音交互讓眼鏡來幫助工作&日程安排,或者開啟百科問答、學(xué)習(xí)輔助、英文翻譯、語音導(dǎo)航、超擬人情感陪伴及音樂娛樂等功能。
在 AI 與 RTC 能力的加持下,智能眼鏡可以支持第一視角音視頻回傳(包含音視頻通話、視頻錄制、直播等),還支持實時翻譯、同聲傳譯等場景,搭配手勢識別,實現(xiàn)跨語言環(huán)境 的語義理解。
圖:「Ray-Ban Meta」智能眼鏡
● 智能耳機(jī):智能耳機(jī)與大模型的結(jié)合主要集中在實時翻譯、情感交流、錄音轉(zhuǎn)寫等核心功能,在實時翻譯方面,智能耳機(jī)目前主要應(yīng)用在1對1翻譯,支持雙方對話過程隨時發(fā)言,無需等待翻譯完成或?qū)Ψ桨l(fā)言結(jié)束,適合雙人會議、差旅、教學(xué)、社交等高頻深度對話場景,代表產(chǎn)品有三星 Galaxy Buds 系列無線耳機(jī)、時空壺 W4 Pro等。同時,借助 RTC 的能力,在智能耳機(jī)中還能實現(xiàn)多人同頻道、AI降噪等功能。
在情感交流方面,代表產(chǎn)品有當(dāng)下熱門的Ola Friend 智能耳機(jī),該產(chǎn)品可實現(xiàn)英語陪練、旅行導(dǎo)游、情感交流等功能。開發(fā)者如想快速上線此類型的智能耳機(jī),聲網(wǎng)可以提供快速、已用、完整的解決方案,并采用了靈活可擴(kuò)展的 AIAgent架構(gòu),具備工作流編排能力,開發(fā)者與企業(yè)可自主選擇 LLM 等組件,根據(jù)特定需求定制和擴(kuò)展 AI 驅(qū)動的實時互動體驗。
● 智能門鈴:在智能門鈴等IPC場景,加入 AI 大模型的能力,可通過攝像頭實時識別并理解視頻內(nèi)容,實現(xiàn)設(shè)備無人值守場景下的自定義交互,如:外賣、快遞上門,在家中無人時,門鈴可自動識別并應(yīng)答,指導(dǎo)快遞員將貨物放到指定位置。
此外,在GenAI 的趨勢下,IoT 行業(yè)還出現(xiàn)了智能陪伴機(jī)器人、智能兒童毛絨玩具、智能戒指等一系列智能硬件場景,帶來不同硬件終端下的 AI 語音交互體驗。
聲網(wǎng) AI x IoT 智能硬件解決方案 低功耗、低延時、低成本
聲網(wǎng)作為全球?qū)崟r互動云行業(yè)的開創(chuàng)者,一直在探索 GenAI 與 RTE 結(jié)合帶來的體驗提升和場景創(chuàng)新,此前發(fā)布了實時多模態(tài)對話式 AI 解決方案,在此基礎(chǔ)上,針對 IoT 行業(yè)的特殊性,聲網(wǎng)探索出了AI x IoT 智能硬件解決方案,該方案能夠在低功耗、低算力芯片上快速實現(xiàn)大模型的接入,具備低延時實時互動、低成本靈活適配的特性,通過豐富的功能在智能硬件場景中構(gòu)建真實、自然的 AI 語音交互體驗。
例如對交互延遲進(jìn)行優(yōu)化,語音交互延時低至1s內(nèi);支持多模態(tài) AI 語義識別和理解;支持 AI降噪,保證清晰的語音交互、支持小包體、低內(nèi)存、低功耗;適配支持70+主流、高性價比的芯片等,幫助開發(fā)者與企業(yè)快速構(gòu)建適配自己硬件的 AI 實時語音對話服務(wù)。
圖:聲網(wǎng) AI x IoT 智能硬件解決方案架構(gòu)圖
1、毫秒級人機(jī)交互體驗:聲網(wǎng) AI x IoT 智能硬件解決方案進(jìn)一步優(yōu)化了端到端互動體驗,實現(xiàn)人與設(shè)備之間基于 LLM 的毫秒級互動體驗。通過在客戶端進(jìn)行低延遲的音頻采集和播放、借助聲網(wǎng)自研的 SD-RTN? 實時傳輸網(wǎng)絡(luò)實現(xiàn)全球范圍的低延時 RTC 傳輸,并進(jìn)一步通過更快速的 LLM 推理首字耗時、低延遲流式 TTS、同機(jī)部署等一系列技術(shù)手段,保證對話的實時性與流暢性。
2、文本/圖像/音頻/視頻的多模態(tài)交互:在智能硬件場景,聲網(wǎng)的解決方案同樣支持文本/圖像/音頻/視頻的組合輸入&輸出,同時開發(fā)者與企業(yè)也無需額外集成STT、TTS 等模塊化組件,一套方案就能快速構(gòu)建 AI 實時語音對話服務(wù)。
3、聚焦關(guān)鍵信息,提升語義理解度:在 GenAI 場景,能否支持隨時打斷也成為衡量大模型智能化的重要指標(biāo),聲網(wǎng)的解決方案也支持先進(jìn)的 AI-VAD 技術(shù),可實現(xiàn)靈敏的自然語音打斷,模擬人類對話的自然流動,讓對話更加真實、自然。
4、AI降噪保障語音對話清晰、順暢:針對語音對話中經(jīng)常會出現(xiàn)的噪音、回聲等問題,聲網(wǎng)擁有行業(yè)領(lǐng)先的音頻 3A 能力,通過AI噪聲抑制、背景人聲過濾、音樂檢測/過濾等算法,確保人與 AI 的對話不受環(huán)境干擾,始終保持順暢。
5、實現(xiàn)多模態(tài) AI 能力普適:實現(xiàn)任意可視設(shè)備的智能化體驗:在硬件場景構(gòu)建音視頻互動需要特別注意 SDK 對芯片、系統(tǒng)的適配性以及包體的體積等。聲網(wǎng)的解決方案適配支持 70+ 主流、高性價比的芯片/模組,例如:展銳 Cat.1系列芯片、樂鑫 ESP32-S2/S3、BK 7256、BK7258、杰理AC7916、博流BL808等 RTOS 芯片,以及高通、聯(lián)發(fā)科、君正、Sigmastar、全志、海思、Mstar 等 70+ Linux 芯片。
集成包體積增量也<400KB,支持在 RTOS、embedLinux 等低功耗系統(tǒng)流暢運行,同時 SDK 還支持 PCM、G711U/A、G722、AAC、OPUS 等多種音頻格式。
相關(guān)文章
- 聲網(wǎng)對話式AI引擎已接入DeepSeek-V3.1
- 聲網(wǎng) Native RTC SDK 4.6.0上線 視頻互動體驗全方位提升
- 聲網(wǎng)將參展2025 WAIC 全新對話式AI引擎即將亮相
- 聲網(wǎng)上線全球首個 AI 模型評測平臺(對話式) 提供級聯(lián) ASR+LLM+TTS 橫向測評
- 聲網(wǎng)攜對話式AI引擎亮相第30屆上海電視節(jié)
- 聲網(wǎng)攜手珞博智能,共同打造AI陪伴硬件新體驗
- MiniMax、星野、智譜清言,這些 AI 應(yīng)用都在用聲網(wǎng)打造對話式 AI 體驗
- 聲網(wǎng)入選2025AIGC廠商全景報告5大板塊,對話式AI實力再獲認(rèn)可
- 聲網(wǎng)母公司Q1財報:營收增長12.1% 連續(xù)兩季度GAAP盈利
- 聲網(wǎng)蟬聯(lián)PAGC金帆獎優(yōu)秀出海產(chǎn)品技術(shù)服務(wù)獎項
- 聲網(wǎng)入選AIGC應(yīng)用全景圖譜、AI大模型產(chǎn)業(yè)圖譜
- 聲網(wǎng)對話式 AI 引擎接入智譜GLM模型,支持獲取智能體短期記憶
- 聲網(wǎng)對話式AI引擎摘得微軟開發(fā)者挑戰(zhàn)賽“最具商業(yè)價值獎”
- 2025年值得關(guān)注的AIGC產(chǎn)品 聲網(wǎng)對話式AI引擎上榜
- 聲網(wǎng)攜手商湯,共拓實時音視頻AI應(yīng)用新邊界
- 商湯日日新上線聲網(wǎng)云市場,與四十家企業(yè)開啟合作
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強(qiáng)勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案