AI讓遠(yuǎn)程交流“更清晰”:GAN消除視頻通話中的抖動
2020-10-22 16:19:44AI云資訊613
NVIDIA Maxine是一款云AI視頻流平臺,將使用GAN來提高帶寬性能。
Ming-Yu Liu 和Arun Mallya 正在進(jìn)行視頻通話,其中一個人的畫面開始出現(xiàn)卡頓,直至畫面定格。
這是一種常見且令人反感的情況。但與大多數(shù)人不同的是,Liu和Mallya可以做出一些改變。
他們是NVIDIA的AI研究人員,專攻計算機視覺。在與Ting-Chun Wang共事中,他們意識到可以使用神經(jīng)網(wǎng)絡(luò)來替代被稱為視頻編解碼器的軟件,這種軟件通常用于視頻在網(wǎng)絡(luò)傳輸過程中的壓縮和解壓縮。
迄今為止,他們的工作成果將用戶在視頻通話時所需的網(wǎng)絡(luò)帶寬壓縮至原來的十分之一,還有望將帶寬消耗降低數(shù)個數(shù)量級。
Mallya表示:“我們希望通過AI提供更好的視頻溝通體驗,即使在帶寬極低的情況下,也可以從語音升級到視頻通話。”
GAN讓連接質(zhì)量更佳
即使用戶的面部有遮擋(比如戴著帽子、眼鏡、耳機或口罩),這項技術(shù)同樣適用。為了增加趣味性,他們在演示中使用了一些裝飾物,這樣用戶可以在線上更改其發(fā)型或衣服或者創(chuàng)建頭像。
更重要的是,如上圖所示,借助神經(jīng)網(wǎng)絡(luò)定位,無需再盯著顯示器上方攝像頭才能與對方對視,這增強了面對面對話的感覺。
Wang表示:“借助計算機視覺技術(shù),我們可以從多個角度來定位頭部。我們認(rèn)為這將幫助人們更自然地進(jìn)行對話。”
迎接最前沿的AI技術(shù),讓虛擬生活更真實。
AI賦能視頻通話的原理
AI輔助視頻通話的工作機制十分簡單。
與目前使用壓縮的視頻流的系統(tǒng)類似,參考圖像發(fā)送后,僅用戶眼睛、鼻子和嘴巴周圍幾個關(guān)鍵點的位置數(shù)據(jù)被發(fā)送,而非發(fā)送大量壓縮過像素的圖像。
接收端的生成式對抗網(wǎng)絡(luò)通過初始圖像和面部關(guān)鍵點,在本地GPU上重構(gòu)后續(xù)圖像。因此,通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)要比之前少得多。
Liu在GAN領(lǐng)域的工作成果GauGAN曾引發(fā)關(guān)注。GauGAN是一種可以將涂鴉轉(zhuǎn)化為寫實藝術(shù)作品的AI工具,目前已經(jīng)創(chuàng)建了超過一百萬張圖像。該工具可在AI Playground中獲取。
Liu表示:“疫情期間頻繁的視頻會議啟發(fā)了我們,因此我們開始探索突破帶寬瓶頸的方式,讓供應(yīng)商可以同時為更多人提供服務(wù)?!?
GPU突破帶寬瓶頸
這一方法順應(yīng)當(dāng)前行業(yè)趨勢,將網(wǎng)絡(luò)瓶頸轉(zhuǎn)化為計算任務(wù),從而借助本地或云端資源更輕松地解決此類問題。
NVIDIA媒體集團高級產(chǎn)品總監(jiān)Andrew Page表示:“如今,許多公司希望將帶寬問題轉(zhuǎn)化為計算問題,這是因為帶寬一般很難增加,而增強算力則相對容易。”
NVIDIA Maxine搭配了一套視頻會議和流媒體服務(wù)工具
AI 工具優(yōu)化視頻服務(wù)
GAN視頻壓縮是NVIDIA Maxine即將推出的幾個功能之一,這是一個云AI視頻流平臺,用于增強視頻會議和電話質(zhì)量。它將音頻、視頻和對話式AI功能整合在一個工具包中,并支持多種設(shè)備。
在上周的GTC大會上,NVIDIA宣布推出了Maxine平臺?;谠撈脚_,服務(wù)提供商能夠在提供超高分辨率的視頻的同時,實現(xiàn)實時翻譯、噪聲消除和情景感知的閉路字幕。用戶可以享受到人臉校正、虛擬助手和化身逼真的動畫角色等功能。
Page表示:“視頻會議正在經(jīng)歷一場復(fù)興。疫情期間,它的缺點給所有人帶來了不愉快的使用體驗,但回歸視覺動物的屬性,視頻終將成為人們今后生活中的一部分?!?
通過利用基于Tensor Core核心的NVIDIA GPU,Maxine可運行如NVIDIA Jarvis的軟件。NVIDIA Jarvis是用于對話式AI的SDK,提供了一套語音和文本功能。 它們共同提供了當(dāng)今有用的AI功能,并成為未來視頻產(chǎn)品和服務(wù)的基石。
相關(guān)文章
- 億道數(shù)碼攜驍龍AI PC矩陣亮相高通科技日,定義移動辦公輕時代
- 直擊WAIC 2025 | 浩鯨科技聯(lián)合螞蟻數(shù)科發(fā)起“金融智能體應(yīng)用聯(lián)創(chuàng)聯(lián)盟”
- 多模態(tài)AI融入日常交互 用三星Galaxy手機搭建效率工作流
- 引領(lǐng)智能運維!全新FortiAIOps 3.0重新定義IT運營
- 得瑞領(lǐng)新閃耀2025全球閃存峰會:D8000系列斬獲創(chuàng)新大獎,強勢賦能AI時代數(shù)據(jù)基石
- WAIC 2025 | SHIXP將與PPIO共建分布式智算樞紐平臺
- 2025 WAIC落幕,深謀科技以技術(shù)與落地破局具身智能賽道
- AI賦能基層“智治” 湖北移動打造數(shù)字鄉(xiāng)村治理新樣本
- AI重磅獎項揭曉!用友大易榮膺人力資源服務(wù)業(yè)AI25強及思旗獎
- 中國最大黑客松AdventureX 2025杭州啟幕,涂鴉賦能青年開發(fā)者引爆Physical AI變革
- WAIC2025:澳鵬發(fā)布新一代技術(shù)平臺矩陣 助力大模型垂直應(yīng)用落地
- 共建AI PC企業(yè)服務(wù)生態(tài),京東政企業(yè)務(wù)攜手高通打造驍龍AI PC生態(tài)科技日
- 2025 WAIC“智算技術(shù)創(chuàng)新與行業(yè)實踐” 論壇圓滿落幕 共繪智算生態(tài)新藍(lán)圖
- 四維圖新亮相2025世界智能汽車大會:以AI新基建與數(shù)據(jù)閉環(huán)賦能智駕新范式
- 星辰聚智·才啟未來:2025世界人工智能大會中國電信發(fā)布系列前沿能力及AI產(chǎn)品
- 神州云動CRM亮相2025浪潮AI向新 數(shù)字企業(yè)創(chuàng)新大會
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案