騰訊劉杉對話清華陶曉明,探索語義通信與視頻編解碼跨領(lǐng)域合作新方案
2023-10-11 17:21:35AI云資訊1182
近日,在騰訊全球數(shù)字生態(tài)大會“Techo前沿技術(shù)論壇”上,騰訊杰出科學(xué)家、騰訊云副總裁、騰訊多媒體實(shí)驗(yàn)室總經(jīng)理、騰訊視頻智能創(chuàng)作與內(nèi)容平臺部副總經(jīng)理劉杉博士,與清華大學(xué)電子工程系教授、2021年"科學(xué)探索獎(jiǎng)"信息電子領(lǐng)域獲獎(jiǎng)?wù)咛諘悦鹘淌诰凼?深入探討了語義通信和視頻編解碼領(lǐng)域的交叉合作。
劉杉博士一直致力于多媒體及相關(guān)領(lǐng)域的技術(shù)研究,包括信號與信息處理、音視頻與空間媒體數(shù)據(jù)壓縮、傳輸交互和智能化應(yīng)用等。她所帶領(lǐng)的騰訊多媒體實(shí)驗(yàn)室,主要工作涉及兩大方面:前沿技術(shù)的探索和標(biāo)準(zhǔn)制定,和面向產(chǎn)品的技術(shù)研發(fā)和應(yīng)用落地。而陶曉明教授專注于廣域特定場景下的語義通信,通過將人腦視覺感知、認(rèn)知機(jī)理融入網(wǎng)絡(luò)傳輸通信過程,解決大容量多媒體業(yè)務(wù)對無線網(wǎng)絡(luò)帶寬需求的壓力。
兩位專家結(jié)合各自領(lǐng)域的專業(yè)知識,圍繞腦啟發(fā)的視頻質(zhì)量評價(jià)、語義賦能視頻編解碼以及語義通信與視頻編解碼跨領(lǐng)域合作這三大方面展開了深入的討論。
多媒體質(zhì)量評價(jià)新思路,可引入人腦感知、認(rèn)知、先驗(yàn)知識等特征
劉杉博士提及騰訊多媒體實(shí)驗(yàn)室面向產(chǎn)品的技術(shù)研發(fā)和應(yīng)用落地,從技術(shù)細(xì)分領(lǐng)域來看主要分為三大方向:媒體的壓縮傳輸,智慧融合媒體,以及互動沉浸式媒體。這些方向與當(dāng)前熱門的概念如AIGC、XR和元宇宙密切相關(guān)。她強(qiáng)調(diào)多媒體是一個(gè)系統(tǒng),包括信號處理、壓縮、傳輸、互動、渲染和建模等多個(gè)環(huán)節(jié),需要聯(lián)合優(yōu)化以實(shí)現(xiàn)最佳性能和用戶體驗(yàn)。性能和用戶體驗(yàn)需要高效的質(zhì)量評價(jià)體系量化評價(jià),在傳統(tǒng)質(zhì)量評價(jià)體系之上發(fā)掘借鑒大腦的特征,來完成多媒體的質(zhì)量評價(jià),是非常有意義的創(chuàng)新和探索。
陶曉明教授認(rèn)為,大腦有三個(gè)特征能夠與多媒體通信相關(guān)。第一是在感知,人腦對于QoE能夠有主觀和定性的判斷,能夠直接感知到好還是不好;第二是在認(rèn)知,人腦全局搜索和推理的能力,如果能引入通信的編解碼里面,一方面可以降低視頻編碼的復(fù)雜度,還能在傳輸過程中更好地保護(hù)上下文重要的語義信息;第三是在先驗(yàn)知識方面,大腦能夠自動匹配之前接觸過的認(rèn)知,如果應(yīng)用到通信中,能夠降低一些特殊場景下對帶寬的需求。
深度學(xué)習(xí)、機(jī)器視覺等方法,能夠解決更多通用和特殊場景下的編解碼需求
視頻編解碼,在如今5G甚至6G蓬勃發(fā)展的現(xiàn)在尤為重要,特別是在多媒體數(shù)據(jù)壓縮中。音頻、視頻、圖像以及新興的VR、高維度數(shù)據(jù)等,其數(shù)據(jù)量通常很大,需要大量存儲空間和傳輸帶寬。為了解決這個(gè)問題,視頻編解碼技術(shù)應(yīng)運(yùn)而生,經(jīng)過幾代標(biāo)準(zhǔn)的發(fā)展,如H.264/AVC、H.265/HEVC、H.266/VVC等。深度學(xué)習(xí)在音頻信號壓縮方面已經(jīng)取得了一些進(jìn)展,但在視頻信號壓縮方面仍然具有挑戰(zhàn)性。
劉杉博士指出,在機(jī)器視覺、信息(如語音和圖像)處理等方面,深度學(xué)習(xí)和人工智能已經(jīng)在不少實(shí)際應(yīng)用中發(fā)揮作用,進(jìn)而推動在視頻編解碼中的使用探索。目前在視頻編解碼標(biāo)準(zhǔn)制定中,騰訊多媒體實(shí)驗(yàn)室也發(fā)現(xiàn)了許多技術(shù)提案和趨勢,以適應(yīng)不同應(yīng)用和環(huán)境的需求。
陶曉明教授也表示,在鄉(xiāng)村、留守老人和兒童等特殊情境,可以通過引入腦科學(xué)的思想,使用腦電圖分析來提取人的主觀感知,以改善用戶體驗(yàn)。此外,陶曉明教授還介紹了一種基于時(shí)空素描圖的編解碼方法,通過提取視頻的輪廓、語義和關(guān)系等特征,以減小數(shù)據(jù)量。因此在接收端,需要使用生成式機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法,能夠?qū)崿F(xiàn)在特殊長江下降低數(shù)據(jù)傳輸量,以滿足用戶的需求,生成最優(yōu)用戶體驗(yàn)的視頻。
語義通信與視頻編解碼,或能達(dá)成跨領(lǐng)域合作
劉杉博士認(rèn)為,質(zhì)量評價(jià)是無所不在的,包括目前騰訊多媒體工作室正在研究的3D空間視頻壓縮傳輸。她認(rèn)為這些領(lǐng)域尚未成熟,有很大的探索空間,從人腦反饋出發(fā)的研究方法十分具有潛力,未來也許會對多媒體編解碼標(biāo)準(zhǔn)的改進(jìn)起到推動作用。陶曉明補(bǔ)充說,在AR、VR和游戲等領(lǐng)域,腦電信號可以提供有關(guān)用戶體驗(yàn)的寶貴信息,如交互性、感覺和延時(shí)等,這對語義通信的研究也是一個(gè)新的維度,期待未來能夠與騰訊多媒體實(shí)驗(yàn)室一道,了解更多用戶需求。
騰訊多媒體實(shí)驗(yàn)室自2018年初開始代表騰訊公司參與國際標(biāo)準(zhǔn)制定,迄今為止已有超過800項(xiàng)技術(shù)提案被多項(xiàng)國際標(biāo)準(zhǔn)采納并積累超過1500項(xiàng)已授權(quán)專利,數(shù)十人次在國際標(biāo)準(zhǔn)制定過程中擔(dān)任重要職務(wù),技術(shù)貢獻(xiàn)贏得國際標(biāo)準(zhǔn)組織和業(yè)界廣泛認(rèn)可。實(shí)驗(yàn)室榮獲ISO/IEC 杰出貢獻(xiàn)獎(jiǎng)、AVS產(chǎn)業(yè)技術(shù)創(chuàng)新單位獎(jiǎng)、技術(shù)與工程艾美獎(jiǎng)(Technical Emmy Award)、技術(shù)盧米埃獎(jiǎng)(Technology Lumiere Award)、數(shù)博會領(lǐng)先科技成果獎(jiǎng)、世界人工智能大會“鎮(zhèn)館之寶”。同時(shí)研發(fā)多媒體核心技術(shù)應(yīng)用于騰訊旗下多款產(chǎn)品,為億級用戶提供優(yōu)質(zhì)服務(wù)。從2018年開始投入包括VR在內(nèi)的沉浸式媒體XR技術(shù)研發(fā)和系統(tǒng)建設(shè)以及AIGC能力智能內(nèi)容生產(chǎn),在2019年首次將VR應(yīng)用于騰訊產(chǎn)品,之后又陸續(xù)為新華社、故宮、敦煌等合作項(xiàng)目以及騰訊WE大會、騰訊全球數(shù)字生態(tài)大會、東北虎國家公園提供技術(shù)支持,以多媒體實(shí)驗(yàn)室技術(shù)為核心的“VR全景”、“自由視角”、“點(diǎn)云建模”、“點(diǎn)云壓縮”等通用解決方案已上架騰訊云官網(wǎng)。2019年,騰訊杰出科學(xué)家劉杉博士,向其所領(lǐng)導(dǎo)的多媒體實(shí)驗(yàn)室團(tuán)隊(duì)提出展開面向“智能化內(nèi)容生產(chǎn)”技術(shù)研發(fā)的要求,并在此后的時(shí)間里帶領(lǐng)團(tuán)隊(duì)打造多項(xiàng)核心技術(shù)并逐步完善能力矩陣,應(yīng)用于多個(gè)內(nèi)容生產(chǎn)和創(chuàng)作的業(yè)務(wù)場景。2023年團(tuán)隊(duì)產(chǎn)品XMusic榮獲2023年世界人工智能大會“鎮(zhèn)館之寶”。未來多媒體實(shí)驗(yàn)室將持續(xù)投入相關(guān)技術(shù)建設(shè),持續(xù)為教育、工業(yè)、醫(yī)療、文旅、地產(chǎn)家居、金融等to B產(chǎn)業(yè)場景的建設(shè)做底層技術(shù)投入。
相關(guān)文章
- 騰訊湯道生:打造智能化、全球化雙引擎,助力企業(yè)穩(wěn)增長
- 2025騰訊全球數(shù)字生態(tài)大會定檔9月16日 萬興科技擬出席騰訊云國際出海峰會
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 騰訊音樂TMEA 盛典:以音樂共鳴鏈接生活,讓中國聲音走向世界
- 騰訊地圖即將發(fā)布AI新品,解鎖“AI+時(shí)空智能”產(chǎn)業(yè)新路徑
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 云原生應(yīng)用保護(hù)能力獲認(rèn)可!騰訊云再次入選權(quán)威研報(bào)代表廠商
- 騰訊云論文入選數(shù)據(jù)庫頂會VLDB 2025,REDSQL技術(shù)攻克NL2SQL難點(diǎn)
- 騰訊跨端開發(fā)框架Kuikly全面適配鴻蒙5并開源,助力應(yīng)用開發(fā)降本增效
- IDC MarketScape:騰訊云位居國內(nèi)生成式AI數(shù)據(jù)基礎(chǔ)設(shè)施“領(lǐng)導(dǎo)者”象限
- 騰訊Youtu-Agent開源!像聊天一樣生成Agent
- AI時(shí)代,架構(gòu)師如何破局成長?騰訊云架構(gòu)師技術(shù)沙龍圓滿收官
- 騰訊會議打通騰訊元寶,“AI紀(jì)要”實(shí)現(xiàn)開會邊開邊總結(jié)
- 連續(xù)三年參展!騰訊游戲安全亮相Gamescom 2025并與韓國知名游戲廠商達(dá)成合作
- 海亮科技x騰訊教育 聯(lián)合亮相全球盛會!
- 騰訊云與全球手游巨頭Voodoo達(dá)成合作,共助小游戲品質(zhì)升級
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動,助推智能建造實(shí)戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機(jī)賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎(jiǎng)”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時(shí)延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營報(bào)名企業(yè)超300家
- 首都機(jī)場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案