CCAI 2021 | 騰訊優(yōu)圖汪鋮杰:用AI生成更優(yōu)更新的內(nèi)容
2021-10-19 14:51:05AI云資訊1159
目前,人工智能技術(shù)已經(jīng)在人臉識別、語音處理、視頻處理、自然語言處理等領(lǐng)域得到了突飛猛進的進展。未來人工智能技術(shù)將在哪些行業(yè)和業(yè)務(wù)場景中最快得到應(yīng)用,以及將會向著哪些方向重點發(fā)展,成為了行業(yè)共同關(guān)心的問題。
10月12日,以“智啟非凡”為主題2021中國人工智能大會(CCAI 2021)在成都正式開幕。作為我國人工智能領(lǐng)域的頂級盛會,本次大會共設(shè)置了8場主題報告、1場院士尖峰對話、9大專題論壇、6個同期活動面,由23位中外院士領(lǐng)銜,近百位學術(shù)技術(shù)精英齊聚一堂,通過一系列主題報告和專題論壇深刻呈現(xiàn)人工智能學術(shù)前沿、技術(shù)動態(tài)、產(chǎn)業(yè)趨勢,反映了產(chǎn)學研各界對產(chǎn)業(yè)數(shù)智化發(fā)展的前沿探索和前瞻思考,引領(lǐng)智能科技在進步中與多領(lǐng)域融合發(fā)展,激發(fā)傳統(tǒng)行業(yè)變革活力。
本次CCAI2021中,騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰受邀出席了智能創(chuàng)意與視覺知識表達專題論壇并發(fā)表了以《視覺內(nèi)容編輯生成技術(shù)研究與應(yīng)用》為主題的演講,向與會者分享了優(yōu)圖實驗室在視覺內(nèi)容編輯生成技術(shù)領(lǐng)域的研究成果與應(yīng)用實例,提供了學術(shù)研究和技術(shù)創(chuàng)新的方向創(chuàng)新。
騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰
01 以GAN和3D技術(shù)為主研方向 用AI生成更新更好的內(nèi)容
在智能手機的普及和人們時間碎片化的態(tài)勢下,以在線音樂、短視頻、直播、資訊等為代表的內(nèi)容逐漸成為用戶的主要消費對象。隨著用戶精神消費品質(zhì)的不斷升級和興趣面的不斷擴展,用戶對于內(nèi)容的生產(chǎn)效率和品質(zhì)的要求也在不斷提高。而AI技術(shù)的發(fā)展和完善,能夠幫助內(nèi)容生產(chǎn)者在提高內(nèi)容生產(chǎn)效率的基礎(chǔ)上,豐富內(nèi)容生產(chǎn)的多種類并提供更加動態(tài)且可交互的內(nèi)容,以滿足日益增長的內(nèi)容需求。
在此背景下,AI生成內(nèi)容(AIGC)應(yīng)運而生。優(yōu)圖實驗室針對AIGC的主要研究目標就是如何用AI技術(shù)生成更新、更好的內(nèi)容。優(yōu)圖實驗室在AIGC方面擁有兩大核心技術(shù):
1.通過研究生成式對抗網(wǎng)絡(luò)(GAN)和GAN內(nèi)部涉及的FCN結(jié)構(gòu),通過深度圖像壓縮技術(shù)生成不同程度、不同分辨率的圖像,以保障圖像在高清影視制作場景下的清晰度;
2.通過在3D的重建、渲染、驅(qū)動等環(huán)節(jié)中引入深度學習和自監(jiān)督圖形學習模式,通過自監(jiān)督學習來獲取大量數(shù)據(jù),使3D效果的通用性和泛化性得到較為明顯的提升。
02 深度學習提升3D人像重建效果 技術(shù)應(yīng)用場景越來越廣闊
通過融入深度學習和自監(jiān)督學習機制,不需要再用復(fù)雜設(shè)備現(xiàn)場采集大量數(shù)據(jù),而是通過輸入多張人像圖片就能夠相對輕松地完成對于人像面部的3D建模。
同時,在進行特征融合時,優(yōu)圖實驗室的3D重建技術(shù)可以接受任意一張圖片輸入,通過多人臉約束讓重建精度變得更高。
以這種方式生成的3D人像的ID豐富度會大幅度提升,因為在生成的過程中會將人像的幾何信息和紋理信息一并重建,實現(xiàn)人面部皺紋級的細節(jié)還原,最終讓人像能夠覆蓋各個年齡段和各種長相特征。
目前這項3D重建技術(shù)已經(jīng)能夠廣泛應(yīng)用在超寫實類游戲角色的塑造和低成本3D數(shù)字人制作的領(lǐng)域之中。在實際應(yīng)用場景中,3D重建技術(shù)可以通過多視角信息融合功能,僅憑幾張照片就可以實現(xiàn)超寫實型的角色塑造。
在為游戲《天涯明月刀》進行角色建模時,為了讓最終人像符合原作畫風,優(yōu)圖實驗室在3D重建的人像上基于用戶人臉的特征分布以及游戲里面特征分布的差異做細微調(diào)整,并基于定位以及細粒度屬性的識別結(jié)果,對角色進行精細化修正,最終輸出人們在游戲中看到的栩栩如生的角色建模。
03 深入研究提升GAN訓練模式優(yōu)化效果 讓經(jīng)典影視作品達到4K標準
近年來,隨著文化產(chǎn)業(yè)政策的利好推動和居民消費水平的提高,我國影視行業(yè)發(fā)展較快,催生了海量影視作品圖像畫質(zhì)優(yōu)化的需求:除電影膠片修復(fù)外,很多存量經(jīng)典MV和影視作品也需要去刮痕、去噪,并轉(zhuǎn)換成符合現(xiàn)在用戶觀影需求的4K品質(zhì)。
為滿足影視行業(yè)中廣泛存在的AIGC需求,優(yōu)圖實驗室在2020年就推出了ReaISR技術(shù)。通過構(gòu)建很多跟現(xiàn)實情況非常接近的低質(zhì)和高質(zhì)的圖像,再借助pixel-wise loss、discriminative loss生成GAN訓練模式,以保障修復(fù)后的效果。
但是在這種情況下,畫面修復(fù)會出現(xiàn)矯枉過正的情況,出現(xiàn)很多高頻的artifacts。為解決此類問題,優(yōu)圖實驗室以ReaISR技術(shù)為基礎(chǔ),通過增加頻率密度約束來抑制高頻的artifacts,并根據(jù)圖像狀態(tài)設(shè)計畫質(zhì)評估模塊,從而實現(xiàn)模塊動態(tài)的調(diào)整域值的權(quán)重,在保證圖像真實度的前提下大幅度提升圖像優(yōu)化效果。
在與上海電影學院和上海電影技術(shù)廠的合作中,優(yōu)圖實驗室的ReaISR技術(shù)已經(jīng)幫助其將膠片電影修復(fù)至2K甚至是4K的標準。此外,優(yōu)圖實驗室還與一些國外影視制作公司合作,為其提供畫質(zhì)轉(zhuǎn)換、去刮痕、去噪等服務(wù)。
除人工輔助外,騰訊云公有云圖像超分API和騰訊云媒體AI中臺畫質(zhì)優(yōu)化功能模塊中也集成了ReaISR技術(shù),能夠幫助用戶用較低的成本實現(xiàn)數(shù)字內(nèi)容的高清化。
04 優(yōu)化技術(shù)框架讓AI實現(xiàn)“批量換臉“ 在文化傳播領(lǐng)域得到廣泛應(yīng)用
如今AI換臉對大眾來說已經(jīng)并不是一項新鮮的技術(shù)了,但是現(xiàn)有的人臉合成框架只能支持兩個ID間的更換,即只支持A至B間的換臉,如果想將A換成C或是D的臉,則需要重新構(gòu)建框架。
通過將Src圖像ID特征融合到合成框架中,優(yōu)圖實驗室可以讓框架支持任意ID換臉,提升了AIGC的生產(chǎn)效率。同時,框架還引入Weak Feature Matching Loss高層語義特征匹配、3D人臉信息、圖像超分模塊等功能,在保障模板人臉中表情、光照的屬性特點都遷移到結(jié)果上的同時,大幅提升了最終生成人像的真實度和清晰度。
在文化運營、推廣活動和影視內(nèi)容制作的領(lǐng)域中,AI換臉技術(shù)的應(yīng)用場景很多。如可以把用戶的臉與游戲人物融合在一起提升用戶和游戲的互動性,或是在拍攝需要讓同一人物所飾演的不同角色同框出鏡的鏡頭時,用AI換臉技術(shù)把兩個角色都換成同一張臉來縮減拍攝成本等。
在實際應(yīng)用場景中,去年深圳40周年推出的‘深’份證”活動中就用到了引用了Src圖像ID特征的生成框架,超過千萬用戶參與并通過該框架生成了自己獨有的“深”份證。
此外,在政府弘揚當?shù)厣贁?shù)民族文化時,也可以使用這項技術(shù),以各式各樣的民族服飾作為背景,引導用戶上傳照片來生成自己民族服飾藝術(shù)照,提高當?shù)厣贁?shù)民族文化的知名度,助力民族文化傳承。
AIGC技術(shù)在其他領(lǐng)域中也得到了廣泛應(yīng)用。比如騰訊會議的中能夠保護用戶隱私的虛擬背景,虛擬光線等功能;通過3D重建技術(shù)實現(xiàn)手Q、微視和騰訊會議中的“人物圖像全年齡演化”功能;目前優(yōu)圖實驗室正在嘗試將這些技術(shù)應(yīng)用到虛擬美妝領(lǐng)域中,通過算法讓用戶能夠在照片上模擬化妝效果。
作為騰訊旗下頂級的人工智能實驗室,騰訊優(yōu)圖實驗室目前已擁有超過1000件全球AI專利,更有300余篇論文被AAAI、ICCV等國際頂級AI會議收錄。憑借在視覺AI技術(shù)上的研究成果,優(yōu)圖實驗室通過騰訊云共輸出超過20項AI解決方案,100+AI原子能力,助力各行各業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型。
此外,騰訊優(yōu)圖還打造了如跨年齡AI尋人、青少年內(nèi)容審核、AI探星等技術(shù)能力,踐行騰訊“科技向善”的使命和愿景。未來,優(yōu)圖實驗室將繼續(xù)專注人工智能技術(shù)發(fā)展,通過推進AI基礎(chǔ)設(shè)施研發(fā)的形式為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型提供助力,促進數(shù)字經(jīng)濟加速發(fā)展。
相關(guān)文章
- 拿下SOTA!騰訊優(yōu)圖聯(lián)合廈門大學提出AIGI生成圖像檢測新方法
- Interspeech 2025 | 騰訊優(yōu)圖實驗室4篇論文入選,涵蓋超聲波活體檢測、神經(jīng)語音編解碼、語音合成等方向
- ICCV 2025 | 騰訊優(yōu)圖實驗室大模型8篇論文入選,涵蓋風格化人臉識別、AI生成圖像檢測、多模態(tài)大語言模型等方向
- 最高10倍加速!北京大學聯(lián)合騰訊優(yōu)圖實驗室將 GQA 改造成 MLA形式
- ACL 2025 | 騰訊優(yōu)圖實驗室大模型4篇論文入選,涵蓋智能體、角色扮演、自動推理等方向
- 超越ControlNet!騰訊優(yōu)圖實驗室聯(lián)合復(fù)旦大學提出AI生圖新框架,解決多條件生成難題
- 喜報!騰訊優(yōu)圖聯(lián)合項目獲CSIG科技進步獎一等獎
- PRCV 2021 | 視覺AI飛速發(fā)展,騰訊優(yōu)圖分享內(nèi)容理解新實踐
- AAAI2022騰訊優(yōu)圖14篇論文入選,含語義分割、圖像著色、人臉安全、弱監(jiān)督目標定位、場景文本識別等前沿領(lǐng)域
- AICon2021 | 騰訊優(yōu)圖鄢科:以AI技術(shù)助力內(nèi)容安全 促進互聯(lián)網(wǎng)環(huán)境健康發(fā)展
- 騰訊優(yōu)圖人臉安全能力再獲認可!優(yōu)圖專家入選“護臉計劃”專家委員會
- 騰訊優(yōu)圖斬獲ICCV2021 LVIS Challenge Workshop冠軍及最佳創(chuàng)新獎
- CCAI 2021 | 騰訊優(yōu)圖汪鋮杰:用AI生成更優(yōu)更新的內(nèi)容
- 用AI技術(shù)開啟穿越時空的視覺盛宴 騰訊優(yōu)圖亮相第八屆世界互聯(lián)網(wǎng)大會
- 騰訊優(yōu)圖“AI畫廊”首次亮相2021重慶智博會展示智能技術(shù)前沿探索成果
- 騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領(lǐng)域
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案