智象未來兩項研究入選ICCV 2025,發(fā)布兩項視覺生成突破性成果
2025-07-19 12:43:47AI云資訊1974
近日,智象未來團隊兩項創(chuàng)新成果入選ICCV2025,分別聚焦于圖像生成與視頻增強兩個方向,全面展示了其在生成式AI技術(shù)上的突破與領(lǐng)先。
在圖像生成方面,智象未來團隊提出了全新去噪掩碼自回歸生成范式De-MAR,解決了自回歸模型在視覺生成中的關(guān)鍵瓶頸。自回歸模型雖在語言領(lǐng)域大獲成功,但在圖像生成中存在細節(jié)表現(xiàn)力不足、推理速度慢等痛點。De-MAR框架通過雙重令牌優(yōu)化機制,創(chuàng)新性引入擴散頭與去噪頭模塊:擴散頭利用交叉注意力捕捉全局上下文,提升掩碼區(qū)域預(yù)測精度;去噪頭動態(tài)優(yōu)化已知區(qū)域令牌,減少誤差累積。實驗顯示,De-MAR在ImageNet和MS-COCO數(shù)據(jù)集上,F(xiàn)ID指標(biāo)達1.47和5.27的頂尖水平,生成速度較DiT-XL/2快45%,打破高質(zhì)量與高效率不可兼得的困境,生成圖像細節(jié)更豐富、偽影更少。
在視頻增強方面,團隊則推出了創(chuàng)新的生成式視頻畫質(zhì)增強框架GenVE,攻克傳統(tǒng)方法細節(jié)缺失難題。其核心在于雙重對齊機制:通過圖像擴散模型生成語義參考,確保全局布局一致;借助局部感知交叉注意力模塊,精準(zhǔn)遷移參考圖像的紋理細節(jié)至視頻。同時,多重增強策略提升模型魯棒性:噪聲增強平衡質(zhì)量與保真度,時間增強強化幀間連貫性,掩碼策略提升特征利用率。在YouHQ40、VideoLQ等數(shù)據(jù)集上,GenVE的MUSIQ、DOVER等指標(biāo)全面領(lǐng)先,能生動還原毛發(fā)、衣物褶皺等細節(jié),使視頻畫面更自然流暢。
這兩項成果分別發(fā)表于ICCV 2025 論文《Denoising Token Prediction in Masked Autoregressive Models》和《Aligning Global Semantics and Local Textures in Generative Video Enhancement》,為視覺生成技術(shù)開辟新路徑,推動高質(zhì)量、高效率的多模態(tài)內(nèi)容生成邁向?qū)嵱没磥碛型趧?chuàng)意設(shè)計、影視制作等領(lǐng)域廣泛應(yīng)用。
相關(guān)文章
- 智象未來亮相 WAIC:多模態(tài)智能體,重塑創(chuàng)作的未來版圖
- 智象未來兩項研究入選ICCV 2025,發(fā)布兩項視覺生成突破性成果
- 智象未來與華為云簽署全面合作協(xié)議,共同探索人工智能落地應(yīng)用創(chuàng)新典范
- 智象未來兩篇論文入選 CVPR 2025!視頻生成與虛擬換裝齊破局,開源賦能產(chǎn)業(yè)革新
- 彩訊股份與智象未來達成戰(zhàn)略合作,推動多模態(tài)大模型及AI應(yīng)用落地
- 2024世界制造業(yè)大會圓滿落幕,智象未來(HiDream.ai)助推產(chǎn)業(yè)智能化
- 領(lǐng)航創(chuàng)意制作,智象未來(HiDream.ai)推動視覺內(nèi)容產(chǎn)業(yè)邁向新高地
- 領(lǐng)跑AIGC領(lǐng)域技術(shù),智象未來開啟文旅宣傳新篇章
- 推動視覺AI邊界,智象未來(HiDream.ai)榮登全球技術(shù)先鋒榜單
- 智象未來在文生視頻時代的突破與展望
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案