智象未來發(fā)布全新自回歸圖像編輯框架 VAREdit ,0.7 秒完成高保真圖像編輯
2025-08-25 17:52:17AI云資訊1950
近日,智象未來團(tuán)隊(duì)正式推出全新自回歸圖像編輯框架 VAREdit,作為全球首個(gè)純自回歸的圖像編輯模型,這也是該領(lǐng)域的又一重大突破。該框架不僅能夠精準(zhǔn)執(zhí)行用戶指令,避免過度修改,還將編輯速度提升至0.7秒級(jí),為實(shí)時(shí)交互與高效創(chuàng)作開辟新路徑。
長(zhǎng)期以來,擴(kuò)散模型在圖像編輯中雖能生成高質(zhì)量畫面,但存在局部修改牽動(dòng)整體結(jié)構(gòu)、編輯不夠精準(zhǔn),以及多步迭代效率低等瓶頸。針對(duì)這一問題,VAREdit首次將視覺自回歸(VAR)架構(gòu)引入圖像編輯任務(wù)。它將編輯定義為“下一尺度預(yù)測(cè)”,逐層生成多尺度殘差特征,實(shí)現(xiàn)局部精準(zhǔn)修改與整體結(jié)構(gòu)保持的統(tǒng)一。同時(shí),團(tuán)隊(duì)創(chuàng)新設(shè)計(jì)了尺度對(duì)齊參考(SAR)模塊,有效解決尺度匹配難題,進(jìn)一步提升編輯質(zhì)量與效率。
在權(quán)威基準(zhǔn) EMU-Edit 與 PIE-Bench 測(cè)試中,VAREdit在CLIP與GPT等指標(biāo)全面領(lǐng)先。其中,VAREdit-8.4B在GPT-Balance指標(biāo)上較ICEdit和UltraEdit分別提升41.5%和30.8%;輕量版VAREdit-2.2B可在0.7秒內(nèi)完成512×512圖像高保真編輯,實(shí)現(xiàn)數(shù)倍提速。
目前,VAREdit已在 GitHub 和 Hugging Face 平臺(tái)全面開源。智象未來團(tuán)隊(duì)表示,未來將持續(xù)探索視頻編輯、多模態(tài)生成等應(yīng)用場(chǎng)景,推動(dòng)AI圖像編輯邁入高效、可控、實(shí)時(shí)的新紀(jì)元。
相關(guān)文章
- 智象未來亮相 WAIC:多模態(tài)智能體,重塑創(chuàng)作的未來版圖
- 智象未來兩項(xiàng)研究入選ICCV 2025,發(fā)布兩項(xiàng)視覺生成突破性成果
- 智象未來與華為云簽署全面合作協(xié)議,共同探索人工智能落地應(yīng)用創(chuàng)新典范
- 智象未來兩篇論文入選 CVPR 2025!視頻生成與虛擬換裝齊破局,開源賦能產(chǎn)業(yè)革新
- 彩訊股份與智象未來達(dá)成戰(zhàn)略合作,推動(dòng)多模態(tài)大模型及AI應(yīng)用落地
- 2024世界制造業(yè)大會(huì)圓滿落幕,智象未來(HiDream.ai)助推產(chǎn)業(yè)智能化
- 領(lǐng)航創(chuàng)意制作,智象未來(HiDream.ai)推動(dòng)視覺內(nèi)容產(chǎn)業(yè)邁向新高地
- 領(lǐng)跑AIGC領(lǐng)域技術(shù),智象未來開啟文旅宣傳新篇章
- 推動(dòng)視覺AI邊界,智象未來(HiDream.ai)榮登全球技術(shù)先鋒榜單
- 智象未來在文生視頻時(shí)代的突破與展望
人工智能企業(yè)
更多>>人工智能硬件
更多>>- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時(shí)延邊緣應(yīng)用
- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會(huì)強(qiáng)勢(shì)來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會(huì),打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了??jī)?yōu)特智廚炒菜機(jī)新品發(fā)布會(huì)掀起中餐“現(xiàn)炒”熱潮
- 場(chǎng)景化落地部署人形機(jī)器人將超2000臺(tái),眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競(jìng)創(chuàng)作雙巔峰
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會(huì)亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場(chǎng)特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎(jiǎng)?lì)C發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡(jiǎn)單
人工智能技術(shù)
更多>>- 外灘大會(huì)首發(fā)! 螞蟻密算推出AI密態(tài)升級(jí)卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 2025外灘大會(huì):王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢(shì)科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案