精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

ICCV 2025 | 騰訊優(yōu)圖實(shí)驗(yàn)室大模型8篇論文入選,涵蓋風(fēng)格化人臉識(shí)別、AI生成圖像檢測、多模態(tài)大語言模型等方向

2025-07-03 20:38:35AI云資訊6044

近日,第20屆ICCV國際計(jì)算機(jī)視覺大會(huì)(The 20th IEEE/CVF International Conference on Computer Vision (ICCV 2025))公布了論文錄用結(jié)果。ICCV作為計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,每兩年舉辦一次,與國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)、歐洲計(jì)算機(jī)視覺國際會(huì)議(ECCV)并稱為計(jì)算機(jī)視覺領(lǐng)域的三大頂級(jí)會(huì)議,具有極高的學(xué)術(shù)影響力。ICCV 2025將于10月19日至25日在美國夏威夷舉行。

ICCV 2025大會(huì)共收到11239份有效投稿,刷新歷史記錄,經(jīng)過嚴(yán)格評審,最終僅接受2698篇論文,錄用率為24%。今年,騰訊優(yōu)圖實(shí)驗(yàn)室共有8篇論文入選ICCV 2025,內(nèi)容涵蓋風(fēng)格化人臉識(shí)別、AI生成圖像檢測、多模態(tài)大語言模型等方向,展現(xiàn)了優(yōu)圖實(shí)驗(yàn)室在人工智能領(lǐng)域的技術(shù)能力與創(chuàng)新突破。

以下為入選論文摘要:

1

Stylized -Face:用于風(fēng)格化人臉識(shí)別的數(shù)據(jù)集

Stylized-Face: A Million-level Stylized Face Dataset for Face Recognition

Zhengyuan Peng(上海交通大學(xué)/優(yōu)圖實(shí)習(xí)生),Jianqing Xu,Yuge Huang,Jinkun Hao(上海交通大學(xué)), Shouhong Ding,Zhizhong Zhang(上海交通大學(xué)), Xin Tan(上海交通大學(xué)),Lizhuang Ma(上海交通大學(xué))

風(fēng)格化人臉識(shí)別的任務(wù)是識(shí)別不同風(fēng)格領(lǐng)域(例如動(dòng)漫、繪畫、賽博朋克風(fēng)格)中具有相同ID的生成人臉。這一新興領(lǐng)域在生成圖像治理中扮演著至關(guān)重要的角色,其主要目標(biāo)是:識(shí)別風(fēng)格化人臉的ID信息,以檢測潛在的肖像權(quán)侵權(quán)行為。盡管風(fēng)格化人臉識(shí)別至關(guān)重要,但由于缺乏大規(guī)模、風(fēng)格多樣化的數(shù)據(jù)集,其發(fā)展一直受到阻礙。為了彌補(bǔ)這一缺陷,我們推出了Stylized-Face數(shù)據(jù)集,這是第一個(gè)專門為風(fēng)格化人臉識(shí)別設(shè)計(jì)的數(shù)據(jù)集。Stylized-Face數(shù)據(jù)集包含460萬張圖像,涵蓋6.2萬個(gè)ID,旨在提升模型在風(fēng)格化人臉識(shí)別任務(wù)中的表現(xiàn)。為了確保如此大規(guī)模的數(shù)據(jù)質(zhì)量,我們實(shí)施了一套半自動(dòng)化的大規(guī)模數(shù)據(jù)清理流程?;赟tylized-Face數(shù)據(jù)集,我們建立了三個(gè)基準(zhǔn)測試集,用于評估識(shí)別模型在不同場景下的魯棒性和泛化能力,包括分布內(nèi)性能、跨方法泛化和跨風(fēng)格泛化,以應(yīng)對風(fēng)格化人臉識(shí)別的關(guān)鍵挑戰(zhàn)。實(shí)驗(yàn)結(jié)果表明,在Stylized-Face數(shù)據(jù)集上訓(xùn)練的模型在風(fēng)格化人臉識(shí)別性能(FAR=1e-4時(shí)TAR提升15.9%)和泛化能力(跨方法泛化時(shí)FAR=1e-3時(shí)TAR提升13.3%)方面均取得了顯著提升。

2

AIGI-Holmes:基于多模態(tài)大語言模型的可解釋及可泛化的AI生成圖像檢測

AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models

Ziyin Zhou(廈門大學(xué)/優(yōu)圖實(shí)習(xí)生),Yunpeng Luo,Yuanchen Wu,Ke Sun(廈門大學(xué)),Jiayi Ji(廈門大學(xué)),Ke Yan,Shouhong Ding,Xiaoshuai Sun(廈門大學(xué)),Yunsheng Wu,Rongrong Ji(廈門大學(xué))

隨著AI生成內(nèi)容(AIGC)技術(shù)的飛速發(fā)展,高度逼真的AI生成圖像(AIGI)被廣泛濫用,用于傳播虛假信息,嚴(yán)重威脅公共信息安全。盡管現(xiàn)有的AI生成圖像檢測技術(shù)普遍效果良好,但仍存在兩大關(guān)鍵缺陷:一是缺乏可被人工驗(yàn)證的解釋依據(jù);二是對新一代基于多模態(tài)大模型自回歸范式生成的圖像存在可能的泛化能力不足問題。為應(yīng)對這些挑戰(zhàn),本文構(gòu)建了大規(guī)模綜合數(shù)據(jù)集Holmes-Set。該數(shù)據(jù)集包含兩個(gè)核心部分:提供AI圖像判定解釋的指令微調(diào)數(shù)據(jù)集Holmes-SFTSet,以及用于人類對齊偏好的數(shù)據(jù)集Holmes-DPOSet。在數(shù)據(jù)標(biāo)注方面,本文創(chuàng)新性地提出了“多專家評審機(jī)制”。該機(jī)制通過結(jié)構(gòu)化多模態(tài)大語言模型(MLLM)的解釋來增強(qiáng)數(shù)據(jù)生成,并采用跨模型評估、專家缺陷過濾與人類偏好修正相結(jié)合的方式實(shí)現(xiàn)嚴(yán)格的質(zhì)量管控。同時(shí),本文提出了一個(gè)名為Holmes Pipeline的三階段訓(xùn)練框架:首先進(jìn)行視覺專家預(yù)訓(xùn)練,其次進(jìn)行監(jiān)督微調(diào)(SFT),最后進(jìn)行直接偏好優(yōu)化(DPO)。該框架旨在使多模態(tài)大語言模型(MLLM)適配AI生成圖像檢測任務(wù),生成兼具可驗(yàn)證性和人類認(rèn)知對齊的解釋,最終訓(xùn)練出AIGI-Holmes模型。在推理階段,本文還引入了協(xié)同解碼策略,融合視覺專家模型的感知能力與MLLM的語義推理能力,以進(jìn)一步增強(qiáng)模型在新數(shù)據(jù)上的泛化能力。在三大基準(zhǔn)測試上進(jìn)行的廣泛實(shí)驗(yàn),充分驗(yàn)證了AIGI-Holmes模型的有效性。

3

Fuse Before Transfer:面向異構(gòu)蒸餾的知識(shí)融合算法

Fuse Before Transfer: Knowledge Fusion for Heterogeneous Distillation

Guopeng Li(武漢大學(xué)/優(yōu)圖實(shí)習(xí)生),Qiang Wang,Ke Yan,Shouhong Ding,Yuan Gao(武漢大學(xué)),Gui-Song Xia(武漢大學(xué))

當(dāng)前大多數(shù)知識(shí)蒸餾(KD)方法受限于Teacher與Student的結(jié)構(gòu),往往在同構(gòu)模型中表現(xiàn)優(yōu)異,而在異構(gòu)網(wǎng)絡(luò)之間效果較差。在實(shí)際應(yīng)用中,跨結(jié)構(gòu)知識(shí)蒸餾(CAKD)可以將任意結(jié)構(gòu)Teacher的知識(shí)遷移至指定的Student,從而顯著提升知識(shí)蒸餾的潛力與靈活性。然而,異構(gòu)模型間固有的歸納偏置差異會(huì)導(dǎo)致顯著的特征鴻溝,這給CAKD帶來了巨大挑戰(zhàn)。為此,我們提出在Teacher知識(shí)遷移前進(jìn)行異構(gòu)知識(shí)融合。該融合機(jī)制通過直接整合師生模型的卷積模塊、注意力模塊和MLP模塊來統(tǒng)一異構(gòu)模型的歸納偏置。進(jìn)一步研究發(fā)現(xiàn),異構(gòu)特征呈現(xiàn)空間分布異質(zhì)性,傳統(tǒng)逐像素MSE損失有效性不足。因此,我們提出采用空間不敏感的InfoNCE損失,在空間平滑處理后進(jìn)行特征對齊。本方法在CIFAR-100和ImageNet-1K數(shù)據(jù)集上,針對CNN、ViT、MLP的同構(gòu)模型及任意異構(gòu)組合進(jìn)行了全面評估。蒸餾模型性能提升顯著,在CIFAR-100上最高增益達(dá)11.47%,在ImageNet-1K上達(dá)3.67%。

4

UniCombine:基于擴(kuò)散模型的統(tǒng)一多條件控制生成算法

UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer

Haoxuan Wang*(復(fù)旦/優(yōu)圖實(shí)習(xí)生),Jinlong Peng*,Qingdong He,Hao Yang(上交),Ying Jin(復(fù)旦),Jiafu Wu,Xiaobin Hu,Yanjie Pan(復(fù)旦),Zhenye Gan,Mingmin Chi(復(fù)旦), Bo Peng(上海海洋大學(xué)),Yabiao Wang

隨著擴(kuò)散模型在圖像生成領(lǐng)域的快速發(fā)展,對更強(qiáng)大且靈活的可控框架的需求日益增長。盡管現(xiàn)有方法能夠超越文本提示進(jìn)行引導(dǎo)生成,但如何有效結(jié)合多種條件輸入并保持對所有條件的一致性仍然是一個(gè)未解決的挑戰(zhàn)。為此,我們提出了UniCombine,一種基于DiT的多條件可控生成框架,能夠處理包括但不限于文本提示、空間映射和主體圖像在內(nèi)的任意條件組合。具體而言,我們引入了一種新穎的條件MMDiT注意力機(jī)制,并結(jié)合可訓(xùn)練的LoRA模塊,構(gòu)建了training-free和training-based兩種版本。此外,我們構(gòu)建并了首個(gè)針對多條件組合式生成任務(wù)設(shè)計(jì)的數(shù)據(jù)集SubjectSpatial200K,涵蓋了主體驅(qū)動(dòng)和空間對齊條件。大量多條件生成的實(shí)驗(yàn)結(jié)果表明,我們的方法具有出色的通用性和強(qiáng)大的能力,達(dá)到了最先進(jìn)的性能水平。

論文鏈接:

https://arxiv.org/pdf/2503.09277

5

LLaVA-KD:一種蒸餾多模態(tài)大語言模型的框架

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

Yuxuan Cai*(華科/優(yōu)圖實(shí)習(xí)生),Jiangning Zhang*,Haoyang He(浙大),Xinwei He (華農(nóng)),Ao Tong (華科),Zhenye Gan,Chengjie Wang(共同通訊),Xuezhucun(浙大),Yong Liu(浙大),Xiang Bai(華科)

大語言模型(LLMs)的成功推動(dòng)了多模態(tài)大語言模型(MLLMs)的發(fā)展,旨在實(shí)現(xiàn)視覺與語言的統(tǒng)一理解。然而,大規(guī)模多模態(tài)大語言模型($l$-MLLMs)不斷攀升的模型規(guī)模和計(jì)算復(fù)雜度,限制了其在資源受限場景中的應(yīng)用。盡管小規(guī)模多模態(tài)大語言模型($s$-MLLMs)旨在降低計(jì)算成本,但其性能往往出現(xiàn)顯著下降。

為緩解這一矛盾,我們提出了創(chuàng)新的LLaVA-KD框架,實(shí)現(xiàn)知識(shí)從$l$-MLLMs到$s$-MLLMs的高效遷移。具體而言:

- **多模態(tài)蒸餾(MDist)**:跨視覺和語言模態(tài)遷移教師模型的魯棒表征

- **關(guān)系蒸餾(RDist)**:遷移教師模型捕捉視覺標(biāo)記間關(guān)系的能力

此外,我們設(shè)計(jì)了三階段訓(xùn)練范式以充分釋放蒸餾策略的潛力:

1. **蒸餾預(yù)訓(xùn)練**:強(qiáng)化$s$-MLLMs中視覺-語言表征的對齊

2. **監(jiān)督微調(diào)**:賦予$s$-MLLMs多模態(tài)理解能力

3. **蒸餾微調(diào)**:精調(diào)$s$-MLLMs的知識(shí)表征

該方法在保持模型架構(gòu)不變的前提下,顯著提升了$s$-MLLMs的性能。大量實(shí)驗(yàn)與消融研究驗(yàn)證了各組件的有效性。

論文鏈接:

https://arxiv.org/abs/2410.16236

6

基于對抗增強(qiáng)的掌紋識(shí)別的算法

Unified Adversarial Augmentation for Improving Palmprint Recognition

Jianlong Jin*(合肥工業(yè)大學(xué)/優(yōu)圖實(shí)習(xí)生),Chenglong Zhao*,Ruixin Zhang,Sheng Shang(合肥工業(yè)大學(xué)/優(yōu)圖實(shí)習(xí)生),Yang Zhao(合肥工業(yè)大學(xué)),Jun Wang(微信支付33號(hào)實(shí)驗(yàn)室),Jingyun Zhang(微信支付33號(hào)實(shí)驗(yàn)室),Shouhong Ding,Wei Jia(合肥工業(yè)大學(xué)),Yunsheng Wu

當(dāng)前掌紋識(shí)別模型在受限數(shù)據(jù)集上表現(xiàn)優(yōu)異,但在處理存在幾何形變和紋理退化的挑戰(zhàn)性掌紋樣本時(shí)仍存在顯著局限。數(shù)據(jù)增強(qiáng)技術(shù)雖被廣泛采用以提升模型泛化能力,但現(xiàn)有增強(qiáng)方法難以在保持身份一致性的同時(shí)生成具有掌紋特異性的多樣化樣本,導(dǎo)致性能提升有限。為此,我們提出一個(gè)統(tǒng)一的對抗性增強(qiáng)框架:首先采用對抗訓(xùn)練范式進(jìn)行掌紋識(shí)別,通過融入識(shí)別網(wǎng)絡(luò)的反饋來優(yōu)化生成具有挑戰(zhàn)性的增強(qiáng)樣本;其次同步增強(qiáng)幾何形變與紋理變異,具體采用空間變換模塊和新型身份保持模塊,在維持身份一致性的前提下合成具有豐富紋理變化的掌紋圖像;進(jìn)一步提出動(dòng)態(tài)采樣策略以實(shí)現(xiàn)更高效的對抗增強(qiáng)。大量實(shí)驗(yàn)表明,該方法在挑戰(zhàn)性和受限掌紋數(shù)據(jù)集上均展現(xiàn)出優(yōu)越性能。

7

從增強(qiáng)到理解:基于語義一致的暗光視覺通用理解增強(qiáng)方法

From Enhancement to Understanding: Build a Generalized Bridge for Low-light Vision via Semantically Consistent Unsupervised Fine-tuning

Sen Wang*(華東師范大學(xué)/優(yōu)圖實(shí)習(xí)生),Shao Zeng*,Tianjun Gu(華東師范大學(xué)),Zhizhong Zhang(華東師范大學(xué)),Ruixin Zhang,Shouhong Ding,Jingyun Zhang(微信支付33號(hào)實(shí)驗(yàn)室),Jun Wang(微信支付33號(hào)實(shí)驗(yàn)室),Xin Tan(華東師范大學(xué)),Yuan Xie(華東師范大學(xué)),Lizhuang Ma(華東師范大學(xué))

暗光視覺任務(wù)中通常將low-level增強(qiáng)和high-level視覺理解分開處理。暗光增強(qiáng)任務(wù)旨在提升圖像質(zhì)量以輔助下游任務(wù),但現(xiàn)有方法只依賴物理或幾何先驗(yàn),限制了其泛化能力。同時(shí),現(xiàn)有方法的評估主要關(guān)注視覺質(zhì)量,而忽略了下游任務(wù)的表現(xiàn)。而暗光視覺理解任務(wù)受到標(biāo)注數(shù)據(jù)稀缺的限制,通常使用特定任務(wù)的域適應(yīng)方法,缺乏可擴(kuò)展性。為了解決這些挑戰(zhàn),我們構(gòu)建了暗光增強(qiáng)與理解之間的通用橋梁,稱為通用理解增強(qiáng),旨在同時(shí)提高方法的泛化能力和可擴(kuò)展性。為了應(yīng)對暗光退化的多樣化成因,我們利用預(yù)訓(xùn)練生成擴(kuò)散模型對圖像進(jìn)行優(yōu)化,實(shí)現(xiàn)零樣本的泛化性能。在此基礎(chǔ)上,我們提出了語義一致的無監(jiān)督微調(diào)方法。具體而言,為克服文本提示的局限性,我們引入了一種感知光照的圖像提示用于顯式引導(dǎo)圖像生成,并提出了一種循環(huán)注意力適配器以最大化其語義潛力。為緩解無監(jiān)督訓(xùn)練中語義退化的問題,我們進(jìn)一步提出了“圖像描述一致性”和“反射一致性”策略,以學(xué)習(xí)高級(jí)語義和圖像級(jí)的空間語義。大量實(shí)驗(yàn)證明,我們的方法能夠在圖像質(zhì)量增強(qiáng)和通用理解增強(qiáng)(包括分類、檢測和分割任務(wù))任務(wù)中均超過現(xiàn)有方法,達(dá)到最先進(jìn)的性能水平。

8

OracleFusion:基于語義結(jié)構(gòu)可視化輔助理解甲骨文

OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography

Caoshuo Li(廈大/優(yōu)圖實(shí)習(xí)生),Zengmao Ding(安陽師院),Xiaobin Hu,Bang Li(安陽師院),Donghao Luo,AndyPianWu(數(shù)字文化實(shí)驗(yàn)室),Chaoyang Wang(數(shù)字文化實(shí)驗(yàn)室),Chengjie Wang,Taisong Jin(廈大),SevenShu(數(shù)字文化實(shí)驗(yàn)室),Yunsheng Wu,Yongge Liu(安陽師院),Rongrong Ji(廈大)

甲骨文是最早的古代語言之一,蘊(yùn)含著古代文明的文化記錄。盡管已發(fā)現(xiàn)約4,500個(gè)甲骨文字符,但只有約1,600個(gè)被破譯。其余未破譯的字符結(jié)構(gòu)復(fù)雜、意象抽象,對解讀構(gòu)成重大挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),本文提出了一種新穎的兩階段語義排版框架OracleFusion。在第一階段,該方法利用具有增強(qiáng)空間感知推理(SAR)的多模態(tài)大型語言模型(MLLM)來分析甲骨文字符的字形結(jié)構(gòu)并對關(guān)鍵部件進(jìn)行視覺定位。在第二階段,我們引入甲骨文結(jié)構(gòu)矢量融合( SOVF ),結(jié)合字形結(jié)構(gòu)約束和字形維持約束,以確保準(zhǔn)確生成語義豐富的矢量字體。這種方法保持了字形結(jié)構(gòu)的客觀完整性,提供了視覺增強(qiáng)的表示,以幫助專家破譯甲骨文。大量的定性和定量實(shí)驗(yàn)表明,OracleFusion在語義、視覺吸引力和字形維護(hù)方面均超越了最先進(jìn)的基線模型,顯著提升了可讀性和美觀度。此外,OracleFusion還能為未見的甲骨文字符提供專家級(jí)的洞察,使其成為推進(jìn)甲骨文釋讀的有效工具。

論文鏈接:

https://arxiv.org/abs/2506.21101

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews