精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

拿下SOTA!騰訊優(yōu)圖聯(lián)合廈門大學(xué)提出AIGI生成圖像檢測(cè)新方法

2025-07-22 16:17:17AI云資訊2167

AI生成圖像已經(jīng)肉眼難辨真假了。

能不能讓AI來(lái)做檢測(cè),“魔法打敗魔法”?

騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合廈門大學(xué)就提出了這樣一項(xiàng)研究,創(chuàng)新性提出“大模型+視覺(jué)專家”協(xié)同架構(gòu),讓大模型學(xué)會(huì)用檢測(cè)器看圖像、并描述出檢測(cè)到的問(wèn)題。

具體方法是AIGI-Holmes——AI生成圖像(AI-generated Image, AIGI)檢測(cè)方法,核心創(chuàng)新點(diǎn)如下:

雙視覺(jué)編碼器架構(gòu):在LLaVA基礎(chǔ)上增加NPR視覺(jué)專家,同時(shí)處理高級(jí)語(yǔ)義和低級(jí)視覺(jué)特征。

Holmes Pipeline:包含視覺(jué)專家預(yù)訓(xùn)練、SFT和DPO三階段訓(xùn)練流程。

協(xié)同解碼策略:推理時(shí)融合視覺(jué)專家與大語(yǔ)言模型的預(yù)測(cè)結(jié)果,提升檢測(cè)精度。

實(shí)驗(yàn)結(jié)果顯示,基準(zhǔn)測(cè)試方面,相比現(xiàn)有方法,團(tuán)隊(duì)的AIGI-Holmes在所有基準(zhǔn)(benchamrk)上,均取得了最優(yōu)效果。解釋能力評(píng)估方面,團(tuán)隊(duì)在客觀指標(biāo)(BLEU/ROUGE/METEOR/CIDEr)以及大模型/人類主觀評(píng)分上,相比當(dāng)前先進(jìn)大模型,均取得了最優(yōu)效果。

1

方法:AIGI-Holmes

現(xiàn)有AIGI檢測(cè)技術(shù)面臨兩個(gè)關(guān)鍵瓶頸:

可解釋性不足:當(dāng)前檢測(cè)模型多為“黑箱”模型(如圖a1所示),只能輸出圖片是“真實(shí)”或“虛假”,而無(wú)法解釋一張圖片為什么是生成圖像,模型檢測(cè)結(jié)果無(wú)法驗(yàn)證,難以提供可信賴的檢測(cè)結(jié)果。

泛化能力有限:快速迭代的AIGC技術(shù)持續(xù)挑戰(zhàn)現(xiàn)有檢測(cè)方法的泛化能力。在舊模型上訓(xùn)練的檢測(cè)器通常難以應(yīng)對(duì)新的AIGC方法;有些人類一眼能夠看出的生成圖片,模型反而難以檢測(cè)出來(lái)。 將多模態(tài)大語(yǔ)言模型(MLLM)應(yīng)用在AIGC檢測(cè)上可以有效幫助緩解上述問(wèn)題,但也存在以下問(wèn)題:

訓(xùn)練數(shù)據(jù)稀缺:現(xiàn)有數(shù)據(jù)集如CNNDetection、GenImage等僅包含圖像+標(biāo)簽,缺乏適合MLLM監(jiān)督微調(diào)(SFT)的視覺(jué)+語(yǔ)言多模態(tài)數(shù)據(jù)。

次優(yōu)微調(diào)問(wèn)題:簡(jiǎn)單的SFT訓(xùn)練可能導(dǎo)致模型機(jī)械復(fù)制解釋模板,而非真正理解偽影或語(yǔ)義錯(cuò)誤的成因。

團(tuán)隊(duì)針對(duì)上述問(wèn)題,通過(guò)AIGI-Holmes給出解決方案。

關(guān)鍵技術(shù)實(shí)現(xiàn)數(shù)據(jù)構(gòu)建(Holmes-Set)

為了解決數(shù)據(jù)稀缺問(wèn)題,團(tuán)隊(duì)構(gòu)建了Holmes-Set數(shù)據(jù)集,包含45K圖像和20K標(biāo)注。團(tuán)隊(duì)考慮了多種類型的生成缺陷,如人臉特征異常、人體解剖學(xué)異常、投影幾何錯(cuò)誤、物理法則錯(cuò)誤、常識(shí)性矛盾、文本渲染異常、紋理異常等等,覆蓋了AI生成圖像在low-level artifacts和high-level semantic中的常見(jiàn)偽影類型。

整個(gè)流程中,為了同時(shí)保證數(shù)據(jù)的數(shù)量和質(zhì)量,團(tuán)隊(duì)采用了多階段數(shù)據(jù)流水線,如下圖所示。

整體流程如下:

數(shù)據(jù)來(lái)源:首先從CNNDetection、GenImage、DRCT中篩選出45K圖像,使用各個(gè)領(lǐng)域的小模型篩選出具有明顯視覺(jué)缺陷的圖像,得到20K圖像。

自動(dòng)標(biāo)注:團(tuán)隊(duì)設(shè)計(jì)了一個(gè)多專家評(píng)審系統(tǒng)(Multi-Expert Jury),通過(guò)四個(gè)先進(jìn)的多模態(tài)大模型(MLLMs)進(jìn)行視覺(jué)缺標(biāo)注,這四個(gè)模型分別是Qwen2VL-72B、InternVL2-76B、InternVL2.5-78B、Pixtral-124B。團(tuán)隊(duì)設(shè)計(jì)了三種不同的prompt,用于標(biāo)注,包括:

a.通用正向提示:通用正向提示中,團(tuán)隊(duì)通過(guò)prompt讓MLLM從包括線條、紋理、陰影、文本、人體等13種角度,借助其強(qiáng)大的通識(shí)能力去分析圖像中可能存在的生成偽影。

b.通用負(fù)向提示:MLLMs存在幻覺(jué)和后驗(yàn)合理化(post-hoc rationalization)問(wèn)題,團(tuán)隊(duì)利用了MLLMs的這個(gè)問(wèn)題,設(shè)計(jì)了通用負(fù)向提示。在通用負(fù)向提示中,反轉(zhuǎn)了通用正向提示中所有圖像的真/假標(biāo)簽,從而讓模型去強(qiáng)行解釋一張真實(shí)的圖片為什么是假的,以及一張生成的圖片為什么是真的,用作后續(xù)直接偏好優(yōu)化(DPO)的負(fù)樣本,從而抑制幻覺(jué)問(wèn)題。

c.特定缺陷提示:為了進(jìn)一步提升模型在各種視覺(jué)缺陷方面的理解能力,團(tuán)隊(duì)設(shè)計(jì)了特定缺陷提示,用于標(biāo)注特定缺陷類型的圖像。專家提示中,團(tuán)隊(duì)通過(guò)prompt讓MLLMs從特定缺陷的角度去解釋一張圖像,如圖所示:

偏好修正數(shù)據(jù):團(tuán)隊(duì)基于SFT階段模型的輸出,通過(guò)人工標(biāo)注進(jìn)行偏好修正。具體來(lái)說(shuō),讓標(biāo)注同學(xué)根據(jù)圖像和初版模型輸出的解釋,提供解釋的修改建議,比如解釋中存在哪些錯(cuò)解釋/漏解釋的問(wèn)題。結(jié)合原始解釋及人工提供的修改建議,團(tuán)隊(duì)使用Deepseek對(duì)解釋進(jìn)行了修改,并將修改前/后的解釋作為一對(duì)數(shù)據(jù),用于后續(xù)的DPO訓(xùn)練。

模型架構(gòu)

Holmes Pipeline是為AIGI-Holmes系統(tǒng)設(shè)計(jì)的完整訓(xùn)練流程,旨在通過(guò)分階段優(yōu)化策略將多模態(tài)大語(yǔ)言模型轉(zhuǎn)化為專業(yè)的AI生成圖像檢測(cè)與解釋系統(tǒng)。

整體流程如下:

視覺(jué)專家預(yù)訓(xùn)練階段:該階段的核心目標(biāo)是使MLLM的視覺(jué)編碼器具備基礎(chǔ)的AI生成圖像檢測(cè)能力。為此選擇了兩個(gè)視覺(jué)專家,分別是CLIP-ViT-L/14和NPR ResNet。其中CLIP用于檢測(cè)high-level semantic缺陷,而NPR則用于檢測(cè)low-level artfacts,分別在Holmes-set上進(jìn)行LoRA微調(diào)和全參微調(diào)。通過(guò)二元交叉熵?fù)p失函數(shù),模型能夠迅速學(xué)習(xí)到真實(shí)圖像與生成圖像之間的差異,為后續(xù)的SFT和DPO階段提供基礎(chǔ)的視覺(jué)能力。

監(jiān)督微調(diào)(SFT)階段:保持視覺(jué)專家參數(shù)凍結(jié),僅訓(xùn)練線性投影層和語(yǔ)言模型的LoRA適配層。通過(guò)使用自回歸文本損失函數(shù),引導(dǎo)模型學(xué)習(xí)生成與圖像真實(shí)性相關(guān)的視覺(jué)缺陷解釋。這一階段的訓(xùn)練數(shù)據(jù)包含大量經(jīng)過(guò)自動(dòng)標(biāo)注的圖像描述和視覺(jué)缺陷解釋,使模型能夠建立視覺(jué)特征與語(yǔ)義解釋之間的關(guān)聯(lián)。模型在此階段學(xué)習(xí)如何將視覺(jué)專家的檢測(cè)結(jié)果轉(zhuǎn)化為人類可理解的文本描述。

直接偏好優(yōu)化(DPO)階段:團(tuán)隊(duì)從構(gòu)建的偏好數(shù)據(jù)集中采樣優(yōu)質(zhì)和劣質(zhì)解釋對(duì),采用DPO損失函數(shù)進(jìn)行優(yōu)化。在此過(guò)程中,團(tuán)隊(duì)保持視覺(jué)專家參數(shù)不變,微調(diào)線性層,并使用LoRA微調(diào)語(yǔ)言模型。通過(guò)偏好樣本對(duì)之間的對(duì)比,模型能夠區(qū)分高質(zhì)量的專業(yè)解釋和低質(zhì)量的機(jī)械式回答,從而顯著提升輸出的可讀性和準(zhǔn)確性。

推理階段:在推理階段,團(tuán)隊(duì)采用了協(xié)同解碼策略,將多模態(tài)大語(yǔ)言模型(MLLM)與預(yù)訓(xùn)練的視覺(jué)專家相結(jié)合來(lái)共同判斷圖像真實(shí)性。具體而言,通過(guò)調(diào)整模型輸出中”fake”和”real”對(duì)應(yīng)token的logit值,整合了原始MLLM預(yù)測(cè)、CLIP視覺(jué)專家預(yù)測(cè)和NPR視覺(jué)專家預(yù)測(cè)三方面的結(jié)果,其中權(quán)重分配分別為1:1:0.2。這種協(xié)同機(jī)制既保留了MLLM的多模態(tài)理解能力,又通過(guò)視覺(jué)專家的低層級(jí)特征分析彌補(bǔ)了MLLM可能存在的過(guò)擬合問(wèn)題,從而提升了模型在未知領(lǐng)域的檢測(cè)準(zhǔn)確率。

2

評(píng)估:均取得最優(yōu)效果

團(tuán)隊(duì)對(duì)模型進(jìn)行了檢測(cè)能力、解釋能力、魯棒性三方面的評(píng)估,從而全面反映模型在AI生成圖像檢測(cè)的綜合性能。

檢測(cè)能力評(píng)估

在檢測(cè)能力評(píng)估上,參考現(xiàn)有方法,團(tuán)隊(duì)采用檢測(cè)real/fake的準(zhǔn)確率(Acc.)和平均精度(A.P.)作為核心指標(biāo)。

具體來(lái)說(shuō),團(tuán)隊(duì)在三個(gè)AIGI檢測(cè)的數(shù)據(jù)集上評(píng)估了檢測(cè)能力,包括AIGCDetect-Benchmark、AntiFakePrompt,并且額外采集了10種SOTA生成模型的圖片構(gòu)建了第三個(gè)benchmark,用于測(cè)試模型在未見(jiàn)過(guò)的生成方法上的泛化能力。

測(cè)試結(jié)果如下圖所示,相比現(xiàn)有方法,AIGI-Holmes在所有benchamrk上,均取得了最優(yōu)效果。

解釋能力評(píng)估

在解釋能力評(píng)估上,通過(guò)BLEU、CIDEr、METEOR和ROUGE等自然語(yǔ)言處理指標(biāo)量化解釋文本的質(zhì)量。此外,還引入多模態(tài)大模型評(píng)分和人工偏好評(píng)估兩種補(bǔ)充評(píng)估方式:前者參考相關(guān)研究設(shè)計(jì)評(píng)分標(biāo)準(zhǔn),考察解釋的相關(guān)性、準(zhǔn)確性等維度;后者通過(guò)100張測(cè)試圖像的成對(duì)比較,采用ELO評(píng)分機(jī)制評(píng)估模型解釋的人類偏好程度。

解釋能力評(píng)估上,該方法在客觀指標(biāo)(BLEU/ROUGE/METEOR/CIDEr)以及大模型/人類主觀評(píng)分上,相比當(dāng)前先進(jìn)大模型,均取得了最優(yōu)效果。

魯棒性

在現(xiàn)實(shí)場(chǎng)景中,AI生成的圖像在傳播過(guò)程中常遇到不可預(yù)測(cè)的擾動(dòng),這可能導(dǎo)致現(xiàn)有AI檢測(cè)器失效。團(tuán)隊(duì)?wèi)?yīng)用了幾種現(xiàn)實(shí)場(chǎng)景中常見(jiàn)的擾動(dòng):JPEG壓縮、高斯模糊和下采樣。

如表5(下圖左側(cè))所示,在這些失真下,所有方法的性能顯著下降。然而,AIGI-Holmes在這些挑戰(zhàn)性場(chǎng)景中與其他基線方法相比,實(shí)現(xiàn)了更高的檢測(cè)精度。

此外,如圖5(下圖右側(cè))所示,在這些退化條件下,模型解釋的評(píng)價(jià)指標(biāo)(如BLEU-1、ROUGE-L、METEOR和CIDEr)沒(méi)有表現(xiàn)出顯著下降。這表明模型生成的解釋仍然專注于與圖像內(nèi)容相關(guān)的高級(jí)語(yǔ)義信息,并且不受這些退化條件的影響。

實(shí)測(cè)效果

盡管AIGI-Holmes在檢測(cè)能力、解釋能力和魯棒性上均取得了先進(jìn)效果,但仍存在一些局限性,比如:

幻覺(jué)問(wèn)題,模型會(huì)輸出一些并不存在的視覺(jué)缺陷或?qū)⒄R曈X(jué)特征誤解為視覺(jué)缺陷,導(dǎo)致錯(cuò)誤的解釋。

隨著生成模型的不斷發(fā)展,視覺(jué)缺陷會(huì)越來(lái)越少,對(duì)模型在更細(xì)粒度缺陷上的視覺(jué)感知能力要求更高。

對(duì)于視覺(jué)缺陷解釋,仍缺少定量客觀指標(biāo)評(píng)估,當(dāng)前采用的人工/大模型等主觀評(píng)估方法開銷相對(duì)較大。

未來(lái),研究團(tuán)隊(duì)也會(huì)針對(duì)多模態(tài)大模型的幻覺(jué)問(wèn)題、細(xì)粒度理解能力、解釋的客觀評(píng)估開展進(jìn)一步的工作。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews