精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

超越ControlNet!騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合復(fù)旦大學(xué)提出AI生圖新框架,解決多條件生成難題

2025-05-29 20:24:31愛云資訊1685

文生圖新架構(gòu)來了!

來自騰訊優(yōu)圖實(shí)驗(yàn)室、復(fù)旦大學(xué)等機(jī)構(gòu)的研究人員最新提出PixelPonder,這是一種新型的多視覺控制解決方案,在多視覺控制任務(wù)中顯示出多模態(tài)融合的巨大潛力。

具體而言,ControlNet架構(gòu)定義了視覺控制的全新范式,但其統(tǒng)一的時(shí)序視覺控制信號阻礙了多模態(tài)視覺控制的協(xié)同作用,這導(dǎo)致難以實(shí)現(xiàn)多視覺聯(lián)合控制圖像生成。

比如你想生成一張“一只在森林里的小鹿”。雖然當(dāng)前的擴(kuò)散模型可以實(shí)現(xiàn)這個(gè)目標(biāo),但如果你想加上更多細(xì)節(jié),如“小鹿的姿態(tài)”、“森林的氛圍感”等等,這些不同的條件可能會相互“打架”,導(dǎo)致生成效果不佳。

而在PixelPonder這項(xiàng)工作中,研究人員提出了Patch Adaption,這是一種多視覺控制的全新解決方案,具有多視覺控制任務(wù)所需的適應(yīng)性。

與先前的解決方案在多類測試集的大量實(shí)驗(yàn)表明,所提出的Patch Adaption在patch級別上整合了各模態(tài)的優(yōu)勢,并在控制力度上優(yōu)于傳統(tǒng)的單視覺控制方案和現(xiàn)有的多視覺控制方案,展示了多視覺控制任務(wù)上ControlNet的全新可能。

一種基于補(bǔ)丁的自適應(yīng)條件選擇機(jī)制

最近在基于擴(kuò)散的文本到圖像生成方面,通過視覺條件控制展示了令人鼓舞的結(jié)果。

然而,現(xiàn)有的類似ControlNet的方法在組合視覺條件方面面臨挑戰(zhàn)——在多個(gè)異構(gòu)控制信號之間同時(shí)保持語義保真度,同時(shí)維持高視覺質(zhì)量。

它們采用獨(dú)立的控制分支,這往往在去噪過程中引入沖突的指導(dǎo),導(dǎo)致生成圖像中的結(jié)構(gòu)扭曲和偽影。

為了解決這個(gè)問題,團(tuán)隊(duì)提出了PixelPonder,這是一種新穎的統(tǒng)一控制框架,允許在單一控制結(jié)構(gòu)下有效控制多個(gè)視覺條件。

具體而言,團(tuán)隊(duì)設(shè)計(jì)了一種基于補(bǔ)丁的自適應(yīng)條件選擇機(jī)制,能夠在子區(qū)域級別動態(tài)優(yōu)先考慮空間相關(guān)的控制信號,從而實(shí)現(xiàn)精確的局部指導(dǎo)而不干擾全局信息。

此外,團(tuán)隊(duì)還部署了一種時(shí)間感知的控制注入方案,根據(jù)去噪時(shí)間步調(diào)節(jié)條件影響,逐步從結(jié)構(gòu)保留過渡到紋理細(xì)化,充分利用來自不同類別的控制信息,以促進(jìn)更和諧的圖像生成。

大量實(shí)驗(yàn)表明,PixelPonder在不同基準(zhǔn)數(shù)據(jù)集上超越了之前的方法,在空間對齊精度上表現(xiàn)出顯著提升,同時(shí)保持高文本語義一致性。

提出PixelPonder

PixelPonder的整體流程如下圖所示。

對于各類視覺信號,在每個(gè)時(shí)間步,采用Patch Adaption獲取patch級別上的重構(gòu)信號,用于控制網(wǎng)絡(luò)實(shí)現(xiàn)精細(xì)化的控制信號注入,從而實(shí)現(xiàn)高可控生成。

其中,在獲取重構(gòu)信號的過程中,ISB通過各類視覺信號特征以及重構(gòu)信號的組成狀態(tài)獲取統(tǒng)合概率圖。

統(tǒng)合概率圖表征了各圖像特征的patch挑選傾向,基于概率圖,通過自回歸的反復(fù)迭代獲取最終的重構(gòu)信號,作為ControlNet架構(gòu)下網(wǎng)絡(luò)所需輸入的統(tǒng)一信號。

參考ControlNet,控制網(wǎng)絡(luò)由一個(gè)較小的流匹配網(wǎng)絡(luò)構(gòu)成,與flux的主干網(wǎng)絡(luò)一一對應(yīng),各個(gè)模塊的輸出用于修正主干網(wǎng)絡(luò)的流生成,從而實(shí)現(xiàn)精細(xì)的圖像控制。

Patch Adaption Module (PAM)

Patch Adaption Module(PAM)的目標(biāo)是將各種視覺條件在補(bǔ)丁級別重新組合成統(tǒng)一的視覺條件。這是通過自回歸迭代組合過程實(shí)現(xiàn)的,該過程在不同視覺條件之間組合補(bǔ)丁。

將各類視覺特征視為由patch組合而成,也就是:

基于此,PAM的自回歸更新過程可以簡略表達(dá)如下:

自回歸的機(jī)制通過Image Stream Block(ISB)能夠注意到各類視覺特征中已被挑選的patch和備選patch的隱含關(guān)聯(lián),并基于當(dāng)前時(shí)間步下圖像去噪的狀態(tài)獲取更優(yōu)的統(tǒng)一信號以優(yōu)化流匹配路徑。

這一過程顯著提升了各類模態(tài)之間的高低頻信息協(xié)同作用。

其中,ISB獲取概率圖的計(jì)算公式如下:

具體而言,ISB基于FLUX的Double Stream Block(DSB)而得,其中包含一個(gè)完整的DSB流程。

不同的是,為了確保控制信號的全局信息高度一致,ISB所接受的文本信號以及時(shí)序信號是一致的。

最終的概率輸出為:

時(shí)間步意識的控制注入:來自PAM的統(tǒng)合信號傳遞到ControlNet。

ControlNet使用一個(gè)較小的流匹配網(wǎng)絡(luò)處理具有時(shí)間步特征的統(tǒng)合信號,獲取修正流,并注入主干網(wǎng)絡(luò),數(shù)學(xué)形式如下:

實(shí)驗(yàn)結(jié)果

如視覺展示所示,在多視覺控制注入的情況下,現(xiàn)有的其他方法會產(chǎn)生偽影和扭曲的生成。

而PixelPonder能利用各個(gè)模態(tài)互補(bǔ)的視覺要素生成更穩(wěn)定,充滿細(xì)節(jié)的視覺圖像。

多類別對比實(shí)驗(yàn)如下:

單類別對比實(shí)驗(yàn)如下:

實(shí)驗(yàn)顯示,在兩類不同主題的測試集上,大量的數(shù)據(jù)(約1w張)結(jié)果表明PixelPonder相較于單視覺控制和多視覺控制方案,在視覺和諧度和可控度上有了極大的提升。

同時(shí),在視覺控制和文本控制的trade-off下,文圖一致性也保持著領(lǐng)先的水平。

消融實(shí)驗(yàn)如下:


總結(jié)

在本文中,研究人員提出了PixelPonder,這是一種用于基于擴(kuò)散的圖像生成的組合視覺條件的新框架。

其關(guān)鍵貢獻(xiàn)在于解決現(xiàn)有方法在處理來自多個(gè)控制信號的沖突指導(dǎo)時(shí)的基本局限性。

具體而言,引入了兩個(gè)新組件:一種基于補(bǔ)丁的自適應(yīng)條件適配機(jī)制,通過可學(xué)習(xí)的注意力門動態(tài)解決空間沖突,以及一種時(shí)間感知的控制注入方案,協(xié)調(diào)去噪階段中的條件影響。

在多個(gè)基準(zhǔn)測試上的大量實(shí)驗(yàn)表明,相較于最先進(jìn)的方法,PixelPonder顯著提高了性能。通過PixelPonder,用戶可以利用各種視覺條件描繪對象的不同方面,從而準(zhǔn)確實(shí)現(xiàn)他們的各種創(chuàng)作。

論文:
https://arxiv.org/abs/2503.06684
項(xiàng)目主頁:
https://hithqd.github.io/projects/PixelPonder/

相關(guān)文章

人工智能技術(shù)

更多>>

人工智能公司

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>
關(guān)于我們|聯(lián)系我們|免責(zé)聲明|會展頻道

冀ICP備2022007386號-1 冀公網(wǎng)安備 13108202000871號

愛云資訊 Copyright?2018-2024