精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

CVPR NTIRE比賽雙冠,網(wǎng)易互娛AI Lab是這樣做的

2022-10-11 12:15:40AI云資訊1017

近日網(wǎng)易互娛 AI Lab 獲得第七屆 NTIRE HDR 比賽的全部?jī)蓚€(gè)賽道的冠軍。網(wǎng)易互娛 AI Lab 一直致力于利用 AI 提升美術(shù)生產(chǎn)效率,助力游戲貼圖資源自動(dòng)升級(jí),目前相關(guān)技術(shù)已應(yīng)用于貼圖、UI 等游戲資源的精度和細(xì)節(jié)的提升,為多個(gè)游戲提供技術(shù)支持。本文將詳細(xì)解讀他們的雙冠比賽方案。

近日,圖像修復(fù)領(lǐng)域最具影響力的國(guó)際頂級(jí)賽事——New Trends in Image Restoration and Enhancement(NTIRE)結(jié)果出爐,網(wǎng)易互娛 AI Lab 包攬了高動(dòng)態(tài)范圍成像(HDR)任務(wù)全部 2 項(xiàng)冠軍。NTIRE 比賽每年舉辦一次,目前已是第七屆,主要聚焦圖像修復(fù)和增強(qiáng)技術(shù),代表相關(guān)領(lǐng)域的趨勢(shì)和發(fā)展,吸引了眾多來(lái)自工業(yè)界、學(xué)術(shù)界的關(guān)注者和參賽者,有著非常大的影響力。今年 NTIRE 比賽在計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議 CVPR 2022(Computer Vision and Pattern Recognition)上舉辦。

高動(dòng)態(tài)范圍成像(HDR)任務(wù)的賽道 1 和賽道 2 分別有 197 個(gè)隊(duì)伍、168 個(gè)隊(duì)伍報(bào)名參加,吸引了包括騰訊、頭條、曠視、螞蟻、快手在內(nèi)的工業(yè)界隊(duì)伍,以及清華大學(xué)、中科院、中國(guó)科學(xué)技術(shù)大學(xué)、愛丁堡大學(xué)、帝國(guó)理工等國(guó)內(nèi)外高校。網(wǎng)易互娛 AI Lab 從眾多的強(qiáng)隊(duì)中脫穎而出,斬獲該任務(wù)的全部 2 項(xiàng)冠軍。這是網(wǎng)易互娛 AI Lab 奪得多項(xiàng)國(guó)際冠軍后,再次登頂國(guó)際 AI 競(jìng)賽,展現(xiàn)了網(wǎng)易互娛 AI Lab 在人工智能領(lǐng)域的綜合實(shí)力。

任務(wù)描述

消費(fèi)級(jí)的單傳感器相機(jī)在拍攝照明情況復(fù)雜的場(chǎng)景時(shí),難以用一種曝光參數(shù)拍攝出曝光正常的照片。由于成像傳感器固有的局限性,譬如在高亮度區(qū)域因?yàn)檫^(guò)曝讓畫面呈現(xiàn)白色,從而導(dǎo)致這些區(qū)域細(xì)節(jié)的丟失。針對(duì)這個(gè)問(wèn)題的解決方法是采用一個(gè)擴(kuò)展的高動(dòng)態(tài)范圍(HDR)記錄圖片,具體做法是在拍攝時(shí)分辨拍攝多張不同曝光參數(shù)的低動(dòng)態(tài)范圍(LDR)圖片,然后通過(guò)算法把多張圖片融合成一張 HDR 圖片。

此次比賽的目標(biāo)是探索高效的 HDR 模型和技術(shù)方案,以達(dá)到實(shí)用化的使用需求。總計(jì)兩個(gè)賽道:(1)保真度賽道:在限定模型計(jì)算量(小于 200G GMACs)的基礎(chǔ)上,盡可能取得更高的保真度,評(píng)價(jià)指標(biāo)是 PSNR-μ;(2)低復(fù)雜度賽道:在超過(guò)基線模型指標(biāo)(PSNR-μ與 PSNR)的基礎(chǔ)上,盡可能取得更低的計(jì)算量和更少的耗時(shí),評(píng)價(jià)指標(biāo)是 GMACs。

數(shù)據(jù)集介紹

本次比賽用的數(shù)據(jù)集包含 1500 個(gè)訓(xùn)練樣本、60 個(gè)驗(yàn)證樣本以及 201 個(gè)測(cè)試樣本,每個(gè)樣本包括三張 LDR 圖片輸入,分別對(duì)應(yīng)短、中、長(zhǎng)三種曝光水平,以及一個(gè)和中曝光對(duì)齊的 HDR 圖片,數(shù)據(jù)集是由 Froehlich 等人收集的,他們捕捉了各種各樣的具有挑戰(zhàn)性場(chǎng)景的 HDR 視頻。之前基于深度學(xué)習(xí)的 HDR 模型取得了不錯(cuò)的效果,譬如 AHDRNet、ADNet 等,但缺點(diǎn)是計(jì)算量非常大,以官方提供的基線方法 AHDRNet 為例,計(jì)算量在 3000GMACs 左右。因此本次比賽的目的是尋求高效的多幀 HDR 重建方法。

方法概述

由于任務(wù)的兩個(gè)賽道均要求訓(xùn)練高效的 HDR 模型,網(wǎng)易互娛 AI Lab 憑借以往對(duì) low-level 視覺任務(wù)和輕量化網(wǎng)絡(luò)設(shè)計(jì)的經(jīng)驗(yàn)積累,在基線模型的基礎(chǔ)上,提出了一個(gè) Efficient HDR 網(wǎng)絡(luò),包括高效的多幀對(duì)齊和特征提取模塊兩個(gè)模塊,同時(shí)優(yōu)化了模型的訓(xùn)練方法。

(1)在多幀對(duì)齊模塊,采用 Pixel Unshuffle 操作在增大感受野的同時(shí)減少了特征圖的大小,大幅減少了后續(xù)的計(jì)算量。同時(shí),采用深度可分離卷積替代對(duì)齊模塊中的普通卷積,大幅提高運(yùn)算效率。

(2)在特征提取模塊,采用深度可分離卷積替代普通卷積,SiLU 激活函數(shù)替代 ReLU,設(shè)計(jì)了一個(gè)高效殘差特征蒸餾模塊(Efficient RFDB)。另外,探索了網(wǎng)絡(luò)深度與通道數(shù)目之間的關(guān)系,在限定計(jì)算量下層數(shù)更深且通道數(shù)少的特征提取網(wǎng)絡(luò),可以獲得更高的評(píng)價(jià)指標(biāo)。

(3)在訓(xùn)練方法上,在常規(guī)的 128x128 圖片輸入 L1 Loss 訓(xùn)練后,采用了 256x256 更大尺寸輸入 + L2 Loss 進(jìn)行訓(xùn)練調(diào)優(yōu)。最后,使用基于 SwinIR 搭建的 Transformer 模型作為 Teacher 模型,對(duì)前述 CNN 模型進(jìn)行蒸餾,結(jié)合 CNN 和 Transformer 各自的優(yōu)勢(shì)進(jìn)一步提升模型效果。

網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)的整體結(jié)構(gòu)基于官方提供的 baseline 模型 AHDRNet 進(jìn)一步大幅改進(jìn)和優(yōu)化,主要可以分成三個(gè)部分:多幀對(duì)齊模塊、特征提取模塊和圖像重建模塊?;诒敬伪荣惖挠?jì)算量目標(biāo)考慮,對(duì)網(wǎng)絡(luò)部分做了以下設(shè)計(jì):

1. Pixel Shuffle 層:在多幀對(duì)齊模塊中使用 Pixel Unshuffle 操作(Pixel Shuffle 的逆操作),在不增加計(jì)算量的同時(shí)增大了感受野。在圖像重建模塊中使用 Pixel Shuffle 替代 AHDRNet 中的卷積操作,節(jié)省計(jì)算量。

2. 深度可分離卷積:在多幀對(duì)齊模塊和特征提取模塊,采用 Depthwise+1x1 卷積的組合替換了網(wǎng)絡(luò)中的絕大多數(shù)卷積。

3. 特征提取基礎(chǔ)模塊替換:在特征提取模塊采用 RFDB+ESA 替換 AHDRNet 中的 DRDB,并采用 SiLU 激活函數(shù)替換 ReLU。

4. 深度 vs 寬度:在限定計(jì)算量下,平衡特征提取模塊深度和寬度取得更好的效果。以 Track1 的約束為標(biāo)準(zhǔn),所有模型的計(jì)算量都在 190G~200G 之間(即更深的網(wǎng)絡(luò)意味著更少的通道數(shù))。

整體的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖 2 所示,Efficient RFDB 的結(jié)構(gòu)圖如圖 3 所示:

網(wǎng)絡(luò)結(jié)構(gòu)圖

Efficient RFDB 結(jié)構(gòu)圖

最后提交的 Track1 和 Track2 模型均采用了上述的模型結(jié)構(gòu),區(qū)別是使用 Efficient RFDB 層數(shù)和通道數(shù)有所不同,對(duì) Track1,Efficient RFDB 層數(shù)和通道數(shù)目較多,計(jì)算量是 198.47GMACs。對(duì) Track2,Efficient RFDB 層數(shù)相近,通道數(shù)更少,計(jì)算量是 74.02GMACs。

訓(xùn)練過(guò)程

目前 HDR 的論文或比賽的主要評(píng)價(jià)指標(biāo)是 PSNR-μ,指先對(duì)輸出圖片和標(biāo)簽圖片分別做色調(diào)映射 tonemapping 操作再計(jì)算其 PSNR:

其中,

是指 tonemapping 操作。對(duì)圖像做了以下處理:

其中,

。

主流的方法是對(duì)色調(diào)映射后的圖片求 L1 Loss,譬如去年 NTIRE 比賽的多幀 HDR 比賽冠軍 ADNet 是使用 tonemapped 后的圖片損失函數(shù),即:

該研究訓(xùn)練過(guò)程第一步同上使用 L1 Loss,并在此基礎(chǔ)上加了后續(xù)三個(gè) finetune 的過(guò)程,按順序分別是:

1. L2 Loss finetune:為了獲得更高的評(píng)價(jià)指標(biāo),在微調(diào)階段該研究采用了和 PSNR 計(jì)算一致的 L2 Loss 代替 L1 Loss:

2. 大尺寸圖片 + L2 Loss finetune:由于最后用了深層的網(wǎng)絡(luò)設(shè)計(jì),網(wǎng)絡(luò)具有更大的感受野,采用 256x256 替代 128x128 的大尺寸圖片進(jìn)行微調(diào)可以讓模型取得更好的效果。

3. 知識(shí)蒸餾 + 大尺寸 + L2 Loss finetune:使用基于 Transformer 的 SwinIR 中的 RSTB 代替 Efficient RFDB 搭建 Teacher 網(wǎng)絡(luò),此階段損失函數(shù)如下:

其中,TS 表示 Teacher Surpervision,DS 表示 Data Supervision,最后在實(shí)驗(yàn)中

實(shí)驗(yàn)結(jié)果

賽道 1 中,網(wǎng)易互娛 AI Lab(ALONG)提出的方法在 PSNR-μ和 PSNR 上均是第一。如表 1 所示,主要評(píng)價(jià)指標(biāo) PSNR-μ比第二名高出了 0.172,而第二到第四的 PSNR-μ差距僅為 0.089,相比第五名之后的隊(duì)伍更是拉開了 0.45 以上的差距。

賽道 2 中,網(wǎng)易互娛 AI Lab(ALONG)提出的方法取得了最低的計(jì)算量(GMACs)和最少的參數(shù)量(Param)。如表 2 所示,在超過(guò)基線方法 PSNR 和 PSNR-μ的基礎(chǔ)上,減少了約 40 倍的計(jì)算量。相比第二名和第三名有較大領(lǐng)先,僅使用了約一半的計(jì)算量。

表 1:賽道 1(保真度賽道)結(jié)果排名

表 2:賽道 2(低復(fù)雜度賽道)結(jié)果排名

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews