精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

NeurIPS 2021 | 曠視提出:空間集成 ——一種新穎的模型平滑機制

2021-11-22 17:54:22AI云資訊1240

由于高昂的數(shù)據(jù)標注成本,無標簽數(shù)據(jù)的利用獲得了學術(shù)界和工業(yè)界越來越多的關(guān)注,涌現(xiàn)出不少優(yōu)秀的半監(jiān)督和自監(jiān)督學習方法,例如 FixMatch, MoCo, BYOL 等,大幅縮小了半監(jiān)督/自監(jiān)督學習與全監(jiān)督學習的性能差距。

其中,學生-老師框架+模型平滑技術(shù)已經(jīng)成為半監(jiān)督及自監(jiān)督方法的一種流行范式。本文首先介紹了這種經(jīng)典的范式,并從當前主流的基于時序的模型平滑機制出發(fā),介紹了一種空間平滑方法——空間集成(Spatial Ensemble)。

1

學生-老師框架

以經(jīng)典的半監(jiān)督框架 Mean Teacher 為例,該方法采用了一種學生-老師框架(student-teacher framework)。

圖1 Mean Teacher 框架示意圖

如圖 1 所示,該框架包含一個學生網(wǎng)絡(student)和一個老師網(wǎng)絡(teacher)。Teacher 為無標簽數(shù)據(jù)生成類別偽標簽監(jiān)督信號,以引導 student 的學習。

在這個過程中,student 基于常規(guī)的梯度反向傳播來進行更新,而 teacher 則借助于模型平滑技術(shù)(Model Smoothing)來進行更新。

這種基于模型平滑技術(shù)的學生-老師框架后來廣泛應用于多種優(yōu)秀的自監(jiān)督框架(如 MoCo、BYOL)中,如圖 2 所示。

圖2

什么是模型平滑?

隨著訓練過程的推進,學生網(wǎng)絡不斷通過梯度反向傳播進行更新,我們可以得到一系列不同版本的學生網(wǎng)絡(每次更新對應一個版本)。

我們將所有版本的學生網(wǎng)絡稱為歷史學生模型。模型平滑技術(shù)即是希望基于所有歷史學生模型來得到一個平滑版本的老師模型。

時序滑動平均(Temporal Model Smoothing,簡稱 TMA)是當前最主流的一種模型平滑技術(shù)。簡單來說,如圖 1 所示,時序滑動平均的核心思想是將所有歷史版本學生網(wǎng)絡參數(shù)的加權(quán)平均作為老師網(wǎng)絡的參數(shù)。

在時序平滑過程中,每個學生網(wǎng)絡被作為一個整體進行處理,即一個學生網(wǎng)絡中的所有層都將參與加權(quán)平均過程,且所有層共享相同的加權(quán)權(quán)重。

隨著訓練時間的增加,模型會變得越來越強,舊的模型與現(xiàn)有模型的差距越來越大。

如果為不同時間版本的學生模型分配不同的權(quán)重,為時序上較近的模型分配更高的權(quán)重,時序上較遠的分配較低的權(quán)重,便得到了一種特殊的時序平滑機制,即指數(shù)滑動平均(Exponential Moving Average,簡稱 EMA)。

經(jīng)典的半監(jiān)督 Mean Teacher、FixMatch 等,以及自監(jiān)督框架 MoCo、BYOL 都使用了 EMA 這種時序模型平滑技術(shù)來得到穩(wěn)定可靠的老師網(wǎng)絡。

為什么需要模型平滑?

自監(jiān)督方法 MoCo 和 BYOL 中都注意到,如果我們?nèi)サ裟P推交?,模型將無法學習到有效的特征表示,產(chǎn)生糟糕的性能表現(xiàn)。出現(xiàn)這種現(xiàn)象的原因是什么呢?

為了更好的理解模型平滑在其中發(fā)揮的作用,我們從兩個角度對訓練過程進行了統(tǒng)計分析:即,相鄰兩個訓練周期(epoch)之間老師模型的參數(shù)的差異,以及老師模型對同一批樣本產(chǎn)生的監(jiān)督信號的差異。

我們使用均方誤差(Mean Square Error,MSE)來衡量差異的大小,詳見圖2。其中 None 表示不使用任何模型平滑技術(shù)。為了方便可視化,我們使用 log 函數(shù)對縱坐標進行了縮放。

圖3 相鄰 epoch 間老師模型參數(shù)的MSE(左)以及監(jiān)督信號的MSE(右)

觀察圖 3,我們可以發(fā)現(xiàn)當不使用任何模型平滑技術(shù)時,相鄰 epoch 老師模型參數(shù)以及產(chǎn)生監(jiān)督信號的 MSE 始終維持著一個比較高的值,說明此時模型產(chǎn)生的監(jiān)督信號十分不穩(wěn)定,模型抖動較大,且沒有明顯的收斂趨勢。

而當使用了 TMA 或 SE(我們的方法,下文將介紹)后,可以觀測到無論是老師參數(shù) MSE 還是監(jiān)督信號 MSE 都取得了明顯較低的值,且在逐步降低,說明此時模型產(chǎn)生的監(jiān)督信號相對穩(wěn)定,且模型正在平穩(wěn)收斂。

因此我們可以得出結(jié)論,模型平滑技術(shù)可以有效地確保監(jiān)督信號的穩(wěn)定性,促進模型的收斂。

2

新的平滑方式——空間集成

基于時序的 EMA 平滑是當前最為主流的模型平滑方式,鮮有工作聚焦于探索不同的平滑方式。本文中,我們從新穎的空間平滑角度出發(fā),提出了一種新的模型平滑機制“空間集成”(Spatial Ensemble,簡稱 SE)。

圖 4 時序滑動平均和空間集成示意圖

如圖 4 所示,TMA 對歷史學生模型的參數(shù)進行加權(quán)平均來更新老師模型的參數(shù)。SE 從另一個角度實現(xiàn)了模型的平滑。

具體來說,在每次更新過程中,老師網(wǎng)絡隨機挑選一部分網(wǎng)絡子結(jié)構(gòu),并將挑選出的子結(jié)構(gòu)的參數(shù)直接更新為學生網(wǎng)絡對應子結(jié)構(gòu)的參數(shù),而本次更新過程中未被挑選出的子結(jié)構(gòu)參數(shù)保持不變。

經(jīng) 過多次空間集成更新,老師網(wǎng)絡的不同子結(jié)構(gòu)可能源自于不同歷史學生模型。

以一種更為形象的方式來說,空間集成將歷史學生模型的不同子結(jié)構(gòu)“縫合”成了老師模型,從而產(chǎn)生了“空間集成”效應。這也是我們方法名稱的由來。

時空平滑

再進一步,我們注意到時序平滑和空間集成存在天然的互補性,且可以很自然的結(jié)合在一起,從而得到一種新的模型平滑機制——時空平滑(Spatial-Temporal Smoothing, 簡稱 STS)。圖 5 橫向?qū)Ρ攘?TMA、SE 和 STS 三種平滑機制。

圖 5 三種不同的模型平滑機制

TMA 將整個網(wǎng)絡作為一個整體,逐層進行進行加權(quán)平均操作。空間集成隨機將老師網(wǎng)絡的部分子結(jié)構(gòu)替換成學生網(wǎng)絡中對應的子結(jié)構(gòu),而保持其他子結(jié)構(gòu)不變。

STS 結(jié)合了 TMA 和 SE:類似 SE,STS 同樣隨機令部分子結(jié)構(gòu)保持不變,但對于其他需要更新的子結(jié)構(gòu)并不是直接替換成學生網(wǎng)絡的子結(jié)構(gòu),而是借助于 TMA 進行更新。

數(shù)學形式

假設 和 表示老師網(wǎng)絡和學生網(wǎng)絡的參數(shù),且都可以表示為 n 個單元(units),即 ,且 。依據(jù) SE 采用的空間粒度,一個單元可能對應一個網(wǎng)絡層,一個特征通道,或者一個神經(jīng)元。

因此SE可以表示為以下形式:

其中, 是一個服從伯努利分布的二值變量。如果 ,表示該單元保持不變;如果 ,則表示該單元將被替換成學生網(wǎng)絡中的對應單元。

所有 是彼此互相獨立的,即每個單元獨立判斷保留或替換。 越大,意味著越高的保留頻次以及更多的期望保留單元數(shù)。

類似地,我們可以將 STS 表示為以下形式:

其中 表示 TMA 中的動量(momentum)。 控制了 TMA 模型平滑的程度, 越大平滑效應越強。

在特定情況下,STS 能夠退化成 SE 或 TMA。例如當 時,STS 退化成了 SE。當 時, ,STS 將退化成 TMA:

3

實驗分析

圖 6 不同超參設置下,SE 和 STS 在 ImageNet 數(shù)據(jù)集上的線性評估結(jié)果

圖 6 展示了不同超參設置下,SE 和 STS 在 ImageNet 數(shù)據(jù)集上的線性評估結(jié)果。

觀察左圖我們可以發(fā)現(xiàn),當 p=0 時,即模型平滑效應不生效時,模型性能表現(xiàn)十分糟糕,說明沒有學習到任何有效的特征表示。而隨著 p 的增大,模型性能呈逐步上升,說明了 SE 能夠作為一種有效的模型平滑方式。

如右圖所示,STS 通常能夠取得優(yōu)于 TMA(對應 p=0)的性能,說明了 SE 和 TMA 的互補性。此外我們可以觀察到一個有意思的現(xiàn)象:隨著m 的增大(減?。?,模型通常在相對偏小(偏大)的 p 值處取得最佳性能。

這些結(jié)果反映了模型平滑對基于學生-老師框架的自監(jiān)督模型的重要性。

下圖展示了我們的方法與其他 SOT A 方法在 ImageNet 上線性評估結(jié)果的比較。

圖7

此 外,我們還觀察到,基于 STS 學習到的特征在 ImageNet-C 數(shù)據(jù)集上表示呈現(xiàn)出對數(shù)據(jù)噪聲(data corruption)更強的魯棒性。

ImageNet-C 是一個常用的評估模型對數(shù)據(jù)噪聲魯棒性的數(shù)據(jù)集,其中包括 15 種不同的數(shù)據(jù)噪聲類別,且每種類別包含 5 種不同的噪聲強度,即共計 75 種數(shù)據(jù)噪聲。

圖 8 左展示了數(shù)據(jù)集中的幾種典型噪聲,從上到下依次是 defocus blur, pixelate, fog, 和 spatter。每張圖左下角 展示了 STS 相比 TMA 帶來的性能提升。對所有 75 種數(shù)據(jù)噪聲,STS 平均能夠帶來約 1.5% top-1 accuracy 提升。

圖 8 ImageNet-C 數(shù)據(jù)集上噪聲魯棒性驗證

此外,我們觀測到 STS 學習到的特征具有良好的泛化性,并在下游檢測任務 VOC 物體檢測數(shù)據(jù)集上展現(xiàn)出良好的性能。

圖 9 物體檢測任務上的遷移學習

4

總結(jié)

模型平滑技術(shù)保證了學生-老師框架中監(jiān)督信號的穩(wěn)定性,有效促進模型收斂,在半監(jiān)督尤其是自監(jiān)督方法中起到了十分關(guān)鍵的作用。

我們提出了一種新穎的空間平滑方式 SE,其能夠取得與經(jīng)典的時序平滑方式 EMA 可比的自監(jiān)督性能。

SE 與 EMA具有良好的互補性,據(jù)此我們提出了一種時空平滑機制 STS。STE 能夠取得更好的自監(jiān)督效果,并且具有良好的泛化性和魯棒性。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews