最新四色米奇影视777在线看,最近免费中文字幕

由于高昂的數(shù)據(jù)標注成本，無標簽數(shù)據(jù)的利用獲得了學術(shù)界和工業(yè)界越來越多的關(guān)注，涌現(xiàn)出不少優(yōu)秀的半監(jiān)督和自監(jiān)督學習方法，例如 FixMatch, MoCo, BYOL 等，大幅縮小了半監(jiān)督/自監(jiān)督學習與全監(jiān)督學習的性能差距。

其中，學生-老師框架+模型平滑技術(shù)已經(jīng)成為半監(jiān)督及自監(jiān)督方法的一種流行范式。本文首先介紹了這種經(jīng)典的范式，并從當前主流的基于時序的模型平滑機制出發(fā)，介紹了一種空間平滑方法——空間集成（Spatial Ensemble）。

學生-老師框架

以經(jīng)典的半監(jiān)督框架 Mean Teacher 為例，該方法采用了一種學生-老師框架（student-teacher framework）。

圖1 Mean Teacher 框架示意圖

如圖 1 所示，該框架包含一個學生網(wǎng)絡(student)和一個老師網(wǎng)絡(teacher)。Teacher 為無標簽數(shù)據(jù)生成類別偽標簽監(jiān)督信號,以引導 student 的學習。

在這個過程中，student 基于常規(guī)的梯度反向傳播來進行更新，而 teacher 則借助于模型平滑技術(shù)（Model Smoothing)來進行更新。

這種基于模型平滑技術(shù)的學生-老師框架后來廣泛應用于多種優(yōu)秀的自監(jiān)督框架（如 MoCo、BYOL）中，如圖 2 所示。

圖2

什么是模型平滑？

隨著訓練過程的推進，學生網(wǎng)絡不斷通過梯度反向傳播進行更新，我們可以得到一系列不同版本的學生網(wǎng)絡（每次更新對應一個版本）。

我們將所有版本的學生網(wǎng)絡稱為歷史學生模型。模型平滑技術(shù)即是希望基于所有歷史學生模型來得到一個平滑版本的老師模型。

時序滑動平均（Temporal Model Smoothing，簡稱 TMA）是當前最主流的一種模型平滑技術(shù)。簡單來說，如圖 1 所示，時序滑動平均的核心思想是將所有歷史版本學生網(wǎng)絡參數(shù)的加權(quán)平均作為老師網(wǎng)絡的參數(shù)。

在時序平滑過程中，每個學生網(wǎng)絡被作為一個整體進行處理，即一個學生網(wǎng)絡中的所有層都將參與加權(quán)平均過程，且所有層共享相同的加權(quán)權(quán)重。

隨著訓練時間的增加，模型會變得越來越強，舊的模型與現(xiàn)有模型的差距越來越大。

如果為不同時間版本的學生模型分配不同的權(quán)重，為時序上較近的模型分配更高的權(quán)重，時序上較遠的分配較低的權(quán)重，便得到了一種特殊的時序平滑機制，即指數(shù)滑動平均（Exponential Moving Average，簡稱 EMA)。

經(jīng)典的半監(jiān)督 Mean Teacher、FixMatch 等，以及自監(jiān)督框架 MoCo、BYOL 都使用了 EMA 這種時序模型平滑技術(shù)來得到穩(wěn)定可靠的老師網(wǎng)絡。

為什么需要模型平滑？

自監(jiān)督方法 MoCo 和 BYOL 中都注意到，如果我們?nèi)サ裟Ｐ推交?，模型將無法學習到有效的特征表示，產(chǎn)生糟糕的性能表現(xiàn)。出現(xiàn)這種現(xiàn)象的原因是什么呢？

為了更好的理解模型平滑在其中發(fā)揮的作用，我們從兩個角度對訓練過程進行了統(tǒng)計分析：即，相鄰兩個訓練周期（epoch）之間老師模型的參數(shù)的差異，以及老師模型對同一批樣本產(chǎn)生的監(jiān)督信號的差異。

我們使用均方誤差（Mean Square Error，MSE）來衡量差異的大小，詳見圖2。其中 None 表示不使用任何模型平滑技術(shù)。為了方便可視化，我們使用 log 函數(shù)對縱坐標進行了縮放。

圖3 相鄰 epoch 間老師模型參數(shù)的MSE（左）以及監(jiān)督信號的MSE（右）

觀察圖 3，我們可以發(fā)現(xiàn)當不使用任何模型平滑技術(shù)時，相鄰 epoch 老師模型參數(shù)以及產(chǎn)生監(jiān)督信號的 MSE 始終維持著一個比較高的值，說明此時模型產(chǎn)生的監(jiān)督信號十分不穩(wěn)定，模型抖動較大，且沒有明顯的收斂趨勢。

而當使用了 TMA 或 SE（我們的方法，下文將介紹）后，可以觀測到無論是老師參數(shù) MSE 還是監(jiān)督信號 MSE 都取得了明顯較低的值，且在逐步降低，說明此時模型產(chǎn)生的監(jiān)督信號相對穩(wěn)定，且模型正在平穩(wěn)收斂。

因此我們可以得出結(jié)論，模型平滑技術(shù)可以有效地確保監(jiān)督信號的穩(wěn)定性，促進模型的收斂。

新的平滑方式——空間集成

基于時序的 EMA 平滑是當前最為主流的模型平滑方式，鮮有工作聚焦于探索不同的平滑方式。本文中，我們從新穎的空間平滑角度出發(fā)，提出了一種新的模型平滑機制“空間集成”（Spatial Ensemble，簡稱 SE）。

圖 4 時序滑動平均和空間集成示意圖

如圖 4 所示，TMA 對歷史學生模型的參數(shù)進行加權(quán)平均來更新老師模型的參數(shù)。SE 從另一個角度實現(xiàn)了模型的平滑。

具體來說，在每次更新過程中，老師網(wǎng)絡隨機挑選一部分網(wǎng)絡子結(jié)構(gòu)，并將挑選出的子結(jié)構(gòu)的參數(shù)直接更新為學生網(wǎng)絡對應子結(jié)構(gòu)的參數(shù)，而本次更新過程中未被挑選出的子結(jié)構(gòu)參數(shù)保持不變。

經(jīng) 過多次空間集成更新，老師網(wǎng)絡的不同子結(jié)構(gòu)可能源自于不同歷史學生模型。

以一種更為形象的方式來說，空間集成將歷史學生模型的不同子結(jié)構(gòu)“縫合”成了老師模型，從而產(chǎn)生了“空間集成”效應。這也是我們方法名稱的由來。

時空平滑

再進一步，我們注意到時序平滑和空間集成存在天然的互補性，且可以很自然的結(jié)合在一起，從而得到一種新的模型平滑機制——時空平滑（Spatial-Temporal Smoothing，簡稱 STS）。圖 5 橫向?qū)Ρ攘?TMA、SE 和 STS 三種平滑機制。

圖 5 三種不同的模型平滑機制

TMA 將整個網(wǎng)絡作為一個整體，逐層進行進行加權(quán)平均操作。空間集成隨機將老師網(wǎng)絡的部分子結(jié)構(gòu)替換成學生網(wǎng)絡中對應的子結(jié)構(gòu)，而保持其他子結(jié)構(gòu)不變。

STS 結(jié)合了 TMA 和 SE：類似 SE，STS 同樣隨機令部分子結(jié)構(gòu)保持不變，但對于其他需要更新的子結(jié)構(gòu)并不是直接替換成學生網(wǎng)絡的子結(jié)構(gòu)，而是借助于 TMA 進行更新。

數(shù)學形式

假設和表示老師網(wǎng)絡和學生網(wǎng)絡的參數(shù)，且都可以表示為 n 個單元（units)，即 ,且。依據(jù) SE 采用的空間粒度，一個單元可能對應一個網(wǎng)絡層，一個特征通道，或者一個神經(jīng)元。

因此SE可以表示為以下形式：

其中，是一個服從伯努利分布的二值變量。如果，表示該單元保持不變；如果，則表示該單元將被替換成學生網(wǎng)絡中的對應單元。

所有是彼此互相獨立的，即每個單元獨立判斷保留或替換。越大，意味著越高的保留頻次以及更多的期望保留單元數(shù)。

類似地，我們可以將 STS 表示為以下形式：

其中表示 TMA 中的動量（momentum）。控制了 TMA 模型平滑的程度，越大平滑效應越強。

在特定情況下，STS 能夠退化成 SE 或 TMA。例如當時，STS 退化成了 SE。當時，，STS 將退化成 TMA：

實驗分析

圖 6 不同超參設置下，SE 和 STS 在 ImageNet 數(shù)據(jù)集上的線性評估結(jié)果

圖 6 展示了不同超參設置下，SE 和 STS 在 ImageNet 數(shù)據(jù)集上的線性評估結(jié)果。

觀察左圖我們可以發(fā)現(xiàn)，當 p=0 時，即模型平滑效應不生效時，模型性能表現(xiàn)十分糟糕，說明沒有學習到任何有效的特征表示。而隨著 p 的增大，模型性能呈逐步上升，說明了 SE 能夠作為一種有效的模型平滑方式。

如右圖所示，STS 通常能夠取得優(yōu)于 TMA（對應 p=0）的性能，說明了 SE 和 TMA 的互補性。此外我們可以觀察到一個有意思的現(xiàn)象：隨著m 的增大（減?。?，模型通常在相對偏小（偏大）的 p 值處取得最佳性能。

這些結(jié)果反映了模型平滑對基于學生-老師框架的自監(jiān)督模型的重要性。

下圖展示了我們的方法與其他 SOT A 方法在 ImageNet 上線性評估結(jié)果的比較。

圖7

此外，我們還觀察到，基于 STS 學習到的特征在 ImageNet-C 數(shù)據(jù)集上表示呈現(xiàn)出對數(shù)據(jù)噪聲（data corruption）更強的魯棒性。

ImageNet-C 是一個常用的評估模型對數(shù)據(jù)噪聲魯棒性的數(shù)據(jù)集，其中包括 15 種不同的數(shù)據(jù)噪聲類別，且每種類別包含 5 種不同的噪聲強度，即共計 75 種數(shù)據(jù)噪聲。

圖 8 左展示了數(shù)據(jù)集中的幾種典型噪聲，從上到下依次是 defocus blur, pixelate, fog, 和 spatter。每張圖左下角展示了 STS 相比 TMA 帶來的性能提升。對所有 75 種數(shù)據(jù)噪聲，STS 平均能夠帶來約 1.5% top-1 accuracy 提升。

圖 8 ImageNet-C 數(shù)據(jù)集上噪聲魯棒性驗證

此外，我們觀測到 STS 學習到的特征具有良好的泛化性，并在下游檢測任務 VOC 物體檢測數(shù)據(jù)集上展現(xiàn)出良好的性能。

圖 9 物體檢測任務上的遷移學習

總結(jié)

模型平滑技術(shù)保證了學生-老師框架中監(jiān)督信號的穩(wěn)定性，有效促進模型收斂，在半監(jiān)督尤其是自監(jiān)督方法中起到了十分關(guān)鍵的作用。

我們提出了一種新穎的空間平滑方式 SE，其能夠取得與經(jīng)典的時序平滑方式 EMA 可比的自監(jiān)督性能。

SE 與 EMA具有良好的互補性，據(jù)此我們提出了一種時空平滑機制 STS。STE 能夠取得更好的自監(jiān)督效果，并且具有良好的泛化性和魯棒性。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

NeurIPS 2021 | 曠視提出：空間集成 ——一種新穎的模型平滑機制

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)