NeurIPS 2021 | 曠視提出:空間集成 ——一種新穎的模型平滑機制
2021-11-22 17:54:22AI云資訊1240
由于高昂的數(shù)據(jù)標注成本,無標簽數(shù)據(jù)的利用獲得了學術(shù)界和工業(yè)界越來越多的關(guān)注,涌現(xiàn)出不少優(yōu)秀的半監(jiān)督和自監(jiān)督學習方法,例如 FixMatch, MoCo, BYOL 等,大幅縮小了半監(jiān)督/自監(jiān)督學習與全監(jiān)督學習的性能差距。
其中,學生-老師框架+模型平滑技術(shù)已經(jīng)成為半監(jiān)督及自監(jiān)督方法的一種流行范式。本文首先介紹了這種經(jīng)典的范式,并從當前主流的基于時序的模型平滑機制出發(fā),介紹了一種空間平滑方法——空間集成(Spatial Ensemble)。
1
學生-老師框架
以經(jīng)典的半監(jiān)督框架 Mean Teacher 為例,該方法采用了一種學生-老師框架(student-teacher framework)。
圖1 Mean Teacher 框架示意圖
如圖 1 所示,該框架包含一個學生網(wǎng)絡(student)和一個老師網(wǎng)絡(teacher)。Teacher 為無標簽數(shù)據(jù)生成類別偽標簽監(jiān)督信號,以引導 student 的學習。
在這個過程中,student 基于常規(guī)的梯度反向傳播來進行更新,而 teacher 則借助于模型平滑技術(shù)(Model Smoothing)來進行更新。
這種基于模型平滑技術(shù)的學生-老師框架后來廣泛應用于多種優(yōu)秀的自監(jiān)督框架(如 MoCo、BYOL)中,如圖 2 所示。
圖2
什么是模型平滑?
隨著訓練過程的推進,學生網(wǎng)絡不斷通過梯度反向傳播進行更新,我們可以得到一系列不同版本的學生網(wǎng)絡(每次更新對應一個版本)。
我們將所有版本的學生網(wǎng)絡稱為歷史學生模型。模型平滑技術(shù)即是希望基于所有歷史學生模型來得到一個平滑版本的老師模型。
時序滑動平均(Temporal Model Smoothing,簡稱 TMA)是當前最主流的一種模型平滑技術(shù)。簡單來說,如圖 1 所示,時序滑動平均的核心思想是將所有歷史版本學生網(wǎng)絡參數(shù)的加權(quán)平均作為老師網(wǎng)絡的參數(shù)。
在時序平滑過程中,每個學生網(wǎng)絡被作為一個整體進行處理,即一個學生網(wǎng)絡中的所有層都將參與加權(quán)平均過程,且所有層共享相同的加權(quán)權(quán)重。
隨著訓練時間的增加,模型會變得越來越強,舊的模型與現(xiàn)有模型的差距越來越大。
如果為不同時間版本的學生模型分配不同的權(quán)重,為時序上較近的模型分配更高的權(quán)重,時序上較遠的分配較低的權(quán)重,便得到了一種特殊的時序平滑機制,即指數(shù)滑動平均(Exponential Moving Average,簡稱 EMA)。
經(jīng)典的半監(jiān)督 Mean Teacher、FixMatch 等,以及自監(jiān)督框架 MoCo、BYOL 都使用了 EMA 這種時序模型平滑技術(shù)來得到穩(wěn)定可靠的老師網(wǎng)絡。
為什么需要模型平滑?
自監(jiān)督方法 MoCo 和 BYOL 中都注意到,如果我們?nèi)サ裟P推交?,模型將無法學習到有效的特征表示,產(chǎn)生糟糕的性能表現(xiàn)。出現(xiàn)這種現(xiàn)象的原因是什么呢?
為了更好的理解模型平滑在其中發(fā)揮的作用,我們從兩個角度對訓練過程進行了統(tǒng)計分析:即,相鄰兩個訓練周期(epoch)之間老師模型的參數(shù)的差異,以及老師模型對同一批樣本產(chǎn)生的監(jiān)督信號的差異。
我們使用均方誤差(Mean Square Error,MSE)來衡量差異的大小,詳見圖2。其中 None 表示不使用任何模型平滑技術(shù)。為了方便可視化,我們使用 log 函數(shù)對縱坐標進行了縮放。
圖3 相鄰 epoch 間老師模型參數(shù)的MSE(左)以及監(jiān)督信號的MSE(右)
觀察圖 3,我們可以發(fā)現(xiàn)當不使用任何模型平滑技術(shù)時,相鄰 epoch 老師模型參數(shù)以及產(chǎn)生監(jiān)督信號的 MSE 始終維持著一個比較高的值,說明此時模型產(chǎn)生的監(jiān)督信號十分不穩(wěn)定,模型抖動較大,且沒有明顯的收斂趨勢。
而當使用了 TMA 或 SE(我們的方法,下文將介紹)后,可以觀測到無論是老師參數(shù) MSE 還是監(jiān)督信號 MSE 都取得了明顯較低的值,且在逐步降低,說明此時模型產(chǎn)生的監(jiān)督信號相對穩(wěn)定,且模型正在平穩(wěn)收斂。
因此我們可以得出結(jié)論,模型平滑技術(shù)可以有效地確保監(jiān)督信號的穩(wěn)定性,促進模型的收斂。
2
新的平滑方式——空間集成
基于時序的 EMA 平滑是當前最為主流的模型平滑方式,鮮有工作聚焦于探索不同的平滑方式。本文中,我們從新穎的空間平滑角度出發(fā),提出了一種新的模型平滑機制“空間集成”(Spatial Ensemble,簡稱 SE)。
圖 4 時序滑動平均和空間集成示意圖
如圖 4 所示,TMA 對歷史學生模型的參數(shù)進行加權(quán)平均來更新老師模型的參數(shù)。SE 從另一個角度實現(xiàn)了模型的平滑。
具體來說,在每次更新過程中,老師網(wǎng)絡隨機挑選一部分網(wǎng)絡子結(jié)構(gòu),并將挑選出的子結(jié)構(gòu)的參數(shù)直接更新為學生網(wǎng)絡對應子結(jié)構(gòu)的參數(shù),而本次更新過程中未被挑選出的子結(jié)構(gòu)參數(shù)保持不變。
經(jīng) 過多次空間集成更新,老師網(wǎng)絡的不同子結(jié)構(gòu)可能源自于不同歷史學生模型。
以一種更為形象的方式來說,空間集成將歷史學生模型的不同子結(jié)構(gòu)“縫合”成了老師模型,從而產(chǎn)生了“空間集成”效應。這也是我們方法名稱的由來。
時空平滑
再進一步,我們注意到時序平滑和空間集成存在天然的互補性,且可以很自然的結(jié)合在一起,從而得到一種新的模型平滑機制——時空平滑(Spatial-Temporal Smoothing, 簡稱 STS)。圖 5 橫向?qū)Ρ攘?TMA、SE 和 STS 三種平滑機制。
圖 5 三種不同的模型平滑機制
TMA 將整個網(wǎng)絡作為一個整體,逐層進行進行加權(quán)平均操作。空間集成隨機將老師網(wǎng)絡的部分子結(jié)構(gòu)替換成學生網(wǎng)絡中對應的子結(jié)構(gòu),而保持其他子結(jié)構(gòu)不變。
STS 結(jié)合了 TMA 和 SE:類似 SE,STS 同樣隨機令部分子結(jié)構(gòu)保持不變,但對于其他需要更新的子結(jié)構(gòu)并不是直接替換成學生網(wǎng)絡的子結(jié)構(gòu),而是借助于 TMA 進行更新。
數(shù)學形式
假設 和 表示老師網(wǎng)絡和學生網(wǎng)絡的參數(shù),且都可以表示為 n 個單元(units),即 ,且 。依據(jù) SE 采用的空間粒度,一個單元可能對應一個網(wǎng)絡層,一個特征通道,或者一個神經(jīng)元。
因此SE可以表示為以下形式:
其中, 是一個服從伯努利分布的二值變量。如果 ,表示該單元保持不變;如果 ,則表示該單元將被替換成學生網(wǎng)絡中的對應單元。
所有 是彼此互相獨立的,即每個單元獨立判斷保留或替換。 越大,意味著越高的保留頻次以及更多的期望保留單元數(shù)。
類似地,我們可以將 STS 表示為以下形式:
其中 表示 TMA 中的動量(momentum)。 控制了 TMA 模型平滑的程度, 越大平滑效應越強。
在特定情況下,STS 能夠退化成 SE 或 TMA。例如當 時,STS 退化成了 SE。當 時, ,STS 將退化成 TMA:
3
實驗分析
圖 6 不同超參設置下,SE 和 STS 在 ImageNet 數(shù)據(jù)集上的線性評估結(jié)果
圖 6 展示了不同超參設置下,SE 和 STS 在 ImageNet 數(shù)據(jù)集上的線性評估結(jié)果。
觀察左圖我們可以發(fā)現(xiàn),當 p=0 時,即模型平滑效應不生效時,模型性能表現(xiàn)十分糟糕,說明沒有學習到任何有效的特征表示。而隨著 p 的增大,模型性能呈逐步上升,說明了 SE 能夠作為一種有效的模型平滑方式。
如右圖所示,STS 通常能夠取得優(yōu)于 TMA(對應 p=0)的性能,說明了 SE 和 TMA 的互補性。此外我們可以觀察到一個有意思的現(xiàn)象:隨著m 的增大(減?。?,模型通常在相對偏小(偏大)的 p 值處取得最佳性能。
這些結(jié)果反映了模型平滑對基于學生-老師框架的自監(jiān)督模型的重要性。
下圖展示了我們的方法與其他 SOT A 方法在 ImageNet 上線性評估結(jié)果的比較。
圖7
此 外,我們還觀察到,基于 STS 學習到的特征在 ImageNet-C 數(shù)據(jù)集上表示呈現(xiàn)出對數(shù)據(jù)噪聲(data corruption)更強的魯棒性。
ImageNet-C 是一個常用的評估模型對數(shù)據(jù)噪聲魯棒性的數(shù)據(jù)集,其中包括 15 種不同的數(shù)據(jù)噪聲類別,且每種類別包含 5 種不同的噪聲強度,即共計 75 種數(shù)據(jù)噪聲。
圖 8 左展示了數(shù)據(jù)集中的幾種典型噪聲,從上到下依次是 defocus blur, pixelate, fog, 和 spatter。每張圖左下角 展示了 STS 相比 TMA 帶來的性能提升。對所有 75 種數(shù)據(jù)噪聲,STS 平均能夠帶來約 1.5% top-1 accuracy 提升。
圖 8 ImageNet-C 數(shù)據(jù)集上噪聲魯棒性驗證
此外,我們觀測到 STS 學習到的特征具有良好的泛化性,并在下游檢測任務 VOC 物體檢測數(shù)據(jù)集上展現(xiàn)出良好的性能。
圖 9 物體檢測任務上的遷移學習
4
總結(jié)
模型平滑技術(shù)保證了學生-老師框架中監(jiān)督信號的穩(wěn)定性,有效促進模型收斂,在半監(jiān)督尤其是自監(jiān)督方法中起到了十分關(guān)鍵的作用。
我們提出了一種新穎的空間平滑方式 SE,其能夠取得與經(jīng)典的時序平滑方式 EMA 可比的自監(jiān)督性能。
SE 與 EMA具有良好的互補性,據(jù)此我們提出了一種時空平滑機制 STS。STE 能夠取得更好的自監(jiān)督效果,并且具有良好的泛化性和魯棒性。
相關(guān)文章
- 深入實施“人工智能+”行動的號角已經(jīng)吹響,曠視以“升維”解碼AI未來圖景
- 曠視趙康:做大模型的“煉金術(shù)士”,讓AI在千行百業(yè)中兌現(xiàn)價值
- 曠視入選北京市數(shù)字經(jīng)濟100家標桿企業(yè)
- 上海MWC見證:曠視以AI驅(qū)動運營商生態(tài)躍遷
- 曠視助力云舟智維打造全球首個大型裝備維保智能體
- 中科智匯工場企業(yè)家代表團蒞臨曠視,共探科技賦能新路徑
- 北安協(xié)走訪曠視,見證AI驅(qū)動下的安防創(chuàng)新布局
- 接入DeepSeek,曠視AIS算法生產(chǎn)平臺5.0版全新發(fā)布!
- 曠視中標!AI+驅(qū)動北京城市感知管理躍升
- 以大模型驅(qū)動 曠視與中國移動共創(chuàng)多元場景價值
- 阿里云、曠視等超60個安全類SDK擁抱鴻蒙,助力開發(fā)者全方位保障應用安全合規(guī)
- 致遠互聯(lián)與曠視科技達成戰(zhàn)略合作 筑牢企業(yè)協(xié)同運營安全防線
- 始于算法,終于生態(tài)!看曠視企業(yè)業(yè)務的新玩兒法
- 曠視科技簽約藍湖MasterGo,開啟國產(chǎn)設計軟件“共創(chuàng)”新時代
- NeurIPS 2021 | 曠視提出:空間集成 ——一種新穎的模型平滑機制
- 曠視推出邊緣側(cè)產(chǎn)品鴻圖、魔方,為建筑智慧升級提供“過硬保障”
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
- 中國移動將支持eSIM全系產(chǎn)品,釋放成長新動能
- 晟聯(lián)科:以高速互連接口IP方案賦能Scale-up 生態(tài)
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案