精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

TransCenter: MIT&INRIA開源多目標(biāo)物體跟蹤算法

2021-09-23 15:37:28AI云資訊1024

近日,來自 MIT 等機(jī)構(gòu)研究者提出了 TransCenter,這是首個用于預(yù)測密集目標(biāo)點熱力圖 (dense center heatmap)Transformer MOT 架構(gòu)。在相同訓(xùn)練策略和同等數(shù)據(jù)下,TransCenter 在兩個標(biāo)準(zhǔn) MOT 數(shù)據(jù)集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。
自從引入 Transformer 以來,其在 NLP 任務(wù)中就已被證明擁有卓越的性能。計算機(jī)視覺也不例外,近些年,Transformer 的使用在計算機(jī)視覺領(lǐng)域也變得非常流行。例如,Carian et al. 的 DETR 目標(biāo)檢測網(wǎng)絡(luò)提出利用稀疏查詢(sparse queries)的方式來搜索圖像中的物體。同期工作也大多從 DETR 出發(fā),保留稀疏查詢,將 DETR 簡單推廣到多目標(biāo)跟蹤(MOT)任務(wù)中。
盡管如此,多目標(biāo)跟蹤 (MOT)仍表現(xiàn)出與 Transformer 某種程度上的不兼容:即標(biāo)準(zhǔn)的目標(biāo)框(bounding box)表示方法配合稀疏查詢對于學(xué)習(xí)基于 Transformer 的 MOT 任務(wù)不是一種最優(yōu)的方案。
受近期基于錨點(point-based)MOT 方法的啟發(fā),來自 MIT 等機(jī)構(gòu)的研究提出 TransCenter,這是首個用于預(yù)測密集目標(biāo)點熱力圖 (dense center heatmap)Transformer MOT 架構(gòu)。
具體而言,該研究提出利用像素級密集多尺度查詢(dense pixel-level multi-scale queries)配合 Transfromer 強(qiáng)大的全局表示能力,全局且充足地檢測和跟蹤目標(biāo)中心(center tracking)。相同訓(xùn)練策略和同等數(shù)據(jù)下,TransCenter 在兩個標(biāo)準(zhǔn) MOT 數(shù)據(jù)集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。特別地,在 MOT20 上,用更少的訓(xùn)練數(shù)據(jù),該研究甚至超越了基于錨點的 MOT 以前 SOTA 方法。另外,與從 DETR 到 MOT 的簡單推廣相比,實驗研究也證明了所提出的架構(gòu)表現(xiàn)出明顯的性能和架構(gòu)優(yōu)勢。
論文:https://arxiv.org/abs/2103.15145
代碼:https://github.com/yihongXU/TransCenter
出發(fā)點
1. 目標(biāo)框(bounding box)的表示方式,在極度稠密的場景下會帶來具有歧義且高度重疊的目標(biāo)位置表示。解決目標(biāo)框的歧義,終極的方式是提供稠密的目標(biāo)標(biāo)記 (例如分割掩碼,segmentation mask)。但是這種標(biāo)記往往需要消耗大量的人力成本,而且在 MOT 任務(wù)上,尚沒有此類可用的大規(guī)模數(shù)據(jù)集。近期,基于錨點的 MOT 方法大大地緩解目標(biāo)框帶來的歧義且表現(xiàn)出 SOTA 的性能,如例 1 所示。

例 1:在稠密數(shù)據(jù)集(MOT20)里,錨點能更好地表示目標(biāo)的位置。
2. 目前多目標(biāo)跟蹤(MOT)大多基于先檢測后跟蹤的方式。所以,準(zhǔn)確卻不遺漏的檢測出目標(biāo)是提高 MOT 性能的關(guān)鍵因素之一。DETR 利用獨立于圖像且隨機(jī)初始化的稀疏查詢(sparse queries)來檢測目標(biāo),這往往會帶來漏檢(false negatives)。
3. 另外,簡單地提高稀疏查詢數(shù)目(例如從默認(rèn)的 100 個查詢提高到與輸出圖像像素同等的查詢數(shù)目)是有風(fēng)險且不可行的,因為它會帶來充滿噪聲的誤檢(false positives)。并且,因為隨機(jī)初始化的查詢不依賴于圖像,每一次改變查詢數(shù)目,都需要重新微調(diào)訓(xùn)練(fine-tune)網(wǎng)絡(luò)。
4. 因為查詢(queries)是獨立于圖像的,DETR 在訓(xùn)練的每一步,都需要用一對一的匹配算法(例如匈牙利算法,Hungarian Algorithm)去匹配物體真值位置和網(wǎng)絡(luò)預(yù)測位置。匹配算法十分耗時,而且由于目標(biāo)框帶來的歧義,匹配結(jié)果往往不是最優(yōu)。
5. 最后,以往基于錨點的 MOT 方法使用傳統(tǒng)的 CNN 網(wǎng)絡(luò),其局部性導(dǎo)致對于人體點的預(yù)測往往不是全局的。換言之,一個目標(biāo)中心點的預(yù)測并沒有考慮所有目標(biāo)中心點位置。這種相對獨立的局部預(yù)測方式可能會帶來漏檢或者誤檢。
創(chuàng)新思路
基于以上問題,該研究重新精心設(shè)計了一種基于 Transformer 的 MOT 網(wǎng)絡(luò)架構(gòu)。具體來說,他們拋棄了以往從稀疏查詢輸出稀疏目標(biāo)框的方式,提出采用像素級密集多尺度查詢(dense pixel-level multi-scale queries)預(yù)測密集目標(biāo)錨(中心)點熱力圖的方式。這種密集表示方式有多種優(yōu)勢:
1. 大大緩解了目標(biāo)框重疊的問題而且多尺度的查詢能更好地檢測并跟蹤不同尺寸的目標(biāo)。
2. 因為該研究的密集查詢是從圖像特征圖獲得的,與圖像高度相關(guān),所以查詢密度自適應(yīng)于輸入圖像的大小。換言之,隨著輸入圖像的大小變化,查詢數(shù)目自動變化。無需人工重新調(diào)整查詢數(shù)目并微調(diào)。
3. 另外,TransCenter 在訓(xùn)練過程中不在需要繁瑣的匈牙利匹配(Hungarian Algorithm)算法。這是因為一個查詢對應(yīng)一個像素,而一個像素唯一地表示一個物體中心或者背景,所以查詢和物體中心真值天然地匹配。在訓(xùn)練過程中,只需要簡單地回歸中心位置。
4. 更重要的是,充足的查詢數(shù)目能保證充足的檢測。同時,依賴于圖像的像素級別查詢(image-dependent pixel-level queries)表現(xiàn)出更干凈的檢測和跟蹤結(jié)果。
5. 最后,因為 Transformer 的全局特征特性,TransCenter 能全局地預(yù)測各個目標(biāo)的中心點并且將它們在時域上關(guān)聯(lián)起來,因而表現(xiàn)出更高的 FP-FN 平衡,輸出更充足且更干凈的 MOT 結(jié)果。
得益于以上的設(shè)計優(yōu)點,該研究在兩個基準(zhǔn)(benchmarks)中均取得了 SOTA 的結(jié)果。
網(wǎng)絡(luò)結(jié)構(gòu)及方法
TransCenter 整體架構(gòu)
TransCenter 的整體架構(gòu)如圖所示,該研究采用經(jīng)典的 encoder-decoder 結(jié)構(gòu)。由于密集查詢(Dense Queries)的引入,研究者在編碼器(Transformer Decoder)和解碼器 (Transformer Decoder)上均采用更高效的 Deformable Transformer (zhu et al.) 以解決密集查詢帶來的訓(xùn)練內(nèi)存和運(yùn)行效率的限制。
TransCenter 網(wǎng)絡(luò)的輸入為 t-1 和 t 時刻的圖像(640x1088),它們會預(yù)先通過一個 ResNet-50 提取多尺度特征,然后該多尺度會被輸入到 Transformer 編碼器。編碼器的作用是全局地編碼輸入特征圖,并乘以注意力圖,從而得到多尺度帶注意力的特征圖,稱為 memories,分別標(biāo)記為M_t-1 和M_t。值得注意的是,提取 t-1 和 t 時刻圖像信息的網(wǎng)絡(luò)是共享權(quán)重的。
緊接這,t 時刻的多尺度帶注意力特征圖 M_t 會被用于產(chǎn)生兩組不同的多尺度密集查詢:多尺度密集檢測查詢 (dense multi-scale detection queries)以及多尺度密集跟蹤查詢(dense multi-scale tracking queries), 分別標(biāo)記為 DQ_t 和 TQ_t。兩種密集查詢的產(chǎn)生依賴于查詢學(xué)習(xí)網(wǎng)絡(luò)(QLN),后者由 2 個具有 ReLU 激活和跳過連接(skip connection)的全連接層組成。
在解碼器端,該研究認(rèn)為檢測和跟蹤是兩個不同的任務(wù),因此所需的注意力也不同。對于檢測任務(wù),網(wǎng)絡(luò)需要根據(jù)多尺度密集檢測查詢 DQ_t,在多尺度帶注意力特征圖 M_t 里檢測出所有目標(biāo)。而對于跟蹤,根據(jù)從 t 時刻多尺度密集跟蹤查詢 TQ_t 得到的目標(biāo)位置和特征,我們則需要在 t-1 時刻的多尺度帶注意力特征圖 M_t-1 內(nèi)找到對應(yīng)的 t-1 時刻目標(biāo)。出于這一考量以及實驗驗證,該研究采用一種并行的雙解碼器(dual decoder)結(jié)構(gòu), 分別處理檢測和跟蹤兩個任務(wù)(Transformer Detection/Tracking Decoder)。兩個并行的解碼器分別輸出檢測特征和跟蹤特征,分別記為 DF_t 和 TF_t。前者用于估計目標(biāo)大小 S_t 和目標(biāo)中心熱力圖 C_t,兩者結(jié)合 t-1 時刻的目標(biāo)中心熱力圖一起用于估計跟蹤位移 T_t。最后,網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)和前期基于錨點的 MOT 方法類似,更多細(xì)節(jié),請參考論文。
SOTA 比較
該研究分別在兩個基準(zhǔn)(MOT7 和 MOT20)上與 SOTA 方法比較。值得注意的是,為了公平地比較,研究者將 SOTA 方法根據(jù)公共檢測框(public detections)和自帶檢測框(private detections)進(jìn)行分組,可以看到許多方法只在其中一種條件下進(jìn)行測試。另外,該研究還根據(jù)不同數(shù)量的訓(xùn)練數(shù)據(jù),將不同方法以不同顏色標(biāo)記(橘色采用一組額外的訓(xùn)練數(shù)據(jù),綠色只是用官方的數(shù)據(jù),紅色采用 5 組額外數(shù)據(jù))。
由結(jié)果可以得出,與同期 Transformer MOT 的工作相比,在同等數(shù)據(jù)量以及同樣的訓(xùn)練策略下,TransCenter 展現(xiàn)出明顯的性能優(yōu)勢。而對比前期以錨點為基礎(chǔ)的 MOT 方法,TransCenter 同樣取得更優(yōu)的結(jié)果。這也驗證了 TransCenter 網(wǎng)絡(luò)設(shè)計的有效性。
最后,對比已發(fā)表的 SOTA 方法,該研究以明顯的性能優(yōu)勢取得了新的 SOTA 結(jié)果。
CUDA編程基礎(chǔ)——利用CUDA實現(xiàn)光線追蹤
9月23日20:00-21:30,CUDA編程基礎(chǔ)系列分享第二期:利用CUDA實現(xiàn)光線追蹤。本次分享主要介紹GPU多種存儲單元的特點、使用Shared memory的實例、使用Constant memory的實例、編程實例—利用CUDA實現(xiàn)光線追蹤等內(nèi)容。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews