AdaScale: Towards Real-time video object detection using adaptive scaling


motivation:

作者發現對圖片進行降采樣有時能有助於檢測精度的提升。具體來說,圖片降采樣能帶來兩方面的提升:

1)減少false positive(fp)的數量,過多地關注圖片上不必要的細節會引入false positive。

2)增加true positive(tp)的數量,通過對圖片進行縮放將object縮放至目標檢測器所能處理的合理的尺寸。

圖1表明,在ImageNet VID數據集上用R-FCN檢測時,將圖片進行下采樣之后能得到更好的檢測效果。

受此啟發,作者提出了AdaScale用於現存的目標檢測器上,用於將圖片自適應地縮放至一個最佳尺寸,來得到更高的速度和精度。

具體來說,作者使用當前幀來預測下一幀的最佳尺寸。

 

Adaptive Scaling

圖2是AdaScale方法的概況。其中包含fine-tuning目標檢測器,使用所得到的檢測器來生成最優尺寸的label,用上一步生成的label訓練一個scale regressor,以及將AdaScale部署在視頻目標檢測框架中。

optical scale

  首先定義一個有限的尺寸集合,本文S={600,480,360,240},這里S指圖片最短邊的像素數量。並選用目標檢測器訓練時的損失函數(1)作為度量,以此來衡量最優的scale。

但直接使用損失函數會有這樣一個問題,當預測得到的proposal和groundtruth的IoU較低時,會被分類為background,此時的損失函數中的回歸損失為0,直接用該指標衡量不同圖像尺寸會有問題,

該評價指標會比較喜歡前景框更少的圖片尺寸,因為當前景框少時損失函數的值也會更小。

  因此作者設計了一個新的評價指標,這個評價指標僅關注不同圖片尺寸中的相同number的前景框。下面具體地來介紹這個評價指標:

設置\(L_{i,a}^m,\quad m\in S\)為利用公式(1)計算的圖片i在尺度m上預測的bbox a的損失,設\(\hat{L_i^m},\quad m\in S\)為在圖片i在尺度m下計算出的新的評價指標。

為了得到\(\hat{L_i^m}\), 首先計算預測的前景bbox的數量,\(n_{m,i}\)為圖片i在任意尺度m的值,令\(n_{min,i}=min_{m}(n_{m,i})\). 然后得到我們提出的評價指標:

其中\(A_{m,i}\)是圖片i在尺度m是預測得到的前景框集合,且\(|A_{m,i}|=n_{min,i}\).為了得到\(A_{m,i}\),對每一個scale,我們對預測的前景框按\(L_{i,a}^m\)進行排序,然后將第一個\(n_{min,i}\)預測加入集合\(A_{m,i}\。

即根據4個尺寸選擇相同數量的預測前景框,然后選擇損失最低的尺寸作為最優尺度。

這一過程在圖3進行了可視化,得到圖片i的最優尺寸公式:

 

scale regressor

   直覺上,如果目標較大且比較單一,我們應該對圖片進行下采樣讓目標檢測器能夠專注於明顯的目標而不是分散的細節;若目標物體比較小且圖片中有很多這樣的明顯目標,圖片應該保持原始尺寸。

自從R-FCN直接用深層卷積網絡末尾的特征來回歸得到bbox的位置之后,我們認為深層卷積網絡特征的通道里面包含了尺寸信息。因此我們用深層卷積特征構建了一個尺度回歸器來預測最優尺度,如圖3所示。

作者用1x1卷積來從各個不同的feature map中捕捉位置信息。此外,並行地用3x3卷積層來捕獲feature map中的復雜信息。經過一個非線性單元之后用全局池化來充當一個投票過程。

最后,將兩條流結合在一起輸入一個全連接層回歸得到輸出的尺度。確切地講,定義深層卷積特征為\(X\in R^{C\times H \times W}\),定義回歸器為:\(g:R^{C\times H\times W}\to R\).

注意我們沒有回歸得到最優尺寸\(m_{opt}\),而是得到一個相對尺寸(0,1),使得模型可以根據輸入圖片的尺寸應變(上采樣,下采樣或者保持原樣)。對圖像i來說,目標回歸尺寸定義為:

其中\(m_i\)是圖片i的尺寸,\(m_{min}\)是定義的最小尺寸,\(m_{max}\)是定義的最大尺寸。也就是說我們回歸出一個歸一化的相對尺寸[-1,1].

為了生成回歸器的label,利用(2)式對訓練數據的最優尺寸\(m_{opt,i}\)進行了計算。這里使用了回歸問題中常用的均方誤差做為回歸器的損失函數:

為了將AdaScale用於視頻中,我們做了一個時間一致性假設。更具體的,我們假設兩個連續幀的最優尺寸應當是相似的。我們的實驗結果基於這個假設成立。

算法1演示了AdaScale如何用於視頻目標檢測中。

實驗結果

MS/SS:多尺度訓練,單尺度測試。訓練過程過要對訓練數據進行resize。

可以看到AdaScale並不是對所有類別的物體都有提升。

 


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com