錨定更快的 RCNN

March 6, 2017

在 Faster RCNN 論文中談到錨定時，使用“參考框金字塔”是什麼意思，這是如何做到的？這是否僅僅意味著在每個 WHk 錨點處生成一個邊界框？

其中 W = 寬度，H = 高度，k = 縱橫比數量 * 比例

論文鏈接： https ://arxiv.org/abs/1506.01497

錨點解釋

錨點

暫時，忽略“參考框金字塔”這個花哨的術語，anchors 只不過是要饋送到 Region Proposal Network 的固定大小的矩形。錨點是在最後一個卷積特徵圖上定義的，這意味著有 $ (H_{featuremap}W_{featuremap})(k) $ 其中，但它們對應於圖像。對於每個錨點，RPN 會預測一般包含一個對象的概率和四個校正坐標，以將錨點移動並調整其大小到正確的位置。但是錨的幾何形狀與 RPN 有什麼關係呢？

錨點實際上出現在損失函數中

在訓練 RPN 時，首先為每個錨點分配一個二進制類標籤。具有Intersection-over-Union ( IoU ) 的錨與真實框重疊，高於某個閾值，被分配一個正標籤（同樣，IoU 小於給定閾值的錨將被標記為負）。這些標籤進一步用於計算損失函數：

$ p $ 是RPN的分類頭輸出，它決定了anchor包含對象的概率。對於標記為 Negative 的錨點，回歸不會產生任何損失—— $ p^* $ ，真實標籤為零。換句話說，網絡不關心負錨的輸出坐標，只要它正確分類它們就很高興。在正錨點的情況下，會考慮回歸損失。 $ t $ 是 RPN 的回歸頭輸出，表示預測邊界框的 4 個參數化坐標的向量。參數化取決於錨的幾何形狀，如下所示：

在哪裡 $ x, y, w, $ h 表示盒子的中心坐標及其寬度和高度。變量 $ x, x_a, $ 和 $ x^* $ 分別用於預測框、錨框和真實框（同樣適用於 $ y, w, h $ ）。

另請注意，沒有標籤的錨既不分類也不重塑，RPM 只是將它們排除在計算之外。一旦 RPN 的工作完成並生成了提案，其餘部分與 Fast R-CNN 非常相似。

引用自：https://stats.stackexchange.com/questions/265875

comments powered by Disqus

錨定更快的 RCNN

錨點解釋

錨點

錨點實際上出現在損失函數中

相關問答

池化和子採樣之間的區別

與非方形核的捲積

微調與遷移學習與從頭開始學習

如何計算卷積神經網絡的最佳零填充？

最大池化與平均池化提取的特徵

為什麼resnet比vgg快