訂閱
糾錯
加入自媒體

論文:基于關鍵點的單目3D目標檢測

2020-09-09 15:06
學術頭條
關注

論文原文:RTM3D:Real-timeMonocular3DDetectionfromObject

KeypointsforAutonomousDriving

目前已有的一些 3D 檢測器都是將 3D 邊界框到 2D 邊界框的幾何約束作為重要組件。由于 2D 的邊界框只有四條邊,僅能提供四個幾何約束,這就導致 2D 檢測器的一點小錯誤會極大的影響 3D 檢測器的效果。本文的方法通過預測圖片中物體 3D 邊界框的九個關鍵點,利用 3D 和 2D 透視圖的幾何關系恢復 3D 空間中的尺寸、位置和方向。通過這種方法,即使關鍵點的估計非常嘈雜,也可以穩定地預測對象的屬性,使我們能夠以較小的架構獲得較快的檢測速度。訓練的方法僅使用對象的 3D 屬性,而無需外部網絡或監督數據。該方法是第一個用于單眼圖像 3D 檢測的實時系統,同時達到了 KITTI 基準的最新性能。代碼將在 https://github.com/Banconxuan/RTM3D 上發布。

論文背景

3D 目標檢測是自動駕駛中場景感知和運動預測的基本組件,目前的 3D 檢測器都嚴重依賴于 3D 雷達掃描得到的位置信息。但基于雷達的系統非常昂貴而且不利于編碼現在的車輛形狀。而單目相機相對便宜更容易應用在現實場景中。本文的研究聚焦于單目 RGB 圖片的 3D 目標檢測。

單目 3D 目標檢測方法大致可以按照訓練數據類型被分為兩類,一種利用復雜的特征,例如實例分割、車輛形狀先驗甚至是深度圖在多階段融合模塊中選擇最佳方案,這些額外的特征需要額外的標注工作來訓練一些其他的獨立網絡,這會消耗大量的運算資源;另外一類方法僅將 2D 的邊界框和 3D 物體的屬性作為有監督數據,在這種情況下,一個直觀的想法是建立一個深度回歸網絡以直接預測對象的 3D 信息,由于搜索空間較大,這可能會導致性能瓶頸。因此最近有一些工作將 3D 盒頂點的幾何約束應用于 2D 盒邊緣以細化或直接預測對象參數。但是,2D 邊界框的四個邊緣僅對恢復 3D 邊界框提供了四個約束,而 3D 邊界框的每個頂點可能對應于 2D 框中的任何邊緣,這需要 4,096 個相同的計算才能得出一個結果。同時,當 2D 檢測器的預測甚至有輕微誤差時,強烈依賴 2D 框會導致 3D 檢測性能急劇下降。因此,大多數這些方法都利用兩階段檢測器來確保 2D 邊界框預測的準確性,這限制了檢測速度的上限。

本文提出了一個無需依賴 2D 檢測器的一階段單目 3D 檢測器。首先,通過一個單階段全卷積架構預測 9 個 2D 關鍵點,這些關鍵點包括 3D 邊界框的 8 個頂點和中心點的投影點,這 9 個關鍵點在 3D 邊界框上提供了 18 個幾何約束。此外,本文還提出了一個全新的用于關鍵點檢測的多尺度金字塔,可以通過軟加權金字塔獲得最終的關鍵點激活圖。給定 9 個投影點后,下一步是通過對象的位置、尺寸和方向等從這些 3D 點的角度上進行參數化,使重投影誤差最小。將重投影誤差公式化為 se3 空間中多元方程的形式,可以準確有效地生成檢測結果。作者討論了不同先驗信息對基于關鍵點的方法(如尺寸、方向和距離)的影響。獲取此信息的前提條件是不要增加過多的計算,以免影響最終檢測速度。本文對這些先驗模型進行建模,并提出了一個整體能量函數以進一步改善 3D 估計。

本文的主要貢獻有以下幾點:

1.將單目 3D 檢測轉化為關鍵點檢測問題,結合了幾何約束來更準確和高效的生成 3D 物體的屬性。

2.提出了一種新穎的單階段多尺度 3D 關鍵點檢測網絡,該網絡可為多尺度物體提供準確的投影點。

3.提出了一個整體能量函數,可以共同優化先驗和 3D 對象信息。

4.根據 KITTI 基準進行評估,本文是第一種僅使用圖像的實時 3D 檢測方法,與其他方法在相同的運行時間下對比,具有更高的準確性。

論文模型

1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號