訂閱
糾錯
加入自媒體

揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測

2025-10-11 11:21
vehicle公眾號
關注

我們之前文章《特斯拉 FSD V14 上車!10倍參數模型,真實現“車位到車位”》中分享到特斯拉FSD V14的泊車聰明到有人評價為“Game Changer”。Jack也指出了特斯拉FSD V14的行泊車一套基于真正端到端算法的功能,國內基本沒有人能做的現實,也就是說國內的車位到車位基本都是行泊割裂規則拼接的算法。

但是,誰也不知道特斯拉到底如何做到的,最近特斯拉一份關于基于視覺的高保真占有率確定和輔助泊車應用的AI建模技術的專利申請公開文本,揭秘了特斯拉如何做到的。

專利揭示了特斯拉利用人工智能模型,僅通過攝像頭捕獲的 2D 圖像數據,來高精度(精確到10cm)重建自動駕駛車輛或機器人(下文統稱為Ego)周圍的 3D 空間結構和障礙物細節,并應用于自主導航、輔助泊車、環境交互界面渲染。

本文基于專利和相關信息,來解讀揭秘:

他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優勢

他怎么做到的? - 高保真3D空間Occ占用算法解析

他有什么用?- 高保真3D空間Occ占用算法應用案例

希望給AI自動駕駛、機器人產品技術愛好者一些科普和啟發。

他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優勢

高保真3D空間Occ占用算法可以僅僅利用視覺和AI算法解決自動駕駛系統在復雜動態環境中對周圍物體進行精確感知和決策的需求,其主要核心算法包括:

Occ占用網格算法:預測 Ego 周圍空間中體素(Voxel,即 3D 像素)的占有率屬性(是否被有質量的物體占據)。

符號距離函數 Signed Distance Function (SDF)預測:預測被占據體素的符號距離值 (Signed Distance Value),該值指示了該體素與最近的占據體素(即物體表面)之間的距離。這使得系統能夠實現更精細的形狀細化和改進的空間感知。

預測 Ego 周圍環境的 3D 表面屬性:從而可以了解占用物體的屬性,例如是車位、是車還是墻、車位線等。

這種算法可以支持:

高保真渲染環境:利用 SDF 值將 3D 空間重建結果以高保真圖像的形式顯示出來。

輔助泊車:利用高精度達10cm的占有率和 SDF 數據預測碰撞距離,實現先進的輔助泊車應用。

這也就是為什么我們之前文章《特斯拉 FSD V14 上車!10倍參數模型,真實現“車位到車位”》中分享到特斯拉的泊車有人評價“game changer”。要知道當前所有的泊車算法都是用基于規則的Hybrid A* 和 NMPC算法。

該算法的關鍵創新點是,僅依賴攝像頭 2D 視覺,在沒有深度攝像頭、激光雷達、ToF 傳感器(當前主流的補盲激光雷達)、雷達等專用深度傳感技術的情況下運行。通過人工智能深度學習技術,模型僅憑 2D 圖像即可推斷出空間關系和場景結構。

他怎么做到的? - 高保真3D空間Occ占用算法解析

首先他的基礎依然是經典的Occ占用算法 (Method 200)。從圖像輸入中生成可查詢的 3D 占有率輸出。

圖像輸入和特征化 (210/220):接收來自多個攝像頭(如八個攝像頭)的圖像數據,并使用卷積神經網絡 (CNN) 或 RegNet/BiFPN 等算法提取有意義的特征。

空間注意力與 3D 轉換 (230):使用 Transformer 模型將 2D 圖像特征轉換為 3D 空間特征。該模塊通過 3D 查詢分析 2D 特征,將多攝像頭圖像數據聚合和轉換成 Ego 周圍的單個 3D 向量空間表示(如俯視空間)。

時間對齊/融合 (240):將當前時間戳的 3D 空間表示與先前時間戳(如 t-1, t-2, t-3)的 3D 空間表示進行融合,以納入時空信息。

反卷積與體積輸出 (250/260):通過反卷積操作將融合后的時空特征轉換回不同的體素表示,生成體積輸出。

體積輸出內容:包括體素的二進制占有率(0 或 1),占有率流數據(指示體素的移動速度),以及 3D 語義數據(指示體素所屬物體類型,如車輛、路緣、靜態/移動質量)。

體素粒度:默認體素尺寸可以是 33 厘米。系統可以動態調整靠近 Ego 的被占據體素的粒度(例如縮小到 10 厘米),以識別物體更精細的形狀信息。

可查詢輸出 (270):生成一個可查詢數據集,允許其他下游軟件模塊(如自主駕駛系統)通過坐標值 (X, Y, Z) 來檢索特定體素的占有率狀態。

進一步的表面屬性分析方法 (Method 201/500),該方法專注于預測 Ego 周圍環境的 3D 表面屬性,而不是僅僅是體素占有率。

預測表面屬性:AI 模型預測 Ego 周圍一個或多個表面的屬性,包括 Z 軸坐標(高程),表面材質(如草地、瀝青、混凝土),是否可導航,以及車道和車位線信息。

生成網格表示 (Mesh):模型生成 Ego 周圍環境的網格表示,其中每個節點包含 X、Y、Z 軸坐標及屬性類別。

坐標校準:為了消除 Ego 自身垂直運動(如經過坑洼或減速帶)帶來的噪聲,系統會將坐標值與表面本身對齊,而不是與 Ego 的坐標相對對齊。

高程擴展感知:該方法可與占有率檢測 (方法 200) 結合,以識別位于 Ego 垂直占有率檢測范圍之外(例如,陡峭山坡上)的物體。通過先確定表面的高程,然后將物體體素的高程信息進行調整,從而有效擴展了 Ego 的感知范圍。

最后,高保真感知核心算法:符號距離函數 (SDF),這也不是什么新鮮算法,GPU游戲常用。引入了符號距離函數(SDF) 技術來提高 Ego 對周圍物體形狀和距離的感知精度,這對于輔助泊車等精細操作至關重要。

SDF 符號距離值指示一個被占據體素與最近的物體表面(最近的被占據體素)之間的距離。原來的Occ表示的是該體素與 Ego 之間的距離,這樣算法更精準來預測碰撞距離。

符號約定:SDF 場網格 (700) 中,正值表示體素位于物體外部,負值表示體素位于物體內部,零值表示體素位于物體表面。

訓練過程:AI 模型通過使用包含攝像頭圖像和相應地面真值深度圖/簽名距離圖的大型數據集進行訓練。模型學習根據視覺線索(如物體邊緣、紋理、透視)推斷符號距離值,這就是端到端的范式。

基于 SDF 的高保真渲染,AI 模型使用 SDF 值執行渲染協議,以實現平滑且逼真的 3D。

 渲染:生成 2D 渲染層:處理器根據 SDF 值生成一系列 2D 渲染層。

體素屬性:如果體素的 SDF 值是負值(內部),則該體素被渲染為不透明(有顏色);如果是正值(外部),則被渲染為透明。

堆疊重建:通過迭代生成并堆疊這些 2D 層(例如,從路面 0 垂直向上以英寸為單位生成),可以實現 Ego 周圍物體的高保真 3D 渲染。

優勢:這種基于 SDF 的渲染(如圖 9C 所示)比傳統的原始點云或簡單的二進制體素占有率渲染(如圖 9A、9B 所示)細節更豐富,視覺上更連貫和平滑。

油漆線識別:AI 模型還可以基于體素識別駕駛表面上的油漆,并且這種識別不限于連續的線形,可以識別任意形狀的油漆(如殘疾人停車標志或人行橫道)。

他有什么用?- 高保真3D空間Occ占用算法應用案例

由于高保真Occ占用網絡能夠識別物體,同時能夠精準識別障礙物的距離,所以這套算法能夠用于自動駕駛停車場的泊車,室內或者狹窄空間的機器人自動控制。

停車場等近場輔助泊車應用

該高保真占有率網絡可用于開發和實現先進的輔助泊車功能(方法 1100)。

泊車流程確定泊車資格區域 (1110):處理器確定 Ego 是否進入了泊車區域(例如停車場、路邊停車區)。判斷依據包括 Ego 的位置、速度(如低速行駛)、以及是否識別到停車標志或周圍車輛的朝向。

空間重建與 SDF 預測 (1120/1130):Ego 利用攝像頭數據執行 AI 模型,預測周圍空間的占有率和 SDF 值,重建高保真的 3D 環境。

識別泊車位 (1140):處理器利用重建的空間信息和 AI 模型識別一個或多個可用泊車位。

非靜態閾值識別:與依賴靜態閾值的傳統方法不同,該 AI 模型通過訓練(例如,識別被標記的體素集合)來區分停車位和其他空閑空間。

綜合考量因素:識別不僅基于空間是否被占據,還考慮地面油漆線(例如,是否為殘疾人車位)、交通標志(例如,“禁止停車”標志)和路緣顏色(例如,紅色路緣)。

泊車位評分與選擇:系統會為識別出的泊車位生成適用性評分。評分基于多個因素,如泊車位與 Ego 的距離,以及到達該泊車位所需的路徑屬性(例如,機動次數和路徑平滑度)。

用戶交互與導航 (1150/1160):在 Ego 界面上顯示識別出的泊車位及指示器(例如“P”標記)。接收用戶選擇后,系統將選定的泊車位數據傳輸給自主導航引擎,指示 Ego 自主泊車(包括平行泊車)。

機器人應用

這些方法同樣適用于自主機器人(如送貨或清潔機器人)在室內環境中的導航和定位(“泊車”)。

室內感知:機器人攝像頭捕獲辦公室環境的圖像數據,AI 模型預測體素占有率和 SDF,從而區分障礙物(桌椅、員工)和可導航區域(走廊)。

自主對接/停放:模型可以識別指定的對接區域或充電站(即機器人的“泊車位”),評估距離和空間限制,并指示機器人自主移動和精確對接。

寫在最后

本文分享的高保真3D空間Occ占用算法,在經歷了各種包含標注的圖像和相應地面真值深度圖/距離圖的大型數據集進行訓練,其實就是一個對3D世界理解的模型,再配合簡單駕駛碰撞信息的理解強化訓練RLHF你就可以把他稱為世界模型。

本文是進入算法層面的文章,不是各種宏觀敘事例如VLA/世界模型等概念文章,如果你看懂了,那么會理解我們習以為常的宏觀敘事的熱詞不過是概念或者含糊的抽象瓶子。

最后,這套算法應該會引發自動駕駛以及機器人業內的跟進和研究學習,再一次推升算法以及物理AI行業的發展。

參考文章以及圖片

*未經準許嚴禁轉載和摘錄-獲取本文參考資料方式:

基于視覺的高保真占有率確定和輔助泊車應用的AI建模技術的專利 - 特斯拉

       原文標題 : 揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號