RSS 2020 | 在目標、動力學和意圖不確定下的隱含信念空間運動規劃 - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 機器學習 > 正文

RSS 2020 | 在目標、動力學和意圖不確定下的隱含信念空間運動規劃

2020-07-10 14:58

二、問題規范化

該論文考慮的是如下圖所示的POMDP 問題：系統處于連續的狀態－動作－觀測空間中，而系統的狀態轉移除了受到上一時刻的狀態和動作影響，還由一個離散的隱變量z 決定，而每一時刻的觀測量則由當前時刻的系統狀態以及隱變量共同決定。其中隱變量z 可用于表示系統中不確定性的不同模態，如旁側車輛駕駛者的性格、不同行進路線的路況、路面的物理狀況等。

對隱變量z 的不同可能性的置信度b（z），我們可以通過如下定義進行更新。

問題的最終目標是對行為策略π 進行優化，從而使得累計損失函數值 J 達到最低。

其中l 和lf分別為根據置信度b 加權平均得到的過程損失函數和最終損失函數。由該公式取最優行為策略π＊后得出的值函數V 可以表示成貝爾曼方程形式，進行遞歸處理。

三、方法

論文提出了一種新的微分動態規劃（DDP）算法，Partially Observable Differential Dynamic Programming （PODDP），可用于解決連續空間下的POMDP 問題。與一般的iLQG／DDP 算法相似，PODDP 也把流程分為了前向過程（Forward Pass）和后向過程（Backward Pass），并對動作序列進行迭代優化。

1．前向過程在前向過程進行前，動作序列U ＝｛ u0， u1， …， uT－1 ｝需要預先給定。在初始化的前向過程中，一般使用隨機生成的動作序列，或者通過某些前導知識有規律地生成動作序列。在此后的過程中，將使用前一次優化得到的動作序列，進行迭代優化。

在確定性系統中，由于狀態轉移過程是確定的，故給定的動作序列將衍生出一條鏈式的狀態序列。但在我們考慮的系統中，由于多模態不確定性的存在，類比于離散空間下的POMDP 問題，每一個節點都可以根據隱變量z 的不同取值可能性，延伸出多個分支，最終形成一個樹狀的軌跡推演，即軌跡樹（trajectory tree），如上圖所示。

為了更直觀地理解，我們可以考慮一個公路上的變道場景。如下圖，我們的汽車（紅色）希望變道到左側車道，可是左側車道上已經有一輛車了。我們在進行軌跡優化的時候，將未來可能獲得的關于旁側車輛駕駛者性格的觀測納入考慮當中，對方可能是合作性格的，也可能是激進性格的，這兩種性格分別對應兩個不同的模態。在向前推演的時候，根據這兩種不同模態的最大似然值進行分支，獲得軌跡推演樹。每一條從根節點到葉節點的完整支路對應一條可能發生的軌跡。

2．后向過程為了對軌跡樹進行優化，我們首先定義值函數擾動方程Qt以描述在某一時刻t 下系統狀態和動作的擾動對值函數的影響。

<上一頁 1 2 3 下一頁>

空間運動規劃自動駕駛人工智能

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號