強化學習在無人機項目中的應用 - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 機器學習 > 正文

強化學習在無人機項目中的應用

2021-05-28 14:26

近年來，無人機已被廣泛應用于很多領域，它不僅可以完成很多的任務，包括軌跡規劃、避障、巡航等，在民用、軍事都有很廣泛應用，而且還有降低成本、提高效率、減少損失等很多作用。

但是傳統的無人機任務都采用飛控控制，需要人為操作。為了使無人機可以具備更廣的適用性，或者從技術上來說擁有更好的泛化能力，深蘭科學院嘗試用強化學習來訓練無人機做指定的任務。如果訓練效果能夠達到足夠穩定的性能，則可以進一步實現商用目的。本文在此基礎上，帶大家簡單了解一下強化學習的基礎知識。

強化學習小課堂

什么是強化學習？

1、強化學習

強化學習（Reinforcement Learning RL）也有很多其他名字，例如再勵學習、增強學習、評價學習，是機器學習的范式和方法論之一，用于描述和解決智能體在與環境的交互過程中，通過學習策略以達成回報最大化或實現特定目標的問題。

上圖為經典的強化學習結構圖，從圖片中可以看出，強化學習過程主要由4部分構成：智能體（agent）、觀測到的狀態（observation／state）、獎勵（reward）和行為（action）。

一個強化學習的過程中，智能體獲得從當前環境中觀測到的狀態，然后根據這一狀態采取一定的行為或策略，同時，有一個評價系統來評價這個行為的好壞，并返回正／負獎勵給到智能體。循環往復，直到完成整個任務，此為一次強化學習的交互。整個強化學習訓練過程就是，智能體與環境不斷的交互，最終會學習到合理的策略，讓獎勵最大或者達到某個任務（指定的狀態）。

強化學習受行為主義心理學的啟發，例如巴甫洛夫條件反射實驗，訓練搖鈴小狗流口水。小狗看到吃的流口水、搖鈴不流口水，實驗中就采取搖鈴并給狗喂狗糧的方法不停訓練，最終即使在沒有狗糧，只搖鈴的情況下，小狗也會流口水。

強化學習與此類似，是讓智能體在與環境交互的過程中，一旦選擇對的行為則給予正獎勵加強這種行為，在不斷的訓練過程中使得智能體選擇最合適的行為，最終使得智能體的每一步都能選擇合理的行為，從而達到整體任務獎勵最大化，并完成任務。

2、深度強化學習

我們一般所說的強化學習其實是深度強化學習（Deep Reinforcement Learning DRL），深度強化學習是強化學習與深度學習結合的結果。顧名思義，就是將傳統強化學習中的某一部分用深度學習來完成。

傳統強化學習中的行為以及價值都是需要人為定義的，這也就是為什么傳統強化學習起源較早，但是應用并不廣泛的原因之一。而深度學習恰好將這一問題解決了，強化學習中的行為以及價值都用一個深度學習的網絡來學習得到，這樣不需要人為設定，使得強化學習可以廣泛應用于很多領域。而傳統強化學習無法解決的連續性動作的問題，深度強化學習也可以解決，使用對應的Actor－critic網絡即可。

深度強化學習的分類，有很多種分類標準。

從智能體的個數上，可分為單智能體算法和多智能體算法；

從是否基于模型的角度，可分為model－based和model－free；

從訓練時策略的選擇，可分為on－policy和off－policy等等。

這里不一一展開，但在實際運用強化學習的時候，根據具體的任務或者項目，需要選擇合適的深度強化學習算法。

1 2 下一頁>

無人機機器學習人工智能深蘭科技機器人

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號