文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場景下基于深度強化學習的感知型路徑分配算法[J].信息技術(shù)與網(wǎng)絡安全,2022,,41(6):43-49.
0 引言
目前我國交通環(huán)境日益復雜,,現(xiàn)有交通體系的服務能力難以滿足城市居民的出行期望,城市面臨日益嚴峻的交通管理挑戰(zhàn),。研究者們希望借助交通數(shù)字孿生技術(shù),,通過數(shù)據(jù)驅(qū)動、精準建模,,實現(xiàn)交通的模擬,、預測診斷和優(yōu)化[1]。然而在交通仿真模擬層次,,現(xiàn)有的路徑分配模塊不能反映出現(xiàn)實交通的多變狀況,。在人-車-路的核心體系中,天氣氣候,、交通管制,、突發(fā)事故等影響因子將時刻影響駕駛員的判斷以及路網(wǎng)的狀態(tài)[2],。
在當前的交通數(shù)字孿生系統(tǒng)中,現(xiàn)有的路徑分配方法主要分為兩類,,第一類為用于實現(xiàn)靜態(tài)全局路徑最優(yōu)的傳統(tǒng)算法,,如經(jīng)典的蟻群算法、Floyd算法,、A-Star,、粒子群算法、Dijkstra及其改進算法等,,本質(zhì)為基于圖論中重要的最短路徑問題所提出的各種方案,,也即在一個加權(quán)有向圖中,按一定要求尋找一條權(quán)重總和最短的路徑[3],。如Xu[4]等基于二叉樹結(jié)構(gòu),,通過雙向搜索方法加快搜索效率,作為A-Star改進算法,;Lee[5]等基于遺傳算法實現(xiàn)蟻群算法中的參數(shù)調(diào)節(jié)優(yōu)化,。在路網(wǎng)信息發(fā)生變化時,該類算法難以做出及時反饋,。如果需要滿足動態(tài)路徑規(guī)劃的需求,,則需要施加額外的更新優(yōu)化和重規(guī)劃機制。第二類指的是通過機器學習,、時空神經(jīng)網(wǎng)絡,、強化學習等技術(shù)來實現(xiàn)路徑分配。這一類更加強調(diào)數(shù)據(jù)的搜集,、分析和處理,,通過提取海量歷史數(shù)據(jù)的價值信息,為解決路徑規(guī)劃問題提供了一個新的思路[6],。
本文的中心工作是研究了一種基于傳統(tǒng)路徑算法與深度強化學習的感知型路徑分配算法,,首先通過改進版Dijkstra算法為所有車輛分配初始路徑,路網(wǎng)中的車輛在不斷感知當前位置,、行駛軌跡以及目標路網(wǎng)中各路段的車流等信息后,,通過DDQN(Double DQN)將自動選擇是否重新進行全局的路徑規(guī)劃,實現(xiàn)路徑更新,。與現(xiàn)有的經(jīng)典路徑規(guī)劃方法相比,,本文提出的規(guī)劃方案填補了傳統(tǒng)模型在路況變化下的泛化性、拓展性不足,,優(yōu)化了深度學習型方法的資源損耗,,同時基于強化學習模型在長期收益方面的優(yōu)越性,本文模型更加滿足路徑分配模型對當今城市路網(wǎng)交通出行的各種需求。
本文詳細內(nèi)容請下載:http://wldgj.com/resource/share/2000004534
作者信息:
曹 歡
(中國科學技術(shù)大學 信息科學技術(shù)學院,,安徽 合肥230026)