文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.06.001
引用格式: 郭瑝清,,陳鋒. 干線動態(tài)協(xié)調控制的深度Q網絡方法[J].信息技術與網絡安全,2020,,39(6):1-6.
隨著城市人口的增多與經濟的快速發(fā)展,我國汽車保有量不斷增長,,城市交通擁堵問題日益嚴峻,。而城市交通干線是城市交通的動脈,實現(xiàn)干線各交叉口間交通信號的動態(tài)協(xié)調,,有效地疏導干線車輛,,對于緩解城市交通擁堵具有重要意義,。
目前,城市主干道多交叉口的協(xié)調控制,,主要采用Maxband和Multiband法以及圖解法,、數(shù)解法等綠波方法。LITTLE J D C等人最早提出最大綠波帶寬Maxband模型,;GARTNER N H等人在Maxband模型的基礎上,,提出復合綠波帶寬Multiband模型;陳昕等人對圖解法進行了優(yōu)化,,基于綠波帶的中心線交點,,設計了一種新的雙向綠波圖解法;盧凱等人[在綠燈中心點型雙向綠波協(xié)調設計數(shù)解法的基礎上,,建立了一種綠燈終點型的雙向綠波數(shù)解法,,從而減少了干線車隊的延誤時間;曲大義等人在綠波協(xié)調中考慮了公交車輛的影響,,并通過增加綠信比與對公交車輛適當?shù)奶崴?,進一步提升了交叉口的通行效率。
現(xiàn)有的綠波方法難以準確地描述復雜的城市干線交通流狀態(tài),,且采用靜態(tài)的控制模式,,無法有效地協(xié)調時變的干線交通流。隨著人工智能的不斷發(fā)展,,采用深度強化學習實現(xiàn)城市交通信號優(yōu)化控制已成為研究的熱點,。HA-LI P等人為提高交叉口通行能力,提出了一種基于深度強化學習算法的單交叉口信號優(yōu)化控制方法,;GAO J等人提出一種深度強化學習算法,從實時的交通流數(shù)據中自動提取有用特征,,實現(xiàn)單交叉口交通流的自適應控制,,并采用經驗回放和目標網絡技術,提高了算法的穩(wěn)定性,;LI C C等人為提高城市路網通行能力,,提出了一種用于區(qū)域交叉口交通信號控制的深度強化學習算法,通過多智能體學習最佳的交通信號控制策略,;VAN DER POL E采用Max-plus算法和基于深度強化學習的多智能體方法,,實現(xiàn)城市交通區(qū)域協(xié)調控制。
在深度強化學習領域,,目前對于城市交通信號控制的研究,,多以單交叉口為研究對象,而對于多交叉口的協(xié)調處理,,普遍采用多智能體的協(xié)調控制,。本文結合了雙重深度Q網絡(Double Deep Q Network,Double DQN)與基于競爭架構深度Q網絡(Dueling Deep Q Network,Dueling DQN),,設計了基于DDDQN(Dueling Double Deep Q Network,,DDDQN)的干線動態(tài)協(xié)調控制算法。通過將干線多交叉口的交通信號作為一個整體進行處理,,相比于采用多智能體協(xié)調控制,,減輕了智能體間通信協(xié)調的負擔,且智能體通過獲取多交叉口的實時狀態(tài),,掌握干線全局信息,,并使用Dueling DQN網絡結構模型,能更充分地發(fā)揮網絡提取干線交通流特征的能力,,挖掘出多交叉口間協(xié)調控制的相關性,。實驗結果表明,本文方法相比于現(xiàn)有綠波方法,、經典的深度Q網絡(Deep Q Network,,DQN)、以及Double DQN與Dueling DQN,,能夠更有效地降低城市主干道的車均延誤和車輛的停車次數(shù)等重要的交通評價指標,。
本文詳細內容請下載:http://wldgj.com/resource/share/2000003143
作者信息:
郭瑝清1,陳 鋒1,,2
(1.中國科學技術大學 信息科學技術學院,,安徽 合肥230027;
2.安徽中科龍安科技股份有限公司,,安徽 合肥230088)