RM新时代能折现吗,RM新时代APP官网

隨著智能網(wǎng)聯(lián)汽車、5G 通信和智能交通系統(tǒng)的發(fā)展，有望在保證通行安全，提升通行能力的情況下實現(xiàn)道路交叉口無信號燈控制。

研究背景

自動交叉口管理系統(tǒng)（Autonomous Intersection Management systems,AIMs）能夠?qū)崿F(xiàn)無交通信號下對網(wǎng)聯(lián)智能汽車（CAV）進行控制，保障安全有效的交通流。但目前的AIM算法主要基于控制算法，不具備適應(yīng)或不斷學習新情況的能力。如：

（1）基于固定時間的交通燈控制算法（Fix Time,FT）

（2）基于排隊理論的智能交通燈控制算法（iREDVD ）

（3）近期提出的AIMs。

本文要解決的問題

讓AIMs系統(tǒng)具有對真實且復雜的交通場景（不斷變化的十字交叉口流量密度，雙向6車道，直行，左轉(zhuǎn)，右轉(zhuǎn)三個行駛方向，100m內(nèi)）進行自主學習和主動協(xié)同控制CAV的能力，且保證不發(fā)生碰撞事故。

解決的方案：先進AIM方法（本文定義為adv.RAIM）?；诙说蕉硕嘀黧w深度強化學習(MADRL)（LSTM）+通過自我游戲進行基于課程的學習

方案的效果：通行時間，等待時間，和時間損失的減少，附帶的讓經(jīng)濟性和排放性能都得到改善。

傳統(tǒng)的AIMs

主要包括兩個模塊：沖突模塊和優(yōu)先級模塊 1、沖突模塊：負責確定兩輛車在接近或穿過交叉口時是否會發(fā)生沖突。四種沖突識別方法：i）基于交叉口的，ii）基于網(wǎng)格的，iii）基于沖突點的，iv）基于車輛自由選擇的。 2、優(yōu)先級模塊：在遇到?jīng)_突時，對車輛狀態(tài)（例如速度、加速度、路線等）采取行動并管理車輛的通行權(quán)來解決沖突。通行權(quán)的分配有以下五個方法:i)基于到達交叉口的順序，先到先得（FCFS）；ii）根據(jù)車輛/交叉口狀態(tài)分配優(yōu)先級，如快速優(yōu)先服務(wù)（FFS）(到達交叉口最快的車輛獲得最高優(yōu)先級)或長隊優(yōu)先（LQF）(進入隊列最長的車輛具有最高優(yōu)先級)；iii）使用一些啟發(fā)式方法，如動態(tài)規(guī)劃（DP）或線性混合整數(shù)規(guī)劃（MILP）(通過一系列方程和條件用于求解，實時性和復雜適應(yīng)性差）；iv）通過拍賣，對出價最高的車輛給予更高的優(yōu)先權(quán)（不行，平等問題）；v）通過人工智能機制，如遺傳算法或強化學習。

注意：在車輛流量較低的情況下，F(xiàn)CFS提供了更好的性能，但當交通流量較高（>800輛/小時）時，紅綠燈控制提供了更好性能。此外，當交通不對稱、突發(fā)或有主干道和街道連接時，F(xiàn)CFS的性能比紅綠燈控制差。

本文提出的方案：adv.RAIM（狀態(tài)/沖突編碼器+運動規(guī)劃器）

1、狀態(tài)/沖突編碼器（使用LSTM）.輸入為車輛狀態(tài)（位置，速度，角度，車道，行駛方向，行駛趨勢等），輸出為待控制車輛與其他車輛之間沖突的編碼。 2、運動規(guī)劃器。包括具有ReLU激活函數(shù)的四個全連接層。 3、更新時間步長為250ms.使用雙延遲深度確定性策略梯度（TD3）優(yōu)化控制器. 4、獎懲機制：如果發(fā)生碰撞給予?100（強負獎勵）。如果通過交叉口，給予+100（強正獎勵）。?timestep（弱負獎勵）鼓勵盡可能快地通過交叉口。確保車輛盡可能快地通過交叉口，同時保證安全。 5、實現(xiàn)更穩(wěn)定和快速的訓練模型的兩個技術(shù)： i） Prioritized Experience Replay: (PER)。在DRL中，添加了一個重放緩沖區(qū)來存儲過去的經(jīng)驗，最“可學習”的經(jīng)驗是當預測Q值和實際Q值差值（時間差（TD）誤差）高時，在優(yōu)化過程中從重放緩沖區(qū)中選擇體驗的可能性就越大。 ii) Learning by curriculum：訓練任務(wù)由易到難，且逐漸增加仿真車輛數(shù)。 6、仿真軟件：SUMO；算法編寫：Pytorch1.5.0和Python3.7；仿真包含一個訓練場景和四個測試場景。使用的車輛分布為：35%的柴油車、35%的汽油車和30%的零排放電動汽車。 7、分析指標：（1）訓練場景：全局獎勵、碰撞次數(shù)和時間損失

（2）測試場景：直接指標：行程時間、等待時間和擁堵造成的時間損失。間接指標：排放污染物和燃油/電力消耗。

結(jié)果

訓練出的模型系統(tǒng)穩(wěn)定性好。在最接近真實復雜交通場景的第四個測試場景中，行程時間最多減少59%。時間損失最多可減少95%。污染氣體（CO、CO2、HC、PMx和NOx）的排放量減少了37%、13%、28%、37%、50%，燃料和電力的消耗量分別減少21%和27%。（因為減少了加減速的次數(shù)）

讀后感：本文最大的創(chuàng)新點是將深度強化學習網(wǎng)絡(luò)運用到AIMs中，并且將交通場景擴展得更為復雜。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴