RM新时代官网网址,RM新时代正规网址|首入球时间

2018年8月4月，北京理工大學(xué)大數(shù)據(jù)創(chuàng)新學(xué)習(xí)中心與中國科學(xué)院人工智能聯(lián)盟標(biāo)準(zhǔn)組聯(lián)合主辦了為期一天的專家講座活動(dòng)------“2018深度強(qiáng)化學(xué)習(xí)：理論與應(yīng)用”學(xué)術(shù)研討會(huì)?；顒?dòng)現(xiàn)場參與人數(shù)超過600人，在線同步觀看人數(shù)超過12萬人。學(xué)界與業(yè)界專家齊聚一堂，共同分享學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)領(lǐng)域的最新研究成果。本文小編親臨現(xiàn)場，為您揭秘深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛技術(shù)中的應(yīng)用詳細(xì)報(bào)告。

楊明珠大連交通大學(xué)

今天我的演講內(nèi)容主要分為四個(gè)部分：深度強(qiáng)化學(xué)習(xí)的理論、自動(dòng)駕駛技術(shù)的現(xiàn)狀以及問題、深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛技術(shù)當(dāng)中的應(yīng)用及基于深度強(qiáng)化學(xué)習(xí)的禮讓自動(dòng)駕駛研究。

首先是深度強(qiáng)化學(xué)習(xí)的理論，DQN做了深度的拓展，在離散型動(dòng)作中應(yīng)用效果比較好，但連續(xù)性動(dòng)作當(dāng)中表現(xiàn)效果并不好，所以做了一些改進(jìn)和發(fā)展，如Double DQN等。

在連續(xù)型動(dòng)作之中我個(gè)人比較喜歡DDPG的理念，原因有兩點(diǎn)：①之前學(xué)習(xí)到的經(jīng)驗(yàn)和Policy數(shù)據(jù)放到Replaybuffer當(dāng)中，若之后的行為當(dāng)中發(fā)現(xiàn)和之前相似的地方就會(huì)直接從Replaybuffer當(dāng)中把之前的經(jīng)驗(yàn)和數(shù)據(jù)直接調(diào)用出來，這樣就可以避免在重復(fù)進(jìn)行一種訓(xùn)練或者采集的方式，節(jié)省時(shí)間、提高效率；②信任域的策略優(yōu)化，簡稱TRPO，其實(shí)是對之前的算法做了改進(jìn)，如對狀態(tài)分布進(jìn)行處理，利用重要性采樣對動(dòng)作分布進(jìn)行的處理及在約束條件當(dāng)中，把平均KL散度代替最大KL散度。

PPO也是最近比較熱門的一種深度強(qiáng)化學(xué)習(xí)算法，分為N個(gè)Actor，同時(shí)進(jìn)行一些工作，這樣平均分配給很多個(gè)actor，合作來做的話效率會(huì)更高，而且會(huì)節(jié)省更多的時(shí)間。HER算法也是個(gè)人最喜歡的之前經(jīng)過所有訓(xùn)練，經(jīng)驗(yàn)總結(jié)出來，這個(gè)工作結(jié)束以后全部消化一遍，然后做第二次實(shí)驗(yàn)或者工作的時(shí)候吸取了前面的經(jīng)驗(yàn)，然后再進(jìn)行下面的訓(xùn)練或者工作的話，就會(huì)避免一些錯(cuò)誤，如無人駕駛撞車了，上次為什么撞車了呢？第二次需要避免這個(gè)錯(cuò)誤，即不讓它撞車。

自動(dòng)駕駛公司分為互聯(lián)網(wǎng)公司（如Google、百度、蘋果和Uber）及傳統(tǒng)車企（如福特和汽車配件的博世、大眾、通用、寶馬和奔馳等）。目前自動(dòng)駕駛技術(shù)有三個(gè)問題：①感知方面也可以叫做信息的預(yù)處理，主要包括對圖像或者視頻信息的分割、檢測或者識(shí)別，如果識(shí)別的準(zhǔn)確率更高可能會(huì)對之后的決策有比較好的優(yōu)勢。運(yùn)行當(dāng)中也需要用到分割工作，如沿著車線走需要分割車線位置等。②決策方面其實(shí)是為了模仿人類，所以需要經(jīng)過很多訓(xùn)練，利用強(qiáng)化學(xué)習(xí)來做自動(dòng)駕駛即像人考駕照的過程，學(xué)習(xí)怎樣開車，最后達(dá)到上路的水平。③控制方面就是故障安全機(jī)制，遇到危險(xiǎn)的情況下來不及反應(yīng)，就需要安全機(jī)制保障車內(nèi)的人身安全，我們做自動(dòng)駕駛也就是為了減少交通事故的發(fā)生率，讓更多的人可以安安全全地坐上自動(dòng)駕駛汽車。

現(xiàn)在解決自動(dòng)駕駛技術(shù)問題有兩種方法：一種是低精度定位+低精度地圖+高準(zhǔn)確識(shí)別率，另一種是高精度定位+高精度地圖+更準(zhǔn)確的識(shí)別率。

百度是有采集信息的車輛，其實(shí)也是比較辛苦的，需要采集所有全景的圖像來做上傳，最后再和百度地圖結(jié)合，這樣才能制定比較好的高精度地圖，這樣成本會(huì)非常的高。

關(guān)于深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛當(dāng)中的應(yīng)用，有幾個(gè)團(tuán)隊(duì)：WAYVE團(tuán)隊(duì)、本田研究院團(tuán)隊(duì)、堪薩斯州立大學(xué)團(tuán)隊(duì)、韓國漢陽大學(xué)團(tuán)隊(duì)。Wayve是我個(gè)人比較欣賞的團(tuán)隊(duì)，是由英國劍橋的博士畢業(yè)生創(chuàng)立的自動(dòng)駕駛。

Wayve在今年7月發(fā)布的文章是《Learning to Drive in a Day》，僅僅用了一個(gè)前景攝像頭，就是車前方的視頻作為輸入的State，輸出的Action就是保證在同一車道內(nèi)行進(jìn)距離，行駛距離長，reward就大；行駛距離短，reward就短。結(jié)果是只用了單個(gè)攝像頭讓自動(dòng)駕駛汽車在三十分鐘內(nèi)學(xué)會(huì)了保持在同一車道內(nèi)行駛二百五十米距離。這樣的方式我們是比較欣賞，但不太建議使用這種僅僅基于視覺的方式來做自動(dòng)駕駛，因?yàn)殚_車肯定是眼觀六路耳聽八方，側(cè)面或者后面出現(xiàn)任何問題沒有辦法及時(shí)預(yù)警，沒有辦法及時(shí)處理，將來在上路的問題上肯定是有很大的缺陷。

賓夕法尼亞大學(xué)，本田研究院和喬治亞理工學(xué)院合作團(tuán)隊(duì)是采用TTC模式，能夠提前知道岔路口的狀態(tài)，如何通過岔路口并且預(yù)測到達(dá)這個(gè)岔路口的時(shí)間是不是有危險(xiǎn)，有沒有足夠的時(shí)間進(jìn)行制動(dòng)，TTC一般都是二點(diǎn)七秒，那個(gè)，該團(tuán)隊(duì)存在的缺陷因?yàn)榫褪荄QN存在的問題，即在離散動(dòng)作當(dāng)中表現(xiàn)優(yōu)異，在連續(xù)性動(dòng)作中表現(xiàn)不好，如果是在高速行駛的情況下如何應(yīng)用，解決得并不是太好。

如何在對抗性極強(qiáng)的情況下，對碰撞避免機(jī)制的行為進(jìn)行訓(xùn)練，使系統(tǒng)進(jìn)入不安全預(yù)警狀態(tài)，堪薩斯州立大學(xué)團(tuán)隊(duì)提出了一種基于深度強(qiáng)化學(xué)習(xí)的新框架，用于對自動(dòng)駕駛汽車的碰撞避免機(jī)制的行為進(jìn)行基準(zhǔn)測試，但是有一個(gè)缺點(diǎn)：無感知單元的預(yù)處理過程，并且沒有在連續(xù)性動(dòng)作的決策任務(wù)。

我們將這些思想做了融合，提出了我們的一種新的自動(dòng)駕駛技術(shù)，就是禮讓自動(dòng)駕駛。我們的禮讓自動(dòng)駕駛也是從三個(gè)方面來說：感知、決策和控制單元。什么叫做禮讓，包括”安全行車、禮讓三先”:先讓，先慢，先停，我不去撞別人，別人撞我的時(shí)候要先避讓一下，避免發(fā)生撞擊的情況。

感知部分是圍繞檢測、識(shí)別和圖像分割等方面，檢測當(dāng)中我們用的最多的是YOLO算法，如果車速特別快的話也需要快速的檢測，然后再去做一些決策方面的，識(shí)別方面?zhèn)€人比較喜歡VCG模型，模型結(jié)構(gòu)簡單而且，識(shí)別效果也是比較不錯(cuò)的。分割當(dāng)中有局部分割、語義分割和全景分割，現(xiàn)在應(yīng)用最多的是語義分割和全景分割。感知模塊我們借鑒AndreasGeiger的思想，將地圖、三維傳感器、二維傳感器中的信息給到“世界模型”（world model），我們把感知部分所有信息匯總到一個(gè)地圖當(dāng)中，做成一個(gè)Map，相當(dāng)于解除了我們對于高精度地圖的高度依賴感，同時(shí)可以理解每個(gè)時(shí)刻的不同物體，相對于地面和道路這些位置，并且可以做之后的預(yù)測，相當(dāng)于之后的路徑規(guī)劃問題。

我們采用DDPG算法改進(jìn)自動(dòng)駕駛決策的部分，同時(shí)加入禮讓的駕駛概念，就是我們在遇到問題的時(shí)候要首先想到先做避讓，也就是主動(dòng)避讓的情況，連續(xù)動(dòng)態(tài)的情況下可以讓自動(dòng)駕駛汽車避免發(fā)生碰撞。

那么“禮讓”這一詞最早起源于機(jī)器人，但機(jī)器人的速度會(huì)比較慢，如果轉(zhuǎn)移到車輛方面其實(shí)還是有些難度的，而且高速當(dāng)中的禮讓應(yīng)該還是比較困難的問題，所以這也是我們?nèi)蘸蠊ぷ鞯碾y點(diǎn)。決策方面我們可能會(huì)結(jié)合PPO與HER的思想，個(gè)人比較喜歡這兩種算法，所以會(huì)結(jié)合在里面，自動(dòng)駕駛在高速運(yùn)行的情況下也會(huì)需要一個(gè)快速?zèng)Q策的過程，所以選用PPO算法使得速度能夠提升。

駕駛一段時(shí)間以后我們會(huì)在第二次自動(dòng)駕駛的時(shí)候總結(jié)第一次的經(jīng)驗(yàn)，因?yàn)槿硕际窃诮?jīng)驗(yàn)當(dāng)中不斷積累，日后才能達(dá)到會(huì)開車的水平，所以我們也在說學(xué)習(xí)駕車的思想，然后通過HER促進(jìn)自動(dòng)駕駛車輛，總結(jié)之前的經(jīng)驗(yàn)，使其在之后的駕駛過程當(dāng)中少犯錯(cuò)誤，盡量避免發(fā)生不必要的危險(xiǎn)。決策的過程當(dāng)中個(gè)人還是比較喜歡Actor-Critic機(jī)制，通用reply buffer是我們對之前駕駛的經(jīng)驗(yàn)和其所得到的Policy的存儲(chǔ)過程，之后的駕駛?cè)蝿?wù)當(dāng)中遇到類似的問題直接可以采用這種經(jīng)驗(yàn)，不需要再做其它的改變或者訓(xùn)練。

控制方面主要還是RSS模型上面做出一些改進(jìn)，因?yàn)椴豢赡苤皇顷P(guān)注到前方的避讓或者碰撞，也要關(guān)注后方，別人撞你的時(shí)候應(yīng)該怎么辦，所以采用的是雙保險(xiǎn)的機(jī)制，為了保證自動(dòng)駕駛汽車的安全。當(dāng)然如果傳感器檢測到有危險(xiǎn)，或者是距離太近的情況下，自動(dòng)駕駛汽車會(huì)直接進(jìn)入安全機(jī)制，或者是作出禮讓的行為，因?yàn)槲覀冐灤┦冀K的都是禮讓自動(dòng)駕駛。

仿真平臺(tái)TORCS屬于3D賽車模擬游戲，個(gè)人比較喜歡通過這個(gè)來玩賽車游戲，做的效果是很好的，而且是世界通用的賽車游戲，也是相對有說服力，效果會(huì)比較好一點(diǎn)，但是場景單一，不適合在復(fù)雜場景下做訓(xùn)練。

結(jié)論與展望：DQN出現(xiàn)最早，改良版本最多，離散情況效果最佳，原理相對較簡單，易于掌握與入門。DDPG是在DQN的基礎(chǔ)上進(jìn)行改良，原理易懂，在連續(xù)動(dòng)作中表現(xiàn)優(yōu)異，適用于自動(dòng)駕系統(tǒng)的決策研究。之后出現(xiàn)的A3C、PPO、HER等算法在連續(xù)動(dòng)作中都有很好的應(yīng)用與體現(xiàn)。目前，有很多人在將分層強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)（模仿學(xué)習(xí)）應(yīng)用于自動(dòng)駕駛技術(shù)當(dāng)中，效果有待考究實(shí)驗(yàn)。

實(shí)際上，基于時(shí)間空間的博弈動(dòng)力學(xué)研究表明，機(jī)器人在目前的實(shí)驗(yàn)與發(fā)展?fàn)顟B(tài)下不具備倫理判斷能力與決策功能。所以，將機(jī)器人置于倫理困境是超出了機(jī)器人研究的能力范圍。德國聯(lián)邦交通和數(shù)字基礎(chǔ)設(shè)施部委員會(huì)說過，自動(dòng)駕駛系統(tǒng)需要更好地適應(yīng)人之間的交流，也就是讓車輛或者機(jī)器適應(yīng)我們的生活節(jié)奏，不是我們?nèi)巳ミm應(yīng)機(jī)器應(yīng)該怎么做，或者是機(jī)器人之間的交流，總體來說就是以人為主，包括之后發(fā)生不可避免事故的時(shí)候主動(dòng)的決定權(quán)，包括最終行為的決定權(quán)，必須要?dú)w人來掌握，尤其是必須歸駕駛員掌握。吳焦蘇老師的一句話讓我印象深刻：“自動(dòng)駕駛系統(tǒng)的安全性不能得到嚴(yán)格保證之前不應(yīng)當(dāng)被批準(zhǔn)量產(chǎn)”。其實(shí)這也是對我們生命的負(fù)責(zé)任，因?yàn)槿绻詣?dòng)駕駛車輛不能保證百分之百不發(fā)生事故，或者不能保證百分之百不會(huì)撞擊的話就不能上路，因?yàn)槲覀円獙ψ约旱纳?fù)責(zé)，也要對他人生命負(fù)責(zé)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
784

文章
13784

瀏覽量
166382
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5500

瀏覽量
121111

原文標(biāo)題：深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛技術(shù)中的應(yīng)用——楊明珠

文章出處：【微信號(hào)：IV_Technology，微信公眾號(hào)：智車科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

MEMS技術(shù)在自動(dòng)駕駛汽車中的應(yīng)用

MEMS技術(shù)在自動(dòng)駕駛汽車中的應(yīng)用主要體現(xiàn)在傳感器方面，這些傳感器為自動(dòng)駕駛汽車提供了關(guān)鍵的環(huán)境感知和數(shù)據(jù)采集能力。以下是對MEMS技術(shù)在

發(fā)表于 11-20 10:19 ?315次閱讀

人工智能的應(yīng)用領(lǐng)域有自動(dòng)駕駛嗎

人工智能的應(yīng)用領(lǐng)域確實(shí)包括自動(dòng)駕駛 。近年來，隨著科技的迅猛發(fā)展，人工智能（AI）的應(yīng)用已經(jīng)滲透到生活的方方面面，特別是在自動(dòng)駕駛領(lǐng)域，AI技術(shù)展現(xiàn)出了巨大的潛力和價(jià)值。一、人工智能在自動(dòng)駕

發(fā)表于 10-22 16:18 ?493次閱讀

Mobileye端到端自動(dòng)駕駛解決方案的深度解析

強(qiáng)大的技術(shù)優(yōu)勢。 Mobileye的端到端解決方案概述 1.1 什么是端到端自動(dòng)駕駛？端到端自動(dòng)駕駛解決方案是一種新型的智能系統(tǒng)架構(gòu)，旨在通過AI學(xué)習(xí)從感知到?jīng)Q策再到操作的全流程。Mobileye的端到端方案依賴于

發(fā)表于 10-17 09:35 ?351次閱讀

NVIDIA推出全新深度學(xué)習(xí)框架fVDB

在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。

發(fā)表于 08-01 14:31 ?591次閱讀

FPGA在自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢?

FPGA（Field-Programmable Gate Array，現(xiàn)場可編程門陣列）在自動(dòng)駕駛領(lǐng)域具有顯著的優(yōu)勢，這些優(yōu)勢使得FPGA成為自動(dòng)駕駛技術(shù)中不可或缺的一部分。以下是FP

發(fā)表于 07-29 17:11

FPGA在自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用？

是FPGA在自動(dòng)駕駛領(lǐng)域的主要應(yīng)用：一、感知算法加速圖像處理：自動(dòng)駕駛中需要通過攝像頭獲取并識(shí)別道路信息和行駛環(huán)境，這涉及到大量的圖像處理任務(wù)。FPGA

發(fā)表于 07-29 17:09

深度學(xué)習(xí)在自動(dòng)駕駛中的關(guān)鍵技術(shù)

隨著人工智能技術(shù)的飛速發(fā)展，自動(dòng)駕駛技術(shù)作為其中的重要分支，正逐漸走向成熟。在自動(dòng)駕駛系統(tǒng)中，深度學(xué)習(xí)

發(fā)表于 07-01 11:40 ?754次閱讀

中級自動(dòng)駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識(shí)

是一個(gè)新興且不斷發(fā)展的職業(yè)。隨著技術(shù)的進(jìn)步，這一領(lǐng)域?qū)⒗^續(xù)吸引更多人才，推動(dòng)自動(dòng)駕駛技術(shù)的發(fā)展。 自動(dòng)駕駛架構(gòu)師在設(shè)計(jì)和開發(fā)自動(dòng)駕駛系統(tǒng)時(shí)將面臨一系列挑戰(zhàn)，包括：安全關(guān)鍵的邊緣情況、領(lǐng)

發(fā)表于 06-20 21:47 ?285次閱讀

初級自動(dòng)駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識(shí)

是一個(gè)新興且不斷發(fā)展的職業(yè)。隨著技術(shù)的進(jìn)步，這一領(lǐng)域?qū)⒗^續(xù)吸引更多人才，推動(dòng)自動(dòng)駕駛技術(shù)的發(fā)展。 自動(dòng)駕駛架構(gòu)師在設(shè)計(jì)和開發(fā)自動(dòng)駕駛系統(tǒng)時(shí)將面臨一系列挑戰(zhàn)，包括：安全關(guān)鍵的邊緣情況、領(lǐng)

發(fā)表于 06-20 21:45 ?298次閱讀

智能駕駛大模型：有望顯著提升自動(dòng)駕駛系統(tǒng)的性能和魯棒性

智能駕駛大模型是近年來人工智能領(lǐng)域和自動(dòng)駕駛領(lǐng)域最為前沿的研究方向之一，它融合了深度學(xué)習(xí)、多模態(tài)融合、世界模型構(gòu)建等多種技術(shù)，有望顯著提升自動(dòng)駕駛

發(fā)表于 05-07 17:20 ?1571次閱讀

未來已來，多傳感器融合感知是自動(dòng)駕駛破局的關(guān)鍵

方面表示，這是L4級自動(dòng)駕駛公司和車企為了打造Robotaxi量產(chǎn)車，在國內(nèi)成立的首個(gè)合資公司。首款車型已完成產(chǎn)品定義，正在進(jìn)行設(shè)計(jì)造型的聯(lián)合評審，計(jì)劃明年實(shí)現(xiàn)量產(chǎn)。未來已來，2024年是全球L3

發(fā)表于 04-11 10:26

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

、筆記本電腦或機(jī)架式服務(wù)器上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)，這不是什么大問題。但是，許多部署深度學(xué)習(xí)模型的環(huán)境對 GPU 并不友好，比如自動(dòng)駕駛汽車、工廠、機(jī)器人和許多智慧城市環(huán)境，在這些環(huán)境中硬件必

發(fā)表于 03-21 15:19

自動(dòng)駕駛發(fā)展問題及解決方案淺析

汽車的發(fā)展提供有益的參考。 ? 自動(dòng)駕駛汽車發(fā)展的現(xiàn)狀與挑戰(zhàn) （一）技術(shù)難題 自動(dòng)駕駛汽車的核心在于通過先進(jìn)的傳感器、算法和控制系統(tǒng)實(shí)現(xiàn)車輛的自主駕駛。然而，在實(shí)際應(yīng)用

發(fā)表于 03-14 08:38 ?1131次閱讀

為什么深度學(xué)習(xí)的效果更好？

導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集，已成為人工智能領(lǐng)域的一項(xiàng)變革性技術(shù)，在從計(jì)算機(jī)視覺、自然語言處理到自動(dòng)駕駛汽車等廣泛的應(yīng)用中取得了顯著的成

發(fā)表于 03-09 08:26 ?618次閱讀

語音數(shù)據(jù)集在自動(dòng)駕駛中的應(yīng)用與挑戰(zhàn)

隨著人工智能技術(shù)的快速發(fā)展，自動(dòng)駕駛汽車已經(jīng)成為交通領(lǐng)域的研究熱點(diǎn)。語音數(shù)據(jù)集在自動(dòng)駕駛中發(fā)揮著重要的作用，為駕駛員和乘客提供了更加便捷和安全的交互方式。本文將詳細(xì)介紹語音數(shù)據(jù)集

發(fā)表于 12-25 09:48 ?555次閱讀