劉 崇 宋雨彤 孟 坤 林紹博
(北方工業(yè)大學(xué)電氣與控制工程學(xué)院,北京 100144)
強(qiáng)化學(xué)習(xí)來源于心理學(xué)中的行為主義,作為解決序貫決策的重要方法,它采取持續(xù)的“交互-試錯(cuò)”機(jī)制,通過與環(huán)境的不斷交互學(xué)得有效策略。強(qiáng)化學(xué)習(xí)過程反映了人腦如何做出決策的反饋系統(tǒng)運(yùn)行機(jī)理,符合人類面向?qū)嶋H問題時(shí)的經(jīng)驗(yàn)性思維與直覺推理的一般決策過程。因而,近年來,強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域得到廣泛而深入的應(yīng)用,并成為當(dāng)前突破類人智能的關(guān)鍵性機(jī)器學(xué)習(xí)方法。
強(qiáng)化學(xué)習(xí)在視頻游戲、棋牌類游戲、物理系統(tǒng)的導(dǎo)航與控制、用戶交互算法等領(lǐng)域的表現(xiàn)已經(jīng)接近或超過了人類水平。特別是DeepMind團(tuán)隊(duì)將深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)與蒙特卡洛樹搜索技術(shù)深度融合,研發(fā)出的智能圍棋程序AlphaGo,在2016年3月Alpha GoLee戰(zhàn)勝李世復(fù),2017年5月AlphaGoMaster戰(zhàn)勝世界圍棋冠軍柯潔,人工智能都展現(xiàn)出了強(qiáng)化學(xué)習(xí)的巨大潛力。強(qiáng)化學(xué)習(xí)也是復(fù)雜城市交通網(wǎng)絡(luò)自適應(yīng)交通信號控制(ATSC)中一種很有前途的數(shù)據(jù)驅(qū)動方法[1]。
強(qiáng)化學(xué)習(xí)技術(shù)已被應(yīng)用于單個(gè)交叉口的實(shí)時(shí)交通信號控制問題[2-5],使用Q-Learning算法,用現(xiàn)實(shí)的交通數(shù)據(jù)在地圖上進(jìn)行數(shù)值模擬。仿真結(jié)果表明,使用Q-Learning算法的解決方案在行人排隊(duì)的長度、十字路口的等待時(shí)間,以及許多其他關(guān)鍵指標(biāo)上均優(yōu)于現(xiàn)有的解決方案[6]。
在工程方面,有研究設(shè)計(jì)并實(shí)現(xiàn)了兩個(gè)分別基于VISSIM和SUMO仿真軟件的交通信號控制仿真平臺。這兩個(gè)平臺面向強(qiáng)化學(xué)習(xí)算法進(jìn)行設(shè)計(jì)和優(yōu)化,并且在專業(yè)的仿真軟件基礎(chǔ)上二次開發(fā),提高了仿真實(shí)驗(yàn)的可信度。
該教學(xué)平臺的研究意義為以下四點(diǎn):
(1)強(qiáng)化學(xué)習(xí)的教學(xué)推廣:由于強(qiáng)化學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn)的難度大,對主流仿真軟件的開發(fā)困難,傳統(tǒng)的教學(xué)大多數(shù)不包括用強(qiáng)化學(xué)習(xí)算法來進(jìn)行信號配時(shí)的優(yōu)化,學(xué)生難以理解強(qiáng)化學(xué)習(xí)算法,該平臺可以解決該類問題,促進(jìn)強(qiáng)化學(xué)習(xí)的推廣和教學(xué)。
(2)靈活性強(qiáng):該平臺可以令使用者更加自由地選擇路網(wǎng)、更改學(xué)習(xí)模型和動作選擇機(jī)制等。
(3)便于結(jié)果比較:以圖像方式呈現(xiàn)仿真的數(shù)據(jù),動態(tài)圖展現(xiàn)實(shí)時(shí)變化,靜態(tài)圖進(jìn)行總體統(tǒng)計(jì),學(xué)生可以更加直觀地觀察路網(wǎng)的優(yōu)化結(jié)果。
(4)提高師生間溝通效率:該平臺簡化了學(xué)生們的實(shí)驗(yàn)步驟,學(xué)生可以快速地進(jìn)行大量實(shí)驗(yàn),同時(shí)通過系統(tǒng)自主評分,加快評價(jià)速度并提高評價(jià)的準(zhǔn)確性。
在學(xué)生端,通過核心控制模塊控制5個(gè)主要模塊。5個(gè)主要模塊分別為仿真運(yùn)行模塊(包括路網(wǎng)繪制子模塊)、算法控制模塊(包括Sarsa算法子模塊、Q-Learning子模塊)、圖像運(yùn)行模塊(包括統(tǒng)計(jì)對比子模塊、實(shí)時(shí)對比子模塊)、數(shù)據(jù)處理模塊(包括數(shù)據(jù)保存子模塊、數(shù)據(jù)運(yùn)算子模塊)和系統(tǒng)評分模塊(包括評分評價(jià)子模塊)。5個(gè)模塊中的子模塊通過數(shù)據(jù)傳輸,彼此之間相互協(xié)調(diào),進(jìn)而運(yùn)行整個(gè)系統(tǒng)平臺。
在教師端,分為三個(gè)模塊,分別是學(xué)生簽到模塊、報(bào)告檢查模塊、成績排名模塊。
系統(tǒng)結(jié)構(gòu)圖如圖1所示。

圖1 系統(tǒng)結(jié)構(gòu)
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),是考察智能體與環(huán)境的相互作用,做出序列決策、優(yōu)化策略并最大化累積回報(bào)的過程。強(qiáng)化學(xué)習(xí)具有巨大的研究價(jià)值和應(yīng)用潛力,是實(shí)現(xiàn)通用人工智能的關(guān)鍵步驟。此平臺讓學(xué)生接觸到交通信號控制領(lǐng)域中的AI技術(shù),學(xué)生不再只是學(xué)習(xí)教科書上傳統(tǒng)的配時(shí)方案,而是可以跟隨社會發(fā)展的大趨勢,嘗試開拓新的領(lǐng)域。
強(qiáng)化學(xué)習(xí)具有較強(qiáng)的適應(yīng)性和通用性,在交通信號在線控制策略優(yōu)化方面具有很大潛力[7]。學(xué)生通過改變強(qiáng)化學(xué)習(xí)算法中的各項(xiàng)參數(shù)進(jìn)行嘗試,使信號配時(shí)達(dá)到最優(yōu)效果。
該平臺包括強(qiáng)化學(xué)習(xí)的兩種經(jīng)典算法Sarsa和QLearning,學(xué)生可通過改變參數(shù)進(jìn)行實(shí)驗(yàn)。通過該平臺展示的強(qiáng)化學(xué)習(xí)算法與傳統(tǒng)固定配時(shí)在實(shí)驗(yàn)中的對比,讓學(xué)生在逐漸探索的過程中,體會強(qiáng)化學(xué)習(xí)算法對信號控制的影響。
學(xué)生通過選擇算法、路網(wǎng)、動作選擇機(jī)制并且輸入相關(guān)參數(shù),即可開始進(jìn)行實(shí)驗(yàn),省去了需要學(xué)生自己進(jìn)行配置等不是考察重點(diǎn)的冗長環(huán)節(jié),避免了學(xué)生入門困難,難以找到方向的問題,同時(shí)在一定程度上緩解了學(xué)生們的畏難情緒;并且通過簡單的操作流程即可進(jìn)行大量的實(shí)驗(yàn),使學(xué)生可以更深刻地理解算法。
該平臺通過動態(tài)圖的實(shí)時(shí)變化、靜態(tài)圖的統(tǒng)計(jì)結(jié)果進(jìn)行展示,使學(xué)生可直觀地觀察到強(qiáng)化學(xué)習(xí)算法對交通控制信號的優(yōu)化情況。
該平臺通過評分系統(tǒng)對學(xué)生的實(shí)驗(yàn)情況進(jìn)行評估打分,便于學(xué)生對不同參數(shù)進(jìn)行學(xué)習(xí)理解后做優(yōu)選以及老師對學(xué)生實(shí)驗(yàn)情況的整體把握。
該平臺主要是為交通領(lǐng)域內(nèi)AI算法的日常教學(xué)設(shè)計(jì)的實(shí)驗(yàn)仿真平臺,可用于學(xué)生的日常實(shí)驗(yàn)和平時(shí)測試中。此平臺可向?qū)?qiáng)化學(xué)習(xí)尚未接觸過的學(xué)生進(jìn)行普及和推廣,一方面有助于學(xué)生進(jìn)行先進(jìn)的AI算法的學(xué)習(xí)及實(shí)驗(yàn),另一方面還能夠幫助教師掌握教學(xué)情況,提高教學(xué)質(zhì)量。未來經(jīng)過進(jìn)一步的開發(fā),該平臺將成為主流的面向AI算法的路網(wǎng)仿真教學(xué)軟件。
學(xué)生端主要包含學(xué)生的個(gè)人信息和教學(xué)過程中強(qiáng)化學(xué)習(xí)AI算法的常見參數(shù)設(shè)置等相關(guān)內(nèi)容,可以根據(jù)學(xué)生所選擇的評價(jià)指標(biāo)對比出優(yōu)化效果的百分比,為學(xué)生進(jìn)行打分評價(jià)。
教師端包含學(xué)生的個(gè)人信息以及成績排名,實(shí)驗(yàn)結(jié)束后,教師可以查看學(xué)生實(shí)驗(yàn)過程的報(bào)告,了解同學(xué)們對于相關(guān)知識的掌握程度。
學(xué)生端選擇界面如圖2、圖3所示,教師端界面如圖4所示。

圖2 學(xué)生端選擇界面1

圖3 學(xué)生端選擇界面2

圖4 教師端成績排名界面
經(jīng)過對強(qiáng)化學(xué)習(xí)算法在交通領(lǐng)域相關(guān)文獻(xiàn)的查閱和大量實(shí)驗(yàn)數(shù)據(jù)的分析,得出強(qiáng)化學(xué)習(xí)算法用于交通信號控制對路網(wǎng)的運(yùn)行有著很大程度的優(yōu)化。同時(shí)發(fā)現(xiàn),當(dāng)下強(qiáng)化學(xué)習(xí)在交通信號控制領(lǐng)域的應(yīng)用與推廣有著極大的限制。由于國內(nèi)大部分高校的交通專業(yè)都偏向傳統(tǒng)交通,學(xué)生對于計(jì)算機(jī)算法的了解會有所欠缺,并且AI算法難度較大,教師難以在課堂中進(jìn)行教學(xué),學(xué)生難以真正接觸到此領(lǐng)域,使得相關(guān)知識的學(xué)習(xí)和實(shí)驗(yàn)實(shí)行困難。因此,本次課題開發(fā)的面向AI算法的交通信號控制優(yōu)化仿真教學(xué)平臺,有助于學(xué)生了解相關(guān)領(lǐng)域,簡化了AI算法的學(xué)習(xí)和實(shí)驗(yàn)過程,使得學(xué)生們在上課過程中更加方便進(jìn)行先進(jìn)AI算法的學(xué)習(xí)及實(shí)驗(yàn),從而讓學(xué)生們更容易理解AI算法在交通優(yōu)化領(lǐng)域的應(yīng)用和影響;并幫助教師通過教師端的反饋情況掌握學(xué)生學(xué)習(xí)情況,得到教學(xué)情況的概覽,從而進(jìn)一步提升教學(xué)質(zhì)量。
現(xiàn)階段AI算法已經(jīng)在各個(gè)傳統(tǒng)領(lǐng)域有所應(yīng)用,并已取得非常多的成果。近年,國內(nèi)外對AI算法在交通信號控制方面進(jìn)行了大量的研究和實(shí)驗(yàn),均已表明AI算法在交通信號控制方面有著顯著的作用,所以培養(yǎng)我國高校大學(xué)生對于AI算法認(rèn)知和學(xué)習(xí)是必然的進(jìn)程。該平臺在教學(xué)中的應(yīng)用是創(chuàng)新的一大步,也對AI算法在交通信號控制優(yōu)化領(lǐng)域的應(yīng)用推廣以及人才培養(yǎng)有重大意義,同時(shí)對智能交通系統(tǒng)的發(fā)展有積極的作用。
目前,該平臺的算法提供Sarsa和Qlearning兩種AI算法,未來隨著研究的進(jìn)一步深入,將會提供更多的算法進(jìn)行探索學(xué)習(xí),同時(shí)也會進(jìn)一步完善平臺的結(jié)構(gòu),使其內(nèi)容豐富、實(shí)驗(yàn)?zāi)J礁隆⑵脚_界面美化,真正成為一款主流的、面向AI算法在交通信號控制領(lǐng)域的教學(xué)軟件。