■ 文 /王 捷 楚天舒
王捷,斯坦福大學咨詢教授,斯坦福可持續發展與全球競爭力中心執行主任。
楚天舒,斯坦福大學博士。
強化學習在大規模交通信號燈控制系統中的成功應用,將成為普適性人工智能發展道路上的一座里程碑。
近幾年,隨著深度學習的興起,機器學習正在進入飛速成長期。除了學術界,DeepMind、OpenAI等新興公司也投入了大量人力和財力研究。作為機器學習的一個分支,強化學習讓基于數據的控制決策學習成為可能。如今,強化學習展現出對海量訓練數據驚人的學習能力,讓其在越來越多的領域被嘗試和接受。這種影響也滲透到了像交通信號燈控制等傳統控制領域。實時的交通數據監測讓基于強化學習的智能交通信號燈控制成為可能。

強化學習受啟發于動物的學習過程:不斷地對環境進行探索并基于結果的好壞來修正特定的行為。強化學習的理論原型最早在1951年由美國計算機科學家馬爾溫·明斯基(Marvin Minsky)等提出,他們建立了一個簡單的算法來模擬老鼠走出迷宮的行為。之后的又一次突破發生在1992年,IBM公司的研究員杰拉爾德·特索羅(Gerald Tesauro)利用足夠多的試錯來訓練計算機程序玩西洋雙陸棋。然而,當時的強化學習受限于算法本身的設計,很難應用到復雜的控制決策問題中。
直到2016年,DeepMind公司將強化學習與近幾年發展起來的深度神經網絡相結合,數以萬計的權值(weight)讓強化學習擁有了驚人的能力。這讓人們對強化學習在實際控制中的應用有了更多的期待。事實上,強化學習已被應用于工業機器人、無人車、數據中心冷卻等多個領域,并取得了可觀的成績。然而,目前強化學習在實際控制領域的應用還處于試驗性階段。首先,這種純基于數據的決策方法始終存在不穩定性和安全隱患,尤其像神經網絡這種“黑箱”學習模型。其次,強化學習模型的訓練過程需要大量數據和時間。這些數據往往通過仿真獲取,所以其結果依賴于仿真的真實性。此外,強化學習依賴于明確定義的單一反饋信號,無法真實反映控制系統的全面情況。
信號燈是城市交通控制的主要手段。它的發展歷史可以追溯到1914年,之后的控制方式并沒有顯著的革新,其演化過程大致可以分為3個階段。在第一階段,信號燈的控制方案是預先設計好的,在很長時間內固定不變。專家們通過數學統計模型對歷史交通數據做出分析,并以此來設計較優的信號燈控制方案。TRANSYT(Traffic Network Study Tool)系統便是采用了這樣的方法來計算城市交通網中信號燈的配時方案。
信號燈控制發展的第二階段始于20世紀80年代。人們開始利用一些裝置(如環形探測器)對交通流量進行實時監測,并基于觀測的數據對信號燈控制進行簡單的調控。一些成功的產品,例如SCOOT(Split Cycle Offset Optimizing Technique)和SCATS(Sydney Coordinated Adaptive Traffic System),在全世界幾百個城市都有使用,并沿用至今。
第三階段始于20世紀90年代,計算機技術的發展使得智能信號燈控制的概念逐步推廣開來。智能信號燈通過運用人工智能或仿生學優化算法實現交通數據利用的最大化。雖然各種優化算法百家爭鳴,但很多算法目前尚處于仿真試驗性階段,并沒有實際應用。常見的智能信號燈控制算法有模糊邏輯、遺傳算法、集群智能和強化學習等。
強化學習在一些控制應用中取得了令人矚目的成績。例如,DeepMind公司研發的AlphaGo在2016年擊敗了世界著名的圍棋大師李世石,在2017年舉行的雙人圍棋比賽中又展現出人機配合的能力;谷歌公司利用強化學習來管理數據中心的冷卻系統,比傳統的控制方案降低了約40%的成本。但是,要將強化學習應用到交通信號燈控制中,還面臨一些新的挑戰。
在強化學習的主要應用領域,學習所需的數據類型在每一決策時刻都是單一的:或是圖片信息,或是語音信息,或是觀測信息……但是,城市交通網是個多元的控制系統,路網信息、起訖點分布、交通流變化等各種類型的數據流錯綜復雜,如何通過專業知識或深度神經網絡來設計合適的特征值和學習模型來挖掘城市交通的空間和時間動態變化將會變得更有挑戰性。
強化學習是完全基于數據的優化控制算法,所以觀測數據的誤差會影響實時的控制。交通控制中的這種不穩定性和安全隱患會造成重大事故。因此,比起單純的強化學習,與專業知識相結合的混合型控制算法更符合實際應用的需求。
城市信號燈系統是一個龐大復雜的網絡。因此,我們不可能也不需要訓練一個復雜的集控式學習單體,基于所有交通網的信息,學習一個全局的控制方案。更自然、更有效的方法是將每個路口當作一個相對簡單的分控式學習單體來訓練,然后根據交通的擁堵程度來形成多學習單體間的協同控制。
強化學習在交通信號燈應用中的挑戰主要來自交通網的大規模度和高復雜度。所以,一些處理大數據的方法論,例如分布并行計算,對設計高效率的強化學習算法有一定的啟發。從某種角度講,城市交通網中實時的交通觀測數據具有數據量龐大、采集速度快、數據種類繁多等特征,其本身就是大數據。換言之,強化學習在交通信號燈控制中的挑戰,也是基于特定格局的大數據的強化學習的挑戰。
由于強化學習是定義在馬爾可夫決策過程的框架下,其本身擁有對環境的可預測性和自適應性,所以當前最大的難題便是如何提高學習模型對高頻率、大規模實時交通數據的處理能力,并在學習優化控制方案過程中平衡好對大數據的探索和利用。后者與如何提高深度學習的學習(訓練)效率有著共同點,在這兩年也被廣泛地研究。例如,2016年DeepMind公司提出的異步優勢決策評估模型,可同時維護一個全局深度神經網絡和若干個局部深度神經網絡。在每一輪的訓練數據搜索中,全局深度神經網絡將已習得的權值復制給每個局部神經網絡,從而可以對不同的局部環境同時進行多線程探索。然后,每個局部神經網絡根據自己觀測的訓練數據來計算局部的學習梯度。最后,所有的梯度將會被收集匯總,來更新全局神經網絡的權值。這種訓練方式大大提高了強化學習的收斂速度。這與大數據中并行計算的想法不謀而合。
總之,因為城市交通網的龐大和復雜性,強化學習在交通信號燈控制中的應用仍是任重道遠。如何將機器學習與交通大數據進行有效的結合是解決這一挑戰的關鍵。另一方面,信號燈網絡是極具代表性的復雜控制系統,也展現出了所有可能的空間時間信息類型。因此,強化學習在大規模交通信號燈控制中的成功應用,將成為普適性人工智能發展道路上的一座里程碑。