基于DBN 的無人駕駛多交互行為決策研究

2023-05-18 08:14:48梁耀中

智能計算機與應用 2023年4期

關鍵詞：模型

梁耀中

（上海工程技術大學機械與汽車工程學院，上海 201620）

0 引言

無人駕駛行為決策是決定無人駕駛汽車安全性、穩定性的關鍵技術，城區復雜交通場景無人駕駛行為決策是制約無人駕駛車輛實現大規模應用推廣的關鍵技術，研究復雜交通場景多交通參與者交互動態決策對于解決城區交通擁堵、減少因為駕駛人疲勞駕駛和失誤導致的車禍以及提高人們美好出行的體驗具有重要意義。

目前，基于因果推理的貝葉斯網絡（BN）無人駕駛行為決策方法，結合了圖論和概率論的優勢，可以透明化地對于決策過程進行可視化演示，分層模塊化的BN 可以減少模型決策的推理時間，提高決策的實時性。對于靜態BN 理論研究和應用已經較為成熟，包括對BN 網絡的構建、結構和參數學習、因果推理等。蔡炳萬等學者［1］提出了基于本體的BN知識推理研究方法。史志富［2］基于BN 實現了UCAV 編隊對地攻擊圖形化和可視化的智能決策過程。趙樹恩等學者［3］基于BN 建立了無人車換道決策模型，通過NGSIM 數據集進行測試，驗證了模型具有較高的準確率。孫雪等學者［4］提出了利用本體與BN 因果推理相結合的行為決策方法，實現了對駕駛場景中不確定性信息的描述和充分表達。

利用BN 對智能決策和因果決策取得了良好的效果，凸顯了BN 在不確定性結構推理和表達方面有著諸多優勢。動態貝葉斯網絡（DBN）為概率論與圖論的結合，通過有向無環圖對關系進行描述，把傳統的BN 與時間相結合，形成的具有時序數據的動態的網絡模型。目前，國內外對于DBN 的研究取得了一些進展。 Zhang 等學者［5］、范璐洋［6］通過狀態轉移得到了相鄰時間的貝葉斯網絡結構之間的關系。張亮［7］提出了一種引進評分函數的貝葉斯網絡序列更新模型的結構和參數的變化，但卻并未涉及邊結構節點之間的因果相關性。肖秦琨［8］、陳云［9］提出了從數據中學習貝葉斯網絡結構，基于評分搜索的方法對結構進行尋優，實現了對無人機動態化、智能化的自主優化，但該算法對數據集匹配度要求較大，且對于樣本數據缺失和小樣本數據集并不適用。

綜上所述，本文提出一種增強利他主義的方法對交通參與者交互決策的博弈過程進行了優化，并利用最大信息系數對DBN 的結構進行更新，提高了決策模型的實時性和準確率。

1 多交通參與者交互模型

多交通參與者交互是指復雜駕駛場景中多臺車輛和行人以及其他交通參與者在空間和時間上相互接近并相互作用的場景。若自動駕駛交互決策過程過于保守，會使自動駕駛車輛通行效率降低；若自動駕駛決策過于激進，則會提高交互過程沖突的風險，導致交通事故的發生。

1.1 博弈論與獎勵矩陣

博弈論［10］可通過獎勵函數來有效地約束不同交通參與者的交互行為。在多交通參與者交互場景中，一個交通參與者扮演領導者，另一個交通參與者扮演追隨者。當追隨者會對領導者的選擇表現出最優的情況下，則獲得最大化獎勵。

十字路口交通參與者交互的場景如圖1 所示。由圖1 可知，如果Ve是領導者，Ve會選擇保持車速直行，并獲得獎勵1，跟隨者V0會選擇讓步，得到0的獎勵。如果V0是領導者，會選擇保持車速向右（TR），并獲得獎勵1，而Ve則會被迫減速向左。如果沒有事先確定領導者和追隨者，碰撞就會出現。

圖1 交通參與者獎勵Fig. 1 Traffic participant incentive

1.2 利他主義

利他主義［11］可以用來解決沖突場景，將交互駕駛問題建模為一個在獎勵矩陣上，每個交通參與者選擇的動作可獲得相應的獎勵。在圖1（b）中，如果α1＝1，那么Ve在執行車道變更時獲得有效獎勵0，減速并允許V0繼續時獲得獎勵1。

圖2 為一般的獎勵矩陣，如果Ve和V0分別都采取減速的動作，Ve將獲得r111的獎勵，V0將獲得r112的獎勵。純利他主義獎勵用利他主義系數α來定義：

圖2 一般的獎勵矩陣Fig. 2 General reward matrix

其中，－ i對應于未被i索引的代理，而是用于執行決策的有效獎勵代理。如果α為0，那么代理對彼此漠不關心；如果α值為1，那么代理將進行合作，以使相同的獎勵最大化。然而，利他主義并不能完全消除沖突（AOC），因為如果α2＝1 將再次陷入沖突，即V0和Ve都假設自己是追隨者，這樣會大大降低行駛的效率。

1.3 增強利他主義

重復迭代直到該系統達到穩態，得到了增強利他獎勵的定義：

稱為增強利他獎勵，是一種在評估選項時考慮雙方的利他主義值。對于給定的獎勵矩陣，最好選擇一種最小化AOC的決策方法。假設行為（Keep，TR）對于Ve是最優的，而（Dec，Keep）對于V0是最優的。對于獎勵矩陣：

在這些約束條件下，無論參數的價值如何，對獎勵矩陣的決策就可以有效避免沖突。

表1 給出不同方法的AOC定義以及與圖1（b）中的獎勵矩陣相對應的評價，設置了Ve＝r211－ r121和V0＝r122－ r212的緊湊性。由圖1（b）中的獎勵矩陣，即可計算出各種交互式決策模型的AOC值見表2。

表1 各種交互式決策模型Tab. 1 Various interactive decision models

從表2 可以看出，增強利他主義的AOC明顯優于其他考慮的模型。這意味著，在［0，1］中利他主義得分的重復配對中，該模型沖突發生率最低，對于通過給予獎勵降低模型的AOC，增強利他主義始終優于其他模型。

圖3 顯示了在V0＝1 時，對Ve繪制的AOC結果。對于0.33＜Ve＜3，增強利他主義達到最小值，證明所建模型在沖突最小化方面的優越性。

圖3 不同交互模型AOC測試Fig. 3AOCtest for different interaction models

2 多交互場景DBN 結構更新

2.1 穩態DBN 狀態轉移

初始的動態貝葉斯網絡是一個穩態變化的過程［12］。在BN 中加入狀態轉移概率，建立穩態DBN決策模型。通過靜態模型中的一個時間點的狀態，并將其轉化為相鄰時間點的概率。假設上一個節點狀態為x，則t時間后的節點狀態為x′，P（x′ ｜p（x′））為x′中節點的條件概率分布，設轉移概率為λ，則：

依據時間變化構建的車輛無人駕駛行為決策狀態轉移貝葉斯網絡如圖4 所示。

圖4 狀態轉移貝葉斯網絡Fig. 4 State transition Bayesian networks

因此研究推得，動態貝葉斯網絡模型在x［1］，x［2］，…，x［t］上的聯合概率分布為：

2.2 非穩態DBN 基于MIC 結構更新

當DBN 處于非穩態時，無人駕駛交互場景變化較大，當無人車通過傳感器感知到了其他交通參與者，并對其進行態勢評估后作為貝葉斯網絡節點，此時貝葉斯網絡結構也會隨著改變。是否把新的態勢評估節點加入到貝葉斯網絡結構中，以及該節點與BN 其他節點的因果關系是亟需確定的。

最大信息系數（MIC）［13］可以檢測出變量間的依賴關系。最大信息系數檢測方法魯棒性較好，對于不同類型的函數，當X與Y存在Y ＝ f（x）函數關系時，都有MIC（X，Y）＝1；反之，如果X和Y之間相互獨立，則MIC（X，Y）＝0。給定包含2 個隨機變量X和Y的數據集D，這2 個隨機變量之間的最大信息系數為：

其中，n為變量X和Y的樣本變量個數，B(n)＝n0.6是變量X，Y的網格大小。利用MIC更新貝葉斯網絡結構同樣經過3 個步驟：

（1）基于MIC生成有向無環圖。如果2 個節點之間的MIC很高，要么這2 個節點彼此直接關聯，要么通過1 個或2 個中間節點相互關聯。如果2 個節點之間的MIC很低，則節點相互獨立。

Step 1計算節點之間MIC。可由如下公式進行計算：

其中，i，j為節點序號，n為總的節點個數。

Step 2找到每個節點Xi（i ＝1，2，…，n）中的最大MIC為MMIC（Xi）。

Step 3去掉冗余邊。對MIC設定閾值к，可減少無向圖中的冗余邊。如果2 個節點之間的MIC值滿足如下條件，則在這2 個變量之間建立一條無向邊，即：

其中，為保證無向圖中包含大部分實際網絡中存在的邊，取к ＝0.9 為閾值因子。以此構造一個初始無向結構。

（2）保證無向圖節點連通。為了保證無向圖結構中節點完全連通性，連通分量間的MMIC：若含有m個狀態的連通分量A和具有n個節點狀態的聯通分量B滿足下式條件，則說明節點之間具有聯通性：

對無向圖進行連通性檢測，對于非連通圖則需要添加無向邊進行連通性修復。計算任意2 個連通分量的MMIC值，每次選取MMIC值最大的2 個連通分量，在最大的連通分量max ｛MIC（Xi，Xj）｝的節點之間建立一條無向邊，構成新的連通分量，如此重復計算連通分量的MMIC，直至連通。

（3）確定節點因果關系。無向網絡的完整連接要求確定無向邊的方向，也就是節點間的因果關系，從而得到一個有向無環的貝葉斯網絡。各連通分量間因果關系使用條件相對平均熵（CRAE）來確定。節點X與節點Y之間的平均熵可以表示為：

利用最大互信息系數的節點間的因果關系，構造出一條有向曲線，用以描述復雜環境下無人車輛與環境感知與決策之前的因果關系，實現對動態貝葉斯網絡的結構更新。 MIL 結構學習過程如圖5 所示。

圖5 MIL 結構學習過程Fig. 5 MIL structure learning process

2.3 交互動態貝葉斯網絡決策推理

在給出了各節點的初始概率后，利用貝葉斯網絡的推理算法，得到各節點的全部可能狀態的概率分布。本文在BN 結構及參數的確定、貝葉斯網絡構建完成后，通過引入新的證據，利用聯合樹算法［14］對貝葉斯網絡進行準確的推理。在將貝葉斯網轉化為聯結樹之后，每一個節點都需要指定概率，也就是把聯結樹作為初始化，這樣就可以獲得具有功能的聯結樹。利用各個簇節點間的信息進行傳輸，使得聯結樹達到整體一致性，從而達到穩定狀態，可以求出任意節點的概率分布。貝葉斯網絡聯結樹算法流程如圖6 所示。

圖6 聯合樹算法推理流程圖Fig. 6 Joint tree algorithm inference flow chart

通過聯結樹算法，當貝葉斯網絡獲得新的證據時，通過轉換對聯結樹進行初始化，將貝葉斯網絡的條件概率分配到對應聯結樹的團節點，并通過勢函數對信息進行傳遞和更新。

團節點接收信息后，也會將信息傳輸給相鄰節點。聯結樹全局一致時，可以對新的證據進行傳輸，對貝葉斯網絡后驗概率進行計算，從而實現了BN節點概率的推理，行為決策節點最大后驗概率為無人車當前場景采取的動作。

3 聯合仿真

3.1 仿真實驗平臺搭建

基于Prescan 平臺與Matlab／Simulink 聯合仿真實現復雜交通場景DBN 無人駕駛行為決策。通過Prescan 建立了一個典型的十字路口復雜的交通場景，并對傳感器參數進行了設置。無人駕駛仿真工作站簡圖如圖7 所示。

圖7 無人駕駛仿真工作站Fig. 7 Unmanned driving simulation workstation

通過Matlab 添加BNT1.0.7 工具箱，構建貝葉斯網絡模型，并嵌入到Simulink 中，運行貝葉斯網絡算法，實現復雜交通場景無人車因果推理決策的實時仿真。

對典型十字路口復雜交通場景進行模型搭建，添加場景元素和交通參與者，并對交通參與者行駛行為進行設定。 VisViewer 可對交通場景進行3D 展示如圖8 所示。

圖8 場景可視化仿真重建Fig. 8 Scene visualization simulation reconstruction

把經過駕駛員模型的車輛速度、制動力等信息以及雷達感知到的距離輸出給BN 算法模塊，經過控制模塊再輸出給車輛動力學模型，實現對車輛的控制。 BN 算法聯合仿真設計如圖9 所示。

圖9 BN 控制算法聯合仿真圖Fig. 9 Co－simulation diagram of BN control algorithm

3.2 仿真結果分析

無人駕駛車輛直行與前方交通參與者交互行駛通過十字路口的場景如圖10 所示。由圖10 可知，通過雷達和攝像頭傳感器模塊檢測到前方多個交通參與者及行人正通過斑馬線的行為圖景。此時車輛發動機轉速為1736 rpm，車速為34 km／h，采取40%制動力。

圖10 城區十字路口行駛場景Fig. 10 Urban intersection driving scene

車輛縱向駕駛行為如圖11 所示。由圖11 可看到在2.4 s 時，車輛與前方車輛距離減小，且左前方有行人通過斑馬線，控制系統發出預警，車輛減速，采取40%制動。無人車采取制動，與前方車輛距離越來越大。 5 s 時，無人車輛與前方車輛距離達到40 m，無人車加速行駛。 5.8 s 時無人車與前方車輛距離急劇減小，小于最小安全距離。此時控制系統發出full auto－braking 指令，車輛采取100%制動，直至速度降為0。

圖11 車輛縱向駕駛行為Fig. 11 Vehicle longitudinal driving behavior

車輛橫向駕駛行為如圖12 所示。由圖12 可看到，車輛橫向加速度為0，判知車輛做出的橫向行為決策是保持直行。無人車在復雜十字路口，判知無人車目標行駛方向直行，且與周圍交通參與者相對時距較近時，采取跟隨前方車輛低速行駛決策。

圖12 車輛橫向駕駛行為Fig. 12 Vehicle lateral driving behavior

4 結束語

本文針對復雜交通場景多交通參與者動態交互過程，提出了一種基于多交通參與者交互動態貝葉斯網絡模型。研究了靜態貝葉斯網絡到動態貝葉斯網絡的時序變化。基于增強利他主義對交通參與者之間的博弈交互獎勵機制進行優化。提出了一種基于狀態轉移和MIC的動態貝葉斯網絡結構學習算法，對交互場景中DBN 的結構進行更新，解決了無人駕駛行為決策不斷交互的實時性問題，更適用于復雜多變的交互駕駛環境。并通過Prescan 與Matlab／Simulink 聯合仿真，驗證了動態貝葉斯網絡決策模型的場景適應性和決策方法的可行性。