馮浩然, 尚志剛*, 楊莉芳, 靳富麗, 馬佐豪
(1.鄭州大學電氣工程學院, 鄭州 450000; 2.河南省腦科學與腦機接口技術重點實驗室, 鄭州 450000)
馬爾科夫決策理論是數學上表達強化學習的理想化形式,被廣泛應用于動物的行為決策研究中[1]。如何評價動物在馬爾科夫決策任務中利用過去經驗與重視未來獎勵的學習能力,對于動物行為學與心理學研究至關重要[2-4]。
早期的學者已經在不同行為決策問題中對動物的學習能力進行了探索。Paterson[5]通過簡單行為決策任務分析了豬、山羊、牛是否能從已知事件推斷未知事件,并發現不同物種之間存在認知與決策能力的差異。Kilgour[6]使用Hebb-Williams迷宮比較了綿羊、牛、豬、山羊、狗在一系列路徑選擇問題中的學習能力。但是早期的研究只關注與評價不同物種之間學習能力,實驗范式設計過于簡單,沒有對實驗對象的學習能力進行量化處理。近20年來,強化學習理論得到發展,而馬爾科夫決策理論框架作為交互式學習問題的高度抽象,使動物行為決策問題研究得到進一步發展[7-8]。在馬爾科夫決策任務中,Watkins等[9]提出的Q-learning模型作為一種離線差分算法,克服了模型對策略估計的困難,是價值學習研究中最常見的數學模型。在Q-learning模型中,智能體根據策略在狀態st執行動作at,環境反饋獎勵rt,并到達新的狀態st+1。根據獎勵更新狀態-動作對的Q值,智能體一直重復上述操作,直到訓練結束[10]。
Rose等[11]訓練鴿子完成基于視覺線索的馬爾科夫決策任務,建立了Q-learning模型模擬鴿子行為,并證明了獎勵大小對學習過程的影響可以通過Q-learning模型準確地反映。Ito等[12]分析了大鼠在隨機獎勵的馬爾科夫決策任務中的行為策略,在比較多種數學模型后,發現Q-learning模型能夠更好地預測大鼠的行為決策。師黎等[13]提出了一種動態學習率的Q-learning模型,完成了鴿子顏色刺激-抉擇認知訓練,以學習率α的動態變化準確地描述了鴿子的行為決策。陶夢妍[14]引入主觀價值因素,提出了一種新的動態強化學習模型,提高了動物行為的預測精度。阮曉鋼等[15]受嚙齒類動物利用嗅覺線索進行空間導航的啟發,提出了一種基于氣味獎勵引導的Q-learning環境認知策略,有助于增強動物對于環境的認知能力。對于馬爾科夫決策任務中動物行為決策問題的探索,現階段研究已經取得了一些進展,但是,大多數只是利用Q-learning模型對動物的行為決策進行描述或預測,而個體間學習能力的差異才是導致行為決策不同的根本原因,關于學習能力評價的研究卻少有涉及。
在馬爾科夫決策任務中,動物的學習能力與諸多因素有關。為最大化累計獎勵,動物既需要合理利用過去積累經驗對當前動作做出選擇,又需要考慮當前動作對未來狀態的影響[16-17]。在Q-learning模型中,學習率α(0<α≤1)表示智能體權衡當前學習結果與過去積累經驗的比值,α越接近0,表示智能體利用過去積累經驗對當前動作做出選擇的能力越強,α越接近1,表示智能體利用過去積累經驗的比重越少。折扣因子γ(0<γ≤1)表示智能體對未來獎勵的重視程度,γ越接近1,表示智能體越重視未來獎勵,γ越接近0,表示智能體“目光短淺”,只看重即時獎勵。在馬爾科夫決策理論框架下,智能體的“目標”是最大化累計獎勵,為完成該“目標”,一個學習能力強的智能體應充分利用過去積累的經驗知識,同時考慮未來獎勵,其模型參數應呈現“學習率α較小,折扣因子γ較大”的特點,而對于學習能力較差的智能體,其Q-learning模型參數應該與之有所區別。
為了探究馬爾科夫決策任務中不同個體之間利用過去經驗與重視未來獎勵的學習能力差異,首先選擇色彩辨識能力與認知能力都很優秀的家鴿作為實驗動物[18-20],然后確定家鴿在該任務中對最優策略的習得程度,最后用Q-learning模型參數對(α,γ)評價不同家鴿的學習能力。
實驗動物選用成年家鴿(質量:400~550 g; 平均年齡:2.1歲),雌雄不拘,身體健康。飼養環境為3 m×3 m×2 m的鴿舍,食物與水供應充足,體重保持在正常體重的85%以上。實驗動物經鄭州大學生命科學倫理審查委員會審查,符合各項規定。
如圖1所示,所有實驗均在馬爾科夫決策任務訓練箱中進行。訓練箱前端兩側各有一個按鍵,中間有一個食盒,箱體內部右上方有一個提示燈。按鍵底部安裝有背光燈,按鍵在亮燈狀態下可以被按下。當動作選擇正確時,食盒會進入訓練箱并持續2 000 ms。提示燈閃爍2次標志實驗開始。
為了探究馬爾科夫決策任務中家鴿的學習能力差異,設計了含有狀態轉移概率的馬爾科夫決策任務。如圖2所示,實驗開始后,進入1 500 ms的等待期,然后兩個按鍵同時亮起紅燈或綠燈,概率P均為50%。每次亮燈狀態下家鴿均有兩個動作選擇:啄左鍵或啄右鍵。若1 500 ms等待期后按鍵同時亮紅燈,那么該狀態下兩個動作選擇均不會得到獎勵,但會影響下一次狀態轉移概率。紅燈狀態下,啄右鍵,下一次亮綠燈概率為80%,啄左鍵,下一次亮紅燈概率為80%。若1 500 ms等待期后按鍵同時亮綠燈,那么該狀態下兩個動作選擇均會得到獎勵,同時影響下一次狀態轉移概率。綠燈狀態下,啄左鍵,下一次亮綠燈概率為90%,啄右鍵,下一次亮紅燈概率為90%。在進入下一次亮燈狀態之前都會有1 500 ms的試次間隔時期(inter-tribal interval, ITI)。由于每次啄鍵動作都會影響下一次亮燈狀態,所以除即時獎勵外,家鴿還需要考慮狀態轉移概率,選擇最優策略,使累計獎勵最大化。因此,考慮到上述情況,最優策略是在紅燈狀態下啄右鍵,綠燈狀態下啄左鍵(所有實驗動物在實驗前均完成預訓練,該過程包括建立對訓練箱、按鍵、食盒等設備的認知,理解“亮燈狀態下啄鍵”的任務需求)。

圖1 訓練箱功能示意圖Fig.1 Schematic diagram of training box function

圖2 馬爾科夫決策任務范式流程圖Fig.2 Flow chart of Markov decision-making tasks
在所有行為學數據中,未啄鍵試次被認為是無效試次,同時,以“均值±3×標準差”作為響應時間閾值,響應時間過長被認為是注意力不集中,響應時間過短被認為是誤啄,剩余試次被認為是有效試次。該任務范式下家鴿的行為學數據如表1所示。

表1 家鴿行為學數據表Table 1 Behavioral data sheet of pigeons
已有研究證明動物對外部環境的學習是受價值引導,并以此影響其行為決策。選用Watkins等[9]提出的Q-learning模型對家鴿在馬爾科夫決策任務中的行為決策進行建模。首先,設置Q值查找表與Reward表。在該任務范式中,存在2種狀態:紅燈狀態與綠燈狀態,2種動作:啄左鍵與啄右鍵,共組成4種狀態-動作對,故Q矩陣與R矩陣應為2×2矩陣,其中,矩陣的行表示狀態,列表示動作。Q查找表如式(1)所示,由于智能體初始狀態沒有經驗知識,故Q查找表各初值定義為0。

(1)
Reward表如式(2)所示,在該實驗范式中,紅燈狀態下兩個動作都沒有獎勵,故第一行各值定義為0,綠燈狀態下兩個動作都有獎勵,故第二行各值定義為1。

(2)
然后,智能體會嘗試探索最優策略π*(s),以使累計獎勵最大化Bellman最優方程將最優策略π*(s)的探索描述為
(3)
π*(s)=argmax[Q*(s,a)]
(4)

Qt+1(st,at)=Qt(st,at)+αΔQ(st,at)
(5)
ΔQ(st,at)=Rt+1+γmaxQ(st+1,a′)-
Qt(st,at)
(6)
式中:α為學習率(0<α≤1);γ為折扣因子(0<γ≤1)。接下來,采用網格搜索法,以0.01為步長,將學習率α與折扣因子γ進行取值,共得到10 000組(α,γ)參數對,即
(α,γ)=

(7)
不同的學習率α與折扣因子γ對Q-learning模型的行為預測結果及收斂性等因素有不同的影響。因此,在得到10 000組參數對(α,γ)之后,需要進行評估與篩選。首先,參數對(α,γ)應使Q-learning模型具有較高的行為預測正確率;其次,根據Q-learning收斂定理,如果每個動作在每個狀態下無限次的執行,并且適當的衰減學習率α,那么Q值將以1的概率收斂到最優Q值,但是,由于無法進行無限次實驗,需對收斂性進行評估;同時,在Q值趨于收斂時,Q-learning模型對不同狀態下的動作預測應趨于穩定,參數對(α,γ)應使Q-learning模型具有較好的動態預測穩定性。綜上,設置了三個參數對(α,γ)評價指標,分別為①行為預測正確率、②收斂性、③動態預測穩定性。
在評價指標①中,通過訓練集數據對Q-learning模型進行訓練,并使用測試集數據檢驗Q-learning模型的行為預測正確率,設置正確率閾值,篩選出能使Q-learning模型行為預測正確率大于正確率閾值的參數對(α,γ)。在評價指標②中,以方差衡量Q值的收斂性,方差越小,Q值的收斂性越好,設置方差閾值,篩選出能使Q-learning模型各Q值方差小于方差閾值的參數對(α,γ)。在評價指標③中,以累計誤差衡量訓練后的Q-learning模型在測試集數據上的動態預測穩定性。Q-learning模型每更新一次即實時預測,若當前動作預測正確,累計誤差不變;若當前動作預測錯誤,累計誤差累加“1”(“累計誤差”初始值為0),設置累計誤差閾值,篩選出能使Q-learning模型動態預測累計誤差小于累計誤差閾值的參數對(α,γ)。最后,將滿足三個評價指標的參數對(α,γ)取交集,得到最能反映家鴿自身行為決策的參數對(α,γ),以參數對(α,γ)的不同表征家鴿在馬爾科夫決策任務中利用過去經驗與重視未來獎勵的學習能力差異。
為了直觀表現不同家鴿在馬爾科夫決策任務中對最優策略的習得程度,對整個實驗過程中家鴿的動作選擇情況進行分析,結果如圖3所示。
從圖3中可以看出,實驗初期,家鴿選擇動作時隨機性較大,沒有習得某一固定策略,仍處于探索階段,獎勵試次占比曲線偏低。實驗中期,家鴿的動作選擇呈現出一定的規律性,逐漸習得最優策略,獎勵試次占比曲線逐漸升高。實驗后期,家鴿的動作選擇情況趨于穩定,獎勵試次占比曲線穩定在0.9以上。但是,由于不同個體在馬爾科夫決策任務中的學習能力存在差異,所以三只家鴿對最優策略的習得程度有所區別。根據獎勵試次占比曲線是否連續兩個session大于90%,將家鴿的行為學數據劃分為“學習期”與“習得期”。在“習得期”,P003在紅燈狀態下只啄右鍵,在綠燈狀態下只啄左鍵,說明其完全習得了最優策略;P004在紅燈狀態下右鍵占比曲線波動較大,綠燈狀態下左鍵占比曲線的收斂性也不如P003與P008,說明其并未完全習得最優策略;P008在紅燈狀態下只啄右鍵,在綠燈狀態下大部分試次啄左鍵,但是少數試次也會啄右鍵(在300~320 trails,綠燈狀態下左鍵占比曲線有所下降),說明其已經習得紅燈狀態下的最優動作,但對于綠燈狀態下的最優動作并未完全習得。因此,在該馬爾科夫決策任務中,P003的學習能力最強,P008的學習能力次之,P004的學習能力最差。
在評價指標①中,為了直觀表現不同參數對(α,γ)對Q-learning模型行為預測正確率的影響,取“學習期”數據為訓練集,“習得期”數據為測試集,設置0.8為正確率閾值,對所有參數對(α,γ)進行評估,結果如圖4所示。
從圖4中可以看出,在評價指標①中參數對(α,γ)具有區域性分布的特點,行為預測正確率最高分別達到1、0.939 8、0.801 6。以0.8作為正確率閾值,圖4中的黃色區域為篩選后的參數對(α,γ)。在該馬爾科夫決策任務中,由于家鴿個體間利用過去經驗與重視未來獎勵的學習能力存在差異,導致其對于最優策略的習得程度有所不同。因此,在不同家鴿的行為學數據上,參數對(α,γ)分布特點有所差異,圖4(a)中,篩選出的參數對(α,γ)表示P003具有較小的學習率α(0.01≤α≤0.48)與較大的折扣因子γ(0.01≤γ≤1),說明P003能夠充分利用過去積累經驗對當前動作做出選擇,同時重視未來獎勵;圖4(b)中,篩選出的參數對(α,γ)表示P008具有較大的學習率α(0.52≤α≤1)與較大的折扣因子γ(0.01≤γ≤1),說明P004雖然能夠重視未來獎勵,但是其選擇當前動作時忽視過去積累經驗;圖4(c)中,篩選出的參數對(α,γ)表示P008的學習率α與折扣因子γ的取值范圍較廣,說明P008利用過去積累經驗對當前動作做出選擇的能力較差,但是能夠重視未來獎勵。
在評價指標②中,為了直觀表現不同參數對(α,γ)對各Q值收斂性的影響,對Q-learning模型更新過程中各Q值的方差進行分析,設置0.02為方差閾值,對所有參數對(α,γ)進行評估。以P003行為學數據為例,結果如圖5所示。方差越小,收斂性越好。Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)分別表示紅燈狀態下啄左鍵、紅燈狀態下啄右鍵、綠燈狀態下啄左鍵、綠燈狀態下啄右鍵的Q值。

圖3 馬爾科夫決策任務中家鴿動作選擇情況Fig.3 Pigeons’ action selection in Markov decision-making tasks

圖4 評價指標①中參數對(α,γ)評估情況Fig.4 Evaluation of parameter pairs (α,γ) in evaluation index①
從圖5中可以看出,Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)的收斂性均隨著參數對(α,γ)的增大而變差,以0.02作為方差閾值,圖中的黃色區域之外為篩選后的參數對(α,γ)。結果表明,當折扣因子γ取值過大時(0.68≤γ≤1),Q-learning模型的收斂性較差,無法滿足該評價指標。
在評價指標③中,為了直觀表現不同參數對(α,γ)對Q-learning模型動態預測穩定性的影響,對經過訓練的Q-learning模型進行動態預測分析,設置0.15為累計誤差閾值,對所有參數對(α,γ)進行評估。結果如圖6所示,累計誤差越高,顏色越偏向藍色表示累計誤差越低。

圖5 評價指標②中參數對(α,γ)評估情況(以P003為例)Fig.5 Evaluation of parameter pairs (α,γ) in evaluation index②(take P003 as an example)
從圖6中可以看出,當學習率α取值較小時,Q-learning模型在家鴿測試集數據上的動態預測累計誤差較小。結果表明,以0.15作為累計誤差閾值,所有參數對(α,γ)均能使Q-learning模型在P003的測試集數據上具有較好的動態預測穩定性,P004、P008的測試集數據篩選出的參數對(α,γ)為藍色區域。

圖6 評價指標③中參數對(α,γ)評估情況Fig.6 Evaluation of parameter pairs (α,γ) in evaluation index③
為了篩選最符合家鴿動作選擇情況的參數對(α,γ),設置了三個評價指標,并對各指標評估結果取交集,得到了在該任務中能夠反應不同家鴿學習能力的模型參數對(α,γ),結果如圖7所示。橫坐標表示折扣因子γ的取值情況,縱坐標表示學習率α的取值情況,三個圖層分別為表征P003、P004、P008在該任務中學習能力的參數對(α,γ)。
從圖7中可以看出,篩選后的Q-learning模型參數對(α,γ)在P003行為學數據中主要分布在(α≤0.23,γ≤0.56)區域;在P004行為學數據中主要分布在(α=1,γ≤0.08)區域;在P008行為學數據中主要分布在(α≤0.14,γ≤0.35)區域內。圖3與圖7綜合分析,可以看出P003的學習率α較小,折扣因子γ較大,說明其能夠充分利用過去積累經驗對當前動作做出選擇,同時能夠重視未來獎勵,因此在馬爾科夫決策任務中利用過去經驗與重視未來獎勵的學習能力最強;P008的學習率α較小,但是折扣因子γ的取值范圍小于P003,說明其能夠利用過去積累經驗,但是對未來獎勵的重視程度不及P003,因此其利用過去經驗與重視未來獎勵的學習能力次之;P004的學習率α過大,折扣因子γ過小,說明其對當前動作進行選擇時忽視了過去積累經驗,同時不重視未來獎勵,因此其利用過去經驗與重視未來獎勵的學習能力最差。

圖7 參數對(α,γ)分布情況Fig.7 Distribution of parameter pairs (α,γ)
為了評價動物在馬爾科夫決策任務中利用過去經驗與重視未來獎勵的學習能力,訓練家鴿執行含有狀態轉移概率的馬爾科夫決策任務,提出了一種以Q-learning模型參數對其學習能力進行評價的方法。首先,針對Q-learning模型的主要參數學習率α與折扣因子γ采用網格搜索法,以0.01為步長,將參數對(α,γ)分為10 000組。然后,為篩選能使Q-learning模型預測效果最佳的參數對(α,γ),設置了三個評價指標。最后,通過將家鴿的行為學數據與Q-learning模型參數綜合分析,得出如下結論。
(1)表征動物行為決策的最佳Q-learning模型參數可以通過三個評價指標篩選后得到,分別為行為預測正確率、收斂性、動態預測穩定性。
(2)在馬爾科夫決策任務中,動物利用過去經驗與重視未來獎勵的學習能力可以通過Q-learning模型參數進行評價。其中,學習率表征了動物利用過去積累經驗做出選擇的能力,折扣因子表征了動物對未來獎勵的重視程度。