基于分布式強化學習算法的精準助學數據分析方法研究

2021-06-14 13:02:28邢文娜寧睿

電子設計工程 2021年10期

邢文娜，寧睿

（西安航空職業技術學院，陜西西安 710089）

隨著我國經濟的發展，人們的生活水平逐漸提高，然而仍有相當一部分群體處于生活較為貧困的狀態[1-3]。在高校中同樣存在一定數量的貧困學生，尤其是高等教育體制改革、高校擴招后，貧困生所面臨的問題進一步凸顯。為了改善貧困學生的生活水平，國家開展了多種形式的助學計劃。

然而，高校扶貧對象的確認主要依靠學生申請、班級成員與輔導員評估的模式，存在編造虛假申請材料與舞弊的現象。同時由于部分貧困學生害怕受到歧視，申請積極性較低[4-7]。這些具體情況均會導致助學金無法真正惠及需要幫助的學生，因此，開展高效、合理、智能的貧困生確認方法成為當前高校扶貧工作的重點之一[8]。

隨著大數據技術與深度學習技術的不斷發展，深度挖掘學生的在校消費數據成為了可能[9-11]。利用經過人工標注的、有監督訓練的模型，可自動識別與判斷該學生是否具有貧困生的特征。文中利用深度學習的RBF 神經網絡技術與分布式強化學習技術，分別將預處理過的學習消費數據聚類和分析，構建基于分布式強化學習的精準助學數據分析算法。

1 精準助學數據分析方法框架

為精準識別學生的貧困程度，文中通過對學生在校園內產生的各項消費數據進行采集與分析，并通過分布式強化學習來深層次挖掘學生的消費習慣。進而對學生的消費能力進行排序，以此為依據進行助學金的分配。具體結構框架如圖1 所示。

圖1 基于分布式強化學習助學金分配結構框架

歸一化RBF 神經網絡聚類可將各個消費場景產生的數據提取特征向量，RBF 神經網絡是一種三層無監督神經網絡[12]。文中將其改進，設置多層隱藏層，并進行歸一化，以實現將低維度的數據轉化為高維度的向量，從而將低維度的線性不可分問題轉化為高維空間的線性可分問題。

分布式強化學習是在行動與評價中學習知識，從而改進行動方案，來適應周圍環境，并最終實現目標的過程。試錯搜索與延遲回報是強化學習最大的特點，其基本模型如圖2 所示。當智能體做出某個行為動作時，環境因該行為動作產生狀態變化，同時反饋給智能體一個獎勵信息。智能體根據當前環境狀態及反饋回的獎勵信息來選擇下一個動作，而動作選擇的標準是讓得到獎勵信息的概率增大。

圖2 基于分布式強化學習助學數據分析結構框架

2 精準助學數據分析方法

2.1 精準助學數據來源

精準助學數據分析算法除了需要有先進的算法，還需要有合適的數據來源作為分析材料，圖3 為精準助學數據來源及預處理示意圖。使用大數據技術可以從學生在校園區域內產生的各項消費數據分析該學生的消費能力、消費習慣等信息，進而量化學生的貧困程度，精準篩選貧困生。隨著數字化與智能化應用在校園的推進，使得學生的某些行為被記錄下來。餐廳、圖書館、超市、澡堂、洗衣房及校園內代步車等場所或設備均有相應的終端可以采集到學生的消費信息與充值信息，通過中心化數據庫將這些信息收集并處理，即可成為分析學生消費習慣、貧困程度的原始數據。

圖3 數據來源及預處理示意圖

原始數據雖能表征學生的消費能力與消費習慣，但其存在大量的無效數據。因此，在進行數據挖掘前需要對原始數據進行預處理。數據預處理包含：數據清洗、數據補充以及衍生變量的計算，數據清洗是指針對數據采集終端同一消費行為重復采集數據、數據記錄異常等情況進行無效數據的過濾及清除，以降低數據量；數據補充是針對數據采集終端因故障等原因未能采集到數據的現象，通過數據中心的數據對比來補充相關消費信息；衍生變量是指利用原始數據計算得到其他相關指標，涉及的指標有總消費次數、總金額、食堂消費金額、超市消費金額等。

2.2 多Agent系統分布式強化學習

隨著數字化校園的推進，越來越多的智能體被使用，由此產生的消費數據可用來分析各個學生的消費能力、行為習慣等信息。由食堂、洗衣房、澡堂等組成多智能體協作系統在解決實際問題時，群體強化學習算法可實現較優的效果，各個智能體之間的交互可使用對策模型來進行表述。Markov 對策是對傳統Markov 決策的改進和優化，將其變成由多個參與者參加的分布式決策過程，并將多步對策看作是隨機發生的。Markov 對策框架如圖4 所示，是Mark 決策與雙矩陣對策的組合。Mark 決策是一種單個智能體、多個環境的模型，而雙矩陣對策是多個智能體、單個環境的模型。通過兩者的結合，可認為Markov 對策是多個智能體、多個環境的模型[13-14]。

圖4 Markov對策框架結構示意圖

Q 學習是多智能體領域內應用最廣泛的強化學習算法，將Q 學習算法從單個智能體擴展到多個智能體時，可以將所有智能體的聯合動作代替單個智能體的動作。在多智能體系統內，使用Bayesian 網絡可建立各個智能體之間的相互關系。該相互關系可用聯合概率分布進行表征，聯合概率越大，表明智能體之間的緊密耦合程度越高。由于各個智能體在選擇行為動作時通常依據某種策略，在概率學上表現為智能體在某狀態下選擇的動作是服從一定概率分布的隨機行為。因此研究某智能體的行為時，可通過研究其他智能體歷史行為，學習其行為選擇策略并建模，由此確定該智能體的最佳響應。某智能體在進行行為選擇時，可通過其他智能體所選擇動作的先驗概率，在Bayesian 網絡的基礎上推導相應的后驗概率，即確定行為選擇策略[15-16]。

2.3 精準助學數據分析模型

學生的消費行為是動態行為，通過長時間的數據收集、分析可以更加準確地分析學生的經濟狀況，因此貧困生的篩選與認定應當是動態的過程。文中使用分布式強化學習來實現動態數據分析模型的建立，可將瞬時優化目標函數轉化成長期的優化目標。當數據與數據庫中已存在消費行為相似時，智能體可根據學習到的知識直接得到與當前消費行為相近的結果，避免重復計算。

動態模型可以化簡為MDP 過程，其定義如下。

式中，S代表消費狀態集合；A代表助學獎金的發放；P代表轉移概率矩陣；r代表獎賞函數。消費狀態集合是指所有學生消費狀態的集合，為了方便后續計算，需要按照一定的規則表示成向量。定義集合如式（2）所示。

其中，p(t)表示每天的消費金額；h(t)表示每天的消費次數；Sm(t)表示第t天學生賬戶余額狀態。文中，轉移概率被視為未知量，可使用免模型學習算法Q-learning 來求解。

由于學生在校園中存在多個消費場景，在這些場景中，學生的消費習慣應該是統一的，因此需要聯合動作學習。在此設定下，強化學習算法認為智能體可通過相互觀察，來獲取彼此所選擇的行為與相應的報酬等信息，進而維護自身的Q函數。此時，所有智能體的Q值將組成一個對策集合Q1(st),…,Qn(st)。因此，值函數可被表示為式（3）：

相應的，令Nash 平衡的解為x1(st),…,xn(st)，則值函數可進一步表示為式（4）：

值函數得到更新后，Q值亦隨之改變。更新規則如式（5）所示。

通過以上分析，精準助學數據分析算法的過程如下：

1）將狀態訪問次數初始化，設置n(s)為0，對于任意狀態及任意動作行為，其平衡解的概率值為x(s,ak)=1/|A|；

2）智能體k通過觀察其他智能體來預測聯合動作概率x(s,a1,…,an)，并以此來選擇最優策略x(s,ak)；

3）在選擇行為動作時，智能體k通過獨立學習來更新自身行為的概率分布，依據概率x(s,ak)選擇下一動作；

4）智能體k根據Bayesian 公式來調整其他智能體的動作選擇信念，并更新Q值；

5）令n(s+1)=n(s)+1，返回步驟2）繼續循環。

3 測試與驗證

為了驗證文中所述方案的有效性與可行性，使用某高校312 名學生的一卡通消費數據進行驗證。經過預處理后的部分數據，如表1 所示。預處理后的數據涉及各個消費場景的消費次數、單次消費最大值、中位值。從中選擇3/4 作為訓練數據，使得歸一化RBF 神經網絡與分布式強化學習模型的各個網絡參數可以精準地識別數據背后的規律性。其余數據作為測試數據，以檢驗文中所提出的精準助學數據分析方法的準確率。

表1 每月學生各項消費數據（預處理后）

首先，使用訓練模型進行歸一化RBF神經網絡的隱藏層層數與神經元個數的確認。從圖5 中可以看出，隱藏層層數的增加會顯著提高聚類準確率增長的速度，在神經元較少的情況下仍可實現較高的準確率。而神經元個數的增加同樣會提高聚類準確率，但當神經元個數增加到一定數量時，準確率趨于固定值。綜合神經網絡運行時間及聚類準確率，歸一化RBF神經網絡被設置為3層隱藏層，每層各30個神經元。

圖5 不同隱藏層層數及神經元個數對聚類準確率結果對比

其次，通過設置對照組的方式來驗證分布式強化學習算法的有效性。實驗組采用文中所述的分布式強化學習算法模型，對照組采用Adaboost 算法進行貧困生的認定。兩組均采用相同的已清洗數據，使用相同配置的計算機平臺進行驗證。針對文中采用的分布式強化學習，相應仿真參數為：學習率為0.8，折扣系數為0.9。Adaboost 算法采用多個弱分類器進行分類以提升學習精度，每個弱分類器的權重不同，通過微調各個權重值來提高分類準確度。文中所述方案與Adaboost 算法的識別結果對比，如表2所示。從表2 中可以看出，無論是訓練數據或是測試數據，文中所述方案的識別準確率均比Adaboost算法高。同時分布式強化學習的平均絕對誤差為0.153 2，較Adaboost 算法低。這是由于分布式強化學習中各個智能體在選擇行為動作時，會通過觀察與學習其他智能體的行為策略，避免進行更多的試錯行為，提高了學習效率且加快收斂速度。

表2 分布式強化學習與Adaboost算法識別結果對比

4 結束語

文中使用分布式強化學習與歸一化RBF 神經網絡進行了精準助學數據分析技術的研究，通過合適的隱藏層層數與神經元個數的選擇來提高歸一化RBF 神經網絡的聚類準確率。同時采用分布式強化學習進一步挖掘學生消費數據的內在邏輯關系，通過對智能體在面對系統狀態所采用的行動進行獎勵或懲罰，進而改善學習策略的效率。經過測試，文中所述方案在貧困生的識別方面具有80.9 %的準確率，與Adaboost 算法相比更適合高校貧困生的認定。