范云霞 杜佳慧 張杰 莊自超 龍陶陶 童名文



基金項目:國家自然科學基金2023年青年項目“基于認知過程挖掘的教師實踐性知識演進機制研究”(項目編號:62307017);2021年華中師范大學國家教師發展協同創新實驗基地建設研究項目“自適應教師培訓資源設計與開發”(項目編號:CCNUTEIII 2021-04)
[摘? ?要] 自適應學習路徑作為實現個性化學習的一項關鍵技術,受到研究者廣泛關注。近年來,強化學習成為自適應學習路徑推薦的主流方法,但在動態學習環境表征的完整性和學習路徑的適應性方面仍存在不足。基于此,文章提出了融合領域知識特征的自適應學習路徑推薦模型。首先,模型將知識點概念覆蓋和難度兩個特征引入動態學習環境中,使對動態學習環境的表征更完整。其次,采用深度強化學習算法實現學習路徑的推薦,提升學習路徑的適應性。最后,開展技術對比實驗和應用實驗。技術對比實驗表明,該模型提高了學習路徑的有效性和適應性。應用實驗表明,該模型可以準確地判斷學習者的薄弱知識點概念,并能為學習者推薦適合其認知特征的自適應學習路徑。
[關鍵詞] 自適應學習路徑; 強化學習; 領域知識特征; 知識點概念覆蓋; 個性化學習
[中圖分類號] G434? ? ? ? ? ? [文獻標志碼] A
[作者簡介] 范云霞(1992—),女,山西長治人。博士研究生,主要從事自適應學習理論與方法研究。E-mail:1134527434@qq.com。童名文為通訊作者,E-mail:tmw@ccnu.edu.cn。
一、引? ?言
近年來,規模化的個性化教育成了新時代的教育理想和訴求[1]。自適應學習作為實現規模化的個性化教育的重要途徑,引起了研究者的廣泛關注。學習路徑推薦是自適應學習的一項關鍵技術,能夠幫助學習者實現認知狀態與學習對象的精準匹配[2],提高學習者的學習效率和滿意度[3]。自適應學習路徑作為學習路徑的一種類型,可根據學習過程中學習環境的變化實時地調整學習路徑。關于自適應學習路徑推薦的研究逐步由“半動態”向“動態”發展[4],其中,基于強化學習的自適應路徑推薦成為動態路徑推薦的一種重要方法[5]。但是現有研究多為強化學習的簡單遷移,缺乏對復雜真實學習情境的分析和建模,具體表現在:(1)動態學習環境表征不完整;(2)學習路徑適應性不強。有研究表明:在領域知識特征中,對下一題知識點概念覆蓋預測可以準確定位學習者的薄弱知識點[6]。對學習對象難度值的動態追蹤可以實現高適應性的推薦[7]。因此,本研究基于強化學習框架提出了一種融合領域知識特征的自適應學習路徑推薦模型(Adaptive Learning Path Recommendation Model,ALPRM),該模型將知識點概念覆蓋和難度兩個核心特征融入動態學習環境表征,然后對強化學習模型的核心組件進行重新設計,旨在推薦主動適應學習環境動態變化的學習路徑。
二、相關研究
學習路徑是指利用學習者特征、領域知識特征等信息,為學習者定制的符合教育認知規律、能實現其既定學習目標的最優學習單元序列[8]。自適應學習路徑是學習路徑的一種類型,它是根據學習環境的變化,可動態調整的學習路徑。經典的學習路徑只關注推薦結果的個性化,具有靜態性,而自適應學習路徑注重學習路徑在學習過程中的調整,具有動態性。近年來,關于學習路徑推薦的研究主要集中在自適應學習路徑推薦。自適應學習路徑推薦研究主要包括動態學習環境表征和自適應學習路徑推薦技術兩個方向。
(一)動態學習環境表征研究
在動態學習環境表征研究中,主要是對學習者個性特征和領域知識特征進行提取與計算[9]。學習者個性特征分為 “為什么學”的特征、“學什么”的特征、“怎樣學”的特征[10]。“為什么學”的特征是說明學習者學習目的特征,用于設計和規劃學習過程,一般可以從學習環境中直接獲取,屬于顯性特征,如學習目標、職業目標和學習動機。“學什么”的特征是說明系統給學習者推薦的路徑節點需要依據的特征,是以往研究中挖掘最多的隱形特征,如學習能力、認知狀態和理解水平等。“怎樣學”的特征是說明為學習者推薦什么資源類型的特征,如學習風格、學習偏好。領域知識特征分為靜態特征和動態特征。靜態特征是指與推薦相關的,并且在學習推薦過程中特征值不發生改變的特征,如學習對象的描述性特征(學習對象格式類型、媒體格式、交互方式、知識粒度、所屬章節、涉及知識點概念)。而動態特征是指在學習推薦過程中特征值發生改變的特征(如難度),常用來實現學習對象的動態分類和交互信息的動態更新[9]。動態學習環境表征更多關注的是學習者特征中的“學什么”的特征和領域知識特征中的動態特征。
(二)自適應學習路徑推薦技術研究
在自適應學習路徑推薦技術研究中,已有推薦技術呈現出“半動態路徑推薦”和“動態路徑推薦”兩種類型。“半動態路徑推薦”是根據初始的學習環境信息,為學習者推薦一條完整的路徑,并且在整個學習過程中學習環境變量值保持不變,這類研究大多先用聚類、K近鄰或決策樹等技術對學習者個性特征進行聚類并初始化環境信息,然后再利用廣度優先搜索[11]、關聯規則[12]或長短期記憶網絡(Long-Short Term Memory,LSTM)[13]等算法推薦學習路徑。“動態路徑推薦”是多階段為學習者推薦自適應學習路徑,學習環境變量會隨學習過程的進行而動態變化,實現“一步又一步”的推薦,這類研究主要使用強化學習算法實現。
(三)基于強化學習的自適應學習路徑推薦技術研究
目前,強化學習已經成為實現自適應學習路徑推薦的主流方法,研究者普遍將自適應學習路徑推薦問題建模為最優化問題,將推薦過程視為馬爾可夫決策過程(Markov Decision Processes,MDP),結合教育情境對強化學習的核心組件(狀態、動作、回報值)重新定義來實現推薦過程[5]。表1為基于強化學習的自適應學習路徑推薦典型模型梳理。現有研究在“狀態”的定義方面,研究者通常將動態學習環境定義為強化學習的狀態,最多的表征特征是學習者模型中的認知狀態特征,少數研究使用了領域知識特征,但只考慮使用后繼知識點概念來定位知識點,這種方式只能促使學習者學習新的知識點概念,無法捕捉到真正薄弱的知識點概念。此外,現有研究忽略了領域知識的交互特征,這也是影響學習對象推薦準確性的一個重要原因。在“回報值”的定義方面,現有研究的設計思想有固定回報值設計、多元線性函數設計、直接使用學習成績(或提高程度)作為回報值等。此外,現有研究中常用的強化學習算法有Q-Learning、Actor-Critic、DQN等。
綜上所述,強化學習算法在自適應學習路徑推薦領域已取得豐富的研究成果,但還存在以下問題:(1)動態學習環境的表征不完整,突出表現在沒有嚴格分析領域知識的動態特征。(2)學習路徑適應性不強,表現在無法準確定位薄弱知識點概念,學習對象推薦的準確性不高。本研究提出融合領域知識特征的ALPRM,并對相關算法進行實現,以期解決上述問題。
三、融合領域知識特征的自適應
學習路徑推薦模型構建
(一)自適應學習路徑推薦模型構建
本研究基于強化學習框架構建了如圖1所示的ALPRM圖。該模型由動態學習環境表征和自適應學習路徑推薦兩層組成。(1)在動態學習環境表征層,提取學習者個性特征和領域知識特征中的核心動態特征來表征動態學習環境。具體來說,由學習者認知狀態、學習目標、知識點概念覆蓋、難度共同表征。學習者認知狀態可以實時追蹤學習者知識點概念掌握情況;學習目標可以指明自適應學習路徑的方向;知識點概念覆蓋預測不僅可以幫助學習者定位薄弱知識點概念,還能根據這些預測的知識點概念從資源庫中檢索候選學習對象,減少智能體的搜索空間;難度的動態表征可以更準確地獲取同一學習對象在學習者不同學習狀態時的難度水平。這樣的表征方式使自適應學習環境表征更完整。(2)在自適應學習路徑推薦層,對MDP的主要組件進行重新定義,將“狀態”定義為動態學習環境的表征模型,將“動作空間”定義為候選學習對象,將“回報值”定義為有關難度特征的函數。利用動態環境特征變量訓練深度強化學習的策略網絡,最后根據訓練好的模型為學習者推薦最符合其當前學習狀態的學習對象,這樣的設計旨在實現自適應學習路徑推薦的動態性,同時也提高適應性。
(二)動態學習環境的表征與計算
1. 動態學習環境的表征
在動態學習環境表征方面,已有研究通常由學習者的認知狀態表征,本研究在此基礎上加入學習目標特征和領域知識特征,將動態學習環境表征為Statet=[et,Target,p(Kt),p'(Kt),Dift],Statet具體的描述為:et表示當前學習對象;Target為目標知識點概念,學習目標可以由教師制定,也可以由學習者在學習開始前根據自己的情況自由決定;p(Kt)為t時刻學習者的認知狀態;p'(Kt)為t時刻預測的下一步知識點概念覆蓋;Dift為學習對象的難度值。這些特征中,et值可以從學習環境直接獲取,無需計算;Target可以在學習開始時根據學習者的輸入得到;而p(Kt)、p'(Kt)和Dift這些特征值則需要專門的計算機算法的精確評估才能獲得。
2. 動態學習環境特征值的計算
近年來,深度神經網絡在處理非線性建模、自適應學習、大規模數據、端到端的自動化預測等領域表現出非常優秀的預測性能[20]。本研究也使用深度神經網絡算法來對動態學習環境的特征值進行計算,利用LSTM模型預測學習者認知狀態;使用Transformer模型預測下一題知識點概念覆蓋情況;根據學習者的認知狀態計算出學習對象的動態難度值。
為了詳細說明,本研究以習題推薦為例,假設了一些變量。假設有一門C課程共包含K個知識點概念,表示為K=k1,k2,…,k■。學習者表示為S=s■1,s■2,s■3,…,s■,習題庫表示為EB=e1(k),e2(k),…,e■(k),習題表示為ej(k)=[e■(k1),ej(k2),ej(k3)…,ej(k■)], e■(ki)的取值為0或1(0表示該題沒有包含第i個知識點概念,1表示該題包含了第i個知識點概念)。將某學習者s■i的歷史答題記錄表示為X■=x1■,x2,x3,…,x■,t時刻學習者s■i對習題ej的作答情況表示為x■=(s■,e■(k),a■t)|s■∈S,e■(k)∈EB。
(1)認知狀態的計算
本研究使用LSTM模型來預測學習者的知識概念掌握情況,追蹤他們的認知狀態。LSTM模型的輸入為x■=(s■,e■(k),a■t)|s■∈S,e■(k)∈EB,習題e■的知識點概念的單熱編碼用?準(Kt)表示,at的取值為0或1(0和1分別表示作答錯誤和正確)。模型的輸出ht是一個向量,其長度等于K的長度,它的每個組成部分代表正確回答相應的知識點概念的概率。本研究通過二元交叉熵構建一個損失函數來訓練這個模型,對于單個學習者的優化損失函數表示為:
Ls=∑■■l■(ht·?準(K■t),at+1)? ? ? ? ? ? ? ? ? ? ? ? 式(1)
其中,·表示點乘,l■表示二元交叉熵損失。
當LSTM模型訓練結束后,輸入一個學習者的歷史答題記錄,該模型的輸出就是他對這門課程所有知識點概念的掌握程度,表示為p(Kt)=[p(k■■),p(k■■),p(k■■),…,p(k■■)]。
(2)知識點概念覆蓋預測的計算
本研究使用Transformer模型來預測知識點概念覆蓋,以準確定位學習者下一步應該學習的知識點概念。利用Transformer模型,編碼器將某學習者的習題Et、知識點概念Kt和位置Pt作為模型的輸入,因為Transformer是基于自注意機制的深度學習模型,不能像循環神經網絡和卷積神經網絡那樣有效利用歷史記錄中的序列信息。因此,本研究在Transformer模型的輸入中嵌入位置編碼,以表征歷史學習記錄中的順序信息,模型的輸入表示為:
ε(t)=Eet,kt+Pt? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 式(2)
其中,Eet,kt是連接Et和Kt的嵌入向量,Pt? 表示位置嵌入。
Transformer模型利用解碼器來預測下一題的知識點概念覆蓋。解碼器通過自注意機制連接到編碼器,最后通過全神經網絡得到模型的輸出vt。在訓練時刻t,vt表示課程中所有知識點概念出現的概率,即Kt+1。該模型通過最小化損失函數L's訓練模型,損失函數表示為:
L'■=∑■■l■(vt·?準(kt+1),1)? ? ? ? ? ? ? ? ? ? ? ?式(3)
當Transformer模型訓練結束后,輸入一個學習者的習題記錄,該模型的輸出為這門課程中所有知識點概念出現的概率,表示為C(Kt)=[c(k■■),c(k■■),c(k■■),…,c(k■■)]。為了提高學習者的學習熱情,需要分析所推薦的知識點概念不僅要包括學習者在學習過程中的薄弱知識點概念,也要考慮必須學習的新的知識點概念。因此,在Transformer模型的輸出添加一個權值變量,它的長度等于知識點概念的長度,表示為ω(Kt)=[ω(k■■),ω(k■■),ω(k■■),…,ω(k■■]。ω(k■■)的計算如下:
ω(k■■)=1-■,c■>01,? ? ?c■=0? ? ? ? ? ? ? ? ? ? ? ? ? ? ?式(4)
其中,r■為知識點概念k■正確回答的次數,c■為k■出現的次數。利用 p'(Kt)=c(K■■)ω(K■■),最終求出下一題的知識點概念覆蓋為p'(Kt)=[p'(k■■),p'(k■■),p'(k■■),…,p'(k■■]。
(3)難度特征的計算
難度是知識項目的重要特征之一,是習題推薦過程中需要考慮的核心因素。現有工作大多是通過研究人員預設習題難度,在學習過程中習題難度值保持恒定。然而,在實際情況下,這種方案會導致學習者的認知偏差。已有研究表明,習題難度是隨著知識建構過程動態演變的[21-22]。因此,本研究將該特征整合到動態環境的表征中。受Wu等人[6]研究的啟發,利用公式(5)和公式(6)來計算習題的難度。
Re(K)=∏■■(p(k■■)丨e(k■)=1)? ? ? ? ? ? ? ? ?式(5)
Re(K)為習題答對的概率,p(k■■)為習題中每個知識點概念的掌握程度。因為學習者的認知狀態在動態變化,所有習題答對的概率也在時刻變化。
Dift=1-Re(K)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 式(6)
Dift為t時刻習題難度值。
(三)深度強化學習推薦算法
1. MDP組件的定義
MDP主要組件包括:狀態、動作和回報值,在本文中的定義如下:
狀態(State):本研究將動態學習環境視為MDP的狀態,表征為Statet=[et,Target,p(Kt),p'(Kt),Dift]。
動作(Action):策略網絡為一個提前訓練好的神經網絡模型,該模型接受學習環境狀態Statet,根據已經保存好的模型參數θ,從動作空間Ct中采樣,預測并輸出與當前學習環境適應度最高的習題,最后將學習環境更新為Statet'。因為習題庫中習題規模巨大、課程知識點概念覆蓋廣、難度多樣,這為智能體的搜索帶來巨大挑戰。本研究從動態學習環境中獲得下一步預測的知識點概念覆蓋,從習題庫中檢索出相關習題,形成候選習題集Ct,計算公式如下:
C■=e■(k■)|e■∈EB,k■∈p'(Kt■)? ? ? ? ? ? ? 式(7)
其中,e■(k■)為t時刻的候選習題,j為習題的數量,p'(Kt)為上文中預測的知識概念覆蓋。
回報值(Reward):參考Liu等人[5]的研究,本研究設計回報值并對其進行改進。Liu等人只在自適應學習路徑完成時給予獎勵,這種延遲、稀疏的獎勵機制會導致智能體在早期探索階段盲目選擇,表現不穩定。本研究受獎勵塑造思想的啟發[23],完善了回報值的計算方法,在智能體探索的每一步和探索結束后都給予一定的獎勵,在保證整條自適應學習路徑有效性的同時,也提高智能體在探索階段的穩定性,回報值函數設計如下:
R■=α*R■+β*R■丨α,β∈0,1R■=1-δ-Dif■? ? 式(8)
其中,R■為Liu等人[5]研究中回報值的設計函數,R■為每一步給予的回報值。在智能體探索的早期階段,本研究設置α=1,β=0,則R■=R■,表示智能體在探索的每一步獲得的回報值。其中,δ為學習者期望的習題難度,Dif■為候選集中習題的難度,δ-Dif■值越小時,該習題為最符合學習者需求的習題。當智能體完成探索,本研究設置α=0,β=1,則R■=R■,表示智能體到達目標知識點概念獲得的整條自適應學習路徑的回報值。
2. 推薦算法描述
本研究在對每個組件進行重新定義后,仍然存在一個問題,就是如何根據學習者當前的動態學習環境來選擇候選習題進行學習。為了解決這個問題,我們使用D3QN算法來實現習題推薦功能,該算法具有簡單、泛用、沒有使用禁忌等特點。D3QN算法設置兩個Q網絡(評估網絡Q和目標網絡Q')作為參與者,即利用評估網絡Q獲取Statet+1狀態下最大回報值對應的習題,然后利用目標網絡Q'計算該習題獲得的真實回報值,從而得到目標值。通過兩個網絡的交互,有效避免了算法的“過估計”問題。其中,θ和θ'分別表示評估網絡和目標網絡的參數。目標值的計算如下:
yt=Rt+1+γQ'(Statet+1,arg maxaQ(Statet+1,a,θ),θ')
式(9)
其中,arg maxaQ(Statet+1,a,θ)表示Statet+1狀態下評估網絡Q根據其參數θ選擇回報值最大的習題,這個習題選擇的動作再次經過目標網絡Q'計算獲得最終的真實回報值yt。在計算出yt的基礎上,使用均方差損失函數,計算Loss,再通過反向傳播更新參數θ。公式如下:
Loss=■∑■■(yt-Q(Statet,Ct,θ))2? ? ? ? 式(10)
經過算法多次迭代運行,策略網絡就會訓練完成。當上文構建的動態學習環境模型中的所有變量輸入神經網絡后,就可以輸出相對應的習題。
四、自適應學習路徑推薦模型的實驗研究
(一)實驗對象
為了評估ALPRM,本研究在一個公共數據集和一個真實數據集上開展了實驗,進行性能驗證。ASSISTments2009數據集來自ASSISTments網站,本研究篩選該數據集中的初中數學代數部分進行實驗,去除沒有知識點概念和學習者記錄少于10條的記錄,得出65,372條數據。自適應學習系統數據集是一個真實的數據集,該系統由本團隊自主開發。本研究選擇系統中“C程序設計”課程的前三章節的數據開展實驗。該系統至少包含一個知識點概念,所以只去除學習者記錄少于10條的記錄,得出94,886條數據。表2為兩個數據集數據清理后的信息統計情況。
表2? ? ? ? ? ?兩個數據集的統計信息
(二)實驗設置
本研究選取最先進的自適應學習路徑推薦框架進行對比,分別是認知結構增強模型(CSEAL)[5]、基于知識點概念覆蓋預測模型(KCP-ER)[6]、雙層多目標推薦模型(MulOER-SAN)[24]。基線模型中涉及的深度學習算法的參數設置與原文相同。本研究中的LSTM模型的參數設置參考Wu等人[6]的研究,Transformer模型的參數設置參考Ren等人[24]的研究,D3QN中explore采用EpsilonGreedy,初始epsilon為1,最終epsilon設置為0.02,epsilon time steps設置成5000,激活函數使用Relu,隱藏層為[256,256], γ設置為0.99,學習率為5e-4,其他參數為默認參數,獲取環境狀態值進行訓練。本研究隨機選擇其中80%的數據作為訓練集、10%為驗證集、10%為測試集以開展實驗。
(三)實驗指標
參考已有研究,本研究采用有效性[5]、適應性[24]指標來評價產生的自適應學習路徑的質量。
1. 有效性
有效性用來評估學習者在一個會話中學習成績的提升情況,定義如公式(11)所示:
Ep(LP)=■? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 式(11)
在一個會話中,Es是開始的分數,Ee是結束的分數,Esup是總分數。Ep(LP)值越大代表推薦的有效性越好;值越小代表自適應學習路徑的有效性越差。
2. 適應性
適應性反映了每一次推薦的習題是否具有適當的難度水平。Ren等提出適應性的計算公式(12)[24]:
Adaptiviy(LP)=■? ? ? ? ?式(12)
δ為學習者對習題的期望難度,Dif■為所選習題的難度,δ-Dif■表示學習者期望選擇的習題與真實選擇的習題的難度距離,1-δ-Dif■表示每次選擇習題的適應性,M為自適應學習路徑中習題的個數, Adaptiviy(LP)表示推薦的整條學習路徑的適應性。
(四)實驗結果分析
表3展示了兩個數據集中各模型在有效性和適應性兩個指標上的表現效果。通過觀察可以發現:(1)在所有基線中,采用CSEAL模型推薦的自適應學習路徑表現最差。經過分析發現,CSEAL模型通過知識圖譜中當前知識點概念的后繼知識點概念直接獲取習題候選集,而不是采用知識點概念覆蓋預測的方式獲取,也沒有考慮習題難度特征,這些因素可能是導致推薦效果較差的原因。(2)MulOER-SAN的各項指標都比KCP-ER好,這與Ren等人[24]的研究結果相同。(3)在有效性和適應性兩個方面,ALPRM比所有基線的表現都好。
總之,技術對比實驗表明,融入領域知識特征的動態學習環境表征,使基于強化學習算法的自適應學習路徑推薦質量更高,表現出較優的性能。
表3? ? ? ? ? ?所有模型的實驗結果對比
五、自適應學習路徑推薦模型的應用研究
(一)實驗設計
為了驗證ALPRM的應用效果,本研究將模型中涉及的算法嵌入本團隊自主開發的自適應學習系統中。以太原市某高校軟件工程專業的3個班級(實驗一班50人,實驗二班51人,對照班51人)的大一新生為實驗對象,這些新生都沒有學習C語言的經歷。以“C程序設計”的前三章內容為教學內容,共持續6周,采用課上同一位教師講授,課下學習者使用自適應學習系統進行練習的教學模式。實驗一班的學習者使用基于ALPRM的系統推薦習題,實驗二班的學習者使用基于MulOER-SAN的系統推薦習題,對照班的學習者根據知識點概念自己選擇習題進行練習。學習6周后,3個班的學習者都參加1小時的小型測試。
(二)實驗結果分析
1. 整體學習成績分析
圖2? ?3個班級學習者學習成績總體分布箱線圖
因為3個班的學習者都沒有學習C語言的經歷,本研究認為實驗前學習者的學習成績并無顯著差異。圖2為3個班級學習者學習成績總體分布箱線圖,展示了全班學習者考試成績的總體數據分布情況。從中值來看,實驗一班為86分,實驗二班為81分,對照班為77分,實驗一班的學習者的總體成績優于其他兩個班;從IQR(箱體的長度)來看,實驗一班的成績分布范圍較大,意味著該班學習者的成績差異較大。實驗二班和對照班的成績分布相對集中,說明這兩個班的學習者成績比較集中。從離群點來看,實驗一班沒有觀察到異常值,實驗二班和對照班存在較多的低離群點。從箱線圖的中值、IQR和離群點指標可以看出,與其他兩個班相比,實驗一班的整體學習成績更好。
2. 案例分析
本研究還隨機選取實驗一班的一名學習者的自適應學習路徑進行了案例分析,該學習者的學習趨勢如圖3所示。在圖3中,橫軸(x軸)表示習題推薦的路徑,縱軸(y軸)表示準確率,空心點表示所有在系統中回答了這個習題的學習者的平均準確率,實心點表示該生在每個習題的作答情況,若回答正確,則y=1;若回答錯誤,則y=0。從圖中可以看到:(1)從空心點的變化趨勢來看,系統為學習者推薦的習題準確率大致呈現波浪式,當該生就某習題回答錯誤時,系統為學習者推薦準確率較高的習題,當學習者就某習題回答正確時,系統為學習者推薦的習題的準確率越來越低,這一可視化結果表明,系統可以根據學習者的作答情況,為學習者推薦準確率恰當的習題,即難度恰當的習題。(2)當某習題的平均準確率較高,學習者卻作答錯誤時,系統會再次為其推薦準確率相當的習題。若第二次回答依然錯誤,說明該習題是該生的薄弱知識點概念;若兩次都回答正確,則前一次錯誤可能是失誤等原因導致。(3)當某習題的平均準確率較低,學習者作答錯誤,則該題可能是學習者的難點。
總之,從學習者的自適應學習路徑案例分析來看,基于ALPRM的系統推薦習題能夠定位薄弱知識點概念,診斷學習難點,并能夠為學習者推薦恰當難度的習題。
圖3? ?自適應學習路徑案例分析圖
六、結? ?語
本研究提出了一種融合領域知識特征的自適應學習路徑推薦新模型,以解決利用強化學習推薦自適應學習路徑的研究中存在的動態學習環境表征不完整和推薦適應性不強等問題。具體來說,第一,將知識點概念覆蓋和難度兩個特征引入動態學習環境的建模中,然后利用深度學習算法計算動態學習環境的特征值。第二,對強化學習的各組件進行重新設計,并實現推薦。第三,對提出的新模型在實驗室環境和真實課堂開展實驗。實驗室環境中的技術對比實驗證明,該模型有較好的有效性和適應性。真實課堂應用實驗表明,該模型能夠準確定位薄弱知識點,可以推薦難度恰當的習題。本研究也存在一些不足,如在應用實驗中,沒有收集學習者的學習體驗數據,無法感知學習者在學習過程中的感受。未來,相關研究將繼續開展,進一步觀察學習者在自適應學習路徑推薦過程中學習動機、滿意度等方面的變化。
[參考文獻]
[1] 王磊.基于大數據的精準教學干預模型及應用研究[D].武漢:華中師范大學,2022.
[2] 熊余,張健,王盈,等.基于深度學習的演化知識追蹤模型[J].電化教育研究,2022,43(11):23-30.
[3] 鐘卓,鐘紹春,唐燁偉.人工智能支持下的智慧學習模型構建研究[J].電化教育研究,2021,42(12):71-78,85.
[4] 云岳,代歡,張育培,等.個性化學習路徑推薦綜述[J].軟件學報,2022,33(12):4590-4615.
[5] LIU Q, TONG S W, LIU C R, et al. Exploiting cognitive structure for adaptive learning[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2019: 627-635.
[6] WU Z Y, LI M, TANG Y, et al. Exercise recommendation based on knowledge concept prediction[J]. Knowledge-based systems, 2020, 210: 106481.
[7] JOSEPH L, ABRAHAM S, MANI B P, et al. Exploring the effectiveness of learning path recommendation based on Felder-Silverman learning style model: a learning analytics intervention approach[J]. Journal of educational computing research, 2022, 60(6): 1464-1489.
[8] 高嘉騏,劉千慧,黃文彬.基于知識圖譜的學習路徑自動生成研究[J].現代教育技術,2021,31(7):88-96.
[9] 吳正洋,湯庸,劉海.個性化學習推薦研究綜述[J].計算機科學與探索,2022,16(1):21-40.
[10] NABIZADEH A H, LEAL J P, RAFSANJANI H N, et al. Learning path personalization and recommendation methods: a survey of the state-of-the-art[J]. Expert systems with applications, 2020,159:113596.
[11] SHI D Q, WANG T, XING H, et al. A learning path recommendation model based on a multidimensional knowledge graph framework for e-learning[J]. Knowledge-based systems, 2020,195:105618.
[12] 姜強,趙蔚,李松,王朋嬌.大數據背景下的精準個性化學習路徑挖掘研究——基于AprioriAll的群體行為分析[J].電化教育研究,2018,39(2):45-52.
[13] ZHOU Y W, HUANG C Q, HU Q T, et al. Personalized learning full-path recommendation model based on LSTM neural networks[J]. Information sciences, 2018,444:135-152.
[14] HUANG Z Y, LIU Q, ZHAI C X, et al. Exploring multi-objective exercise recommendations in online education systems[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM,2019:1261-1270.
[15] 任維武,鄭方林,底曉強.基于強化學習的自適應學習路徑生成機制研究[J].現代遠距離教育,2020(6):88-96.
[16] ISLAM M Z, ALI R, HAIDER A, et al. Pakes: a reinforcement learning-based personalized adaptability knowledge extraction strategy for adaptive learning systems[J]. IEEE access, 2021,9:155123-155137.
[17] SUN Y, ZHUANG F Z, ZHU H S, et al. Cost-effective and interpretable job skill recommendation with deep reinforcement learning[C]//Proceedings of the Web Conference 2021. New York: ACM, 2021:3827-3838.
[18] 李建偉,武佳惠,姬艷麗.面向自適應學習的個性化學習路徑推薦[J].現代教育技術,2023,33(1):108-117.
[19] 金天成,竇亮,肖春蕓,等.記憶與認知融合的個性化OJ習題推薦方法[J].計算機學報,2023,46(1):103-124.
[20] LIN Y G, FENG S B, LIN F, et al. Adaptive course recommendation in MOOCs[J]. Knowledge-based systems, 2021,224:107085.
[21] GAN W B, SUN Y, SUN Y. Knowledge interaction enhanced sequential modeling for interpretable learner knowledge diagnosis in intelligent tutoring systems[J]. Neurocomputing, 2022,488:36-53.
[22] GAN W B, SUN Y, PENG X, et al. Modeling learner's dynamic knowledge construction procedure and cognitive item difficulty for knowledge tracing[J]. Applied intelligence, 2020,50:3894-3912.
[23] ZHANG Q X, WENG X Y, ZHOU G Y, et al. ARL: an adaptive reinforcement learning framework for complex question answering over knowledge base[J]. Information processing & management, 2022,59(3):102933
[24] REN Y M, LIANG K, SHANG Y H, et al. MulOER-SAN: 2-layer multi-objective framework for exercise recommendation with self-attention networks[J]. Knowledge-based systems, 2023,260:110117.
Adaptive Learning Path Recommendation Model for Dynamic Learning Environments
FAN Yunxia1,? DU Jiahui2,? ZHANG Jie3,? ZHUANG Zichao1,? LONG Taotao1,? TONG Mingwen1
(1.Faculty of Artificial Intelligence in Education, Central China Normal University, Wuhan Hubei? 430079; 2.School of Information Engineering, Shanxi College of Applied Science and Technology, Taiyuan Shanxi 030000; 3.School of Computer Science and Engineering, Hunan University of Information Technology, Changsha Hunan 410000)
[Abstract] Adaptive learning path, as a key technology to realize personalized learning, has received extensive attention from researchers. In recent years, reinforcement learning has become the mainstream method for adaptive learning path recommendation, but there are still deficiencies in the completeness of dynamic learning environment representation and the adaptability of learning path. Based on this, this paper proposes an adaptive learning path recommendation model that incorporates domain knowledge characteristics. Firstly, the model introduces the two features of the coverage of knowledge concepts and the difficulty into the dynamic learning environment to make the representation of the dynamic learning environment more complete. Secondly, a deep reinforcement learning algorithms is used to realize the recommendation of learning paths and improve the adaptability of learning paths. Finally, technology comparison experiment and application experiment are conducted. The technology comparison experiment demonstrates that the model improves the effectiveness and adaptability of the learning paths. The application experiment shows that the model can accurately identify the learners' weak knowledge concepts and recommend adaptive learning paths suitable for their cognitive characteristics.
[Keywords] Adaptive Learning Path; Reinforcement Learning; Domain Knowledge Characteristics; Coverage of Knowledge Concepts; Personalized Learning