孫建文 周建鵬 劉三女牙 何緋娟 唐 云
1(華中師范大學人工智能教育學部 武漢 430079) 2(教育大數據應用技術國家工程實驗室(華中師范大學) 武漢 430079) 3(西安交通大學城市學院計算機系 西安 710018) 4(華中師范大學心理學院 武漢 430079)
“利用現代技術加快推動人才培養模式改革,實現規模化教育與個性化培養的有機結合”是《中國教育現代化2035》的戰略任務之一.云計算、大數據、人工智能等技術的發展,正推動教育從數字化、網絡化向智能化加速躍升,智慧教育成為新一代技術環境下的教育信息化新范式[1],為突破個性化學習技術瓶頸,實現“因材施教”的千年夢想提供了歷史機遇.教育情境可計算、學習主體可理解、學習服務可定制是實現個性化學習面臨的三大挑戰[2],學習主體是教育系統的核心要素,對學習主體的精準洞察是開展“因材施教”的前提.認知追蹤(knowledge tracing, KT)作為一種數據驅動的學習主體建模技術,在大規模開放在線課程(massive open online courses, MOOC)、智能導學系統(intelligent tutoring system, ITS)等數字學習平臺蓬勃發展、海量學習過程數據爆發式增長等多重效應的加持下,成為近年國內外智能教育領域的研究熱點[3-8].
認知追蹤的思想源于美國著名心理學家Atkinson[9],1995年被美國卡耐基梅隆大學的Corbett等人[10]引入智能導學系統,并提出貝葉斯認知追蹤方法(Bayesian knowledge tracing, BKT),其任務是根據學生過去的答題記錄,對學生的知識掌握狀態進行建模,目標是預測學生答對下一道題目的概率.2015年,美國斯坦福大學的Piech等人[11]首次將深度神經網絡技術用于認知追蹤,提出一種基于循環神經網絡的深度認知追蹤方法(deep knowledge tracing, DKT),在模型預測性能上取得顯著提升.DKT的提出順應了人工智能的技術發展趨勢,吸引了多個領域學者的研究興趣,先后提出DKVMN[12],SKVMN[13],HMN[14],SAKT[15],KQN[16],GKT[17],AKT[18]等一系列新模型.縱觀認知追蹤的整個發展歷程,KT模型從技術上可分為3類[8]:基于概率的模型[10,19]、基于邏輯函數的模型[5,20-21]和基于深度學習的模型(以下稱之為深度認知追蹤模型)[11-12,15,17,22].深度學習具有強大的擬合非線性函數和特征提取能力,使其適合用于建模復雜的認知過程,相比于概率類和基于邏輯函數的模型往往具有更高的預測性能,尤其是對于海量數據集其優勢更加明顯[23].但目前大多數深度認知追蹤模型均采用具有“黑盒”性質的神經網絡技術進行建模,使其預測過程或結果的可解釋性較差,難以滿足教育領域強調歸因分析的需求.
近年來,深度認知追蹤模型缺乏可解釋性的問題開始受到研究者的重視.其中比較有代表性的工作是將注意力機制應用于認知追蹤以提升模型預測結果的可解釋性[15,18,22,24].其基本思想在于:學生的歷史答題記錄反映了當前答題表現,而不同歷史答題記錄對當前答題的影響是不同的;通過注意力機制使模型學習當前題目與歷史答題記錄的相關性權重,從而根據相關歷史記錄的題目信息以及答題情況為模型的預測結果提供一定的解釋.但是目前利用注意力機制的認知追蹤模型只關注當前題目與歷史記錄的淺層相關性信息,而忽略了當前題目與歷史題目之間的多語義深層關聯.由于這些模型僅引入題目-技能關系,只能將模型所學注意力權重歸因于題目在技能維度的相似性.然而,能夠反映當前題目答題表現的不僅僅是技能相同題目的答題記錄,還有其他類型的相似題目,如協同相似[25](即從學生-題目交互數據中挖掘的相似)、模板相似[25]、難度相似[26]等.
題目之間的深層語義關聯可從2個層面進行挖掘:1)在哪些語義維度具有關聯以及不同語義維度關聯強度如何;2)在特定語義維度由哪些元素進行關聯以及不同元素的作用如何.“語義”指衡量題目具有關聯的方面,如“具有相同技能的題目是有關聯的”和“具有相同難度的題目是有關聯的”屬于不同的語義.“元素”指在特定語義維度關聯題目的實體,如題目通過技能進行關聯,則技能被稱為元素,題目通過學生進行關聯,則學生被稱為元素.因此,為了建模當前題目與歷史答題記錄的相關性及其多語義深層關聯,提出了一種多層注意力網絡,包含記錄級注意力、語義級注意力和元素級注意力,如圖1所示(相比于其他基于注意力機制的認知追蹤模型,增加了語義級和元素級注意力).記錄級注意力通過歷史題目和當前題目的向量表示計算歷史記錄的相關性權重,然后按照權重綜合歷史記錄的答題信息對當前答題做預測.語義級注意力能夠計算不同語義維度對題目最終向量表示的重要性權重,并根據權重將不同類型的語義信息融合.元素級注意力旨在學習特定語義下不同元素反映題目特征的重要性權重,并按照權重將元素信息聚合到題目上.通過融合多層注意力,不僅可以得到哪些答題記錄對當前答題預測具有更高的權重信息,還能獲得在計算這些權重時哪些語義信息起到了更大的作用,以及在特定語義下哪些元素更能反映題目的特征.由此,可以結合多層注意力權重分布對模型完整的決策過程進行可視化分析與呈現,詳見3.5.1節決策過程分析.

Fig.1 Hierarchical attention structure of HAKT
本文提出一種基于多層注意力網絡的認知追蹤模型,能夠為模型的決策過程和預測結果提供解釋.具體地,1)將認知追蹤問題域中不同類型實體及其關系表示為異質圖,并從中抽取對應不同語義的二部圖;2)基于圖注意神經網絡[27]構建元素級注意力,學習不同二部圖中題目節點嵌入;3)利用語義級注意力將多種語義維度的題目嵌入融合成最終題目嵌入;4)基于自注意力機制[28]構建記錄級注意力,檢索并融合相關歷史答題信息,進而預測當前題目的答對概率.
本文貢獻主要體現在3個方面:
1)針對當前深度認知追蹤模型對預測結果普遍缺乏可解釋性或僅通過建模題目之間淺層關系提供解釋的問題,提出了一種通過多層注意力網絡挖掘題目多語義深層關聯信息的方法,能夠顯著提升模型對預測結果的可解釋性.
2)提出了評估認知追蹤模型預測結果是否具有可解釋性的基本思想,由此設計了提升模型可解釋性的損失函數以及預測結果可解釋性度量指標.
3)在多個基準數據集上進行了充分實驗,并與基于題目嵌入或注意力機制等相關的認知追蹤模型進行了比較分析,驗證了所提模型在預測性能上的有效性以及預測結果的可解釋性.
目前的深度認知追蹤模型主要包括DKT[11],DKVMN[12],SAKT[15]及其改進模型.DKT利用循環神經網絡來建模學生答題序列,并使用高維連續的隱向量表示認知狀態.但是,DKT僅使用題目對應的技能編號作為輸入,忽略了其他題目信息.EKT[22],DHKT[29],PEBG[30],GIKT[31],CoKT[25]等模型在DKT的基礎上擴展了題目嵌入模塊,利用題目文本信息或題目與學生、技能之間的交互信息增強題目表示.DKVMN基于記憶網絡建模學生答題序列,利用鍵、值矩陣分別表示題目的隱藏技能和技能的掌握狀態.針對DKVMN無法建模學習過程中長期依賴的問題,SKVMN[13]將LSTM與DKVMN結合,提出HOP-LSTM機制來解決.針對DKVMN僅使用單層記憶網絡的不足,HMN[14]引入層次記憶網絡分別建模工作記憶和長期記憶,并設計了相應的劃分機制和衰減機制.SAKT通過自注意力網絡建模學生答題序列,顯式地建模當前答題與歷史答題記錄的相關性.RKT[24]和AKT[18]分別通過引入題目文本信息、題目上下文信息等進一步改進了SAKT,并基于學到的注意力權重對預測結果進行解釋性分析.總的來說,當前大多數深度認知追蹤模型在預測性能上可取得較好的效果,但可解釋性普遍較低.
深度認知追蹤模型已然成為認知追蹤領域的研究熱點,其可解釋性研究則方興未艾.隨著可解釋性日益成為人工智能領域的研究熱點[32-33],認知追蹤領域也越來越關注模型的可解釋性研究,并形成初步成果.根據解釋的對象,可將相關研究分成2類:面向學生認知狀態的解釋和面向模型預測過程的解釋.面向認知狀態的解釋旨在顯式地建模認知狀態,即模型內部存在可理解的參數對應每個技能的掌握狀態(標量值).由于深度認知追蹤模型均使用隱向量表示認知狀態,而向量內部的參數難以解釋.為使深度認知追蹤模型輸出可理解的認知狀態,目前通常的做法是將其與經典的認知診斷模型結合(如IRT模型)[34-37],其主要方式是將深度模型的輸出作為IRT模型的輸入,進而利用IRT模型做預測.由于IRT模型的約束,深度模型的輸出可以對應IRT模型中可解釋的參數(比如可理解的認知狀態、學生能力、題目難度等).另外,一些研究者將深度模型已訓練好的答題預測模塊中的題目嵌入更換為技能嵌入并將對應題目嵌入的部分參數置零,由此將新的輸出視為技能的掌握狀態值[12,22].面向預測過程的解釋旨在解釋模型為什么做出這樣的預測.目前常用的方法主要是基于注意力機制的解釋,包括EKT[22],SAKT[15],RKT[24]和AKT[18]等.其共同點都是通過計算當前答題與歷史記錄的相關性,進而解釋模型在預測時關注哪些記錄.然而,這些模型僅建模題目之間的淺層關聯信息,忽略了題目之間的多語義深層關聯.本文所提模型除了運用自注意力機制建模答題序列,還引入了另外2層注意力機制建模題目之間的多語義深層關聯.其優點在于不僅能夠挖掘更深層的信息,而且使模型的整個預測過程都具備可解釋性.除此之外,也有研究者使用分層相關性傳播方法(LRP)對認知追蹤模型進行事后可解釋分析,計算模型輸出與輸入的相關性來解釋其預測結果[38].
由于注意力機制的有效性,其在涉及序列建模的任務中得到廣泛應用.其基本思想是:在預測輸出時,重點關注輸入的相關部分.因此,它在一定程度上為模型提供了可解釋性,因為人們可以通過模型所學權重理解模型在進行預測時更關注輸入數據的哪些部分.2017年,谷歌團隊提出的自注意力機制[28]更是成為目前大規模預訓練語言模型的基礎.研究者將注意力機制用于圖神經網絡提出了GAT[27],HAN[39]等圖表示學習模型,能夠學習不同鄰居節點對中心節點的重要性.
本節首先對認知追蹤問題進行形式化定義,介紹相關概念的符號表示,然后整體描述模型框架,最后依次介紹模型的各個組成模塊以及損失函數.
一方面,認知追蹤問題域中的多種實體及其關系組成了異質圖G=(E,R),其中E和R分別表示實體和關系集合.實體主要包括學生、題目以及題目的屬性標簽(即技能、模板等),關系主要為學生-題目和題目-屬性等.通過異質圖可以挖掘題目之間的多語義深層關聯.另一方面,一個學生的答題序列由若干時間步對應的答題記錄按照時序關系排列而成,時間步t的答題記錄可以表示為xt=(qt,at),qt表示題目編號而at表示答題正確性(0表示答錯,1表示答對).在引入題目多語義關聯后,認知追蹤任務可以被形式化表述為:已知異質圖G,當給定學生歷史答題序列X={x1,x2,…,xt-1}和當前題目qt,要求預測學生正確回答qt的概率,即P(at=1|G,X,qt).
本文提出基于多層注意力網絡的認知追蹤模型,包含元素級、語義級和記錄級3層注意力.圖2展示了模型的整體框架,包括題目嵌入模塊、知識檢索模塊和答題預測模塊.
1)題目嵌入模塊.首先,從異質圖G中抽取不同語義對應的二部圖并構建相應的鄰接矩陣;然后,通過可學習嵌入層為每個節點生成初始特征向量;接著,基于圖注意神經網絡分別構建不同語義維度的元素級注意力,學習不同元素的重要性權重,并按照所學權重將鄰居元素節點的特征向量聚合到題目節點得到題目嵌入.最后,利用語義級注意力學習不同語義對題目相關性計算的重要性權重,并融合不同語義維度的題目嵌入獲得最終題目嵌入.

Fig.2 The overall framework of HAKT
2)知識檢索模塊.基于自注意力機制構建記錄級注意力,顯式地建模當前題目與歷史記錄的相關性,并根據相關性權重融合不同歷史答題信息獲得學生狀態向量.
3)答題預測模塊.使用多層感知器(multilayer perception, MLP)建模題目嵌入和學生狀態向量的交互過程并預測當前題目的答對概率.
2.3.1 語義抽取
在異質圖中,題目間通過不同元素關聯隱含不同的語義信息,例如“題目-技能-題目”表示具有相同技能的題目.從異質圖中選取4種關系,每種關系對應一個二部圖,每個二部圖對應一個鄰接矩陣.




2.3.2 元素級注意力

(1)
其中,attnelem表示元素級注意力權重的具體計算過程.首先將中心節點i與其所有鄰居j的特征向量各自拼接并通過非線性變換求得權重值;然后通過softmax函數將其歸一化.其完整的計算過程為
(2)


(3)

2.3.3 語義級注意力
為了求得最終題目嵌入,需要將不同語義維度的題目嵌入進行融合.對于同一道題目,不同語義的重要性可能是不同的;對于不同的題目,相同語義的重要性也可能是不同的.由此,提出語義級注意力學習不同語義對特定題目的重要性.將元素級注意力所學不同語義維度的題目嵌入作為輸入,語義級注意力計算不同語義對題目i的歸一化權重:
(4)
其中,attnsem表示語義級注意力權重的具體計算過程.首先將不同語義維度的題目嵌入分別進行非線性變換;然后將變換后的題目嵌入與可學習注意力向量vsem的內積作為權重;最后利用softmax函數將其歸一化.語義Φj對題目i的權重的計算過程為


(5)

(6)
2.4.1 交互向量生成
通過題目嵌入模塊,可以獲得任意一道題目i的向量表示ei.對于第t個時間步的題目嵌入,記為et.為了融入答題情況at,將題目嵌入et與相同d維的零向量拼接,獲得交互向量xt∈2d:
(7)
相比于循環神經網絡,自注意力機制在序列建模中具有更好的靈活性和有效性,且模型內部生成的注意力權重可以為模型預測結果的解釋提供基礎.因此,與SAKT[15]一樣,本文使用自注意力機制建模學生的答題序列.為了將答題交互的相對位置信息編碼進模型,定義位置嵌入矩陣P∈l×2d來引入答題序列的位置信息,l為最大序列長度.在加入位置信息后,交互向量表示為表示位置嵌入矩陣中第t行,即第t個時間步的位置嵌入.
2.4.2 記錄級注意力

(8)
其中,WQ∈d×d和WK∈2d×d分別是自注意力機制中query和key的映射矩陣.
最后,將歷史交互向量按照注意力權重加權求和,得到記錄級注意力模塊的輸出向量ot∈d,即與當前答題相關的學生狀態向量:
(9)
其中,WV∈d×d是自注意力機制中value的映射矩陣.
2.4.3 前饋層
為了進一步增強特征的交互能力和模型的擬合能力,將記錄級注意力的輸出通過point-wise前饋層進行非線性變換.前饋層由2個線性變換組成,中間包含ReLU激活函數,其計算過程為
ht=W(2)ReLU(W(1)ot+b(1))+b(2),
(10)
其中,W(1)∈d×d和W(2)∈d×d為可學習權重矩陣,b(1)∈d和b(2)∈d為可學習偏差向量.
預測模塊擬合知識檢索模塊的輸出向量ht與題目嵌入et之間的交互函數,預測學生正確回答當前題目的概率.使用多層感知器(MLP)實現:

(11)
(12)
其中,l表示多層感知器的第l∈{1,2,…,L-1}層,W(l)∈d×d和b(l)∈d分別是第l層的權重矩陣和偏差向量,yt是預測概率.
盡管在基于注意力機制的認知追蹤模型中,相關性權重可以為預測結果的解釋提供基礎,但是有權重并不意味著一定能夠產生易于人們理解的解釋過程.例如,如果模型賦予權重較大的幾個歷史記錄的答題情況都是錯誤(正確)的,但是模型卻預測當前題目會答對(答錯),那么所學權重就很難對預測結果形成合理的解釋.由此本文提出評估預測結果是否具有可解釋性的基本思想:模型預測結果與其所關注歷史記錄的真實答題結果的一致性反映了預測結果的可解釋性.

(13)
(14)
(15)

本節首先對實驗所用數據集、對比模型和評價指標等進行介紹,然后對各模型預測性能進行對比分析,最后對模型可解釋性分別進行定性和定量分析.
本文在認知追蹤領域6個常用的數據集上進行實驗,分別是ASSIST09,ASSIST12,ASSIST17,EdNet,Statics2011和Eedi.ASSIST系列數據集是由ASSISTments在線輔導平臺收集,其中ASSIST09是目前認知追蹤領域最常用的基準數據集;Statics2011收集于某大學靜力學課程的輔導系統;EdNet是由在線輔導平臺Santa自2017至2019年收集的數據集;Eedi是NeurIPS2020教育數據挖掘挑戰賽使用的數據集,由在線教育平臺Eedi自2018至2020年收集.
參照現有研究工作,本文對數據集進行預處理:由于ASSIST12,EdNet和Eedi數據集太大,從中隨機抽取5 000名學生的數據進行實驗[31].對于ASSIST系列數據集,刪除腳手架問題關聯的記錄[40].對于所有數據集,刪除技能標簽為空的記錄[18].對于以技能編號而不是題目編號為輸入的模型(即DKT,DKVMN和SAKT),將一道題目的多個技能組合成一個新技能作為輸入[40].對于Statics2011,將原題目編號和步驟編號合成新的題目編號作為輸入,且對同一題目連續多次作答的情況只保留第一次作答記錄.將80%的答題序列作為訓練集,其余20%作為測試集[31].最后,從測試集中刪除訓練集中未出現題目的相關記錄.預處理后數據集的統計信息如表1所示.加載數據時,刪除長度小于3的答題序列;同時考慮到運行效率問題,將長度超過200的答題序列拆分成多個長度為3~200的序列[18].

Table1 Summary Statistics of Processed Datasets
由于本文所提模型結合題目嵌入和注意力機制,因此為了驗證模型在預測性能和可解釋性方面的有效性,本文從3方面選取對比模型:經典類模型(DKT[11],DKVMN[12])、題目嵌入類模型(DHKT[29],PEBG[30],GIKT[31])和注意力類模型(SAKT[15],AKT[18]).其中,DKT和DKVMN分別使用循環神經網絡和鍵值記憶網絡建模學生序列,是深度認知追蹤方向目前最常用的2個基準模型,其均以題目對應的技能編號作為輸入.DHKT,PEBG和GIKT是目前預測性能較好的基于題目嵌入的深度認知追蹤模型,均以題目-技能關系挖掘題目相似性并學習題目嵌入,再結合DKT或DKVMN做預測.SAKT和AKT均基于自注意力機制,SAKT使用技能編號作為輸入,AKT以題目編號作為輸入并結合Rasch模型和答題序列的上下文信息學習題目嵌入.SAKT和AKT均只有記錄級注意力,本文模型則進一步擴展了語義級注意力和元素級注意力,用于建模多語義深層關聯以增強模型可解釋性.除了上述對比模型,本文還將輸入技能編號的DKT,DKVMN和SAKT分別拓展為輸入題目編號的DKT-Q,DKVMN-Q和SAKT-Q.DKT-Q與DKT的不同之處僅在于輸入部分由獨熱編碼換成可學習嵌入層,而DKVMN-Q和SAKT-Q在結構上未作改動.
3.2.1 預測性能評價指標
認知追蹤任務可以看成是一個二值分類問題,即預測題目回答的正確性(正確或錯誤).因此,參照絕大多數現有研究工作,本文使用AUC作為衡量模型預測性能的指標.
3.2.2 可解釋性評價指標
為了進一步量化模型的可解釋性,基于2.6節關于預測結果可解釋性評估的基本思想,提出可解釋性度量指標:保真度(Fidelity).保真度指可解釋模型在輸出結果上多大程度上與復雜模型相近,被廣泛用于度量機器學習模型的可解釋性[33,41].首先定義可解釋的預測結果:對于時間步t的預測,若模型預測結果yt與歷史答題情況的加權值st的差距小于等于指定閾值θ,則認為該預測結果是可解釋的,否則認為不可解釋.進一步定義保真度:在所有的預測結果中,可解釋的預測結果所占的比例.因此,保真度的計算:
(16)
其中,n表示總預測次數,即測試集中所有序列長度之和.Fidelity越大,表明模型可解釋性越好.
對于對比模型:PEBG(1)https://github.com/lyf-1/PEBG和GIKT(2)https://github.com/Rimoku/GIKT的官方代碼均從網上獲取,其余模型代碼根據其論文描述進行復現.其中,PEBG公開代碼中在計算題目屬性值時使用了測試集數據,存在數據泄露的問題,因此在本文中使用修正后的版本.所有對比模型的超參數或者采用其論文中的最佳設置,或者在驗證集(訓練集的10%)上進行最優超參數搜索.本文模型HAKT(3)https://github.com/john1226966735/HAKT部分超參數設置為:題目嵌入模塊中,題目嵌入維度為128,圖注意力網絡的注意力頭數目為4;知識檢索模塊中,知識狀態向量維度為128,自注意力網絡的注意力頭數目為8;答題預測模塊中,多層感知機層數為2、中間層維度為128;在模型訓練階段,學習率設為0.001,批大小batchsize=32.其余超參數(包括解釋性正則化項權衡因子λ)在不同數據集取值不一,均通過超參數搜索確定.另外,2.3.1節中介紹的4種語義(Uc,Uw,S,T)并非全部用于實驗.由于數據集特征(如除了ASSIST09和ASSIST12,其他數據集不包含“模板”特征,對應語義T)以及數據分布差異,其對應的最佳語義組合是不同的.通過實驗確定每個數據集的最佳語義組合為ASSIST09和ASSIST12:S&T,其余數據集:Uc&Uw&S.
表2展示了各個模型在6個數據集上的AUC值(取5次重復實驗的均值).分析表2數據可得:
1)對比以技能編號為輸入的模型DKT,DKVMN,SAKT及其對應的以題目編號為輸入的變體模型DKT-Q,DKVMN-Q,SAKT-Q發現,僅輸入題目編號或僅輸入技能編號的模型均不能穩定地占有優勢.以DKT和DKT-Q為例,在ASSIST17,EdNet和Statics2011這3個數據集上,DKT-Q顯著優于DKT,而在其他3個數據集上則相反.其原因是這3個數據集中題目的平均交互次數明顯更少(參照表1),表明學生-題目的交互數據很稀疏,從而導致以題目編號為輸入的DKT-Q表現更差.

Table 2 Prediction Performance on 6 Datasets
2)通過題目-技能關系同時引入題目和技能信息的模型(即DHKT,PEBG,GIKT,AKT和HAKT)總體上比上述僅使用技能信息或僅使用題目信息的模型預測性能更好.以DKT,DKT-Q和DHKT為例,DHKT在6個數據集上的AUC均值分別比DKT和DKT-Q高3.3個百分點和3.1個百分點.這說明,通過同時引入題目和技能信息,保留題目之間的差異性和相似性,能夠使模型的預測更準確.
3)本文模型HAKT在SAKT的基礎上擴展題目嵌入模塊,相比SAKT取得了顯著的提升,并且總體上也略優于其他基于題目嵌入的模型,尤其是DHKT和PEBG.這表明,相比于后者單純引入技能維度關聯,HAKT通過引入題目的多語義關聯使得模型可以更準確地挖掘題目之間的語義關系,從而學到更優的題目嵌入.在ASSIST09和ASSIST12數據集上HAKT表現最佳,其他數據集上與最優模型的差距約0.5個百分點,這說明HAKT在提升模型可解釋性的同時也具有較高的預測性能.
4)本文實現的SAKT在所有數據集上預測性能均低于DKT,這一結果與AKT[18]一文中的結果一致.其可能的原因是,一方面認知追蹤領域的數據量較小,另一方面該領域數據集中相似題目往往依次出現,使得題目之間的依賴距離較短.因此,自注意力機制無法發揮其特有的優勢.同樣,相比于DHKT和GIKT主要基于循環神經網絡,HAKT完全基于自注意力機制,這可能也是HAKT在部分數據集預測性能略低于兩者的原因.
3.5.1 決策過程分析
HAKT能夠通過其內部計算的注意力權重分布對預測過程和結果提供可解釋性分析.相比基于單層注意力機制的模型(如EKT,RKT,AKT等),HAKT整合多層注意力的權重分布能夠生成更精確、完整的模型決策過程.具體地,HAKT不僅能檢索出哪些歷史題目與當前題目關聯,還能得到它們是如何進行關聯的.通過案例來分析HAKT的可解釋性.
從測試集中隨機選擇一名學生(記為u1),圖3對模型預測學生回答第20道題目(即q20)時生成的多層注意力權重分布以及題目之間的關聯圖進行可視化.為了方便展示,僅呈現權重較大的部分歷史題目(即q18和q19)及權重較大的部分相關語義(S表示技能維度,Uc表示學生維度)和元素(如s1和u1等).分析圖3得:
1)根據記錄級注意力權重分布,模型在預測當前答題時q18和q19被賦予最大的權重且其真實答題情況均為“正確”;模型預測當前答題正確的概率為0.75(即答對概率較高).這說明模型當前預測結果與權重較大的歷史記錄的答題情況一致,即模型能從歷史記錄中找到與當前答題相關的記錄,并綜合歷史答題情況對當前答題做預測.
2)盡管通過記錄級注意力能夠檢索出哪些歷史記錄對當前答題影響更大,但是這些歷史題目與當前題目是如何進行關聯的無法得知.進一步,通過語義級注意力權重分布可知,對于相關歷史題目q19,語義Uc的權重較大.這說明它們的關聯主要源于其具有相似的答題交互記錄.那么與哪些學生的交互體現了它們的關聯呢?通過元素級注意力權重分布可知,學生u3和u4的權重較大,這說明由于這些學生均答對了q19和q20,使得模型認為這2道題目具有關聯.
3)由此,綜合3層注意力可得模型預測當前答題的決策過程,可由圖3中實線呈現,同時實線部分也表明了歷史記錄與當前題目的語義關聯:由于當前題目與歷史題目q19具有相似的交互記錄且與q18具有相同的技能,且q18和q19均回答正確,因此模型預測當前題目答對的概率較高.

Fig.3 Visualization of model’s decision process
此外,為了驗證模型在決策可解釋性方面的可靠性,本文進一步探究:在所有答題預測中,權重較大的歷史記錄與當前題目存在語義關聯的比例有多大?首先,定義題目的語義關聯性:若2道題目至少在一個語義層面具有相同的元素,則它們具有語義關聯性,即關聯性標簽為1,否則關聯性標簽為0.然后,定義單次預測中較大權重歷史記錄與當前題目是否具有相關性:若權重最大的前k個歷史記錄中至少有一個與當前預測題目具有語義關聯性,則當次預測命中相關題目,記為1,否則為0;最后,計算命中相關題目的預測數占所有預測數的比例(命中率).以ASSIST09數據集為例,所選語義組合為S&T,即技能維度和模板維度.取k=3,命中率為90.5%(若隨機選擇3個歷史記錄則命中率為43.7%),即在90%以上的預測中,模型賦予權重最大的3個歷史記錄,至少有1個歷史記錄與當前預測題目有顯式的語義關聯(即有相同技能或相同模板).因此,HAKT不僅能夠捕獲題目之間的相關性,并且對模型決策過程的解釋具有較高的可靠性.
3.5.2 一致性分析
為了進一步驗證案例分析中的觀察(即:模型當前的預測結果與相關性權重較大的歷史記錄的答題情況具有更高的一致性),對模型預測值和歷史相關題目答題結果進行一致性分析.參考EKT[22]:
1)對于某個學生在某一時間步的預測,首先計算歷史答題記錄對應的注意力權重,然后將這些答題記錄按照注意力權重大小等分成高、中、低3組,最后將每一組的答題得分(正確為1,錯誤為0)各自按照注意力權重進行加權求和.
2)對于每一組,計算該學生所有時間步對應的加權求和值與模型預測值之間的根均方差(表示在考慮當前題目的情況下歷史答題情況與當前預測值的一致性).
3)將所有學生對應的根均方差以散點圖和盒式圖的形式展示出來,如圖4所示.從圖4中可以看出,在所有數據集中,高注意力權重組對應的根均方差均值明顯小于其他組(即其答題情況與預測結果的一致性最好),且中注意力權重組對應的根均方差均值同樣明顯小于低注意力權重組.

Fig.4 Analysis of the consistency between historical answers and predicted probability

Fig.5 Variation of fidelity of each model with interpretability threshold
進一步,采用雙樣本T檢驗對3組的差距進行顯著性分析.對高、中組和中、低組分別進行檢驗分析得p值均遠遠小于顯著性基準值0.01,說明3組的差距是顯著的.這一發現表明,從統計意義上來說相關權重更大的歷史答題與模型當前的預測結果具有更高的一致性.這說明不同歷史記錄對當前答題預測的影響是不一樣的,所以引入注意力機制能有效利用這一規律,從而提升模型的預測性能和可解釋性.
3.5.3 可解釋性度量
為了進一步評估和對比各模型對于預測結果的可解釋性,在所有數據集上實驗并繪制模型保真度隨可解釋性閾值θ的變化曲線,如圖5所示.其中,HAKT(λ)表示解釋性正則化項中權衡因子為λ的模型,HAKT(0)則表示無解釋性正則化項的版本;SAKT和AKT是對比模型.從圖5中可看到:
1)在其中4個數據集上,HAKT(0)的保真度均高于SAKT和AKT,說明在不加解釋性正則化項的情況下,本文所提模型通過建模題目的多語義關聯一定程度上提升了模型的可解釋性.
2)當加入解釋性正則化項且權衡因子λ增大時,保真度也隨之明顯上升,這說明引入解釋性正則化項顯著提升了模型對預測結果的可解釋性.注意到AKT的保真度總體上較低,潛在原因是AKT相比SAKT和HAKT具有更深的自注意力層和更復雜的結構,由此降低了可解釋性.
為了進一步觀察HAKT中權衡因子λ如何影響預測性能和可解釋性,將不同λ值(固定θ=0.20)對應的AUC和保真度以散點圖的形式呈現(如圖6所示).從圖6中可以觀察到:總體上看,隨著λ增大,AUC減小而保真度增大.以ASSIST09數據集為例,當λ從0增大到0.3時,AUC從79.02%降至78.81%(下降0.2個百分點),而保真度從89.71%升至95.52%(上升5.71個百分點).這說明模型可解釋性與預測性能難以同時提升,兩者需要平衡.HAKT可以通過改變權衡因子調控模型的預測性能和可解釋性,在模型預測性能略有下降的情況下,顯著提升其可解釋性.
在本文所用數據集中,同時考慮模型預測性能和可解釋性的情況下,權衡因子λ的較優取值處于0.05~0.2之間,此時預測性能略有下降而保真度有較明顯的提升.

Fig.6 The impact of trade-off factor λ on predictive performance and interpretability
針對現有深度認知追蹤模型對預測結果普遍缺乏可解釋性或者部分模型僅建模題目之間淺層關系的不足,本文提出一種基于多層注意力網絡挖掘題目多語義關聯的認知追蹤模型,進一步提升了模型的預測性能和可解釋性.在損失函數中引入解釋性正則化項及權衡因子,在預測性能略有下降的情況下明顯提升了其可解釋性.設計了評估模型預測結果可解釋性的量化指標.在6個領域基準數據集上進行了預測性能對比實驗和可解釋性分析,驗證了本文所提模型同時具有較高的預測性能和可解釋性.
深度認知追蹤是當前國內外智能教育領域的研究熱點之一,可有效支撐學習者建模、學習路徑規劃、學習資源適配等個性化服務.未來,人工智能技術的持續、快速發展,不斷為深度認知追蹤方法創新提供新的動能.比如旨在突破人工智能非線性瓶頸的下一代人工智能——精準智能[42],為處理復雜對象可解釋性、泛化性與可復現性等難題提供了可能,也為進一步改進深度認知追蹤技術帶來新的機遇.
作者貢獻聲明:孫建文提出研究問題,設計研究框架,撰寫和修改論文,管理研究過程;周建鵬主要負責數據處理、形式化建模、實驗設計分析與論文起草;劉三女牙主要提供研究思路與方法指導;何緋娟主要提供研究經費支持,完善研究思路與框架,指導論文修改等;唐云主要提供文獻調研、認知建模理論與實驗結果分析等指導性支持.