基于閱讀認知診斷的學生表現(xiàn)預測

2022-06-09 11:58:46江培超胡富珍王曉東

計算機工程與應用 2022年11期

江培超，王川，胡富珍，李奇，王曉東

1.河南師范大學計算機與信息工程學院，河南新鄉(xiāng) 453007

2.河南師范大學教育學部，河南新鄉(xiāng) 453007

近年來，在線教育平臺的發(fā)展為學生的自主學習與個性化導學提供了重要手段。例如，大規(guī)模在線開放課程（massive open online course）[1]、智能教輔系統(tǒng)（intelligent tutoring system）[2]以及移動自主學堂（mobile autonomous school）[3-4]。其中，這些平臺的關(guān)鍵任務之一是預測學生表現(xiàn)（predicting student performance，PSP）。

一般地，PSP任務旨在評估學生在一系列試題上的得分情況，即預測學生是否可以正確作答相應試題（答對為1，答錯為0）[5]。它可被進一步推廣到多種教育應用中，例如個性化試題推薦[6]、教學計劃提升等[7-8]。

教育心理學中的認知診斷方法（cognitive diagnosis）利用學生在某些試題上的作答記錄對其知識狀態(tài)（如知識點掌握程度）進行評估，通過結(jié)合評估結(jié)果與教育先驗知識（如試題-知識點矩陣Q）[9]預測學生的試題得分。顯然，認知診斷方法使得預測結(jié)果具備了良好的解釋性。然而，由于學生的知識狀態(tài)具有一定的隱蔽性[10]，因此僅通過學生的作答記錄對其進行推斷可能存在誤差，從而難以保證預測結(jié)果的準確性。推薦系統(tǒng)中的協(xié)同過濾方法也可用于預測學生表現(xiàn)，例如k近鄰算法（knearest neighbor，kNN）[11]、矩陣分解（matrix factorization）[12]。其中，矩陣分解是一種典型的預測技術(shù)，它將學生的得分矩陣分解成學生與試題的潛在特征向量。但是，由于分解的潛在向量難以理解，導致預測結(jié)果的可解釋性較弱，即不能清晰地描述出潛在向量中的元素與特定知識點的對應關(guān)系。此外，無論是認知診斷方法還是協(xié)同過濾方法，它們在預測學生表現(xiàn)時僅考慮了學生的試題作答記錄，然而在實際場景中，某些試題作答記錄的獲取是不現(xiàn)實的。例如，在某些標準化測試中，諸如重要的托福（TOEFL）、雅思（IELTS）考試與一般的期中、期末考試，由于測試開始之前無法提供學生的試題作答記錄，使得上述方法難以預測學生的試題表現(xiàn)?？偨Y(jié)起來，現(xiàn)有方法在預測學生表現(xiàn)時主要存在如下問題。首先，預測結(jié)果的準確性與可解釋性難以同時保證[6，13]。其次，受限于某些真實場景，導致無法預先獲取學生的試題作答結(jié)果。因此，在沒有學生作答記錄的情況下，現(xiàn)有方法難以預測學生表現(xiàn)。

實際上，學生在作答試題之前，通常會選擇性地閱讀一些具有輔助性質(zhì)的文本類學習材料，來鞏固自身的知識狀態(tài)（彌補自身對某些知識點掌握的不足），從而提高其作答表現(xiàn)。由于不同學生自身固有的知識水平不同，使得其所閱讀學習材料的內(nèi)容（閱讀內(nèi)容）也不盡相同。因此，學生的閱讀內(nèi)容往往表達了他們對不同知識點的掌握與需求程度，從而反映出自身的知識狀態(tài)，即所提閱讀認知診斷（reading cognitive diagnosis）。為了更好地說明，圖1展示了一個閱讀認知診斷的形象例子。學生在作答試題之前，閱讀了一些與試題所考察特定知識點相關(guān)的學習材料（學習材料L1、L2、L3），由于這些學習材料與試題之間具有較強的關(guān)聯(lián)性（兩者同時考察了知識點K1、K2、K3），那么學生在閱讀學習材料后可能會對特定知識點具備一定的熟練程度（對知識點K1、K2、K3的掌握程度），從而達到提升作答表現(xiàn)的目的（提高了試題E2、E3得分）。因此，閱讀認知診斷可以反映出學生的知識狀態(tài)，有助于預測學生表現(xiàn)。表1給出了一個學習材料示例。

圖1 閱讀認知診斷示例Fig.1 Example of reading cognitive diagnosis

表1 學習材料示例Table 1 Example of learning material

為了提高預測結(jié)果的準確性與可解釋性，本文以閱讀認知診斷的方式，建模學生知識狀態(tài)，預測學生表現(xiàn)，在此過程中面臨著如下問題。首先，準確建模學生的知識狀態(tài)是有效預測學生表現(xiàn)的前提。通常，學生閱讀學習材料后會對其產(chǎn)生一個潛在的認知程度[14-15]，潛在認知程度的不同可能會導致他們具有不同的知識狀態(tài)。因此，如何量化學生對學習材料的潛在認知程度？其次，學習材料的難度可能會影響學生對特定知識點的掌握程度[16-17]，從而影響其知識狀態(tài)。因此，如何對學習材料的難度進行量化？最后，如何基于閱讀認知診斷建模學生知識狀態(tài)，得到堪用的學生表現(xiàn)預測結(jié)果？

為了解決這些問題，本文提出一種基于閱讀認知診斷的知識狀態(tài)建模方法（reading cognitive diagnosis，記為ReadingCD），預測學生表現(xiàn)。首先，利用學生的閱讀內(nèi)容，量化出學生對學習材料的潛在認知程度。其次，通過結(jié)合教育學假設，量化得到學習材料相對于每個學生的難度。然后，利用上述兩個量化結(jié)果，計算出學生對每個學習材料的實際掌握程度。在此基礎上，根據(jù)教育先驗知識（學習材料與知識點之間的關(guān)聯(lián)）評估學生對每個知識點的掌握程度，作為學生知識狀態(tài)的建模結(jié)果，據(jù)此預測學生表現(xiàn)。因此，本文的主要貢獻為：（1）提出了一種關(guān)于學習材料潛在認知程度的量化方法，該方法可以有效應用于學生的知識狀態(tài)建模；（2）提出了一種關(guān)于學習材料難度的量化方法，該方法結(jié)合合理的教育學假設，更為準確地刻畫了學生的知識狀態(tài)；（3）設計了一種知識狀態(tài)建模方法ReadingCD并用其預測學生表現(xiàn)。實驗證明，該方法提高了預測結(jié)果的準確性與可解釋性。同時，可以預測學生在無作答記錄情況下的試題得分，一定程度上緩解了目前方法在實際應用中的局限性。

1 相關(guān)研究

1.1 認知診斷

教育心理學中的認知診斷方法可以發(fā)現(xiàn)學生的知識狀態(tài)，進而預測學生表現(xiàn)[18]。通常，傳統(tǒng)的認知診斷模型可被分為兩類：連續(xù)型與離散型。其中，項目反應理論（item response theory，IRT）是一種典型的連續(xù)型模型，它通過邏輯函數(shù)將每個學生的知識狀態(tài)刻畫為一個連續(xù)的數(shù)值變量[16]，用以描述學生的綜合知識能力。相較而言，DINA模型（deterministic inputs，noisyand gate）作為一種離散模型，將學生的知識狀態(tài)表示為一個二值向量[9]，表示學生是否掌握了Q矩陣中的知識點（掌握為1，未掌握為0）。雖然認知診斷方法的可解釋性較強，但得到的預測結(jié)果通常不夠準確[6，13]。為了提高預測的有效性，相關(guān)學者對認知診斷模型進行了改進。例如，文獻[19]與文獻[20]在模型中融入了時間因素。文獻[13]提出了FuzzyCDF以預測學生在主觀試題與客觀試題上的表現(xiàn)。文獻[21]提出了結(jié)合神經(jīng)網(wǎng)絡的NeuralCD，用以學習學生與試題之間的復雜關(guān)系。

1.2 協(xié)同過濾

近年來，研究者嘗試使用推薦系統(tǒng)中的協(xié)同過濾方法預測學生表現(xiàn)，它可以分為兩類：基于近鄰的協(xié)同過濾與基于模型的協(xié)同過濾。其中，基于近鄰的協(xié)同過濾[11]根據(jù)學生的試題作答記錄計算學生之間的相似度，據(jù)此找到目標學生的相似學生群組，通過利用相似群組中學生的試題得分，對目標學生進行得分預測?；谀Ｐ偷膮f(xié)同過濾，如矩陣分解，已被廣泛應用于學生表現(xiàn)預測中。例如，文獻[22]改進奇異值分解方法（singular value decomposition），通過得分矩陣來獲得學生與試題的潛在特征向量。文獻[12]將矩陣分解與傳統(tǒng)回歸方法在學生表現(xiàn)預測中進行比較。隨后，文獻[23]提出一種用于智能教輔系統(tǒng)中學生建模的多維關(guān)系分解方法（multi-relational factorization）。此外，文獻[24]應用非負矩陣分解方法（nonnegative matrix factorization，NMF）[25]推斷Q矩陣。為了捕捉學生的答題過程，相關(guān)學者考慮了一些額外因素。例如，文獻[26]提出一種通過增加額外時間因素的張量分解方法。文獻[27]注意到學習曲線理論（learning curve theory）與遺忘曲線理論（forgetting curve theory）對學生表現(xiàn)的影響，將二者納入統(tǒng)一的概率框架。雖然矩陣分解技術(shù)一定程度上提高了預測結(jié)果的準確性，但是，由其推斷出潛在特征向量的每個維度不能與特定的知識點相關(guān)聯(lián)，導致學生表現(xiàn)預測結(jié)果的可解釋性較弱。

此外，認知診斷方法與協(xié)同過濾方法預測時大多利用了學生的試題作答記錄，因此難以預測無作答記錄的學生在試題上的得分，這使得目前方法在實際應用中具有一定的局限性。

2 問題定義

針對具體工作，給出知識狀態(tài)建模方法ReadingCD的問題定義。一方面，給定學生集合S={S1,S2,…,SU}，試題集合E={E1,E2,…,EV}，知識點集合K={K1,K2,…,K D}，學習材料集合L={L1,L2,…,L N}。另一方面，給定學生的作答記錄R=[r uv]U×V，其中r uv=0表示學生S u答錯試題E v，r uv=1表示學生S u答對試題E v；試題-知識點矩陣Q=[q vd]V×D（由專家標記），其中q vd=0表示試題E v未關(guān)聯(lián)知識點K d，q vd=1表示試題E v關(guān)聯(lián)了知識點K d；學習材料-知識點矩陣M=[mnd]N×D（由專家標記），其中mnd=0表示學習材料L n未關(guān)聯(lián)知識點K d，mnd=1表示學習材料L n關(guān)聯(lián)了知識點Kd。此外，給定閱讀記錄C u={L ui|i∈1,2,…,N}，其中L ui表示學生S u閱讀過的學習材料L i。值得注意地，矩陣M作為一種教育先驗知識，可以反映出學習材料與知識點之間的關(guān)聯(lián)。

定義1給定學生的閱讀記錄C、試題-知識點矩陣Q與學習材料-知識點矩陣M，本文目標為通過建模學生的知識狀態(tài)，預測其試題得分。

3 閱讀認知診斷模型構(gòu)建

此部分將詳細介紹ReadingCD的構(gòu)建方法。如圖2所示，ReadingCD由四個部分組成，自上而下分別是學生對學習材料的實際掌握程度、學生對知識點的掌握程度、學生的試題掌握程度以及預測得到的試題得分。其中，每一步的計算將在以下部分中分別闡述。為了更好地說明，表2列出了建模過程中的一些重要數(shù)學符號及對應描述。

表2 ReadingCD的相關(guān)符號及對應描述Table 2 Symbols and descriptions of ReadingCD

圖2 ReadingCD的結(jié)構(gòu)Fig.2 Structure of ReadingCD

3.1 學習材料實際掌握程度計算

合理建模學生的知識狀態(tài)是有效預測學生表現(xiàn)的前提。一般來說，學生閱讀學習材料的目的是為了鞏固自身的知識狀態(tài)，即彌補其在某些知識點掌握上的不足。因此，學生對其閱讀學習材料的實際掌握程度，往往可以體現(xiàn)自身知識狀態(tài)的鞏固效果。例如，學生對其閱讀某一學習材料（如《牛頓第二定律》）的實際掌握程度較高，那么該生對此學習材料所關(guān)聯(lián)知識點（即加速度、作用力、質(zhì)量）的掌握程度可能較高，因此可以達到鞏固知識狀態(tài)的目的。為此，計算學生對學習材料的實際掌握程度，以此作為知識狀態(tài)建模的基礎。

從心理學角度來說，每一個用戶都有一個高階的潛在特質(zhì)（用戶對項目的潛在認知程度）[14-15]，同時，每一個項目也具備了自然屬性（項目難度）[16-17]，兩者共同影響著用戶對項目的理解程度。根據(jù)上述思想，將用戶類比為學生，項目類比為學習材料，認為學生對學習材料的實際掌握程度，一方面取決于學生對學習材料的潛在認知程度，另一方面也依賴于學習材料的難度。為此，依循文獻[15]在項目反應理論中采用的邏輯斯蒂模型，將學生S u對學習材料L n的實際掌握程度a un定義為：

根據(jù)經(jīng)驗，將εun的歸一化范圍設置為[-3，3]，如式（3）所示：

其中，εmax與εmin分別表示ε中的最大值與最小值。學生對學習材料的潛在認知程度θ與學習材料難度b的量化分別在3.1.1小節(jié)與3.1.2小節(jié)中詳細闡述。

3.1.1 學習材料潛在認知程度量化

通常，學生會選擇性地閱讀一些學習材料，在閱讀過程中，他們往往會花費一定的時間與精力對這些學習材料進行學習與研究，以鞏固自身的知識狀態(tài)。因此，學生閱讀學習材料的內(nèi)容中，往往隱含著大量學生對學習材料的潛在認知信息。為此，考慮利用學生閱讀學習材料的內(nèi)容，量化其對學習材料的潛在認知程度。

一般來說，可利用學生的閱讀內(nèi)容構(gòu)建關(guān)鍵詞向量模型對學生形式化表示。然后計算學生與學習材料之間的相似度，用其表示學生對學習材料的潛在認知程度。但是，僅通過構(gòu)建關(guān)鍵詞向量模型不足以反映出學生對學習材料的潛在認知信息。例如，學生將對與其關(guān)鍵詞向量相似的學習材料具備較高的潛在認知程度，而對與其關(guān)鍵詞向量迥異的學習材料具備較低的潛在認知程度，甚至為0，這是不合理的?，F(xiàn)實場景中，學生可能會對與其閱讀內(nèi)容相關(guān)的學習材料具備較高的潛在認知程度，即對具有相似主題的學習材料具備較高的潛在認知程度。例如，學習材料（如《牛頓第二定律》）與學習材料（如《描述物體運動變化的快慢：加速度》）之間在內(nèi)容上具有一定的相關(guān)性，但卻沒有較多相同的關(guān)鍵詞。為此，利用學生的閱讀內(nèi)容，從關(guān)鍵詞、主題兩個維度形式化表示學生。然后計算學生與學習材料之間的相似度，表示學生對學習材料的潛在認知程度。具體地，學習材料潛在認知程度量化可分為學習材料形式化表示、學生形式化表示、相似度計算三個部分，以下將分別闡述。

（1）學習材料形式化表示

為了將學生與學習材料進行相似度比對，需要對每個學習材料形式化表示。對于學習材料L n，可將其表示為L n={K n;P n}。其中K n表示L n的關(guān)鍵詞向量，P n表示L n的主題分布向量。

為了獲取學習材料的關(guān)鍵詞向量K，首先通過jieba分詞工具對集合L中每個學習材料的文本內(nèi)容進行分詞、去停用詞處理。之后通過TF-IDF算法（term frequency-inverse document frequency）[28]計算分詞結(jié)果中每個詞語的權(quán)重，進而構(gòu)建學習材料的關(guān)鍵詞向量K n={K n1:ωn1,K n2:ωn2,…,K nT:ωnT}。其中K nj、ωnj分別表示學習材料L n的關(guān)鍵詞j及其對應權(quán)重。

為了獲取學習材料的主題分布向量P，使用LDA主題模型（latent Dirichlet allocation）[29]挖掘集合L中每個學習材料潛在的主題分布。該模型可以從學習材料的語料庫中提取代表性詞語列表作為某一主題，最終將集合L中每個學習材料的主題以概率分布的形式呈現(xiàn)。因此，學習材料主題分布的最終挖掘結(jié)果為P n={P n1:νn1,Pn2:νn2,…,P nK:νnK}。其中P nj、νnj分別表示學習材料L n的主題j及其對應權(quán)重。

（2）學生形式化表示

對于學生S u，從其閱讀學習材料的內(nèi)容C u中提取相應的關(guān)鍵詞與主題，進而將其形式化表示為S u={F u;G u}。其中F u、G u分別表示學生S u的關(guān)鍵詞向量與主題分布向量。

已知學生S u的閱讀記錄C u={L ui|i∈1,2,…,N}，則其閱讀的學習材料Lui可被形式化表示為L ui={K ui;P ui}。從其閱讀內(nèi)容Cu中提取用于形式化表示學生的關(guān)鍵詞，構(gòu)建學生的關(guān)鍵詞向量F u={Fu1:σu1,F u2:σu2,…,F uT:σuT}。其中Fuj、σuj分別表示學生S u的關(guān)鍵詞j及其對應權(quán)重，σuj的計算見式（4）：

其中，ωuij表示關(guān)鍵詞j在學生S u所閱讀學習材料L ui的關(guān)鍵詞向量K ui中的對應權(quán)重。式（4）對應的分式中，分母部分表示在學生S u的閱讀內(nèi)容C u中，包含學生關(guān)鍵詞F uj的學習材料的個數(shù)；分子部分表示提取閱讀內(nèi)容C u中所有包含學生關(guān)鍵詞F uj的學習材料，計算這些學習材料的關(guān)鍵詞j在其各自的關(guān)鍵詞向量K中所對應的權(quán)重之和。因此，式（4）通過利用學生閱讀內(nèi)容中，包含關(guān)鍵詞j的學習材料在其關(guān)鍵詞向量K中對應權(quán)重的平均值，來表示學生關(guān)鍵詞F uj的權(quán)重值。

從學生S u的閱讀內(nèi)容C u中提取用于形式化表示學生的主題，構(gòu)建學生的主題分布向量G u=(G u1:μu1,G u2:μu2,…,G uK:μuK)。其中G uj、μuj分別表示學生S u的主題j及其對應權(quán)重，μuj的計算見式（5）：

其中，νuij表示主題j在學生S u所閱讀學習材料L ui的主題分布向量P ui中的對應權(quán)重。式（5）對應的分式中，分母部分表示閱讀內(nèi)容C u中學習材料的總個數(shù)；分子部分表示提取閱讀內(nèi)容C u中的所有學習材料，計算這些學習材料的主題j在其各自的主題分布向量P中所對應的權(quán)重之和。因此，式（5）通過利用學生閱讀內(nèi)容中學習材料的主題j在其主題分布向量P中所對應權(quán)重的平均值，來表示學生主題G uj的權(quán)重值。值得注意的是，不同于學生關(guān)鍵詞權(quán)重σ的計算，由于LDA模型使得每個學習材料具備了相同的主題，因此學生S u的主題G uj包含于其所閱讀的每個學習材料的主題分布向量P中。

（3）相似度計算

使用余弦相似性公式計算形式化后學生與學習材料之間的相似度，則學生Su對學習材料L n的潛在認知程度θun：

其中，λ為權(quán)重參數(shù)且λ∈[0，1]，用于控制學生關(guān)鍵詞向量F與主題分布向量G的比重；T表示所有學習材料去停用詞、分詞后總的關(guān)鍵詞個數(shù)（不重復詞語個數(shù)）；H表示LDA模型中設置的主題個數(shù)。

3.1.2 學習材料難度量化

直觀來看，學習材料所關(guān)聯(lián)知識點的個數(shù)可能會影響學習材料的難度。例如，學習材料L i關(guān)聯(lián)的知識點個數(shù)較多（假設與K1、K2、K3關(guān)聯(lián)），若學生Su想要完全掌握L i，那么可能需要同時掌握L i關(guān)聯(lián)的所有知識點，即掌握K1、K2、K3。對于關(guān)聯(lián)知識點個數(shù)較少的L j（假設僅與K1關(guān)聯(lián)），學生S u或許只需掌握知識點K1，就能完全掌握L j。與L i相比，學生S u在L j上所需掌握的知識點個數(shù)較少，因此L j較為簡單，而Li相對較難。此外，閱讀某一學習材料的學生人數(shù)同樣可以反映出該學習材料的難度。例如，若Li較為簡單，那么學生可能在閱讀Li上花費更少的時間與精力，從而可以更加方便快捷地鞏固自身的知識狀態(tài)，這可能會吸引更多的學生對其進行閱讀，使得閱讀L i的人數(shù)提升。反之，若Li較難，可能會導致閱讀人數(shù)減少。根據(jù)上述分析，提出一種關(guān)于學習材料難度的教育學假設：

假設1學習材料的難度隨著它所關(guān)聯(lián)知識點的個數(shù)正比增加，隨著閱讀它的學生數(shù)量反比下降。

此外，學習材料的難度不是一成不變的，它具有相對性，即學習材料相對于不同學生的難度是不同的。為此，利用學生的閱讀記錄C，結(jié)合提出的假設1，設計出一種關(guān)于學習材料難度的量化方法。

為了保證學習材料難度量化的相對性，構(gòu)建關(guān)聯(lián)矩陣CM（correlation matrix），用以反映學生閱讀的每個學習材料中所關(guān)聯(lián)的知識點個數(shù)。具體地，根據(jù)學生的閱讀記錄C，容易得到學生對每個學習材料的閱讀情況X=[x un]U×N。其中x un=1表示學生S u閱讀了學習材料L n，x un=0表示未閱讀。然后，利用學生對學習材料的閱讀情況X以及學習材料-知識點矩陣M構(gòu)建關(guān)聯(lián)矩陣CM，如式（9）、（10）所示：

其中，cmun表示學生S u閱讀的學習材料L n中所關(guān)聯(lián)的知識點個數(shù)；mni表示學習材料L n對知識點k i的關(guān)聯(lián)情況，關(guān)聯(lián)為1，否則為0。為了更好地說明，表3中給出了一個CM矩陣的簡化例子。

表3 CM矩陣示例Table 3 Example of correlation matrix

由表3可知，cm11=3，表示學生S1閱讀了學習材料L1，且與L1相關(guān)聯(lián)知識點的個數(shù)為3。由于每個學習材料至少會與1個知識點相關(guān)聯(lián)，因此當CM矩陣中的元素值為0時，表示學生沒有閱讀該學習材料。例如，cm13=0，表示學生S1未閱讀學習材料L3。此外，從表中還可以清晰地了解到學生S2閱讀了L3、L4，而未閱讀L1、L2。顯然，CM矩陣反映了學生閱讀的每個學習材料中關(guān)聯(lián)的知識點個數(shù)。

根據(jù)構(gòu)建的CM矩陣，可將學習材料L n相對于學生S u的難度b un定義為：

其中，δun表示學生S u閱讀的學習材料Ln中所關(guān)聯(lián)的知識點個數(shù)與其閱讀所有學習材料中關(guān)聯(lián)知識點個數(shù)的比值。I n表示學生總個數(shù)與閱讀過學習材料L n的學生個數(shù)的比值。xin表示學生Si對學習材料L n的閱讀情況，閱讀為1，否則為0。

式（11）中，學習材料難度b un的定義分為兩個方面。一方面，學生S u閱讀了學習材料L n，即xun=1。根據(jù)定義，若Ln中所包含知識點的個數(shù)較多時，則δun的值較高，使得L n的難度提升。同時，若L n被較多的學生閱讀，則φn的值較低，使得L n的難度下降。因此，此定義可以很好地擬合提出的假設1。式（14）中，考慮到可能會出現(xiàn)某一學習材料沒有被學生閱讀，即從而導致分母為0的情況。為此，在分母中增加了常數(shù)項c，令其為1。此外，由于量化過程中利用了關(guān)聯(lián)矩陣CM（式（12）中），因此可以得到學習材料相對于不同學生的難度，體現(xiàn)了難度的相對性，這更符合實際情況。另一方面，學生S u未閱讀學習材料L n，即x un=0。此時利用學生S u對其閱讀過所有學習材料難度的平均值，統(tǒng)一表示其未閱讀學習材料的難度。

3.2 知識點掌握程度評估

本節(jié)將具體闡述學生知識點掌握程度的評估方法，即學生知識狀態(tài)建模。學生對學習材料的實際掌握程度可以很好地體現(xiàn)出學生當前的知識水平，因此可用于建模學生的知識狀態(tài)。

從知識點的層面建模學生的知識狀態(tài)，可以較好地保證學生表現(xiàn)預測結(jié)果的可解釋性。例如，學生是否因為對某些知識點的掌握存在不足，導致其答錯相應試題。又或者說，由于學生對某些知識點的掌握較好，使得其作答正確相應試題的概率較高。

通過上述分析，利用3.1節(jié)計算得到的學生對學習材料的實際掌握程度，從知識點層面建模學生的知識狀態(tài)。由于學習材料中通常關(guān)聯(lián)了特定的知識點，因此根據(jù)學習材料-知識點矩陣M，學生S u對知識點k d的掌握程度βud可被定義為：

其中，a ui表示學生S u對學習材料L i的實際掌握程度，mid表示學習材料Li對知識點k d的關(guān)聯(lián)情況，關(guān)聯(lián)為1，否則為0。式（15）所對應的分式中，分母部分表示在學習材料集合L中，關(guān)聯(lián)知識點k d的學習材料的個數(shù)；分子部分表示提取學習材料集合L中所有關(guān)聯(lián)知識點k d的學習材料，計算學生對這些學習材料的實際掌握程度之和。因此，式（15）通過利用學生S u對所有關(guān)聯(lián)知識點k d的學習材料的實際掌握程度，來計算其對知識點k d的掌握程度，從而實現(xiàn)學生的學習材料實際掌握程度到知識點掌握程度的轉(zhuǎn)化。

3.3 試題掌握程度評估及得分預測

本節(jié)進一步評估學生對試題的掌握程度，據(jù)此預測其試題得分。由于試題中關(guān)聯(lián)了待考察的知識點，因此根據(jù)學生的知識點掌握程度β與試題-知識點矩陣Q，利用幾何平均法可計算出學生S u對試題E v的掌握程度ηuv：

其中，βui表示學生S u對知識點k i的掌握程度，q vi表示試題E v對知識點k i的關(guān)聯(lián)情況，關(guān)聯(lián)為1，否則為0。式（16）通過計算學生S u對試題所關(guān)聯(lián)知識點掌握程度的幾何平均值，作為學生對特定試題的掌握程度，從而實現(xiàn)學生知識點掌握程度到試題掌握程度的轉(zhuǎn)化。

使用公式η=(η-ηmin)/(ηmax-ηmin)將計算得到的試題掌握程度η進行歸一化處理，使其值處于[0，1]區(qū)間內(nèi)。然后，可以根據(jù)評估得到的試題掌握程度，預測學生在每道試題上的對錯：

其中，Th R是提前設置的閾值，令其為0.5。

3.4 模型總結(jié)

相較于傳統(tǒng)的預測方法，ReadingCD能在兩個方面對學生表現(xiàn)預測任務進行改進。首先，ReadingCD將學生的知識狀態(tài)建模為學生對知識點的掌握程度，計算值為0到1之間的連續(xù)值。而傳統(tǒng)方法要么將其建模為離散值，如認知診斷中的DINA模型；要么建模為難以理解的潛在特征向量，如協(xié)同過濾中的矩陣分解。因此，ReadingCD能夠更為準確地刻畫學生的知識狀態(tài)，為學生表現(xiàn)預測結(jié)果的解釋提供有力依據(jù)。其次，由于ReadingCD建模知識狀態(tài)時利用了學生閱讀學習材料的內(nèi)容，而未利用學生在試題上的作答記錄，因此它可以預測無作答記錄的學生在試題上的表現(xiàn)，而傳統(tǒng)方法無法做到這一點。接下來的實驗部分也證明了ReadingCD的改進是有效的。

4 實驗與分析

為了證明ReadingCD方法的效果，設計了實際數(shù)據(jù)集上的對比實驗。首先，將ReadingCD與基準方法在學生表現(xiàn)預測上進行對比。其次，探索了參數(shù)變化對ReadingCD實驗結(jié)果的影響。最后，通過一個學生閱讀認知診斷的案例分析，評估預測結(jié)果的可解釋性。

4.1 數(shù)據(jù)準備

實驗數(shù)據(jù)來自鄭州市第二中學的學生與移動自主學堂系統(tǒng)[3-4]交互過程中所產(chǎn)生的學習行為數(shù)據(jù)。其中包括了學生在兩次期中物理測試中的客觀題作答記錄R，以及在這兩次考試之前對相關(guān)學習材料的閱讀記錄C。此外，還包括了每個學習材料的文本內(nèi)容以及由一線教師標注的Q矩陣與M矩陣，以下將數(shù)據(jù)集記為Physics。表4匯總了Physics的具體信息，圖3展示了Q矩陣與M矩陣。

表4 Physics信息匯總Table 4 Descriptions of Physics

圖3 Q矩陣與M矩陣Fig.3 Q matrix and M matrix

本文從學生的物理課程中搜集實驗數(shù)據(jù)，主要考慮了兩個方面的因素：（1）學生在物理課程上的學習行為數(shù)據(jù)較為完備。首先，學生在物理類型的試題、學習材料上具有相對完整、客觀的試題作答記錄與學習材料閱讀記錄。其次，物理類型的試題、知識點、學習材料之間的關(guān)聯(lián)關(guān)系清晰，便于提取用于實驗。（2）相較于數(shù)學等科目而言，物理類型學習材料的文本內(nèi)容、語義信息更為豐富。由于ReadingCD涉及到文本信息（文本類學習材料）的處理，因此從物理課程中提取實驗數(shù)據(jù)更為合適。

4.2 學生表現(xiàn)預測實驗

使用基準方法與ReadingCD的學生表現(xiàn)預測效果進行對比。為了觀察各個方法在不同數(shù)據(jù)稀疏度情況下的實驗效果，構(gòu)造了不同比例的數(shù)據(jù)集。具體地，隨機抽取試題總數(shù)的15/18、12/18、9/18、6/18作為訓練集，其余的作為測試集，預測所有學生在測試集試題上的表現(xiàn)。特別地，由于ReadingCD通過利用閱讀學習材料內(nèi)容評估出學生的知識狀態(tài)，因此可以預測無作答記錄的學生在試題上的得分，即可以預測出學生在測試集試題比例為18/18情況下的試題表現(xiàn)。

在本實驗中，采用了廣泛被應用的根均方誤差（root mean squared error，RMSE）與平均絕對誤差（mean absolute error，MAE）作為評價指標，如下式所示：

其中，表示預測的學生S u對試題E v的得分；r uv表示學生S u在試題E v上的實際得分。RMSE與MAE的值越小說明學生表現(xiàn)預測的效果越好。

本次對比實驗中考慮如下基準方法，表5中展示了這些方法的詳細特征。

表5 所有方法的特征Table 5 Features of all the methods

（1）DINA[9]。經(jīng)典的離散型認知診斷模型，在給定Q矩陣的情況下，通過建模學生的知識狀態(tài)，結(jié)合試題參數(shù)（粗心與猜測）預測學生表現(xiàn)。

（2）IRT[15]。經(jīng)典的連續(xù)型認知診斷模型，通過評估學生的潛在特征（對知識的綜合掌握情況）與試題參數(shù)（難度與區(qū)分度）來實現(xiàn)學生表現(xiàn)預測。

（3）kNN[11]。最近鄰方法，利用學生的作答記錄，使用余弦公式計算學生之間的相似度，尋找與目標學生最相似的學生，利用其試題得分作為目標學生得分。

（4）NMF[25]。非負矩陣分解，一種非負的潛在因子模型，產(chǎn)生的分解矩陣滿足非負性質(zhì)。

（5）Random。隨機預測學生的試題得分，1表示答對，0表示答錯。

（6）ReadingCD_F。式（6）中，令λ=1，即量化學生對學習材料的潛在認知程度θ時，僅考慮學生的關(guān)鍵詞向量F。

（7）ReadingCD_G。式（6）中，令λ=0，即量化學生對學習材料的潛在認知程度θ時，僅考慮學生的主題分布向量G。

（8）ReadingCD_θ。式（1）、（2）中，計算學生對學習材料的實際掌握程度α時，僅考慮學生對學習材料的潛在認知程度θ，忽略學習材料的難度b。

在ReadingCD中，設置參數(shù)λ=0.1（式（6）中），主題個數(shù)H=8（式（8）中），以保證實驗效果最好，其中各個參數(shù)的選擇將在4.3節(jié)詳細闡述。表6展示了不同方法在學生表現(xiàn)預測上的實驗結(jié)果。其中，實現(xiàn)了一種低維度設置下的矩陣分解方法，即NMF-5D與NMF-10D，分別表示5個和10個潛在因子的非負矩陣分解方法。

表6 學生表現(xiàn)預測結(jié)果Table 6 Results of student performance prediction

4.2.1 ReadingCD的實驗效果

由表6可知，在不同的測試集試題比例中，Reading-CD的表現(xiàn)優(yōu)于所有基準方法。具體來看，該方法利用學生閱讀學習材料的內(nèi)容來建模知識狀態(tài)，預測學生的試題得分，要優(yōu)于協(xié)同過濾中的最近鄰kNN與非負矩陣分解NMF方法。此外，ReadingCD建模的知識狀態(tài)為連續(xù)變量（學生對知識點的掌握程度為0到1之間的連續(xù)值），而認知診斷中的DINA模型將其建模為離散值（掌握為1，未掌握為0）；IRT模型未從知識點層面建模學生的知識狀態(tài)，僅使用一個潛在的連續(xù)型數(shù)值變量對其進行表示。因此，相較于傳統(tǒng)的認知診斷方法，ReadingCD更為準確地刻畫了學生的知識狀態(tài)，從而可以進一步提高預測結(jié)果的可解釋性，同時也保證了預測精度。

4.2.2 學習材料潛在認知程度量化的實驗效果

在不同的測試集試題比例中，ReadingCD的表現(xiàn)要優(yōu)于其變種方法ReadingCD_F與ReadingCD_G。這說明在式（6）～（8）中，結(jié)合學生的關(guān)鍵詞向量F與主題分布向量G量化學生對學習材料的潛在認知程度θ，預測學生表現(xiàn)，比僅使用兩者之一的效果好。因此，所提出的關(guān)于學習材料潛在認知程度的量化方法是有效的，它可以應用于學生知識狀態(tài)建模中，有助于預測學生的試題表現(xiàn)。

4.2.3 學習材料難度的量化效果

在不同的測試集試題比例中，ReadingCD的表現(xiàn)要優(yōu)于其變種方法ReadingCD_θ。這說明同時結(jié)合學生對學習材料的潛在認知程度θ以及學習材料的難度b，計算學生對學習材料的實際掌握程度α，可以得到更加精確的學生表現(xiàn)預測結(jié)果。因此，本文根據(jù)提出的教育學假設（假設1），量化學習材料相對于不同學生的難度是有效的，它可以更為準確地刻畫學生的知識狀態(tài)，使得預測結(jié)果的精確性進一步提升。

4.2.4 ReadingCD在實際場景中的應用分析

由于傳統(tǒng)的協(xié)同過濾與認知診斷利用了學生的試題作答記錄，因此不能預測無作答記錄的學生在試題上的表現(xiàn)，即在測試集試題比例為18/18的情況下，無法通過基準方法得到學生表現(xiàn)預測結(jié)果。相較而言，Reading-CD不需要試題的作答記錄，僅通過學生閱讀學習材料的內(nèi)容，就可以建模出學生的知識狀態(tài)，進而預測出學生在無作答記錄情況下的試題得分，因而可以應用到一些無法預先獲取學生試題作答記錄來診斷學生知識狀態(tài)的場景中。例如，在測試開始之前，ReadingCD可以通過學生閱讀的某些輔助性學習材料的內(nèi)容，診斷出學生的知識狀態(tài)。根據(jù)診斷結(jié)果，可以發(fā)現(xiàn)學生某些掌握較弱（掌握程度較低）的知識點，據(jù)此進行針對性的教學訓練，以提高學生在后續(xù)測試中試題的作答表現(xiàn)。此外，當測試集試題比例為18/18時，ReadingCD的實驗效果優(yōu)于隨機預測方法Random及其他變種方法。因此，本文方法一定程度上緩解了目前方法在某些實際場景應用中的局限性。

4.3 ReadingCD的參數(shù)設置

式（6）中，參數(shù)λ用于調(diào)整學習材料潛在認知程度θ的權(quán)重，λ∈[0，1]。λ越大（越小）表示θ的取值越依賴于學生的關(guān)鍵詞向量F（主題分布向量G）。此外，式（8）中，LDA模型設置的主題個數(shù)K的不同，會導致學生的主題分布向量G發(fā)生變化，進而對潛在認知程度θ的量化有所影響。由于本文將θ作為學生知識狀態(tài)建模的一部分，因此參數(shù)λ與主題個數(shù)K的變化會影響建模結(jié)果，使得ReadingCD的學生表現(xiàn)預測結(jié)果發(fā)生變化。

以學生在所有試題上的表現(xiàn)預測為例，固定主題個數(shù)K，設置不同的參數(shù)λ，觀察ReadingCD在MAE指標下的變化情況，如圖4所示。

圖4 參數(shù)對MAE指標的影響Fig.4 Effects of parameters on MAE

由圖4可知，當參數(shù)λ取值在0.1附近，主題個數(shù)K取值在8附近時，ReadingCD的MAE值最低，此時實驗效果最好。因此，最終參數(shù)設置為λ=0.1,K=8。當λ=0.1時，意味著學生的關(guān)鍵詞向量F在學習材料潛在認知程度θ的量化中所占比重較低，而主題分布向量G占了較高的比重。這表明學生對學習材料的潛在認知程度更依賴于學生的主題分布，從而也驗證了量化時所提出的設想是合理的，即學生可能會對與其閱讀內(nèi)容相關(guān)的學習材料具備較高的潛在認知水平。

4.4 閱讀認知診斷案例分析

為了驗證預測結(jié)果的可解釋性，對比展示了Reading-CD和DINA模型在數(shù)據(jù)集Physics中一個學生的知識狀態(tài)建模結(jié)果，如圖5所示。

圖5 學生在某些知識點上的診斷結(jié)果Fig.5 Diagnosis results of student in some knowledge points

由圖5可知，在給定試題-知識點矩陣Q與學習材料-知識點矩陣M的情況下，無論是DINA模型還是ReadingCD都可以得到可解釋且?guī)в芯唧w含義的知識點診斷結(jié)果。然而，DINA模型只能指明學生是否掌握了相應知識點（掌握為1，未掌握為0），而ReadingCD可以具體診斷出學生在每一個知識點上的掌握程度（診斷結(jié)果為連續(xù)變量）。因此，通過ReadingCD的診斷結(jié)果，學生能夠更為清晰地看到自身在某些知識點掌握上的優(yōu)勢與不足，使得在學生表現(xiàn)預測結(jié)果上具備更強的解釋性。此外，教育專家或在線教育系統(tǒng)可以進一步針對具體的診斷結(jié)果，改進并提升當前的教學計劃，或為學生提供個性化的試題推薦。相較而言，認知診斷中的項目反應理論以及協(xié)同過濾中的最近鄰、矩陣分解方法，由于使用了潛在變量來描述學生的知識狀態(tài)，因此難以給出可解釋的預測結(jié)果。

5 結(jié)束語

本文設計了一種基于閱讀認知診斷的知識狀態(tài)建模方法ReadingCD，預測學生的試題得分。具體地，首先利用學生的閱讀內(nèi)容，量化出學生對學習材料的潛在認知程度。其次結(jié)合提出的教育學假設，量化出學習材料的難度。然后，利用兩個量化結(jié)果，計算出學生對學習材料的實際掌握程度，據(jù)此建模學生的知識狀態(tài)并預測學生的試題得分。最后，通過實驗證明了ReadingCD可以提高預測結(jié)果的準確性與可解釋性。同時，一定程度上緩解了學生表現(xiàn)預測在實際應用中的局限性。另一方面，該方法仍有改進的空間。首先，由于ReadingCD利用了學生的閱讀內(nèi)容建模其知識狀態(tài)，因此，若學生閱讀的學習材料較少或沒有進行閱讀，將會影響建模效果。其次，本文只預測了學生在客觀試題上的表現(xiàn)，還有其他一些試題類型應考慮在內(nèi)，例如主觀試題。以上存在問題是未來的研究方向。

計算機工程與應用2022年11期

計算機工程與應用的其它文章: 《計算機科學與探索》投稿須知; 銀行客戶分類的數(shù)據(jù)特征選擇方法與實證研究; DTZH1505：大規(guī)模開源中文普通話語音庫; 基于集群的卡車與無人機聯(lián)合配送調(diào)度研究; 基于CEEMDAN分解的短時交通流組合預測; 無人機騎手聯(lián)合外賣配送路徑優(yōu)化問題研究