張大為, 王琦菲
(遼寧師范大學,計算機與信息技術學院,遼寧,大連 116000)
提高教學質量是高等教育發展的核心任務,也是建設教育強國的基本要求[1]。為了提高教學質量,必須在教學環節中正確認識課程作業的重要性。課程作業的布置和批改是教學過程中的基本環節:一方面有助于學生鞏固所學知識、了解階段性學習效果、提高學業成績、修正日后的學習規劃;另一方面還可以幫助教師了解教學成果、調整教學進度,是改進教學和開展教學活動的重要依據[2]。由此可見,客觀合理的作業評價是提高教學質量的必要條件。
主觀類型作業在教育測量方面具有以下兩個優點:一是有利于考察學生更深層次的能力;二是方便檢驗學生對課堂知識的綜合掌握程度。但主觀類型作業具有文檔特征:一方面該類型作業開放性更強,寫作排版風格統一困難,完成質量差距更大;另一方面易受評閱人知識水平、心理活動等主觀因素影響,難以保證評分的客觀準確性[3]。教師長時間高強度地評閱作業,很容易產生視覺和精神疲勞,進一步影響評價結果的準確性。教師為作業的評閱付出大量的時間和精力,勢必會對教學和科研產生影響,故將評閱工作智能化、自動化、便捷化是當前的趨勢,也是亟待解決的問題之一[4]。
隨著人工智能的發展,自動評閱技術逐漸成為研究熱點。文本挖掘技術是從諸多復雜的非結構化文本數據中獲取隱形、有用的數據信息,進而實現文本數據自動化處理的技術[5]。利用文本挖掘技術處理文本數據的能力,設計實現自動化文本作業評價方法,輔助教師給出客觀合理的評價結果是充分利用主觀作業幫助提高教學質量的關鍵,具有重大研究意義。
國外對主觀題的自動評分研究早于國內,包括使用淺層文本分析方法的PEG作文評分系統[6];通過解析候選答案,設計并匹配對應評分模板,實現開放型自動批改系統Auto Mark[7]等。受中文的復雜性和獨特性等因素影響,現有的國外研究成果不能直接應用,且對于答案開放的主觀題自動評分的研究較少。陳賢武等[8]以語義為核心,建立多特征語句的相似度模型,設計一個面向主觀題的自動評閱系統。吳芳穎[9]采用雙向Bi-LSTM和CNN-LSTM對文本進行建模得到兩個向量,并對其進行相似度計算預測文本質量。
上述評分方法效果較好,但大多為有標準答案的簡答題或無參考答案的作文,且應用成本較高,無法運用于開放型主觀作業的在線評閱。本文提出的ASM評分模型及其軟件實現不需要提前預設答案或評分模板即可實現自動評閱,提高評閱效率和客觀性。通過近10年的實踐表明,自動作業評價結果在教師和學生兩個維度的滿意程度均達到98%以上。
作業文本需要進行預處理,將其標準化和格式化,即數據清洗[10]后,才能對各項評價指標評分。首先要對每份作業(以下簡稱樣本)進行讀取并分詞處理,然后建立學科領域停用詞庫,過濾停用詞,最后統計詞頻,生成“文檔-詞頻”矩陣,記作D:
(1)
其中,D的每一行表示一個樣本,即第i行表示第i個樣本,記作doci。D的每一列為特定詞語的詞頻,例如docij表示第i行的第j列,也就是指第i個樣本的第j個詞語的詞頻。m為樣本的總數,n為所有樣本詞語集合的大小。
余弦相似度指的是在向量空間中通過計算兩個向量之間夾角的余弦值來度量其相似程度[11]。本文使用余弦相似度計算兩個樣本之間的相似性,計算公式為
(2)
其中,docik和docjk分別為樣本doci和樣本docj在“文檔-詞頻”矩陣D中第k列對應的詞頻。當余弦相似度值越接近1時,兩個向量之間的夾角越接近0°,其相似度越大。
TextRank本質是一種基于詞圖模型的排序算法,具有較好的關鍵詞提取效果,在一定程度下接近有監督方法的效率。TextRank算法將文本抽象為詞圖模型記作G=(E,V),其中V為節點集,即由候選關鍵詞矩陣組成,E是利用共現窗口構建圖中兩節點之間的邊,迭代計算每個頂點的權值,收斂時權值排名在前的點即為文本關鍵詞[12]。每個頂點權值的計算公式為
(3)
其中,d為阻尼系數,vi和vj均為詞語節點,ln(vi)是指向詞語節點vi的詞語節點集合,Out(vj)是詞語節點vj指向的詞語節點集合。
主觀文本類型作業智能輔助評分模型Automatic Scoring Model(ASM)的基本內容是構建核心評價指標,并給出不同作業的合理的評價方法,流程如圖1所示。首先對所有作業進行預處理,得到詞頻矩陣。然后根據作業類型組織適用的評價指標,最后生成評分公式并計算成績。
該模型的合理性前提是每份作業所具有的獨立性。所謂作業獨立性,就是我們在布置作業時要求的每份作業必須由作業完成人獨立完成。如果某份作業不具備獨立性,可以通過相似度指標和主題貼合度指標進行識別和排除。當所有作業具有獨立性時,幾乎不可能出現所有作業工作量相同的情況。作業獨立性是工作量指標和篇幅結構指標能對作業進行合理評價的前提和基礎。工作量和篇幅結構指標(量化指標)與主題貼合度和相似度指標(決定性指標)形成互相制約的評價體系。也就是說,某作業完成人(個人或團隊)希望通過突出某項評價指標而獲得高分的行為在現實中很難實現。
通過相似度評價指標Similarity Index(SI)可以有效地檢測出一次提交的所有作業中是否存在過度雷同的作業。首先采用式(2)計算doci與其他作業的余弦相似度S(doci,docj),取最大值作為doci的相似度值,計算公式為
JSi=max{S(doci,docj)},1≤i,j≤n,i≠j
(4)
其中,doci為第i份作業,docj指與doci同組的不同作業。JSi表示第i份作業的相似度值。相似度指標值的計算公式如下:
(5)
其中,SIi為第i份作業的相似度指標值,0或1的取值使該指標具有決定性,k為判定SI取值為1或0的閾值,k值的大小根據作業的特點和對作業的要求不同而不同,需要根據經驗做適當的嘗試和調整。如主題發散型作業的k值取0.98左右,主題聚焦型作業的k值取0.95左右。
通過主題貼合度評價指標Theme Index(TI)判斷一份作業是否存在“張冠李戴”或“濫竽充數”的情況。首先采用式(3)計算所有作業的核心關鍵詞,取一定比例的詞頻排名靠前的詞作為本次作業的核心詞AC。然后根據式(3)計算每份作業doci的核心詞DCi,同時根據式(2)計算DCi與AC之間的余弦距離作為作業doci的主題相似度值TSi。相似度指標值TIi的計算公式如下:
(6)
其中,TIi為第i份作業的主題貼合度指標值,0或1的取值使該指標具有決定性,t是判定TIi取值為1或0的閾值,t值的大小根據作業的特點和對作業的要求不同而不同,需要根據經驗做適當的嘗試和調整。如主題發散型作業的t值取0.2左右,主題聚焦型作業的t值取0.5左右。
通過工作量指標Workload Index(WI)來判斷作業完成工作量的多少,是最終成績的重要組成部分。首先利用正則表達式統計作業doci的中文、英文和其他字符數量,將過濾停用詞后的中英文詞數之和作為有效字符數Wi。然后去掉集合{Wi}中一定比例的最大值和最小值,計算剩余部分的平均值Wa作為所有作業的工作量修正平均值。最后按下面公式計算工作量指標值:
(7)
其中,WIi為第i份作業的工作量指標值。當Wi小于Wa時,WIi成績隨著Wi減少而減少,即WIi值取Wi和Wa的比例。當Wi大于或等于Wa時,WIi的值為1,表示該作業達到平均工作量的基本要求。
篇章結構評價指標包括圖片指標Figure Indicator(FI)和中英文比例指標Ratio Index(RI),其目標是評價作業中圖表、程序代碼等內容組織的合理性。首先利用正則表達式統計作業doci中的圖片數量Fi、中文詞數Ci和英文詞數Ei,并計算中英文比例Ri=Ci/Ei。然后計算Fi和Ri的修正平均值Fa和Ra(具體計算方法參考Wa)作為評價基準值。篇章結構評價指標FI和RI的計算公式如下:
(8)
(9)
其中,FIi為第i份作業的圖片指標值。當Fi大于Fa或Fi小于Fa時表示該作業的圖片數量過多或者過少,FIi值變小。只有Fi接近Fa時,表示該作業的圖片數量符合平均數量,FIi值接近1。
中英文比例指標RI作為可選指標,主要用于評價以中文為主的作業。RIi為第i份作業的中英文比例指標值。當Ri小于Ra時表示該作業的英文過多,此時RIi=Ri,即RIi成績隨著Ri減小而減少。當Ri大于或等于Ra時表示該作業主要以中文描述為主,取值為1,表示作業內容符合文字比例要求。
上述評價指標依據其評價方式和性質,分為決定性指標和量化指標兩個類別。其中,決定性指標采用乘法原則,量化指標采用加法原則。第i份樣本的成績SC(Score)計算公式如下:
SCi=Total×SIi×TIi×(a×WIi+b×FIi+
c×RIi),0≤a,b,c≤1,1≤i≤n
(10)
其中,Total為評分分值,n為樣本數量,a、b、c均為指標所占總分值的比例,根據作業要求不同,可以做適當的組合調整,符合a+b+c=1即可。
本研究工作已經在我校計算機科學與技術專業的軟件工程、軟件工程課程設計、JavaWeb高級編程等3門課程的作業評價中嘗試應用和改進多年。實驗選取我校2015級至2018級上述課程的作業作為實驗數據,作業詳細信息以及實驗所采用的評價參數如表1所示,每組作業在40~60份之間,一共20組,合計1049份。

表1 作業類型及其評分參數表
為了驗證ASM模型的評分有效性,每份作業由5人評價,取平均值作為人工評價結果,并從指標得分相關性、個人成績標準差、人機評分結果分布圖、人機評分相對誤差等4個方面進行分析論證。評價系統及實驗分析可以參考網站:https://willow.net.cn/score。
最終成績由指標SI、TI、WI、FI和RI共同參與計算完成,使得最終評分結果的合理性與上述指標的綜合貢獻有著直接關系,這意味著各項指標與最終成績的相關性越強,評價結果越合理。對SI和TI的識別正確率進行統計,所得結果見表2。
政府作為國家組織的具體形式,對一個專業社會地位的確立發揮了極為重要的法權作用,離開了政府賦權以及與此相關的外部保障條件,專業工作者及其專業組織就很難爭取到自身合理的利益,正是由于政府行動的滲透,使得某些不具有專業地位的職業不斷提升自主權,取得合法性專業資格[18]。政府作為專業化框架的實施主體,最重要的作用體現在政府的頂層設計上,將指導和規范體育教師教育專業化體系建設。只有當國家規定了所有主體的角色時,建立在社會合作關系的原則基礎上的體系才能運轉起來[19]。因此,需要政府來進行整體的規劃,完善有關法規制度,建立合理的配套機制并提供一定的財政支持來促進專業化框架的構建。

表2 識別正確率情況統計報表 單位:%
由表2可知,隨筆、需求、實驗報告1、實驗報告2的SI正確率均為100%,課程設計SI的正確識別率為99.53%。即針對同組作業大篇幅抄襲現象能夠有效地識別,存在少量的誤判是由于課程設計的文本內容相對集中造成的。全部作業的TI正確率為99%以上,即總體表現良好。存在少量誤判現象是由于部分樣本主題較為分散造成的。例如需求的作業中,可能包含“訂餐管理系統”,也可能有“圖書管理系統”。隨筆作業看似要求發散,但學生提交的作業內容非常相近,通過其TI正確率100%也可得到體現。嚴格設定SI和TI的閾值k和t可以有效防止漏判,對于誤判作業可以通過人工復查加以糾正。
針對指標WI、FI和RI檢驗是評價指標值與最終成績之間的相關性是否合理,結果見圖2。

圖2 WI、FI和RI指標值與其對應成績關系圖
由圖2可知,WI和RI的機器評分與對應的指標值并不完全呈線性增長關系,其成績分布受到樣本內部修正平均值的影響,反映樣本內相對成績,即當指標值超過修正平均值時,縱坐標趨于水平不再增長,表示該指標成績為滿分。這種非完全線性的指標成績相關性與理想的評價預期更為接近。
對個人所有作業成績標準差進行分析。例如,A同學學習成績穩定,每次提交作業的評分趨于平穩,則A同學所有作業成績的標準差趨于合理。如果B同學提交作業自動評分的標準差過大,表明每次作業的得分偏差較大。標準差過大的原因可能有兩種:一是該同學學習成績不夠穩定;二是自動評分存在誤差。個人成績標準差RMSE計算方法如下:
(11)
其中,Pi和P分別為該學生第i份作業成績和全部作業平均成績。統計所有學生RMSE的分布情況見圖3。

圖3 所有學生個人成績標準差分布圖
由圖3可知,RMSE在20以下的學生占82.18%。對于RMSE在20以上的學生,經過人工復查均存在描述型作業分數較高,實驗類型作業分數偏低這一現象,即反映出學生綜合實驗能力的不足,教師需要在教學過程中著重培養學生的實驗分析能力。綜上所述采用ASM模型的評分結果合理有效,可以很好地反映出學生的綜合水平和學習效果。
主觀類型作業即使人工評分也會存在一定誤差。統計人機評分在不同分數段上的樣本數量見圖4。分析二者的趨同性,如果二者的趨勢有很大不同,說明各個分數段上的人數差距過大,表明人機評分結果的分歧較大,反之同理。

圖4 人機評分在不同分數段上的作業數量對比圖
由圖4可知,描述型作業如隨筆、需求,僅考察SI、TI和WI三項指標,故大部分學生可以拿到較高的分數,且人機評分結果分歧較小。而針對實驗報告類型作業,對比機器評分增加的篇章結構指標FI和RI,人工評分對這兩個指標的判別更加模糊,易受到各種因素的干擾,無法做到像機器評分一樣的精準性。因此采用ASM模型得到的評分結果在主要分數段基本呈線性分布,在全部分數段趨于正態分布,即兩邊分數段的作業數量較少,中間分數段的作業數量較多。因此,本文提出的ASM模型自動評分結果更具客觀性。
(12)
其中,Ai和Pi分別為第i份作業的人機評分結果,n為樣本大小,s為作業分值。計算20組樣本的MAE見表3。

表3 20組樣本人機評分的平均相對誤差表
由表3可知,部分人機評分的結果具有一定的差距。分析MAE較大的原因有下幾點。
(1) 文本主觀類型作業比其他短文本主觀作業具有開放性更強、篇幅更長、寫作元素更多等特點,人工評閱過程中難以統一評分標準,導致評分結果主觀性過強。
(2) 針對抄襲或偏離主題的作業,教師可能會根據具體寫作情況給予一定分數,而ASM模型的評分結果直接為零。
(3) 人工評閱時容易受到字體、格式、排版風格等因素影響,評分結果存在一定主觀性,ASM模型通過對篇章結構的評分結果更加客觀合理。
本文針對人工方式評閱文本主觀作業時存在的問題,提出了一種基于文本挖掘的智能輔助評分模型,可針對不同類型作業組織適用的評價指標。通過實驗分析表明,ASM模型評分更加客觀公正、準確高效,彌補了以往人工評分存在的局限性。作為主觀類型電子作業的輔助評價方法,本系統具有推廣應用價值,對提高教學質量有著重大意義。