張昱 李封 陳默
東北大學計算機科學與工程學院 沈陽 110169
當今的教育模式正發生著非常重大的變革,教育正在向“泛在化、智能化、個性化”的方向發展。教育部2018年4月發布的《教育信息化2.0行動計劃》提出,充分利用云計算、大數據、人工智能等新技術,構建全方位、全過程、全天候支撐體系,助力教育教學、管理和服務的改革發展[1]。隨著新的教學模式中多角度和多層面的教學交互的出現,傳統的學習評價方式已不再滿足新型教學模式的要求。近年來,面向交互的學習評價研究陸續出現,但大都關注理論設計方面。如何實現多元交互模式下的學習評價仍然是有待解決的重要問題之一。
程序設計類課程作為計算機類公共基礎課程,一直走在教學模式創新的前沿。程序設計類課程注重編程實踐,通過各類以實踐為核心的教學平臺、實驗平臺,尤其是在線評測等技術的應用,實現了多元的教學交互過程,并可積累大量的交互數據。這一類課程以及教學數據十分適合學習評價的研究。本文以一門程序設計課程一門學期的數據為基礎,針對基于交互的學習評價進行探索與實踐,為學習評價探索新思路。
在教育領域,學習評價的概念界定較為模糊,不同的學者賦予其不同的內涵。一般而言,學習評價內容包括如學生的學業成績評價、學習行為評價、學習質量評價等多個方面,目前針對學生的學習評價已經逐漸從傳統的單一的評價方式轉為綜合性的評價,如圖1所示。這些從學生角度出發的學習評價又與教學的手段、方法、質量息息相關。因此,學生的學習評價也是教學評價的一部分。
從教育學的角度出發,綜合學習評價在理論上已經成為教學的一部分,評價是與被評價對象共同建構的過程,而教學交互則是學生學習評價的重要組成。僅從教學交互角度出發,其主要包含三種交互關系[2]:學習者與學習者、學習者與教師、學習者與教學資源。基于交互的評價隨著評價主體和客體的不同而不同,本文僅關注上述三種交互關系下學生的學習效果評價。眾多教育學研究表明,交互是教與學重新整合的關鍵,學習過程中知識的建立和形成依賴于交互的開展,而有效的教學交互可以帶來學習效果的提升。國內有關教學交互的研究較多,如陳麗等[3]提出了影響較大的三個層面的教學交互模型和教學交互層次塔理論。具體到教學交互的評價,在如何對交互效果進行度量的研究中,大多數研究者采用的均為傳統的問卷調查等方式[4],也有教育學研究者提出了課堂作業、網絡作業、回答問題、發帖次數、小組合作、測試等各方面評價體系[5]。
綜合而言,針對交互質量評價的主要研究模式依然遵循傳統的教育學研究方法,即從多個角度提出交互質量的評價量規,然后通過以調查問卷為主的方法進行實驗驗證。這類方法存在難以實現評價自動化、評價指標定義寬泛、評價指標繁雜、評價指標信效度低等問題。而隨著近年來大量在線教學數據的涌現,有研究者已經將數據挖掘、機器學習等計算機技術應用到教學交互評價中。但在實際應用中,面向不同的教學方式、教學平臺、課程類型,產生的教學交互數據也不盡相同,因此,很難做出統一的評價量規。計算機程序設計類課程具有相對統一的特征,相對于其他類型的課程產生的交互數據更為豐富,因此適合作為交互學習評價的研究對象。以一門程序設計課程為例,探究交互學習評價的方法。
首先明確研究范圍,本文僅關注于交互效果的評價,即各類交互方式的實際效果如何。其次,本文研究的是學生學習的交互效果評價,其與課程評價和教學評價具有相關性但并不一致。最后,本文研究所使用的交互數據均為線上交互數據,評估數據采用了線下的成績數據。
如前述,教學交互可分為人與人的交互(師-生交互與生-生交互)和人與教學資源的交互,可概括為“社會交互”和“資源交互”。除此之外,交互會直接或間接產生一些成果,如學生參與在線測驗是屬于資源交互,而測驗的成績則屬于交互產生的結果,因此這一部分可以概括為“交互成果”,其本身也可以作為評估交互效果的標準。這三者相互依附,共同構成了交互學習評價的基礎。
在實踐中,針對上述三者的評價指標隨著可采集獲取的數據而有很大差別。很多研究者提出了豐富的評價指標,但在實際應用中不具備可操作性。本文以一門程序設計語言課程作為研究對象進行交互學習評價的探索實踐,提出一套針對該類課程的具備可操作性的評價指標。如表1所示,其中,所有數據均從線上采集。因為程序設計類課程采用的教學實驗輔助平臺較為一致,如慕課教學平臺、在線評測(Online Judge)實驗平臺、QQ或微信討論群等,因此這一評價體系具備一定的普適性。

表1 交互教學評價指標
以下分別對三個模塊的指標進行說明。
1)社會交互。社會交互應是教學交互中最為直接的一種交互,但無論是“師-生交互”還是“生-生交互”,大部分交互過程都在線下進行,并且很難形成標準化數據。而線上的社會交互以各類學習平臺中的論壇和學習群內的討論為主,這部分交互是線下直接交互有益的補充,甚至在純線上教學中是主要的交互手段。此外,學生在學習平臺上訪問由教師指定的學習資源,本質上也可認為是“師-生交互”,但由于形式上仍屬資源交互,因此這一部分交互歸為資源交互進行考量。在線的社會交互數據中,可方便采集的數據主要為交互次數,這也體現了學生的交互參與程度,稱為“交互參與度”。
2)資源交互。資源交互是在線教學數據最為豐富的交互形式,可分為“投入度”和“覆蓋度”兩類二級指標。其中,“投入度”關注學生對交互學習的投入程度。這一概念最早由教育心理學家Ralph Tyler提出,主要指學生花在學習上的時間。其后這一概念被研究者不斷擴充,主流的觀點認為“投入度”指的是學生在學習活動中所付出的努力[6]。本文基于上述概念和理論將學生在學習期間與學習資料交互的時間和次數歸類為“投入度”。另一個二級指標“覆蓋度”指的是學生對全部教學資源的學習覆蓋程度,體現的是學生課程學習的完整性。
3)交互成果。交互成果體現為學習平臺中的作業提交情況和考試結果,可從兩個方向考量。一是作業的完成時效,基于用時越短則學習效果越好這一假設,完成時效可以評估出實際的學習效果。二是最終的測驗成績,這一指標可作為真實的學習結果用于其他指標的評估。
上述各指標,從教學交互的各個角度對學生學習的效果進行評估,并且針對程序設計類課程,這些指標所采用的數據都可方便獲取并可靈活調整。
本文以一門課程--Python語言程序設計的3個班1個學期的數據為基礎,使用上述指標進行交互評價的實踐評估。
實驗數據分別采集自課程使用的幾個學習平臺:中國大學MOOC平臺、希冀在線實驗平臺以及課程QQ群。其中,兩個學習平臺均可導出標準化的學習數據,包含表1中的大部分采集數據項;QQ學習群內的學生發言次數則通過手動導出聊天記錄并采用程序處理后得到。
數據采集項中大部分為數量、時長等,較為特殊的采集項包括成果時效和編程作業初次提交時間。實驗采用的量化方法如下:
1)對數量類型的采集項(次數、個數、學習時長等)直接歸一化處理;
2)對時效時長類型的采集項取倒數后歸一化,即遵循時間越短效率越高的原則;
3)編程作業初次提交時間需與作業發布時間相減再取倒數后歸一化處理。
而后針對每一個二級指標計算各數據采集項的平均值從而得出一個綜合評估值。而這些評估值就表示了某個學生在交互學習中的表現。如圖2所示,使用了一個雷達圖表示了3名最終考試成績分別在90分段、80分段和70分段的學生的最終交互學習評價結果。

圖2 不同分段學生的交互學習評價雷達圖
從圖中可以看出,計算出每一個學生的交互學習評價結果并可視化表示可以直觀地看出學生在各個側面的交互學習情況。這種評價結果的實現可以幫助教師有針對性地做出教學交互計劃的調整。如果在課程學習中面向學生實時展示這一評價,也可以激勵學生學習,從而形成良性的交互反饋。
基于交互的學習評價與學生的學業評價并不相同,即不以學生的成績作為唯一的評估量規。因此,學生的交互學習評價結果優秀并不一定表示學生成績優秀,但其應有一定的相關性。實驗進一步計算了前四項二級指標與學生成績的相關關系,結果如表2所示。

表2 四個評價指標與成績的相關系數
可以看出在四項指標中,交互參與度、交互投入度、交互覆蓋度均與最終學習成績的相關系數在0.3~0.5之間,而成果完成時效這一指標則與成績完全不相關。這直觀上說明了在學習中參與和投入的程度以及學習的覆蓋面確實與學習成績具有一定程度的相關性,而學生作業完成較快則無法證明學生的成績更好。這也證明了與交互相關的三個指標的有效性。
本文將交互作為學習評價的核心,以一門計算機程序設計課程為基礎,探索并實踐了學習評價的方法,提出了有效的交互學習評價量規,基于真實課程數據的實驗表明了方法的實用性。以交互為核心的學習評價是未來教學評價的主要方向,本文是針對這一問題的具體研究和改革探索。未來將進一步細化調整評價方法,并應用到其他類課程驗證其效果。