孟青泉 賈積有 張志永 顏澤忠
智能教學系統測評模型的構建與實證研究*
孟青泉1賈積有2張志永3顏澤忠4
(1.首都師范大學 教師教育學院,北京 100089;2.北京大學 教育學院,北京 100871;3.上海市黃渡中學,上海 201804;4.成都市棕北中學,四川成都 610041)
對智能教學系統進行測評,既能評價其性能,又可以為其優化提供依據。但是,目前尚缺乏有指導性的智能教學系統測評模型。基于此,文章構建了包括智能教學系統、學習者、系統設計者、學習效果測試和學習風格測量等要素的智能教學系統測評模型,并設計了包含獲取數據、總體測評、精細測評、測評分析和系統優化等五個步驟的智能教學系統測評流程。之后,文章以“樂學一百”智能教學系統為例開展了實證研究,結果表明智能教學系統測評模型能有效區分不同學習風格學習者的學習效果,生成精細化的測評結果,為系統的優化與升級提供數據依據,具有較大的應用價值。
智能教學系統;ITS測評;學習風格;學習效果

近年來,人工智能技術得到了飛速發展,為教育的革新帶來了新的機遇[1]。智能教學系統(Intelligent Tutoring System,ITS)是人工智能在教育中的重要應用模式,在最近幾年取得了巨大的發展[2]。智能教學系統能夠根據不同學生的知識水平和學習風格,有針對性地推送適合每個學生的學習資源,這有助于實現個性化教學[3][4]。針對智能教學系統的元分析結果顯示,智能教學系統能夠普遍提升學習效果,但是不同系統的性能有很大的差異[5]。而Greer等[6]提出,自1993年以來,智能教學系統測評方式未有較大改進,其通常以測驗成績為效果評價標準,結果不夠精細,難以為智能教學系統設計提供參考。基于此,本研究充分利用學習行為數據,構建智能教學系統測評模型,并將測評結果作為系統優化與升級的數據依據,以提升系統性能。
智能教學系統是一種先進的計算機教學系統[7],它集合了人工智能、計算機科學、認知科學、思維科學、教育學和心理學等多個學科,為學生提供高度個性化和智能化的學習體驗,能根據學生的需求和喜好調整學習內容和知識表示[8]。近年來,隨著互聯網的全面普及和人工智能技術的快速發展,智能教學系統迎來了新的發展機遇,孕育著新的升級[9]。陳凱泉等[10]通過對文獻的綜合分析,指出智能教學系統正朝著多模態學習分析、適應性反饋、人機協同等方向不斷拓展。其中,多模態學習分析指智能教學系統對學習過程數據的全方位收集、分析與應用[11];而人機協同重點關注教師如何與智能教學系統協同,為學生提供智能化的精準教學[12]。隨著智能教學系統結構的復雜化和功能的多樣化,其系統性能的測評也需要提升,以提供更為精細、精準的測評結果,從而為系統的優化和升級提供數據依據。
在智能教學系統的測評方面,Mark等[13]于1993年提出了初步的智能教學系統測評方法,并于2016年進行完善[14],提出了用戶評價、專家評定、虛擬學習者測試、實驗測評、學習曲線分析和教育數據挖掘等六種測評方式;Jeremic等[15]強調學生的主觀體驗在智能教學系統測評中的重要性;Sykes[16]運用準實驗研究的方法,測評了Java智能教學系統的應用效果;Hooshyar等[17]綜合運用定性、定量的分析方法,對某游戲化智能教學系統進行了測評;Mousavinasab等[18]指出,智能教學系統的測評應包含系統表現、學習效果和學生體驗三個方面。而在國內,劉明祥等[19]提出從軟件系統評價、教學功能評價和實踐應用評價三個方面,來開展基于Web的智能教學系統評價;賈積有等[20]總結了智能教學系統評價的定量方法,如T檢驗、協方差方法等;周楠等[21]提出了一種基于深度學習的互動課堂學生學習行為分析與教學效果評價方法,可利用課堂視頻信息,對學生表情進行檢測,從而建立教學效果的評價模型。綜上可知,目前針對智能教學系統測評的研究成果較少,且已有研究注重總體效果的測評,尚未考慮不同學習風格學習者使用智能教學系統后的學習效果差異,其效果測評不夠精細,很難為系統的優化設計提供數據支持,因此有必要建立智能教學系統測評模型。
智能教學系統測評是指利用各類過程性與結果性學習數據,對ITS的教學效果進行評估的行為。智能教學系統測評與學習分析的區別在于,前者是對ITS的評價,在此基礎上優化系統性能;而學習分析側重于通過數據提取學生的信息,幫助學生不斷進步。智能教學系統測評的主要功能是對ITS的性能進行精細評估,了解不同類型學生對ITS的適應程度,進而發現設計中的不足,為系統的改進與優化提供數據依據。
基于上述對智能教學系統測評的內涵分析,本研究構建了智能教學系統測評模型,如圖1所示。智能教學系統的測評是一個多要素相互作用的復雜過程,依據ITS的通用模型[22],本研究確定了智能教學系統測評模型的五個要素:①智能教學系統是測評的對象,也是測評模型的核心;②學習者與智能教學系統進行交互,不斷提升學習效果;③系統設計者匯總測評數據進行分析,并制定優化策略;④學習效果測試是智能教學系統應用效果的第三方評價,可通過考試、答辯等方式獲得測試結果;⑤學習風格測量重在實現學習風格維度的精細測評。其中,智能教學系統為學習者提供學習資源并獲得反饋,生成大量的學習過程數據,同時測試學生的學習效果、測量學生的學習風格,然后將這些數據提供給系統設計者。系統設計者對這些數據進行統計分析,得出ITS測評結果,并據此進行系統的優化和升級。

圖1 智能教學系統測評模型
為落實智能教學系統測評模型在教學實踐中的具體應用,本研究設計了智能教學系統測評流程,包含獲取數據、總體測評、精細測評、測評分析和系統優化五個步驟,如圖2所示。具體來說,在進行智能教學系統測評時,首先要獲取數據,包括學習效果測試數據、學習風格測量數據和學習過程數據;第二步是從定量和定性兩個方面進行總體測評,了解ITS的總體使用效果;第三步是開展精細測評,對不同學習風格學習者的學習數據進行分析與對比;第四步是對測評得出的結果進行分析,發現ITS的不足;第五步是根據分析結果,從測評數據出發,針對智能教學系統存在的不足對其進行優化;之后,對各項測評數據進行持續跟蹤,并再次獲取新的數據進行測評,以實現系統的迭代升級。

圖2 智能教學系統測評流程
為了檢驗智能教學系統測評模型的可行性和有效性,本研究按照智能教學系統測評流程,以“樂學一百”智能教學系統為例,對其應用于初中數學課的學習效果進行了總體測評與精細測評,得到測評分析結果,并據此進行系統優化。
(1)測評對象
本研究以“樂學一百”智能學習系統(下文簡稱“樂學一百”)為測評對象。“樂學一百”按照智能教學系統的原理和模型進行設計,是一種自適應學習系統。“樂學一百”覆蓋了小學和初中數學的所有單元,為教師、學生和家長提供在線智能教學服務。“樂學一百”含有學生、學材和行為等三個核心數據庫,以及一個互動學習引擎和一個智能推薦引擎。在個性化輔導方面,“樂學一百”可以根據在線學習活動指數(Online Learning Activity Index,OLAI)[23],分析學生的知識掌握水平,并為其推送適合的學習資源。而教師可以通過“樂學一百”布置預習任務和練習作業,并對全班學生的完成情況進行統計分析,從而了解學情,調整教學策略。
(2)研究設計
本研究選取上海市H校八年級的99名學生和四川省成都市Z校七年級的110名學生進行準實驗研究。其中,H校設有兩個實驗班(共51人)、兩個對照班(共48人),而Z校設有一個實驗班(55人)、一個對照班(55人),實驗時長為一年。實驗班教師在數學課上采用“樂學一百”開展混合式教學:課前,教師通過“樂學一百”布置預習任務;課中,教師進行線下教學;課后,教師通過“樂學一百”布置練習作業。對照班的教學過程也包含預習、課堂講授和課后作業環節,其與實驗班的區別在于課前的預習任務和課后的練習作業不使用“樂學一百”。實驗班和對照班的授課教師、作業數量、教學內容和進度完全一致,且要求授課教師盡可能地以同樣的工作態度和時間精力投入開展兩個班的教學。本研究將實驗前的期末考試數學成績作為前測成績,而實驗后的期末考試數學成績作為后測成績。實驗按照智能教學系統測評流程進行操作,實驗結束后采用智能教學系統測評模型對“樂學一百”進行測評,并根據測評結果提出優化建議。
(3)研究方法
本研究對“樂學一百”應用于初中數學課的學習效果分別進行總體測評和精細測評:①總體測評方面,主要運用協方差法進行分析[24]。該方法將一些對因變量有影響的無關變量作為協變量,可得出更加準確的分析結果。在本研究中,實驗班和對照班的前測成績為協變量。同時,本研究通過問卷調查實驗班學生對“樂學一百”的使用感受,問卷包含使用滿意度、界面設計、題目質量、單元數量等指標,共設12道題(問卷總的Cronbach’s α值=0.969),采用李克特五點量表計分。②精細測評方面,選用面向在線學習系統的學習風格模型[25],包括視覺、言語、順序、整體、活躍、沉思、感覺、直覺、場依存、場獨立、適應、革新等12類不同學習風格,并通過直方圖展示不同學習風格學習者的學習表現。本研究使用Matlab 2018、SPSS 20.0,進行相關數據的處理。
(1)學習效果的總體測評
實驗班與對照班的前測、后測成績協方差分析結果如表1所示,可以看出:經過協方差修正后,實驗班的平均值為75.14分,而對照班的平均值為71.86分,可見實驗班的平均值高于對照班;值=0.009<0.05,達到顯著水平,說明“樂學一百”的教學應用對期末考試數學成績有顯著的正向影響。

表1 實驗班與對照班的前測、后測成績協方差分析結果
針對實驗班的問卷調查結果如表2所示,可以看出:12道題所涉內容的結果均值處于4.07~4.43之間、均高于4分,說明實驗班學生對“樂學一百”的使用感受普遍較好。

表2 實驗班問卷調查結果
(2)學習效果的精細測評
不同學習風格學習者的數據分析結果如圖3所示,涉及后測成績、后測與前測成績之差、平均得分、平均用時等四個方面。其中,圖3(a)顯示,場獨立型、適應型學習者的后測成績較高,而整體型、場依存型學習者的后測成績較低。圖3(b)表明,整體型、沉思型、場獨立型、適應型學習者的數學成績進步不明顯,而活躍型、感覺型、場依存型學習者的數學成績進步幅度較大。圖3(c)展示了不同學習風格學習者完成“樂學一百”每個單元練習的平均得分,可以看出:場獨立型、適應型、革新型學習者的學習表現較好,而整體型、場依存型學習者的學習表現相對較差。圖3(d)展示了學習者完成“樂學一百”每個單元練習的平均用時,可以看出:言語型、整體型學習者的平均用時較長,而直覺型、場獨立型、革新型學習者的平均用時較短。可見,不同學習風格學習者的學習表現和進步幅度存在很大的差異。

圖3 不同學習風格學習者的數據分析結果

表3 系統測評分析與優化建議
(3)測評分析與系統優化
學習效果的整體測評和精細測評結果顯示,“樂學一百”整體上提高了學生的數學成績,但是整體型、沉思型、場獨立型、適應型學習者的學習效果提升不明顯。而通過精準測評,可以發現ITS在資源推送算法方面還有待進一步提高。針對上述問題,本研究試圖通過優化不同學習風格學習者的資源推送方式,來進一步提升所有學生的學習效果。系統測評分析與優化建議如表3所示,系統設計者可據此對智能教學系統進行改進,如向整體型學習者提供可視化的知識全貌,為場獨立型學習者推送更適合其知識水平的、有一定難度的試題等。
為解決智能教學系統的有效測評問題,本研究構建了智能教學系統測評模型,并設計了智能教學系統測評流程。基于“樂學一百”的實證研究結果顯示,智能教學系統能夠在整體上提升學習效果;同時,通過精細測評發現,整體型、沉思型、場獨立型、適應型學習者的學習效果提升不明顯,資源推送算法需進一步優化。為此,本研究提出了智能教學系統改進的建議,驗證了智能教學系統測評模型的有效性。智能教學系統測評模型可被應用于各類個性化、自適應的教學系統,能夠持續地為系統設計者提供系統優化與升級的精細化數據反饋,從而有效提高ITS測評的性能、提升系統的智能化水平。
[1][9]賈積有.人工智能賦能教育與學習[J].遠程教育雜志,2018,(1):39-47.
[2]馬璐,張潔.國內外人工智能在基礎教育中應用的研究綜述[J].現代教育技術,2019,(2):26-32.
[3][22]劉邦奇,袁婷婷.智能教育系統的總體架構及區域實踐模式研究[J].遠程教育雜志,2019,(3):103-112.
[4]吳曉如,王政.人工智能教育應用的發展趨勢與實踐案例[J].現代教育技術,2018,(2):5-11.
[5]Klasnja-Milicevic A, Vesin B, Ivanovi? M, et al. E-Learning personalization based on hybrid recommendation strategy and learning style identification[J]. Computers & Education, 2011,(3):885-899.
[6][14]Greer J, Mark M. Evaluation methods for intelligent tutoring systems revisited[J]. International Journal of Artificial Intelligence in Education, 2016,(1):387-392.
[7]張蓉菲,趙磊磊,李玥泓,等.國外教育人工智能研究主題及趨勢分析——基于Web of Science文獻關鍵詞的可視化分析[J].現代教育技術,2019,(12):5-12.
[8]孟亞玲,武帥,魏繼宗.人工智能教育研究的現狀、熱點與趨勢——基于1979~2019年1043篇人工智能教育文獻的數據分析[J].現代教育技術,2020,(3):120-123.
[10]陳凱泉,張春雪,吳玥玥,等.教育人工智能(EAI)中的多模態學習分析、適應性反饋及人機協同[J].遠程教育雜志,2019,(5):24-34.
[11]Blikstein P, Worsley M. Multi-modal learning analysis and education data mining: Using computational technologies to measure complex learning tasks[J]. Journal of Learning Analytics, 2016,(2):220-238.
[12]劉偉.智能與人機融合智能[J].指揮信息系統與技術,2018,(4):1-7.
[13]Mark M, Greer J. Evaluation methodologies for intelligent tutoring systems[J]. Journal of Artificial Intelligence in Education, 1993,(2):129-153.
[15]Jeremic Z, Jovanovic J, Gasevic D. Evaluating an intelligent tutoring system for design patterns: The DEPTHS experience[J]. Educational Technology & Society, 2009,(2):111-130.
[16]Sykes E R. Design, development and evaluation of the java intelligent tutoring system[J]. Technology, Instruction, Cognition and Learning, 2010,(1):25-65.
[17]Hooshyar D, Binti R, Wang M, et al. Development and evaluation of a Game-Based bayesian intelligent tutoring system for teaching programming[J]. Journal of Educational Computing Research, 2018,(6):775-801.
[18]Mousavinasab E, Zarifsanaiey N, Niakan K, et al. Intelligent tutoring systems: A systematic review of characteristics, applications, and evaluation methods[J]. Interactive Learning Environments, 2021,(1):142-163.
[19]劉明祥,朱書強.基于Web的智能教學系統評價[J].現代教育技術,2002,(3):51-54、79.
[20][24]賈積有,孟青泉.智能教學系統的評價與選擇[J].數字教育,2019,(3):1-9.
[21]周楠,周建設.基于深度學習的學生行為分析與教學效果評價[J].現代教育技術,2021,(8):102-111.
[23]賈積有,于悅洋.學習活動指數LAI及在線學習活動指數OLAI的具體分析[J].中國遠程教育,2017,(4):15-22、56、79.
[25]孟青泉,賈積有,顏澤忠.面向在線學習系統的學習風格模型[J].教學考試,2021,(9):57-62.
The Construction and Empirical Research of the Evaluation Model of Intelligent Tutoring System
MENG Qing-quan1JIA Ji-you2ZHANG Zhi-yong3YAN Ze-zhong4
The evaluation of an intelligent tutoring system can not only evaluate its performance, but also provide a basis for its optimization. But, there is still a lack of instructive evaluation models for intelligent tutoring systems. Based on this, this paper constructed an intelligent tutoring system evaluation model, which included factors of intelligent tutoring system, learner, system designer, learning effect test and learning style measurement. Meanwhile, an evaluation process includes five steps of data acquisition, overall evaluation, detailed evaluation, evaluation analysis, and system optimization was designed. After that, taking the intelligent teaching system of “Happy Learning 100” as an example, this paper carried out empirical research. The results showed that the evaluation model of the intelligent tutoring system could effectively distinguish the learning effect of learners with different learning styles, generate refined evaluation results, and provide data support for the optimization of the system, which had great application value.
intelligent tutoring system; ITS evaluation; learning style; learning effect
G40-057
A
1009—8097(2022)05—0068—07
10.3969/j.issn.1009-8097.2022.05.008
基金項目:本文受全國教育科學規劃教育部青年課題“核心素養導向下基于語義圖示和思維可視化工具的智能教學系統優化設計研究”(項目編號:ECA190481)、2017年度中央電化教育館全國教育技術研究規劃重點課題“基于智能技術和大數據分析的個性化教學研究”(項目編號:176220009)、2020年度北京大學教育大數據研究項目“基于大規模學生學習活動數據挖掘的自適應性智能教學系統研究”(項目編號:2020YBC07)資助。
孟青泉,講師,博士,研究方向為人工智能教育、創新教育和教師教育,郵箱為6836@cnu.edu.cn。
2021年9月25日
編輯:小米