潘 怡,杜紅燕
(1.長沙學院 計算機科學與技術系,湖南 長沙410022;2.瓊州學院 電子信息工程學院,海南 三亞572022 )
借助RSS 訂閱、個人博客、虛擬視覺以及實時通訊軟件,大規模開放在線課程[1](Massive open online course,MOOC)平臺在教師與學習者之間搭建起了一種全新的學習橋梁,自誕生伊始就迅速獲得了人們的廣泛關注.在MOOCs 平臺上,教師事先規定好學習內容,將相關授課視頻及音頻資料放在網絡共享,當學生完成相關學習及測試后,平臺將根據測試結果提供反饋意見,對于學生關注的焦點性難題,教師可通過論壇統一答復,也可用在線教材注釋、虛擬課堂等方法進行說明,平臺為“師-生”、“生-生”交流的雙向互動提供了充分的交流渠道,初步實現了“翻轉課堂”和混合課堂.MOOCs 項目初衷是通過友好的人機交互界面與人文化的學習支持模式以及動態發展的學習內容,達到教師、學生及學習環境的和諧共生[2],而隨著MOOCs 注冊用戶的快速增長,用戶類型的個性千差萬別,其對學習過程管理、個性化學習推薦等海量信息分析技術的需求也日益增強.目前大量在用戶學習過程中所積累的與用戶學習模式、學習興趣、學習方法相關的數據未能得到深入分析處理,嵌入式學習技術還缺乏真正有效的學習分析手段,要實現集教學反饋、自助學習、資源推薦、個性化教學為一體的智能教學系統[3](Intelligent Tutoring System,ITS)仍然任重道遠.
圖1展示了一個典型的MOOC 平臺學習流程,如圖所示,當學習者開始學習一門新課程時,系統將以周或其他時間單位為其提供當前這一課時的授課視頻、單元測試、家庭作業等,學習者依照教學要求,完成視頻學習及課堂作業以及單元測試.為了實現自適應教學功能,在學習過程中,平臺增加了“個人反饋”環節,在用戶使用學習資源、進行能力測試的過程中,及時提供一些反饋信息,向用戶推薦更合適的學習路徑.MOOC 平臺倡導學習者依據其自身的學習需求,主動選擇學習路徑,控制學習進程,在這一過程中,為了更好地幫助用戶使用平臺的教學資源,MOOC 平臺應能為學習者提供以下功能:
1)對所有參與學習的學習者建立用戶模型,模型內容包括學習者的學習目標、學習興趣、學習行為模式、學習層次等.
2)在學習過程中,除了學習者主動選擇的學習內容外,平臺能夠為其提供相關的學習內容,這些知識單元有可能是被學習者所忽視的要完成學習目標所必需的儲備知識.
3)在學習過程中,系統能夠根據學習者的學習結果及時給出評價和反饋,并允許學習者自由選擇學習路徑.

圖1 MOOC 平臺學習過程示意
用戶和學習資源是MOOC 資源庫管理的兩大核心對象,其中用戶模型[4]是MOOC 平臺關于用戶或用戶群的信息與假設的描述集合,MOOC 平臺用戶建模技術是指系統通過存儲及管理用戶的特征文件、學習軌跡、學習結果,采用各種信息統計分析技術,歸納整理出可計算的用戶模型定義及分類標準,并在用戶學習過程中,依據用戶的特征分類,主動為其提供合適的學習資源、學習路徑的選擇.
MOOC 的用戶模型定義通常包含以下幾方面內容:用戶知識、用戶學習興趣、用戶學習目標、用戶背景、用戶學習模式.
1)用戶知識能力水平
用戶知識能力水平建模在MOOC 平臺個性化服務中非常重要,過高或過低的預測值都將影響系統推薦的準確性.用戶能力水平定義可采用定量方式[5],如從0 開始到10,每個等級代表不同的用戶能力水平,也可采用定性方式定義,如“好、較好、一般、較差、差”等.對用戶能力水平標準化處理后,可以在學習者和課程資源之間建立相應的匹配關系并推薦.用戶能力水平的定義多半以用戶自我判斷或綜合系統的測試結果為主,但課程所涉及的知識領域通常包含多個知識單元,用戶有可能只對課程中的部分知識單元掌握程度較好,因此采用等級法對用戶能力水平建模,雖然簡單但準確度較低.
2)用戶學習偏好
用戶的學習偏好是個性化學習路徑推薦建模中重要的影響因素之一,大多數推薦系統的用戶模型都將用戶的偏好作為推薦模型的核心[6].關鍵詞匹配是一種常見的用戶學習偏好描述方法[7],系統根據用戶提供的關鍵詞,處理后得到相應的加權關鍵詞向量,再以這些向量的權值大小來確定用戶偏好.語義網絡[8]也是一種常見的用戶學習偏好建模方法.與關鍵詞匹配方法相比,語義網絡方法能夠解決關鍵詞一詞多義的問題,而且所表達的問題內涵更加靈活和豐富.
3)用戶學習目標
學習目標是用戶學習活動最直接的描述,也是最易發生變化的用戶模型因素之一[9],系統通常預先歸納出用戶可能的學習目標,然后以列表選擇的方式來獲得答案.
4)用戶學習背景
用戶學習背景包括了用戶在接觸A-MOOC 平臺之前的特征,包括用戶的專業、職業、工作經驗等,學習背景可作為用戶分類的依據之一,盡管用戶的學習背景隱含了其能力水平的差別,但與能力水平不同,學習背景是一種相對穩定的信息,在基于上下文的自適應學習系統[10]中,是使用頻率較高的一類用戶建模維度.對用戶學習背景的判斷相對簡單,可采用基本固定的選項進行描述.
5)學習動機
學習動機是近年來MOOC 平臺用戶建模又一個關注的熱點,學習動機對用戶學習的投入程度、持續學習時間都有一定影響,當前對用戶學習動機的研究分成兩類[11],一種是通過傳感設備采集用戶情緒狀態變化數據并以此作為分析的依據;另一類則著重研究探討學習理論,例如激勵理論、評價理論等對用戶學習動機影響程度.
6)個人特征
用戶的一些個人特性,包括用戶的性格特征,如用戶是外向型性格還是內向型性格,用戶對工作負荷的承載能力、用戶的理解力、認知風格等.例如,通過研究學習者的認知風格[12],能夠了解學習者理解、組織及記憶知識單元的方式,然后給學習者標記上恰當的標簽,是整體-分析型,還是場依賴-場獨立型、沖動-熟慮型或整體-序列型等等.邁爾斯-布里格斯(Myers-Briggs Type Indicator,MBTI)性格測試則[13]是一種常見的性格甄別工具,經常被用于E-learning 用戶建模中.
MOOC 的用戶建模工作內容及要求包括:
(1)通過用戶的檔案文件以及用戶與系統交互的歷史學習軌跡建立用戶模型;
(2)能夠根據用戶學習進程的發展以及學習活動的結果及時對當前用戶模型進行更新;
(3)用戶模型能夠全面和基本準確地反映用戶的真實信息;
(4)系統能夠根據用戶模型的定義結果為其推薦合適的學習路徑.
消除不確定性是MOOC 用戶建模需要解決的主要問題[14],例如學習者之間的相似性判斷,究竟需要經過多少次測試才能認定學習者已經掌握了某一知識單元,如何區分學習者究竟是碰巧猜對了題目的答案還是真正了解,還有同一學科或者同一課程中,許多知識點是相互關聯的,系統如何由一個已經完成的測試結果推斷用戶是否已經了解了其他相關聯知識單元.
貝葉斯網絡[15]是一種具有N 個節點的有向無環圖,其表示形式靈活,建模能力強,能夠在不增加其他領域知識的基礎上,直接通過原始數據集歸納得到網絡拓撲結構,得到結點之間的概率模型,在降低挖掘成本的同時能夠提高推薦結果的準確性,被廣泛應用于不確定知識表達和推理領域.
一個貝葉斯網絡可以被形式化定義為G=<<V,E>,P>,其中:
1)V 是網絡節點,代表各類觀測值.
2)E 是節點之間的有向邊集合,<Vi,Vj>∈E 表示Vi和Vj之間存在直接影響或因果關系,Vi稱為Vj的父節點,Vj稱為Vj的子節點.
3)P 表示與每個節點相關的概率分布.

圖2 最簡單的貝葉斯網絡結構
貝葉斯網絡可斷言每一節點在父節點確定后,都條件獨立于其所有祖先節點,當節點之間的條件概率分布已知時,可以很容易從節點所有父節點的聯合概率分布計算得到當前節點的條件概率,使用貝葉斯網絡定義用戶模型,指利用貝葉斯網絡的結構及條件概率分布關系,在給定某些假設前提下,計算子節點的取值概率.以描述學生能力水平為例,為了判斷學生是否已經掌握了某領域的知識單元K,可以定義判斷證據為事件E,可以定義網絡中的兩個相鄰結點K 和E,以及他們之間的指向關系K->E,這里節點K 表示用戶已經掌握了某知識單元,節點E 表示判斷證據,如圖2所示,即當用戶處于K 狀態時,可得到結果E.
使用貝葉斯網絡構建MOOC 用戶模型的過程可以分成定性和定量兩個過程,定性是指確定如何選擇網絡的節點變量和邊的定義,定量是指計算節點之間的概率分布.其中,因用戶模型內涵的豐富性和特殊性,一般算法研究重點為網絡節點和參數變量的選擇.
節點變量選擇既可以請領域專家根據經驗直接確定節點變量類別和參數個數,例如Anh[16]利用貝葉斯網絡中的結點來代替學習者腦海中的知識圖單元,單元之間的先后次序關系則采用貝葉斯網絡中的邊表示,算法在對學習者的學習興趣、學習要求進行簡單的分類判斷后,根據不同知識單元的組合次序,確定候選學習路徑,然后依據各知識單元的權重以及轉移概率,計算路徑的權重,挑選出最適合的學習路徑.也可以綜合使用以上兩種方法完成.如果采用領域專家法,要注意檢驗得到的最終網絡節點是否包含了問題域的所有內容,不光是對用戶特征的總結,還必須考慮到這些節點變量之間的指向關系,以及條件概率分布的大小.
如果是通過學習算法得到,則需要保證重要性的設置相對精確,不會因算法參數的設置不到,導致不能建立一個完整的貝葉斯網絡用戶模型.對學習者類別判斷如果以靜態信息為主,考慮動態學習行為的影響,將導致用戶模型的實時性較差,響應變化速度慢的問題,采用基于貝葉斯網絡的混合模型算法,例如馬爾可夫模型對用戶的歷史學習數據進行建模,也可采用基于模型的聚類方法來體現用戶學習過程中所隱含的動態特征[17].假設用戶使用MOOC 平臺的學習行為以某一先驗概率屬于某個用戶行為模型聚類,使用一階Markov 模型描述時,k 個用戶類別的參數模型λ=(πk,Ak),1≤k≤K,Ak=(akj)N×M.其中,πk是初始聚類屬于k 的概率分布,Ak是狀態轉移概率矩陣,表示當前用戶行為屬于聚類k 跳轉到聚類j 的概率.可采用最大似然算法訓練得到模型λ 的參數,并根據第k 個聚類產生的條件概率來判斷用戶行為的聚類結果:

其中:αk為聚類k 的權值,On為用戶模型樣本序列,c 為用戶行為模型的標簽,K 為用戶行為模型聚類的最大數目.用戶模型在學習過程中的變化可通過動態貝葉斯網絡來處理.Reye[18]使用動態貝葉斯網絡來動態描述學習者對學習概念的理解程度,例如為描述學生在了解知識B 后,也了解知識A 的可能性為90%,則可以使用p(S-k(A)|S-k(B))=0.9 表示.Jonathan[19]借助動態貝葉斯網絡模擬了基于問題的學習環境架構中學習者的知識結構更新過程,并以此作為優化交互式學習環境的依據,而Sabouri[20]則在同一實驗平臺上研究了如何使用動態貝葉斯網絡來對用戶情感模型進行優化.用戶的相似性定義也可以幫助描述用戶特征,張少中[21]將小世界網絡與貝葉斯網絡結合起來,利用小世界網絡在聚類應用中的良好性質來描述用戶-用戶之間的關系,將屬性值相同或相近的用戶聚集在一個用戶組,再利用貝葉斯網絡描述用戶的偏好,能夠反映用戶彼此之間的影響關系,提高用戶模型描述準確度.其中,兩層混合模型結構G=(Vu,Vs,E),Vu為用戶結點,Vs為知識單元結點,E 為連接結點之間的有向邊,如下圖3所示.在包含移動客戶端的MOOC 平臺上,用戶模型的描述內容應包含用戶場景上下文,使算法在推薦過程能夠捕捉隨場景變化的用戶偏好.由于基于貝葉斯網絡的個性化學習分析對數據完備性程度要求較高,在建模初期需要積累大量的原始數據,包括用戶個人信息、學習歷史等,當學習者剛進入MOOCs 平臺時,因缺乏背景知識,將降低建模準確度,也可以考慮將靜態描述與動態更新相結合的用戶建模方法,當新用戶剛注冊時,對其的建模主要考慮用戶自己所提供的知識背景、偏好關鍵詞等一些靜態信息,然后隨著用戶學習活動進展,交互日志數據的不斷豐富,逐步更新用戶模型的其他部分.

圖3 兩層混合用戶-知識單元模型結構
開放、豐富、便利、個性化的學習環境是MOOC 吸引眾多學習者積極參與的主要原因,提供準確的用戶模型是個性化解決方案的基礎,傳統的關鍵詞匹配等文本檢索技術以布爾變量或向量空間模型為主,結果精確度較高但對語意的豐富性表現能力不足,以貝葉斯網絡為代表的概率推理方法能夠靈活地表示用戶特征變量之間的條件概率和語意轉移關系,在保證匹配結果的準確性基礎上保留了語意的完備性,更適合MOOC 用戶建模的要求,本文分析了MOOC 平臺個性化學習的任務,介紹了貝葉斯網絡在MOOC 用戶建模方面的具體應用,為實現MOOC 個性化學習服務解決方案提供參考.
[1]顧小清,胡藝齡,蔡慧英.MOOCs 的本土化訴求及其應對[J].遠程教育雜志,2013(5):3-10.
[2]桑新民,李曙華,謝陽斌.21世紀:大學課堂向何處去?——“太極學堂”的理念與實踐探索[J].開放教育研究,2012,18(2):9-21.
[3]趙蔚,余延東,張賽男.開放式e-Learning 解決方案個性化推薦服務—一種面向終身學習的數字化學習服務模式的探索思路[J].中國電化教育,2010,286:110-116.
[4]Bansal N.Adaptive recommendation system for MOOC[D].Bombay:Indian Institute of Technology,2013.
[5]Brusilovsky P,Sosnovsky S,Shcherbinina O.User modeling in a distributed e-learning architecture[M].Berlin:Springer,2005.387-391.
[6]謝意,陳德人,干紅華.基于瀏覽偏好挖掘的實時商品推薦方法[J].計算機應用,2011,31(1):89-92.
[7]Woolf B P.Building intelligent interactive tutors:Student-centered strategies for revolutionizing e-learning[M].Morgan Kaufmann,2010.
[8]Alila F.S.,Mendes F.,Nicolle C.A Context-Based adaptation in mobile learning[J].Bulletin of the IEEE Technical Committee on Learning Technology,2013,15(4):14-19.
[9]Manouselis N.,Drachsler H.,Vuorikari R.,et al.Recommender systems in technology enhanced learning[M].Recommender systems handbook.Springer US,2011:387-415.
[10]Pardos Z.A.,Gowda S.M.,Baker R.S.J.,et al.The sum is greater than the parts:ensembling models of student knowledge in educational software[J].ACM SIGKDD explorations newsletter,2012,13(2):37-44.
[11]Sabourin J,Mott B,Lester J C.Modeling learner affect with theoretically grounded dynamic Bayesian networks[M].Affective computing and intelligent interaction.Springer Berlin Heidelberg,2011:286-295.
[12]李浩然,劉海燕.認知風格結構模型的發展[J].心理學動態,2000,8(3):43-49.
[13]El Bachari E.,Abdelwahed E.,El Adnani M.Design of an adaptive e-Learning model based on learner’s personality[J].Ubiquitous Computing and Communication Journal,2010,5(3):1-8.
[14]Desmarais M.C.,Baker R.S.J.A review of recent advances in learner and skill modeling in intelligent learning environments[J].User Modeling and User-Adapted Interaction,2012,22(1-2):9-38.
[15]厲海濤,金光,周經倫,等.貝葉斯網絡推理算法綜述[J].系統工程與電子技術,2008,30(5):935-939.
[16]Anh N.V.,Ha N.V.,Dam H S.Constructing a bayesian belief network to generate learning path in adaptive hypermedia system[J].Journal of Computer Science and Cybernetics,2008,24(1):12-19.
[17]覃俊,肖榮.基于馬爾可夫混合模型的電子商務搜索引擎用戶行為聚類[J].計算機應用,2012,32(4):1086-1089.
[18]Jim R.Student modeling based on belief network[J].International Journal of Artificial Intelligence in Education,2004,14:1-33.
[19]Rowe J P,Lester J C.Modeling o.User Knowledge with Dynamic Bayesian Networks in Interactive Narrative Environments[C].Proceedings of the 6th Artificial Intelligence and Interactive Digital Entertainment.California:The AAAI Press,2010:57-62.
[20]Sabourin J.,Mott B.,Lester J.C.Modeling learner affect with theoretically grounded dynamic Bayesian networks[M].Affective computing and intelligent interaction.Berlin Heidelberg:Springer,2011:286-295.
[21]張少中,高飛.一種基于小世界網絡和貝葉斯網絡的混合推薦模型[J].小型微型計算機系統,2010,31(10):1974-1979.