楊平生
(西安建筑科技大學圖書館 西安 710055)
自適應學習研究起源于美國匹茲堡大學Brusilovsky于1992年提出的一個支持學習與輔導的智能輔導系統(Intelligent Tutoring Systems)ITEM/IP[1]。美國高校教育信息化協會與新媒體聯盟在《地平線報告(高等教育版)》中連續幾年將自適應學習列為未來影響高等教育發展的關鍵技術之一。
所謂自適應學習是一種通過交互掌握學習者的當前狀態,并能夠在整個學習進程中不斷調整其個性化的學習資源與路徑推薦的教學、輔導系統,具有數據驅動、非線性、個性化的特點[2]。近幾年隨著計算速度的指數級增長和大數據處理技術的高速發展,使人工智能落地應用成為可能,圖像識別、語音識別、情感分析、主題提取、文本分類等技術在各個領域都得到了普遍應用,再加上移動設備及教育信息化的發展,使自適應學習具有了更適宜的實現條件。
在教育領域中,2018年4月教育部發布了《教育信息化2.0行動計劃》,其中的智慧教育創新發展行動提出以人工智能、大數據、物聯網技術為基礎,同時依托智能設備和網絡技術,開展智慧教育創新,在新技術的推動下,進行教育模式和教育生態的變革與重構。行動計劃要求加快基于信息技術與智能技術的高校智能學習體系建設[3]。
高校圖書館不僅是高校開展教育活動的重要場所,是高校的文獻資源中心,還是傳統的學習空間,在智能化學習體系建設中應當體現其核心價值,推動圖書館利用走向智能時代,從傳統學習走向自適應學習,從傳統學習空間走向智慧型學習中心,這是建設智慧圖書館的重要一環。
圖書館自適應學習中心應當具有這樣的應用場景:讀者進出圖書館,通過人臉識別閘機采集在館時間數據;讀者在館內的位置,通過室內定位技術采集所處區域的數據,并通過軌跡追蹤記錄其在館內的位置變化數據;通過人臉抓拍攝像機和行為識別、情緒識別技術采集讀者的具體行為與情緒數據,比如讀者坐在自習座位上進行閱讀、看手機、手部小動作、注意力集中程度、時間利用效率等;讀者利用數據,通過數據庫采集讀者的搜索下載數據、線上學習數據、借閱數據、科研數據、上網流量數據等。通過這些數據,再結合讀者的基礎教育數據、課堂教學數據,形成描述個人學習特征的讀者畫像。通過深度學習技術訓練出優化的學習模型,以讀者畫像類型匹配訓練出的優化學習模型,以學習模型為核心建立應用系統,從而能夠根據個人特征給出因人而異的、最優化的學習計劃;在整個學習中由系統實行過程監督,并能根據學習效率及時給予正反饋;根據學習階段和個人特征給予不同的個性化資源推薦;系統分階段進行學習效果檢測,及時調整學習策略;系統還可以根據個人身份、學習內容、在館時間、在館位置等數據組織實時交流互動和協作。通過這種方式,使學習變成一種導航式的過程,同時體現人機交互的特點。
國內外對自適應學習支持系統的研究有:智能網絡教學系統、自適應超媒體系統、自適應智能代理系統、適應性遠程學習支持系統、語義網適應性學習系統、雙向適應機制等;系統中模塊組件主要包括領域模型、用戶模型、自適應模型、接口模塊等[4]。文章提出的學習支持系統以學習行為評價模型為中心,包括學習者畫像和資源推薦等模塊,結構見圖1:

圖1 自適應學習系統結構圖
2.1.1 數據采集
自適應學習建立在對學習者的學習全過程產生的歷史數據進行數據獲取和數據挖掘的基礎上,因此要求圖書館對學習環境、應用裝備、學習者信息等情境信息能夠全面感知[5]。需采集的數據可分為基礎教育數據、線上學習數據、圖書館使用數據、圖書館行為數據。其中基礎教育數據包括學習者的姓名、性別、年齡、學號、院系、成績、研究項目、研究成果等;線上學習數據包括在線時間、登錄習慣、資源訪問數量、鏈接停留時間、熱圖點擊率、習題正確率、考核結果等;圖書館使用數據包括借還數據、門戶訪問數據、數字資源搜索與下載數據等;圖書館行為數據包括門禁進出數據、軌跡追蹤數據、學習效率數據、學習情感數據等。
在數據獲取方式上,基礎教育數據、線上學習數據、圖書館使用數據都可以從相應的數據庫或日志中獲取,學習者在圖書館的行為數據需要通過設備采集。學習者的在館時間、入館習慣數據可以通過門禁系統采集;在館內空間的活動軌跡可以通過人臉抓拍監控攝像機等設備進行追蹤;在館內公用計算機的網頁瀏覽數據可以通過眼動儀采集;在館內的書寫數據可以通過點陣數碼筆采集;在館內自習區的學習情感數據可以通過人臉抓拍監控攝像機采集。
圖書館采集、使用學習者個人數據應當注意遵守國家相關法律法規,必須具有合法性、正當性和必要性。所有個人數據不對外提供、不超范圍采集、不公開披露敏感信息。圖書館應當與能接觸到個人信息數據的合作單位簽署保密協定,限制接觸人數,建立追責制度,確保數據安全。
2.1.2 數據處理
對于獲取到的數據,需要進行加工處理。通常對具有量化結果的數據,例如基礎教育數據、圖書館使用數據,一般使用二維表存儲,可以直接調用。而對復雜的非結構化數據,需要對原始數據進行預處理[6]。
學習者在圖書館的行為、情感等視頻數據以光流直方圖提取運動對應的特征向量,對于相對靜止的行為,例如坐在座位上進行閱讀、書寫等行為,通過卷積神經網絡識別;對于運動性強的行為,例如行走、動作,以水平和垂直光流灰度圖輸入卷積神經網絡,以雙流識別框架進行行為識別。
學習者在圖書館學習的情感數據也可以采用三階張量的高階奇異值分解HOSVD方法,識別出高興、專注、困惑、驚訝、疲勞、自信等不同類型[7]。
研究成果等需要語義分析的文本數據先以Word2vec等工具進行詞向量化,采用詞頻(TF)、詞頻率-逆文檔頻率(TF-IDF)等方法提取特征,借助潛在語義分析技術進行主題或關鍵詞挖掘分析。
在建構的學習行為統計框架中將處理后的數據結構化記錄??梢圆捎谩案唠A分散式學習”(ADL ,Advanced Distributed Learning)組織標準的技術規范xAPI(Experience API)傳輸數據到LRS(Learning Record Store),它能夠詳細地跟蹤和記錄整個學習過程的數據流,由此建立學習者的歷程檔案并成為內容推薦的基礎。
2.1.3 學習者畫像
為了針對學習者規劃出個性化的學習路徑并推薦學習資源,首先需要對學習者的特征進行識別、聚類,包括學習者的基本信息、學習目標、學習風格、知識結構、認知水平、學習歷史、學習績效、心理特征等個性化特征。多數特征可以從已有數據中獲取,而其中比較復雜的學習風格需要單獨建立模型獲取?,F在常用的學習風格模型包括:Kolb模型、Honey and Mumford模型、Dunn模型及Felder-Silverman模型等[8]。在此我們采用Felder-Silverman 學習風格模型,可以根據采集的數據或處理后的數據建構一個學習行為模式,它從信息加工、信息感知、信息輸入和信息理解四個維度把學習風格分為四組:活躍型/沉思型、感覺型/直覺型、視覺型/語言型、序列型/綜合型??梢岳肧ilverman學習風格量表(ILS)提取在線學習的登錄、訪問、測試數據進行顯性初始化判斷;還可以利用貝葉斯網絡方法(BNs)計算條件概率而隱性判斷出學習風格特征[9]。
將學習者特征用K-means算法,生成不同學習者畫像的聚類。算法中采用“肘部法則”選取K值,為了提高聚類效果,應預先對差距較大的屬性值進行標準化處理[10]。
2.1.4 學習行為評價
學習行為就是學習者以某種學習方法、采用某一領域的學習資源獲取知識的行為,或者說是以一定的學習路徑與資源進行知識內化的行為,而這種行為效率有著個體的獨特性,為了簡化規則和方法,我們以不同的學習者聚類進行行為建模與評價。在同一聚類內,對所有學習者的學習路徑數據進行統計,比如某一科目學習投入的總時長、時間分布、知識點的先后順序、知識點的組合方式、知識鞏固的節點、資源偏好等;然后以同一類型學習者的考核成績為標簽,訓練學習模型;將學習者的學習行為特征參數值輸入學習模型,可以依據學習模型的理想型(標準化評價結果庫)對學習者的學習行為輸出評價結果,對學習者的學習路徑給予優化建議并對學習行為進行過程監督。
學習行為評價技術現有貝葉斯網絡、BP 神經網絡、模糊神經網絡、聚類分析等方法,都具有行為采集、模式識別、評價反饋、個性化推薦幾個步驟[11]。在此采用BP神經網絡算法,BP神經網絡是一種按照誤差逆向傳播(Error Back-ProPagation)算法訓練的多層前饋神經網絡,包括輸入層、隱含層和輸出層,基于梯度下降策略,通過不斷修正網絡權值和閾值,使誤差函數沿負梯度方向下降,從而使得訓練集上的累積誤差不斷減小?;綛P算法包括兩個過程,即信號的前向傳播和誤差的反向傳播,它也是目前應用最成功、最廣泛的神經網絡。實現步驟如下:
①先以學習行為數據作為樣本,其中包括評價指標和評價標準,這些都是定量數據,做歸一化處理。以樣本數據建立數據集,分為訓練數據集和測試數據集[12]。②采用Pytorch或者Tensorflow框架,搭建神經網絡層。隱含層神經元數目可以由以下公式確定其中, h、n、m為隱藏層、輸入層、輸出層神經元數目, a 為[ 1, 10 ]之間的常數。網絡中所有連接權值和閾值在(0 ,1)范圍內隨機初始化。③設置激活函數,對每個輸入樣本逐層計算輸出值,根據期望輸出值與實際輸出值的誤差,計算誤差函數對輸出層、隱含層每個神經元的梯度項,更新權值和閾值,不斷迭代直至達到停止條件[13]。④將測試集數據輸入模型,進行測試、優化。⑤將學習者學習行為數據輸入,當評價標準最優時,哪一個或幾個評價指標改變量最小,即為最佳學習行為優化項,以此對學習者的學習路徑提出改善建議。
2.1.5 資源推薦
按照學習者畫像聚類的類型向學習者推薦個性化資源。在“信息過載”的時代尋求精確,這也符合圖書館一貫追求的“為人找書,為書找人”的宗旨。目前主流的推薦技術包括基于內容的推薦系統和協同過濾推薦系統,以及兩者結合的混合推薦系統[14]。協同過濾算法是基于用戶間行為相似度的推薦算法,不依賴語義描述,是重要的個性化推薦系統算法。協同過濾算法的方法包括基于鄰域的方法、隱語義模型算法、基于圖的隨機游走算法等,其中應用最廣泛的是基于鄰域的方法,包括基于用戶和基于物品兩種協同過濾算法[15]。
我們在此采用基于用戶的協同過濾算法,步驟是先確定當前學習者的聚類類型,然后在同一類型中選擇成績優秀者,匹配檢索這些優秀者會話日志中有關學習資源的行為數據,生成推薦列表,將他們所使用的學習資源推薦給當前學習者。選擇同一聚類學習者來匹配推薦資源的模式,避免了數據稀疏的現象以及大量用戶相似度計算的代價,也能有效提高推薦準確度和滿意度。
冷啟動的處理:①用戶冷啟動:新用戶缺少行為數據,造成學習者畫像不準確,可以在學習者第一次啟動推薦系統時,給以提示,通過反饋提供推薦;②資源冷啟動:新的學習資源,沒有歷史使用數據,基于內容標簽推薦,或者通過計算資源內容相似度進行推薦;③系統冷啟動:新的推薦系統缺乏學習者和資源使用的歷史數據,可以利用專家標注和機器學習相結合的方式,添加標簽進行啟動。
2.1.6 內容建設
資源建設是圖書館的優勢,圖書館自適應學習的基礎建立在資源占有上,因此應重點關注,除傳統圖書、期刊、數據庫資源外,還應開發的資源內容包括領域知識圖譜、習題試題庫、虛擬現實場景模型等。
領域知識圖譜搭建:知識圖譜是結構化的語義知識庫,是用來描述客觀世界中的各種實體和概念,以及它們之間的相互關系[16]。在自適應學習中應以某一領域知識內容搭建領域知識圖譜,在確定知識領域和學習需求后,進行數據收集,然后對于非結構化數據以自然語言處理技術提取出結構化信息,通常包括實體命名識別、關系抽取、實體統一、指代消解等,并根據領域特點確定知識圖譜的實體類型、實體關系類型、屬性類型,以三元組的形式來表示知識圖譜,最后將結構化數據根據不同的設計原則導入資源描述框架(RDF)或者圖數據庫(Neo4j、OrientDB、JanusGraph等)存儲。
習題試題庫:通過Scrapy框架采集在線題庫結構性數據,提取題干、題型、答案和解析等數據,存入數據庫進行文本處理。也可以結合自編試題,建立一個包含題庫編輯、自動組卷、試題分析、在線考試等模塊的題庫系統。
虛擬現實場景建模:基于虛擬現實技術創建相關領域模型,用于虛擬技能訓練、虛擬實驗室、虛擬教學等教育場景。例如Unity Technologies 開發的Unity3D 引擎,包括虛擬三維物體模型、虛擬場景模型、物理計算等功能,可以建立虛擬實驗室、虛擬實驗裝置、虛擬儀器儀表、虛擬場景,也可以結合3dsMAX 完成復雜模型的創建[17];利用VIVE虛擬現實設備開發場域模型,學生佩戴VR頭顯進入虛擬環境,進行沉浸式、交互性學習[18]。
2.1.7 效果評估
學習效果評估方法包括基于變異系數法、基于數據包絡分析法、基于熵值法、基于主成分分析法、基于層次分析法和基于貝葉斯分析法等,通過建立學習者效果評估模型,從學習能力、學習滿意度、學習參與度和學習興趣幾個方面進行評估[19]。也可以根據學習者的考核成績、系統日志、自我評價、問卷調查等因素形成評價量表,進行量化統計。其中應當包括考核結果量表、學習策略量表、時間管理量表、注意力量表、效果認可度量表、情感評價量表等,從多個維度進行量化分析,并反饋給系統進行優化。
對整個系統功能的評測可以采用三種方式:①學習者問卷調查:更直接,回復更翔實。②離線數據分析:通過日志系統調取學習者使用前后的成績變化,進行分析。③在線AB測試:將學習者隨機分成幾組,采用不同的推薦算法,統計不同指標進行分析。
圖書館自建的學習系統是根據已有的軟硬件條件而建構的,同時使用對象較多,包括專家、管理者、教師、學生等,從形式到內容的需求都較為復雜,不可能面面俱到,因此必須在管理上保持開放性,容許國內外第三方自適應學習系統的應用或者接入。
當前國外較為成熟的自適應學習系統有:美國自適應教育最大規模商業化平臺“Knewton”,是基于規則和機器學習而開發,主要包括推薦系統、數據系統和內容建設,能夠通過數據收集、推斷及推薦來提供個性化教學。在線語言學習平臺“Duolingo”,也是采用基于機器學習的自適應模式,會根據用戶的回答,個性化推送不同難度的選題,它還開發有可引導談話主題的聊天機器人。面向教師的自動化評分系統“Gradescope”,可以輔助教師進行試題批改,主要應用于理工科。英語語法修改系統“Grammarly”,可以實現實時語法檢查、修正句子結構、修改句式、拼寫檢查、詞匯增強等功能[20]。情緒識別與面部編碼數字應用技術公司Affectiva推出的SDK:“Affdex”,能夠識別并輸出情緒指標、面部表情指標、網絡表情符號、外觀指標,目前已在課堂學習狀態監測中得到應用。
國內應用的自適應學習系統有:“論答”系統,包括論答PRISM人工智能算法推薦引擎、大數據分析系統、多學科知識圖譜、智能測評系統、學習路徑個性化規劃和學習任務智能匹配等[21]。海風教育的“好望角”AI系統,包括情緒分析、注意力分析、課堂教育建議等。好未來與FaceThink的“TAL AI Lab”,將視覺分析、語音、機器學習等技術應用于輔助教學、激發興趣、智能交互在線教育,包括魔鏡系統、智能評測系統等項目[22]。國內知名的題庫、作業平臺有:“作業幫”的學習輔導服務主要是以“拍照搜題”的形式提供答案和知識點講解,也以人工智能技術形成用戶畫像及用戶群體畫像,針對性地推送練習[23]。猿輔導公司的“猿題庫”“小猿搜題”是通過自適應技術為學習者提供個性化題庫,也是最大的真人在線個性化輔導平臺。在線英語學習方面有“批改網”,自動掃描學生的英語作文參數,通過對比參數與標準語料庫的差距,給出分數、評語及按句點評。
2.3.1 空間建設
作為一個學習中心,僅有傳統學習空間是不夠的,必須將空間建成一個智慧化的學習環境。Rob Koper 認為,智慧學習環境就是在物理的空間環境中嵌入豐富的數字化內容以及情境感知和自適應設備[24]。
圖書館自適應學習中心智慧空間建設的第一個要素是物理空間,這個空間除傳統空間設計中應當考慮的穿插、層次、節奏等空間美感外,還應當充分考慮空間功能的自由化和可變性、多樣性、延伸性,功能自由化即是可以設置不同體驗感受的學習區,比如健身減壓學習區、咖啡學習區、超靜音學習區、脫機(手機集中存放)學習區等;功能可變性是指采用可移動的家具、可伸縮的空間構件;功能多樣性指具有各類討論區、小組討論教室、放映室、研修室、培訓教室、開放交流區、多功能廳、社交區等,既有支持獨立學習的氛圍,也有支持群體學習的空間[25];功能延伸性是指智慧學習的延續性延伸了圖書館的空間屬性,可以將圖書館空間延伸到教學樓、宿舍和食堂等不同區域,充分利用碎片時間,達到自適應學習的泛在化效果。
自適應學習中心智慧空間建設的第二個要素是資源空間,這是圖書館學習中心建設的核心優勢。包括紙質資源和數字資源,紙質資源體積大信息含量小、信息傳遞效率低,在未來的發展上,應當重視數字資源建設。另外應當重視的是人的知識服務,在自適應學習中,在程序化的導航式學習過程中,應當輔以真人服務,比如閱讀導師、學科指導教授[26],以便形成知識引導的人性回歸。
自適應學習中心智慧空間建設的第三個要素是支持設備,包括無線網絡全覆蓋、人臉抓拍攝像機全布控、自動門禁系統等,還包括資源呈現類的白板、涂鴉墻、投影儀、觸摸式展示屏、充足的電源插座以及情境感知類的傳感器、交互類的智能終端等,也可能還有能夠提供移動服務的“大疆RoboMaster S1+NLP模塊”,幫助造就更充分的無人值守空間。
2.3.2 位置管理
圖書館智慧空間位置管理分為群體位置管理和個體位置管理?;谌四樧R別門禁系統和人臉抓拍攝像機結合計算機視覺技術可以獲得學習者行走路線、聚集區域、行為特征等,為圖書館功能空間規劃、資源配置決策提供客觀有效的依據[27];通過關鍵幀檢測、密度檢測進行空間影響因素分析,及時引導、預防可能發生的不安全事件。
基于紅外線、燈光、超聲波、藍牙、UWB(超寬帶)、Zigbee(紫蜂協議)、RFID、Wi-Fi等室內定位方法和技術[28],結合學習路徑推薦模塊,將圖書館座位預約系統提升為座位推薦系統,即根據規則分析出每個位置適合匹配的學習者,從而提供個性化的位置推薦服務。
人工智能時代學校教育將面臨教學結構、辦學體制和組織形態的重大變革[29]。高校圖書館能否在這個時代完成角色轉換,關鍵還是看其發展能否滿足讀者需求,能否跟上學習模式的進化,因此對圖書館來說自適應學習是一個具有前瞻性的大命題,值得深入研究。但是自適應學習系統又涉及硬件、軟件、空間、學習者等各個層面,十分復雜,美國高校教育信息化協會(EDUCAUSE)的《2019地平線報告(高等教育版)》提到近幾年自適應學習沒有發揮出它應有的潛力,實施和擴展都受到時間、投資、資源的挑戰[30],說明自適應學習還有很長的路要走,需要學界學者不斷深入研究探討。