田永健
(內蒙古自治區大數據中心,內蒙古 呼和浩特 010000)
近年來,隨著互聯網及大數據等技術快速發展給人們的學習生活帶來便利,內蒙古教育云平臺的教育資源也呈幾何級數增長,然而面對海量的資源,師生仍然難以獲取自己需要的優質資源。教育部下發的教育新型基礎設施的指導意見提出,優化資源供給服務,升級資源搜索引擎,通過平臺模式為師生提供海量的優質資源和精準的資源服務。
推薦系統就是解決這種用戶沒有明確需求或者內容數量巨大、凌亂情況下的用戶資源服務體驗的問題的。目前,教育資源的推薦系統主要包括:基于關聯規則的推薦、基于內容的推薦、基于知識的推薦、協同過濾的推薦等。在教育資源的推薦過程中,仍然存在推薦不精準、指向不明等情況。本文以內蒙古教育云平臺的系統實踐為例,就其在教育云資源推薦系統中的體系架構、推薦流程及推薦算法邏輯進行闡述。
首先采用智能技術通過各來源匯聚優質資源,包括內部自建資源、平臺教師共建資源及外部合作及購買資源。建立一個教育資源庫并進行數據預處理。然后提升基礎設施環境,搭建教育資源模塊化系統,建立用戶數據模型、資源數據模型、用戶關系模型和行為數據模型,以及算法調度系統架構等。建立資源服務系統,面向教師用戶的教學場景提供資源推送服務。最后結合教育云平臺提供資源的智能化服務,以及資源的供給分析服務,從而促進優質資源的覆蓋,實現為教師的資源精準化服務,提升教育均衡發展,建立更加適切、更加人本、更加平等、更加可持續的教育體系。
教育資源推薦業務流程圖見圖1。

圖1 教育資源推薦業務流程
首先,教育資源精準推送需要基于各方面匯聚的教育資源數據、教育用戶數據及用戶行為數據等各方面數據,因此需要一個大數據基礎平臺,用來采集匯聚以及管理各方面的相關數據,并可以進行數據治理,提交給后續算法模塊的數據必須經過清洗、建模后的數據,需要保證良好的數據質量,否則推薦結果必然不準。
有了各類數據原料之后,推薦引擎作為推薦系統的核心模塊實現數據、算法和推薦服務的銜接。推薦引擎要為算法準備數據,評估數據是否符合算法要求;推薦引擎還要能調整算法參數不斷優化推薦結果,能將多種算法的結果組合形成不同的推薦策略并進行對比。
推薦系統每一次用戶使用推薦教育資源內容后的反饋信息都可以促使推薦系統優化、完善,從而使用戶節約更多的無效搜索和查找教育資源的時間,更能體現出教育資源推薦系統的價值。
教育資源精準推送體系架構見圖2 所示。
建立教育大數據中心,利用大數據中心平臺匯聚內外部優質資源數據,包括內蒙古教育云資源數據、一師一優課資源數據、名師工作室資源數據、活動獲獎資源數據、優質廠商資源數據等,對數據進行清洗、整合、建模和數據挖掘,形成基于資源匯聚和資源數據模型的知識圖譜、基于資源應用行為數據模型的資源畫像、基于用戶數據模型的人際關系網絡、基于通用行為數據模型的用戶畫像等模型。基于以上模型,推薦引擎根據教育資源使用場景定義推薦策略和規則,結合多種機器學習和人工智能的推薦算法提供資源推薦能力。然后為用戶提供智能資源應用服務,智能導航主要是幫助用戶快速準確查找資源;智能錯題本則是融合了用戶畫像和知識圖譜的為學生提供的個性化學習資源,另外還有智能備課、智能組卷等。通過開放平臺可以進一步將智能資源應用接入第三方應用,擴大智能資源應用服務的覆蓋面。資源服務優化決策中心使得管理者能夠方便管理資源服務,決策者隨時全面了解資源服務的總體情況和關鍵服務指標情況。
基于內蒙古教育云平臺的相關數據,建設資源推薦的系統方案包括以下部分:
資源應用過程跟蹤計算中心是匯聚教育云資源數據并建立模型為資源智能服務提供數據支撐的大數據中心。其建設內容有:基于資源匯聚和資源模型的知識圖譜、基于資源應用行為的資源畫像、基于用戶數據的人際關系網絡、基于通用行為數據模型的用戶畫像。
1.基于資源應用行為數據模型的資源畫像
基于統一的大數據采集規范,通過對用戶在資源應用過程中的行為數據采集,構建包含用戶查找、收藏、分享、推薦、評價等行為以及用戶資源訪問歷史的資源應用行為數據模型,形成資源畫像。
資源應用行為描述資源全生命周期的所有事件,描述用戶通過平臺查找資源的行為過程;描述用戶分享、推薦資源的行為過程;描述資源評價數據模型和用戶評價行為模型。
在教育云平臺提供資源檢索行為記錄的基礎上,采集用戶檢索資源的行為。查找行為數據模型應記錄檢索類型和檢索入口。須采集檢索人、檢索時間、關鍵字、檢索結果數量、檢索入口、檢索類型等信息。
采集資源的分享、收藏、推薦等行為。采集的數據包括:資源的訪問行為、資源的分享類別和時間周期。
資源評價行為通常表現為:點贊、評論等,采集數據包括:資源的訪問行為、評價行為類型、評價的結果信息。
資源的訪問歷史數據須采集:(1)基礎行為數據。時間、資源體、用戶;(2)行為前導信息數據。檢索、推薦;(3)行為過程數據。停留時間、有無下載等。
2.基于用戶數據模型的人際關系網絡
遵循國家教育信息管理標準規范,采集內蒙古教育云、第三方應用的用戶數據,構建包含用戶個體基礎信息、群體信息、人際關系信息的數據模型,實現人際關系網絡,支持用戶信息在各系統間的安全共享。
個體基礎信息指用戶個人相關的數據,包括特征型數據、檔案型數據。特征型數據是指具有特定值的用戶信息,如性別、年齡等;檔案型數據是指每個用戶有多個值的數據,如成就、學習經歷等。在特征型數據和檔案型數據的基礎上,可派生出分類屬性,用于用戶分類。
群體信息是指因各類活動需要組成的用戶群體,是一種組織行為形成的用戶聚集,例如行政班、教學班、工作組等,群體之間存在從屬關系,每個群體最多有一個父群體。在群體基本信息的基礎上,可派生出分類屬性,用于群體的分類,如年級段。
人際關系可以通過群體體系體現,如同學關系、校友關系等。也可通過相互關注的好友關系體現。從數據中提取這些關系建構人際關系網絡,在推薦的時候使用。
3.基于通用行為數據模型的用戶畫像
通用行為是指用戶、群體應用各類系統的行為數據,如用戶的登錄行為、與其他用戶的互動行為等。通用行為模型包括:個體行為數據模型和群體行為數據模型。
個體行為數據采集信息通常包括行為發起人信息、行為發起時間和持續時間、行為過程信息、行為結果信息等。群體行為數據可通過群體動態信息表征。群體動態信息按類別存放,如班級活動、學?;顒?,不同群體可以有同類動態信息。
基于統一的大數據采集規范,通過對用戶在各類應用系統上的通用行為數據采集,構建包含用戶個體行為、群體行為的通用行為數據模型,形成內蒙古各類教育用戶的用戶畫像。推薦算法結合用戶畫像,為用戶實現更為精準的資源推送。
教育資源推薦引擎是一個推薦算法平臺,提供多種推薦算法的靈活組合配置。教育資源推薦系統的流程分為離線層、算法層和配置層。
在資源應用過程跟蹤計算中心使用機器學習和數據挖掘算法完成知識圖譜、人際關系網絡、資源畫像及用戶畫像等模型的構建。算法層位于離線和配置層之間,主要由各種推薦算法組成。算法層從離線層獲取數據并加載到高速存儲供算法調用。配置層對算法規則進行配置,包括規則配置、權重配置,以及對結果進行排序組合;通過AB 測試進行流量分流驗證,看哪種算法配置更有效;效果監控是對算法推薦的結果的數據分析呈現,最終為不同用戶呈現個性化的推薦結果。
教育云的資源推送不同與互聯網的那些推薦,不能簡單照搬互聯網的推送模型。首先,教育的資源推送具有很強的學科和學段的差異性,不同學科的知識內容結構差異很大,特別是一些理科與文科的差別,還有一些學科注重實踐,所以在推薦系統設計時要特別考慮。其次,教育推薦是為了幫助教師的教學和幫助學生學習為主,不能完全以個人的好惡來評判。
根據內蒙古現有數據基礎,我們設計了如下幾個算法作為推薦系統的基礎算法。
1.基于資源畫像推薦算法
根據資源行為計算S(行為)數據評分,構建資源畫像數據集。根據用戶特征構建用戶特征標準矩陣。資源畫像數據集與用戶特征標準矩陣通過相似度算法(余弦相似度)計算相似度。給用戶推薦相似度最高的TopN 資源。算法按照學科學段分批計算。
S(行為)=S(click)*w1+S(favor)*w2+S(download)*w3+S(share)*w4
w1,w2,w3,w4 為權重
S(行為),S(click), S(favor),S(download),S(share),分值范圍控制在0-1 區間
W1+w2+w3+w4=1
S(score)=(S0+S(mean))/2平均值,S0為沒有評分的初始值計算相似度的時候,每個特征還有一個權重值參與計算。
基于資源畫像推薦算法流程見圖3:

圖3 基于資源畫像推薦算法流程圖
算法思路,基于資源行為的資源畫像與用戶特征匹配,推薦最匹配N 個資源。
算法步驟:分析算法主要包括數據清洗、整合及轉換,評分計算,然后構建用戶特征矩陣,然后通過相似度算法計算最匹配N 個資源推薦。
算法價值:根據資源的行為及用戶評分的資源畫像,來匹配用戶特征,得到最優匹配的推薦資源。
2.基于用戶畫像推薦算法
根據用戶的資源通用行為形成用戶畫像數據集,通過kmeans 聚類算法,將用戶分為k 類,反映不同用戶使用教學資源的行為模式類別。然后根據用戶所在的不同用戶簇,對用戶推薦該集群評分大于初始評分S0 的最高的N 個資源。
基于用戶畫像推薦算法流程圖見圖4:

圖4 基于用戶畫像推薦算法流程圖
算法步驟:分析算法主要包括數據清洗、整合及轉換,評分估計,基于用戶通用教學行為數據對用戶進行聚類,計算各聚類簇評分最高的N 個資源,對用戶進行TopN 推薦。
算法價值:根據用戶的通用教學行為,通過聚類把行為類似的用戶聚集在一起。然后根據聚類簇中用戶的平均評價行為去預測聚類簇中單個用戶的行為。
3.基于人際關系推薦算法
此算法即根據用戶的人際組織關系,將相同組織關系的用戶使用的資源,推薦給同組織的其他用戶。
基于人際關系推薦算法流程見下圖5:

圖5 基于人際關系推薦算法流程圖
算法步驟:根據用戶級組織關系數據,獲取并加載用戶組織數據集,并對數據進行評估檢查,利用資源行為數據對資源進行評分,便于推薦排序,計算各組織下評分最高的N 個資源,對用戶進行TopN 推薦。
算法價值:根據同組織用戶關系進行推薦,體現用戶同組織的趨同性。
4.基于資源行為的熱度推薦算法
基于教育云資源使用行為數據,計算資源熱度,然后按照學科、學段分類,將最熱的資源推薦給同類用戶。該算法作為基礎的默認推薦。算法公式如下:
熱度分=(初始熱度分+用戶交互產生的熱度分)/隨時間衰減的熱度分
Score=(S0+S(Users))/S(Time)
用戶行為分為點擊(click),收藏(favor),下載(download),分享(share)
S(Users)= 1*click+3*favor+5*download+5*share
各種行為的權重分別式1,3,5 這些參數作為算法參數可調整。
Click、favor、download 需要做歸一化處理。
時間衰減:
T(Time) = e ^ (k★(T1 - T0))
T0 是發布時間,T1 是當前時間,天單位
熱度的發展最終是一個無限趨近于零熱度的結果,最終的新聞的熱度算法也調整為:
Score=(S0+S(Users))/T(Time)
基于資源行為的熱度推薦算法流程圖見圖6:

圖6 基于資源行為的熱度推薦算法流程圖
算法步驟:獲取資源數據和行為數據,計算資源行為評分,加入時間衰減系數計算熱度評分,按照學科學段將結果評分最高的TopN 推薦給用戶。
算法價值:根據多種主要用戶資源行為,綜合評估資源熱度,并結合時間衰減因素和初始評分考慮初始資源的冷啟動問題。
隨著大數據技術的快速發展,基于用戶特征的信息主動推送或個性化推薦服務已廣泛應用于互聯網應用方面,在教育信息化領域亟須將此項技術在教育資源方面推廣應用起來。本文基于內蒙古教育資源公共服務平臺為例,從省級數字教育資源服務平臺的定位和功能出發,描述了數字教育資源主動推送及個性化服務的規?;瘜崿F方式。組合分析資源畫像和用戶畫像特征數據,進而給出精準的推薦;利用推薦引擎的靈活算法組合策略配置,并希望通過用戶的持續使用和算法策略的不斷優化,使得推薦越來越精準,為廣大教育用戶提供更加優質的推薦服務。