楊傳斌 樓應凡
(1. 浙江師范大學信息化辦公室,金華 321004;2. 浙江師范大學教師教育學院,金華 321004)
用戶畫像是指獲取用戶的專業背景、文化程度、興趣愛好等與用戶需求趨向相關的信息,以此為基礎進行模型化表示,為用戶制定特定標簽[1]。圖情領域已有不少學者開展了將用戶畫像應用于圖書館精準服務方面的研究:如劉海鷗等[2]通過融合用戶基本信息、內容偏好、互動、會話、情境標簽的用戶畫像,同時引入情景化推薦方法實現圖書館大數據知識個性化服務模式;楊傳斌等[3]基于協同過濾推薦算法分析借書記錄生成動態畫像并考慮畫像權重問題,再根據用戶畫像匹配新書屬性來實現圖書館的新書推薦功能;吳智勤等[4]收集用戶屬性、行為數據、社交網絡大數據和互聯網知識庫并通過對社交網絡分析來構建用戶畫像,以此實現圖書館的個性化推薦服務、用戶行為分析和知識問答功能。
學術講座作為高校知識交流的平臺,可以增加大學生與優秀學者面對面交流的機會,使得高校的學術氛圍濃郁[5]。高校圖書館通常將講座推薦服務納入業務范圍,向在校師生推送講座信息。傳統講座推薦主要通過宣傳海報的方式,但海報信息傳播范圍有限。隨著互聯網的高速發展,通過QQ、微信或釘釘等軟件群發消息,或通過微信公眾號進行推送是目前高校圖書館推送講座信息的主要方式。它們能很好地將講座信息及時送達到學生,但這種無差別推送也會使學生淹沒在海量信息中,以致錯過感興趣的講座。如果充分利用用戶畫像技術來分析學生偏好、發現學生潛在需求,再精準匹配相對應的講座資源,就能為學生個性化推薦講座信息,甚至可以根據學生標簽信息,有針對性地開展講座活動。除此之外,用戶畫像還會根據數據的動態更新而不斷更新,緊跟學生的興趣變化趨勢。筆者通過數字化校園平臺收集學生數據,構建用戶畫像,最后通過用戶畫像與講座信息的匹配實現講座信息的精準推送。
用戶畫像的構建主要包括數據資源層、數據處理層和用戶畫像層。在數據資源層利用高校各個系統和平臺收集數據,在數據處理層對數據進行預處理,并從基本信息、興趣愛好、學術偏向三個維度構建標簽體系,在用戶畫像層生成畫像并實現畫像更新。
學生數據來自學校數據中心及各個有關應用系統(如科研系統、教務系統、圖書館移動服務平臺、校園網管理平臺等),如表1所示,數據類型主要分為兩類:一是靜態數據,即變化較慢相對穩定的數據;二是動態數據,即實時變化更新的信息數據。其中靜態數據包括學生的一些基本信息,動態數據主要包括學習活動數據、圖書館數據、網絡行為數據和學習行為數據,畫像更新的操作也主要是針對這一類數據。

表1 學生數據類型及來源
學生數據主要有結構化、半結構化和非結構化3種類型。結構化數據相對較容易收集,如學生基本信息、學習活動數據,這類數據只需要進行簡單的清洗和挖掘就可以形成標簽;但半結構化數據和非結構化數據相對來說需要更多時間進行前期的預處理,如網絡行為數據和數字資源訪問數據,其原始數據大部分存在缺項少值、數據異常、冗余、噪聲等問題,為了避免這些問題對用戶畫像帶來混淆,所以要對數據進行提取、清洗、標準化3種方式操作進行預處理來保證數據的準確度和有效性。
1.2.1 網絡行為數據處理
由于師生在校園內上網需要經過學校統一身份認證系統認證,這會在防火墻上留下網絡訪問日志,每一條日志內容包括訪問時間、IP地址、上網賬戶信息、訪問頁面URL、訪問數據庫等內容。對網絡訪問日志的全面分析能獲得學生的所有網絡訪問行為,但日志量非常龐大,自編程難以建立全面的日志分析系統,因此有必要借助日志管理分析工具軟件(如日志易)來實現日志的采集、存儲、處理和分析,其中提供搜索和統計功能可以單項進行測算,提供的程序接口可以進行大量數據的處理。目前筆者所在單位的日志系統存儲了約3年的網絡行為日志,每天的日志數量在5 000萬條以上,可以有效地開展基于日志的網絡行為畫像研究。
為了實現講座的精準推薦服務,根據學生的網絡訪問行為總結其興趣愛好構建用戶畫像是必要的。首先,需要對收集到的日志進行網站名歸類,采用機器學習算法對數據集進行訓練,根據分類好的訓練集得到類效果最優的映射規則,建立網頁分類器;然后,采用N-Gram方法來實現URL特征提取,N-Gram的基本思想是先將文本以N字節進行劃分和滑動窗口操作,形成序列,計算所有字段出現頻率;最后,按照閾值進行過濾。把經過處理的網絡日志數據作為網站名分類的數據集,參考Alexa網站上對網站名的分類,采用面分類法對網站進行分類,每一分類下根據排名選取10~30個網站為子分類,最后將URL網站映射到對應的類別中(見表2)。經過試算,按此分類,能將約87%的網絡行為劃到十大類別內,隨著挖掘學生瀏覽網站數量的增多,分類中的內容會越來越完善[6]。

表2 URL數據源網站名分類
把每位學生的網絡行為中最多的4~6個類別作為其興趣愛好標簽,若需要更加細化其興趣愛好則需要單獨列出某子類別作為標簽,將其訪問的次數作為權重,生成的標簽是科普類講座、非學科性講座推薦的重要依據。
1.2.2 圖書館借閱數據的提取
通過圖書管理系統提取學生借閱書籍的中圖分類號,再根據中圖分類號所代表的圖書類別標記該學生的興趣愛好,學生所借圖書的數量和借期長短可用來計算對應的權重。為了驗證該方法的可行性,通過圖書管理系統采集某高校圖書館8個月內11 862名學生的110 104條借書數據,其中包含9 896種中圖分類號,說明根據中圖分類號來描述學生的興趣愛好是相當細分的。若可選取中圖分類號的前面部分,只選首字母則只有22個大類,如A為馬列、B為哲學宗教、T為工業技術等,但用它去匹配講座明顯范圍太廣,為此將借書的中圖分類號分為三個層次:第一為大類即為首字母,共22個標簽;第二為中類即為首3個字母的,共約500個標簽,如TP3為計算機技術;第三為細類,即完整的分類號,如TP311.5為軟件工程,全部的標簽約有10 000個。通過這樣的層次劃分,學生借一本圖書就形成3個標簽,分別從三個層次去匹配講座,兼顧了匹配成功率和精準度。
1.2.3 數字資源訪問行為的提取
圖書館數字資源訪問行為分析是了解學生學習和研究興趣的重要來源,數字資源分為本地資源和外網資源兩類,本地資源一般通過校園網直接訪問,外網資源通過校園網出口IP地址驗證訪問,若在校園網外則通過VPN/WEBVPN訪問,要取得其訪問行為需要分析防火墻日志,且比前述的網絡行為分類統計復雜許多。目前大多數高校圖書館都部署了統一檢索系統,而統一檢索系統可實現基于中外文資源元數據及多種文獻類型的一站式檢索并能直接定位到來源數據庫獲取全文;部分高校還部署了電子資源訪問控制系統,通過身份認證進行訪問控制,具備資源使用統計、讀者行為分析等功能。為了掌握學生的學習研究興趣點,通過這兩個系統的日志能直接獲得所有學生的檢索詞及其頻度,計算后可作為標簽的名稱和權重,簡化了學生研究興趣的獲取。
1.3.1 用戶畫像維度體系
根據數字化校園平臺收集到數據的分析以及用戶畫像的需求,設定用戶畫像維度體系,由基本信息、興趣愛好和學術偏向三個維度組成?;拘畔⒕S度包括姓名、性別、學號、民族、籍貫、學位學歷、在籍情況和年級;興趣愛好維度包括參加社團情況、參加學術報告情況、已參加講座情況、參加學校學院活動情況、圖書館借閱情況、數字圖書館訪問情況、網絡課程選取情況、經常訪問網站信息、愛好特長和擔任職務;學術偏向維度包括研究方向、所屬學院、所屬專業、學習經歷、必修課程情況、選修課程情況、承擔課題情況。
1.3.2 標簽生成
用戶標簽分靜態標簽和動態標簽兩類,靜態標簽是最基礎的標簽,由靜態數據(如姓名、性別、民族、籍貫、學位學歷、在籍情況、所屬學院、所屬專業等)形成。將這類靜態標簽直接寫入用戶畫像,這類標簽就是用戶畫像的基礎標簽。對于學生的靜態數據采用本體的建模方式,構建定性用戶畫像,畫像產出形式為關鍵詞法。動態標簽是根據動態數據形成,動態標簽根據形成方式不同,分為統計類動態標簽和挖掘類動態標簽。對于統計類動態數據,根據建模方式的不同,分為基礎數據統計和網絡日志數據統計。對于基礎數據的統計,這類數據主要包括網絡課程數據等。采用融合用戶興趣的建模方法,采用向量空間模型來進行表示,即ID{(α1,β1),(α2,β2),…(αn,βn)}。其中,αn表示特征項,βn表示αn在整個模型中的權重,即用戶對αn的喜愛程度,當βn越大,說明用戶對這個事情越感興趣,確定當數值超過閾值N,則將它加入畫像中。對于網絡日志分類統計是在基礎數據統計之上引入占比的概念,根據網絡日志數據的分析,每一個學生都會生成十大類網站訪問數據量,可以將數據表示為:Student{(t1,p1,n1),(t2,p2,n2),…,(tm,pm,nm)}(m<11),其中,tm表示第m個網站主題,pm表示學生對第m個網站主題瀏覽量占總網站的比例,nm表示學生訪問第m個網站主題的次數,之后可以將占比排名前N'(閾值N'')的類別標簽加入畫像。對于挖掘類動態數據,第一部分是基礎數據挖掘,這類數據主要包括學生參與的各類活動以及參加過的講座信息。對于這一類數據一般采用TF-IDF方法即詞頻-逆向文件頻率計算方法,將所得的動態標簽標記到用戶畫像中。
1.3.3 用戶畫像的生成
在對數據進行清洗、集成、分析的基礎之上生成標簽,將標簽打在目標學生的畫像模型上,通常用一組標簽來描述一個學生,這些標簽從多個維度不同層面描述學生整體特征。最終生成多層次畫像標簽,主要包含3個方面內容,即基本信息、興趣愛好和學術偏向。形成用戶畫像之后,可以據此實現對學生的需求進行預測,通過相似度計算來實現講座信息的精準推薦服務。例如,某同學的用戶畫像如下。
{基本信息:女,202020200871,漢,浙江紹興,研究生,在籍,研二;
興趣愛好:攝影協會,“基于核心素養的小學數學解題思想觀”,“新自由主義情境下教師專業理論的跨國研究”,“語文作業與簡單課堂”,古典舞,閱讀,(科技類,31.4%,2 135),(音樂類,20.5%,1 243),(G434,計算機化教學),(TP391.1,文字信息處理);
學術偏向:教師教育學院,教育技術學,電子化學習資源與環境研究,教學設計,教育理論,教育改革研究,智慧教育}
1.3.4 用戶畫像的興趣衰減和權重
隨著時間的推移,學生的興趣也會不斷變化,為了更好地根據當前學生的狀態來推薦講座,所以需要考慮學生最近新增加的行為或者愛好。對于靜態數據權重保持不變,動態數據將充分利用窗口滑動機制,定時更新標簽權重。每個用戶畫像動態數據標簽都有相應的權重W,畫像更新的間隔時間定為T,計算學生的動態標簽權重變化,根據變化情況進行增刪,并將更新后的標簽數據存儲到數據庫中。
記學生前一次的標簽權重為Wlast,每間隔時間T后,學生原有的興趣程度會隨著時間推移發生相應的減弱,加入時間衰減因子α,新增加的標簽權重記為Wnew,充分考慮學生的興趣隨著時間發生變化的用戶畫像標簽,更新后的標簽權重為Wupdate,計算過程為:Wupdate=Wlast×α+Wnew。關于時間衰減的函數,根據發生時間的先后為用戶行為數據分配權重。時間衰減是指用戶的行為會隨著時間減弱,歷史行為和當前的相關性不斷減弱,在建立與時間衰減相關的函數時,套用牛頓冷卻定律數學模型。其描述的場景是一個溫度高的物體在溫度低的環境下,物體的溫度要降低,周圍環境溫度要上升,最后二者的溫度一致,在這個平衡的過程中,物體的溫度F(t)是隨著時間t的增長而呈現指數型衰減,其溫度衰減公式為:F(t)=初始溫度×exp(-冷卻系數α×間隔的時間),其中α為衰減常數,通過回歸可計算得出。例如:指定45分鐘后物體溫度為初始溫度的0.5,即0.5=1×exp(-α×45),求得α=0.015 4。應用到我們的興趣愛好,假設1個月后的興趣愛好下降到原來的90%,即0.9,按照牛頓冷卻定律0.9=1×exp(-α×1)求得冷卻系數α=0.105 0,也可根據不同興趣愛好特征設置不同的衰減常數α。具體實踐中T可選1個月,即每個月初計算一次學生的興趣愛好。
講座推薦是用戶興趣需求和講座匹配的過程,因此需要把講座的屬性特征做向量處理,以方便計算,處理方式與畫像的生成方式類似。講座的特征提取包括講座名稱、類別、主講人基本信息、主講人所屬學校、主講人專業方向、承辦學院、主題詞(3~10個),其中主題詞生成的時候要考慮與構建的用戶畫像匹配,如根據講座內容設置主題詞為“科技類”、“音樂類”(與網絡行為匹配)、“軟件工程”(與借書記錄TP311.5匹配)等。
利用大數據平臺構建用戶畫像以及提取講座的特征,再通過相關推薦算法找到講座的目標群體,在學生群體里查找該類群體,將講座信息內容發送給相關學生。比較現有的推薦算法的優缺點之后,筆者采用的是基于內容的推薦算法和基于物品的協同過濾算法[7]。
2.2.1 基于內容的推薦算法
基于內容的推薦算法可以根據學生各種信息數據組成的畫像來找到用戶喜歡的講座類型,通過對講座的相關信息統一成一套標準化的描述統計方式,然后計算得到該講座是否是某學生感興趣的類型,如果是就推送給學生。實現過程采用基于知網(HowNet)的語義相似度[8]。
將用戶畫像中的關鍵詞和即將舉辦的講座關鍵詞,根據知網相似度進行對比,若有關鍵詞相同則直接推送;若沒有相同關鍵詞,但有多個關鍵詞語義相似度達到或超過閾值,也將講座信息推送給學生;若達不到閾值,則不推送講座信息。
2.2.2 基于物品的協同過濾算法
基于物品的協同過濾算法就是收集用戶之前的一些喜愛物品數據,在此基礎上為用戶推薦類似的物品。本文選用Jaccard相似度來實現。當Jaccard(X,Y)數值越大,說明講座之間越相似[9],當新舊講座之間的相似度達到閾值,則將新講座信息推送給參與過舊講座的學生。
許多高校在建設智慧校園過程中都建立了基于統一身份認證的消息中心,根據用戶畫像與講座資源匹配的情況定時定向地將消息發送給學生,實現消息發送的自動化,減輕管理人員的負擔。在消息通知中心可以選擇郵件、短信、釘釘、微信和智能渠道的方式向學生推送合適的講座信息。
在推送講座信息下方有感興趣/不感興趣選項,及時了解學生對推送內容是否感興趣;在推送中及時提醒學生去講座報名系統報名。在實踐過程中,可能會存在相似度閾值偏高或者學生時間沖突,導致在講座報名系統中報名人數明顯偏少,因此可以相應降低相似度閾值,再次向沒有收到推送但在相似度范圍內的學生發送講座信息,及時增加報名人數,確保有基本的參加人數。
高校講座資源豐富,但如何在眾多講座資源中滿足學生的個性化資源需求是當前講座管理需要面對的重要挑戰。隨著大數據技術、用戶畫像技術等不斷發展,為學生提供個性化服務也有了更大的發展空間。通過學生基本信息、興趣愛好、學術偏向三個維度構建學生的多維畫像模型,結合用戶畫像與講座屬性的匹配及推薦算法實現個性化推薦,講座舉辦方只需提供講座信息,其余都可以通過系統自動完成推薦,隨著應用數據的不斷深入完善和算法的不斷優化,講座信息的服務也將越來越精準。除給學生提供精準服務外,還可以通過分析用戶畫像中興趣愛好維度和學術偏向維度中的標簽變化來了解學生需求,對講座開設的內容提出建議,有針對性地邀請有關專家開展講座,提高講座的質量和聽眾滿意度。