廉穎



摘要:近年來有關(guān)學(xué)生用戶畫像的研究較多,但是關(guān)于研究成果應(yīng)用到具體學(xué)生管理的相關(guān)成果相對較少,而且學(xué)生管理復(fù)雜性高難以照搬通用。所以,在用戶行為畫像的理論方面和應(yīng)用方面都有很大研究空間,而本文選用智慧校園進(jìn)行學(xué)生用戶數(shù)據(jù)的搜集,通過大數(shù)據(jù)相關(guān)挖掘算法進(jìn)行學(xué)生行為畫像研究,對學(xué)生的消費(fèi)習(xí)慣、興趣偏好和學(xué)習(xí)習(xí)慣進(jìn)行綜合分析,為學(xué)校不同管理者提供數(shù)據(jù),方便進(jìn)行輔助教學(xué)管理。
關(guān)鍵詞:數(shù)據(jù)挖掘;用戶畫像;教學(xué)管理
中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)20-0038-03
1 研究背景與意義
目前用戶畫像有了一定研究,在國外Giuseppe Amato[1]等人通過研究圖書館用戶的數(shù)據(jù),挖掘分析其閱讀習(xí)慣,進(jìn)而構(gòu)建畫像,為讀者推薦圖書的目的。現(xiàn)在隨著技術(shù)的發(fā)展,用戶畫像被定義為指根據(jù)用戶的關(guān)鍵特征、網(wǎng)絡(luò)活動、網(wǎng)絡(luò)社交等行為給用戶建立一個(gè)抽象標(biāo)簽。本文通過構(gòu)建大數(shù)據(jù)平臺對學(xué)生數(shù)據(jù)進(jìn)行挖掘,構(gòu)建學(xué)生食堂消費(fèi)畫像,上網(wǎng)瀏覽畫像,自習(xí)室使用的畫像幫助學(xué)生管理者決策。
2 學(xué)生采集
當(dāng)前,我校可利用不同的系統(tǒng)對教育大數(shù)據(jù)進(jìn)行采集和分析,這些系統(tǒng)涉及到教務(wù)管理、財(cái)務(wù)管理、圖書管理、一卡通管理等方面。另外,教育大數(shù)據(jù)之中還含有其他軟件提供的數(shù)據(jù),比如超星學(xué)習(xí)通,釘釘學(xué)習(xí)的數(shù)據(jù)。由于數(shù)據(jù)結(jié)構(gòu)復(fù)雜,在正式形成學(xué)生用戶畫像之前,需要解決兩個(gè)重要問題:一是數(shù)據(jù)如何存儲分析;二是怎樣確定標(biāo)準(zhǔn)化的數(shù)據(jù)。一般來說,用戶畫像由三個(gè)基本要素構(gòu)成[2],用戶特征是其中之一,另外兩者為用戶標(biāo)簽與用戶屬性。屬性數(shù)據(jù)給出了學(xué)生的基本信息,如籍貫、性別、姓名、學(xué)號、年級等。用戶的特征數(shù)據(jù)比較繁雜,我們抽取關(guān)聯(lián)性較高的一些的數(shù)據(jù)進(jìn)行研究。對于校園教育大數(shù)據(jù)來說,其突出特征主要有兩個(gè),首先是數(shù)據(jù)總量龐大,難以準(zhǔn)確地進(jìn)行計(jì)量;其次是數(shù)據(jù)結(jié)構(gòu)表現(xiàn)出明顯的復(fù)雜性。考慮到由于數(shù)據(jù)的結(jié)構(gòu)性或非結(jié)構(gòu)性之間也存在誤差,因而需要對數(shù)據(jù)進(jìn)行ETL轉(zhuǎn)換,為防止出現(xiàn)信息孤島問題,還應(yīng)當(dāng)構(gòu)建科學(xué)而合理的數(shù)據(jù)模型。
3 大數(shù)據(jù)平臺系統(tǒng)架構(gòu)
具有數(shù)據(jù)采集功能的ETL工具庫是我校大數(shù)據(jù)平臺系統(tǒng)的關(guān)鍵構(gòu)成部分,該工具庫不僅支持?jǐn)?shù)據(jù)訪問權(quán)限的分配,而且具有工作效率高、集中度高等優(yōu)點(diǎn),其采集的數(shù)據(jù)主要來自于以下幾個(gè)方面:一是互聯(lián)網(wǎng)環(huán)境中具有分散特性的海量數(shù)據(jù);二是軟、硬件的運(yùn)行日志與設(shè)備數(shù)據(jù);三是數(shù)據(jù)中心內(nèi)外的所有數(shù)據(jù),其中也包括新增數(shù)據(jù)源。大數(shù)據(jù)平臺從我校信息系統(tǒng)中采集到相關(guān)的數(shù)據(jù)信息之后,首先選擇Hadoop分布式大數(shù)據(jù)存儲方式,然后再使數(shù)據(jù)得到分類存儲,執(zhí)行此項(xiàng)操作時(shí)可利用三種分布式存儲技術(shù),即HIVE、HBASE與HDFS。對于部分僅僅需要預(yù)測趨勢而不需要具有較高計(jì)算實(shí)時(shí)性的學(xué)生用戶數(shù)據(jù),應(yīng)當(dāng)選用HIVE這一存儲技術(shù)。SPARK與HBASE這兩種存儲技術(shù)對互聯(lián)網(wǎng)、一卡通等數(shù)據(jù)具有良好的適用性,這類數(shù)據(jù)往往提出了較高的實(shí)時(shí)性要求。另外,當(dāng)數(shù)據(jù)來自于表格或文本時(shí),所選用的分布式存儲技術(shù)應(yīng)當(dāng)是HDFS。對數(shù)據(jù)存儲以后進(jìn)行下一步的數(shù)據(jù)分析挖掘,例如以我校學(xué)生的用餐數(shù)據(jù)進(jìn)行用戶畫像,首先選取用餐有關(guān)的相關(guān)數(shù)據(jù),抽取相應(yīng)的數(shù)據(jù)特征,基于Python編程語言選擇對應(yīng)的算法進(jìn)行分析預(yù)測,然后將多用戶的標(biāo)簽進(jìn)行用戶畫像的生成,最后根據(jù)用戶畫像進(jìn)行輔助教學(xué)管理。如圖1是我校大數(shù)據(jù)平臺技術(shù)框架圖。
4 數(shù)據(jù)分析挖掘
4.1 特征值提取
當(dāng)原始數(shù)據(jù)采集完成過后,由于有的數(shù)據(jù)存在一些問題,比如特征編號不一致,字段表意不清,標(biāo)簽特征不明顯等等這種不完整的數(shù)據(jù),為了提高數(shù)據(jù)集的搜集效率和結(jié)果的準(zhǔn)確性,給后面的研究提供統(tǒng)一標(biāo)簽。標(biāo)簽的提取思路如下,我們定義大的標(biāo)簽所占的權(quán)重較大,小的標(biāo)簽所占權(quán)重較小,所以畫像上面的每個(gè)標(biāo)簽大小不同,由此可以確定畫像的重要特征。說明并存儲用戶特征是針對學(xué)生用戶建立畫像模型的出發(fā)點(diǎn),為了構(gòu)建可計(jì)算并支持讀取的用戶畫像模型,應(yīng)當(dāng)以用戶的行為日志、消費(fèi)偏好、興趣、個(gè)人基本信息等為依據(jù)。實(shí)際上,使用戶特征得到向量化與標(biāo)簽化處理是用戶畫像建模的真正意圖,這樣做不僅可以獲取到便于計(jì)算的數(shù)據(jù),還可使語義信息更為精確,從而為后期處理算法創(chuàng)造了良好的條件。需要強(qiáng)調(diào)的是,在向量化處理用戶屬性時(shí),不應(yīng)當(dāng)忽略數(shù)值的連續(xù)性與離散性。
4.1.1 特征值維度
在獲取到數(shù)據(jù)之后,怎么從大量的數(shù)據(jù)中選取有助于刻畫用戶畫像的數(shù)據(jù),對數(shù)據(jù)挖掘過程有非常大的影響。如果數(shù)據(jù)特征值維度較少,用戶畫像的準(zhǔn)確性將大打折扣;否則,不僅會增加時(shí)間成本還需要系統(tǒng)提供更大的存儲空間。總之,最適宜的數(shù)據(jù)特征值維度應(yīng)同時(shí)兼顧效率與精度。為保證所獲取數(shù)據(jù)的有效性,除了要深入剖析其每個(gè)屬性以外,有時(shí)還需要數(shù)據(jù)特征通過Python的一些工具統(tǒng)計(jì)后進(jìn)行可視化。
4.1.2 特征值關(guān)聯(lián)性
特征值與畫像之間的關(guān)聯(lián)性分析,如何用較少的特征較準(zhǔn)確的刻畫用戶畫像,有必要對二者的關(guān)聯(lián)度展開分析,并在此基礎(chǔ)上通過算法加以預(yù)測。以分析學(xué)生的某科目考試成績?yōu)槔紫葢?yīng)當(dāng)明確性別、年齡、思維模式等屬性,然后再探究這些屬性與成績之間的關(guān)系。在獲取屬性數(shù)據(jù)的過程中,需要搜索和查看有關(guān)聯(lián)性的多種表。比如:為了明確用戶上網(wǎng)地點(diǎn),既需要查看設(shè)備地點(diǎn)設(shè)置表,也需要調(diào)取用戶登錄日志。再如,若要將ISBN順利添加到圖書借閱信息表中,應(yīng)使該表與圖書基本信息表相關(guān)聯(lián)。對于其他屬性,應(yīng)當(dāng)利用Python或Web API到網(wǎng)上進(jìn)行采集。以某種圖書為例,可通過豆瓣API與ISBN相關(guān)聯(lián)來獲知其內(nèi)容簡介、關(guān)鍵詞與讀者評價(jià)狀況。
4.2 特征值標(biāo)簽化
語義化和短文本是數(shù)據(jù)特征標(biāo)簽的兩個(gè)基本特性,前者是指標(biāo)簽的實(shí)際含義易于理解,該特性既可使業(yè)務(wù)需求得到滿足,又增強(qiáng)了用戶畫像模型的真實(shí)性。后者是指標(biāo)簽比較簡約,可以較為直觀是學(xué)生的特征,一般不需要再分即可描繪用戶畫像,同時(shí)也能為數(shù)據(jù)分析提供方便,還可使軟件更為高效率地提取標(biāo)準(zhǔn)化信息。值得一提的是,單純的打標(biāo)簽不能等同于用戶畫像,這是因?yàn)楹笳咝枰劳杏?jì)算機(jī)來處理屬性與標(biāo)簽向量化。從本質(zhì)上來說,文字標(biāo)簽是對用戶畫像進(jìn)行可視化處理的一種手段,通過讀取其展示的信息即可了解用戶的偏好與行為趨勢。不同標(biāo)簽之間建立了一個(gè)關(guān)系網(wǎng),但是只強(qiáng)調(diào)了權(quán)重大小與屬性關(guān)系,并沒有表達(dá)非繼承關(guān)系以及包含與被包含關(guān)系。基于此,標(biāo)簽比分類更具有靈活性。不過,由于參與的用戶基本不受限制,因而標(biāo)簽的權(quán)威性得到了弱化。