基于教育大數(shù)據(jù)的學(xué)生用戶畫像研究

2021-09-26 13:12:57廉穎

電腦知識與技術(shù) 2021年20期

廉穎

摘要：近年來有關(guān)學(xué)生用戶畫像的研究較多，但是關(guān)于研究成果應(yīng)用到具體學(xué)生管理的相關(guān)成果相對較少，而且學(xué)生管理復(fù)雜性高難以照搬通用。所以，在用戶行為畫像的理論方面和應(yīng)用方面都有很大研究空間，而本文選用智慧校園進(jìn)行學(xué)生用戶數(shù)據(jù)的搜集，通過大數(shù)據(jù)相關(guān)挖掘算法進(jìn)行學(xué)生行為畫像研究，對學(xué)生的消費(fèi)習(xí)慣、興趣偏好和學(xué)習(xí)習(xí)慣進(jìn)行綜合分析，為學(xué)校不同管理者提供數(shù)據(jù)，方便進(jìn)行輔助教學(xué)管理。

關(guān)鍵詞：數(shù)據(jù)挖掘;用戶畫像;教學(xué)管理

中圖分類號：TP311? ? ? 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2021）20-0038-03

1 研究背景與意義

目前用戶畫像有了一定研究，在國外Giuseppe Amato[1]等人通過研究圖書館用戶的數(shù)據(jù)，挖掘分析其閱讀習(xí)慣，進(jìn)而構(gòu)建畫像，為讀者推薦圖書的目的。現(xiàn)在隨著技術(shù)的發(fā)展，用戶畫像被定義為指根據(jù)用戶的關(guān)鍵特征、網(wǎng)絡(luò)活動、網(wǎng)絡(luò)社交等行為給用戶建立一個(gè)抽象標(biāo)簽。本文通過構(gòu)建大數(shù)據(jù)平臺對學(xué)生數(shù)據(jù)進(jìn)行挖掘，構(gòu)建學(xué)生食堂消費(fèi)畫像，上網(wǎng)瀏覽畫像，自習(xí)室使用的畫像幫助學(xué)生管理者決策。

2 學(xué)生采集

當(dāng)前，我校可利用不同的系統(tǒng)對教育大數(shù)據(jù)進(jìn)行采集和分析，這些系統(tǒng)涉及到教務(wù)管理、財(cái)務(wù)管理、圖書管理、一卡通管理等方面。另外，教育大數(shù)據(jù)之中還含有其他軟件提供的數(shù)據(jù)，比如超星學(xué)習(xí)通，釘釘學(xué)習(xí)的數(shù)據(jù)。由于數(shù)據(jù)結(jié)構(gòu)復(fù)雜，在正式形成學(xué)生用戶畫像之前，需要解決兩個(gè)重要問題：一是數(shù)據(jù)如何存儲分析;二是怎樣確定標(biāo)準(zhǔn)化的數(shù)據(jù)。一般來說，用戶畫像由三個(gè)基本要素構(gòu)成[2]，用戶特征是其中之一，另外兩者為用戶標(biāo)簽與用戶屬性。屬性數(shù)據(jù)給出了學(xué)生的基本信息，如籍貫、性別、姓名、學(xué)號、年級等。用戶的特征數(shù)據(jù)比較繁雜，我們抽取關(guān)聯(lián)性較高的一些的數(shù)據(jù)進(jìn)行研究。對于校園教育大數(shù)據(jù)來說，其突出特征主要有兩個(gè)，首先是數(shù)據(jù)總量龐大，難以準(zhǔn)確地進(jìn)行計(jì)量;其次是數(shù)據(jù)結(jié)構(gòu)表現(xiàn)出明顯的復(fù)雜性。考慮到由于數(shù)據(jù)的結(jié)構(gòu)性或非結(jié)構(gòu)性之間也存在誤差，因而需要對數(shù)據(jù)進(jìn)行ETL轉(zhuǎn)換，為防止出現(xiàn)信息孤島問題，還應(yīng)當(dāng)構(gòu)建科學(xué)而合理的數(shù)據(jù)模型。

3 大數(shù)據(jù)平臺系統(tǒng)架構(gòu)

具有數(shù)據(jù)采集功能的ETL工具庫是我校大數(shù)據(jù)平臺系統(tǒng)的關(guān)鍵構(gòu)成部分，該工具庫不僅支持?jǐn)?shù)據(jù)訪問權(quán)限的分配，而且具有工作效率高、集中度高等優(yōu)點(diǎn)，其采集的數(shù)據(jù)主要來自于以下幾個(gè)方面：一是互聯(lián)網(wǎng)環(huán)境中具有分散特性的海量數(shù)據(jù);二是軟、硬件的運(yùn)行日志與設(shè)備數(shù)據(jù);三是數(shù)據(jù)中心內(nèi)外的所有數(shù)據(jù)，其中也包括新增數(shù)據(jù)源。大數(shù)據(jù)平臺從我校信息系統(tǒng)中采集到相關(guān)的數(shù)據(jù)信息之后，首先選擇Hadoop分布式大數(shù)據(jù)存儲方式，然后再使數(shù)據(jù)得到分類存儲，執(zhí)行此項(xiàng)操作時(shí)可利用三種分布式存儲技術(shù)，即HIVE、HBASE與HDFS。對于部分僅僅需要預(yù)測趨勢而不需要具有較高計(jì)算實(shí)時(shí)性的學(xué)生用戶數(shù)據(jù)，應(yīng)當(dāng)選用HIVE這一存儲技術(shù)。SPARK與HBASE這兩種存儲技術(shù)對互聯(lián)網(wǎng)、一卡通等數(shù)據(jù)具有良好的適用性，這類數(shù)據(jù)往往提出了較高的實(shí)時(shí)性要求。另外，當(dāng)數(shù)據(jù)來自于表格或文本時(shí)，所選用的分布式存儲技術(shù)應(yīng)當(dāng)是HDFS。對數(shù)據(jù)存儲以后進(jìn)行下一步的數(shù)據(jù)分析挖掘，例如以我校學(xué)生的用餐數(shù)據(jù)進(jìn)行用戶畫像，首先選取用餐有關(guān)的相關(guān)數(shù)據(jù)，抽取相應(yīng)的數(shù)據(jù)特征，基于Python編程語言選擇對應(yīng)的算法進(jìn)行分析預(yù)測，然后將多用戶的標(biāo)簽進(jìn)行用戶畫像的生成，最后根據(jù)用戶畫像進(jìn)行輔助教學(xué)管理。如圖1是我校大數(shù)據(jù)平臺技術(shù)框架圖。

4 數(shù)據(jù)分析挖掘

4.1 特征值提取

當(dāng)原始數(shù)據(jù)采集完成過后，由于有的數(shù)據(jù)存在一些問題，比如特征編號不一致，字段表意不清，標(biāo)簽特征不明顯等等這種不完整的數(shù)據(jù)，為了提高數(shù)據(jù)集的搜集效率和結(jié)果的準(zhǔn)確性，給后面的研究提供統(tǒng)一標(biāo)簽。標(biāo)簽的提取思路如下，我們定義大的標(biāo)簽所占的權(quán)重較大，小的標(biāo)簽所占權(quán)重較小，所以畫像上面的每個(gè)標(biāo)簽大小不同，由此可以確定畫像的重要特征。說明并存儲用戶特征是針對學(xué)生用戶建立畫像模型的出發(fā)點(diǎn)，為了構(gòu)建可計(jì)算并支持讀取的用戶畫像模型，應(yīng)當(dāng)以用戶的行為日志、消費(fèi)偏好、興趣、個(gè)人基本信息等為依據(jù)。實(shí)際上，使用戶特征得到向量化與標(biāo)簽化處理是用戶畫像建模的真正意圖，這樣做不僅可以獲取到便于計(jì)算的數(shù)據(jù)，還可使語義信息更為精確，從而為后期處理算法創(chuàng)造了良好的條件。需要強(qiáng)調(diào)的是，在向量化處理用戶屬性時(shí)，不應(yīng)當(dāng)忽略數(shù)值的連續(xù)性與離散性。

4.1.1 特征值維度

在獲取到數(shù)據(jù)之后，怎么從大量的數(shù)據(jù)中選取有助于刻畫用戶畫像的數(shù)據(jù)，對數(shù)據(jù)挖掘過程有非常大的影響。如果數(shù)據(jù)特征值維度較少，用戶畫像的準(zhǔn)確性將大打折扣;否則，不僅會增加時(shí)間成本還需要系統(tǒng)提供更大的存儲空間。總之，最適宜的數(shù)據(jù)特征值維度應(yīng)同時(shí)兼顧效率與精度。為保證所獲取數(shù)據(jù)的有效性，除了要深入剖析其每個(gè)屬性以外，有時(shí)還需要數(shù)據(jù)特征通過Python的一些工具統(tǒng)計(jì)后進(jìn)行可視化。

4.1.2 特征值關(guān)聯(lián)性

特征值與畫像之間的關(guān)聯(lián)性分析，如何用較少的特征較準(zhǔn)確的刻畫用戶畫像，有必要對二者的關(guān)聯(lián)度展開分析，并在此基礎(chǔ)上通過算法加以預(yù)測。以分析學(xué)生的某科目考試成績?yōu)槔紫葢?yīng)當(dāng)明確性別、年齡、思維模式等屬性，然后再探究這些屬性與成績之間的關(guān)系。在獲取屬性數(shù)據(jù)的過程中，需要搜索和查看有關(guān)聯(lián)性的多種表。比如：為了明確用戶上網(wǎng)地點(diǎn)，既需要查看設(shè)備地點(diǎn)設(shè)置表，也需要調(diào)取用戶登錄日志。再如，若要將ISBN順利添加到圖書借閱信息表中，應(yīng)使該表與圖書基本信息表相關(guān)聯(lián)。對于其他屬性，應(yīng)當(dāng)利用Python或Web API到網(wǎng)上進(jìn)行采集。以某種圖書為例，可通過豆瓣API與ISBN相關(guān)聯(lián)來獲知其內(nèi)容簡介、關(guān)鍵詞與讀者評價(jià)狀況。

4.2 特征值標(biāo)簽化

語義化和短文本是數(shù)據(jù)特征標(biāo)簽的兩個(gè)基本特性，前者是指標(biāo)簽的實(shí)際含義易于理解，該特性既可使業(yè)務(wù)需求得到滿足，又增強(qiáng)了用戶畫像模型的真實(shí)性。后者是指標(biāo)簽比較簡約，可以較為直觀是學(xué)生的特征，一般不需要再分即可描繪用戶畫像，同時(shí)也能為數(shù)據(jù)分析提供方便，還可使軟件更為高效率地提取標(biāo)準(zhǔn)化信息。值得一提的是，單純的打標(biāo)簽不能等同于用戶畫像，這是因?yàn)楹笳咝枰劳杏?jì)算機(jī)來處理屬性與標(biāo)簽向量化。從本質(zhì)上來說，文字標(biāo)簽是對用戶畫像進(jìn)行可視化處理的一種手段，通過讀取其展示的信息即可了解用戶的偏好與行為趨勢。不同標(biāo)簽之間建立了一個(gè)關(guān)系網(wǎng)，但是只強(qiáng)調(diào)了權(quán)重大小與屬性關(guān)系，并沒有表達(dá)非繼承關(guān)系以及包含與被包含關(guān)系。基于此，標(biāo)簽比分類更具有靈活性。不過，由于參與的用戶基本不受限制，因而標(biāo)簽的權(quán)威性得到了弱化。