趙國亮++陳曉軍++李思奇++吳傲
摘要:隨著互聯網和人工智能的發展,數據的價值越來越得到廣泛的重視,尤其是高校的數據價值,研究還處于初探期。本文首先對大數據和用戶畫像國內外研究現狀進行分析,其次基于高校數據進行標簽化、模型化,設計出基于高校的學生用戶畫像的模型,然后以高校學生成績數據和消費數據為例,實現用戶畫像模型的初步驗證,最后總結圍繞高校學生自畫像的研究前景,更好挖掘高校數據價值,為后期勤工助學、愛好培養、社團選拔、學生掛科預警、學生未在校預警等提供參考。
關鍵詞:大數據;用戶畫像;高校學生;用戶畫像標簽化
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)08-0233-02
隨著互聯網的出現,信息便逐漸趨向于爆炸的狀態,以不同的形式展示,而這些數據蘊含巨大的價值。對于如此龐大的數據,可以通過大數據技術精準地獲取自己想要的數據,從海量的數據中得到一些有用的價值,用戶畫像就是其中的一種應用。
1 大數據和用戶畫像
大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[1]。
目前國內外的專家學者對大數據只是在數據規模上達成共識,重點對大數據與云計算、數據挖掘,并行計算和分布式處理等幾個領域進行研究。國內大數據技術的應用最先開始的是淘寶、京東等幾大電商的精準營銷,消費者的一切行為在企業面前似乎都將是“可視化”。國外除在大數據的概念上的研究外,重點放在大數據分析算法和系統的效率。
用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數據之上的目標用戶模型[3]。精準營銷其實就是利用大數據技術,對用戶購物數據行為進行分析,對購物人群貼上標簽,進行用戶畫像虛擬化,有針對性地進行主動推銷。高校用戶畫像由于受制于高校N個系統數據的獨立性,同時學校往往只關心結果數據,對過程數據不重視導致眾多行為數據的缺失,導致高校用戶畫像的研究還處于初探期。電子科大將用戶畫像用于掛科預警、南京理工將大數據應用于貧困生幫扶,本文將基于西南石油大學學生食堂消費、開水等數據進行用戶畫像初探。
2 高校的用戶畫像設計
高校用戶畫像設計主要是數據采集以及數據標簽化兩個方面。
2.1 數據及數據采集
基于高校的用戶畫像數據主要分為靜態數據和動態數據。靜態數據包括學生的基本信息,如性別、年齡、專業年級、成績等信息;動態數據則包括訪問課程數據、寢室門禁及校門門禁刷卡數據、澡堂刷卡數據、食堂吃飯刷卡數據、圖書館進出數據、圖書館借閱等數據。如圖1所示。
2.2 數據標簽化
數據標簽化就是對原始數據進行分析,抽取出相關的事實數據,基于事實數據歸納出標簽模型,最后抽象出預測標簽。如圖2所示。
通過對采集數據的分析,可以給學生貼上“標簽”,將其行為標簽化。例如,可以通過圖書館門禁、宿舍門禁、校門門禁以及訪問課程中心次數給學生貼上“學渣”及“學霸”的標簽;通過吃飯時間及金額、洗澡刷開次數以及宿舍門禁次數給學生貼上“勤勞”及“懶惰”的標簽;通過圖書館書籍的瀏覽類別(愛好)、借書次數可以給學生貼上一個“圖書館讀書情況”的標簽。
3 學生自畫像的初探
以高校食堂消費情況數據,采用脫敏方式,抽取了西南石油大學某專業196名學生的4169條數據。如圖3所示。
通過分析其食堂吃飯刷卡時間以及GPA的實際數據,繪制了如下散點圖,如圖4所示。
根據如圖所示的結果,可以將學生用餐時間劃分為早上,中午和下午三個小組。對于早上這一組的數據可以劃分為三個區間,這一組的數據的平均值即為,最大值為,最小值為。然后在至之間再找一個平均值,在至之間再找一個平均值,因此三個區間分別為早餐用餐時間早:-,早餐用餐時間中等:-,早餐用餐時間晚:-。同理,對于中午以及下午的兩組用餐時間數據可以劃分出相同的區間。
通過早餐、中餐及晚餐三組數據的分析,得出三餐吃飯早的時間段為:06:18:20-07:31:10,10:02:45-11:33:52,15:16:39-17:44:30;三餐吃飯中等的時間段為:07:31:10-08:45:56,11:33:52-12:17:35,17:44:30-18:21:35;三餐吃飯晚的時間段為:08:45:56-09:59:41,12:17:35-13:21:47,18:21:35-22:19:37。
得出結果,反饋到對應學生刷卡數據上,并定義吃飯次數超過1/2為早的則標簽該學生為用餐勤快。同時可以把該標簽與學生績點發生關聯,探索其中與成績是否有相關性。
4 結語
構建學校用戶自畫像的研究,能夠清楚地理解大數據在校園中的應用以及明白用戶畫像的影響,并且能夠在大數據時代充分利用各種數據,對其進行大量深層次的挖掘 ,最終讓這些數據轉化為資產,更大地挖掘學校數據價值,為勤工助學、愛好培養、社團選拔、學生掛科預警、學生未在校預警等提供參考。
參考文獻
[1]王軍,劉金輝.大數據的國內外研究現狀及發展動態分析[J].電子技術與軟件工程, 2015,(23):200-200.
[2]卞友江.“大數據”概念考辨[J].新聞研究導刊,2013,(5):25-28.
[3]維克托·邁爾·舍恩伯格.盛揚燕,周濤,譯.大數據時代[M].浙江人民出版社,2013.
[4]王振宇,郭力.基于Hadoop的搜索引擎用戶行為分析[J].計算機工程與科學,2011,(04):115-120.endprint