劉華強 劉建華




[摘 要] 新高考改革倒逼高校更加關注“用戶需求”。通過采集某師范大學新生數據構建可視化模型,發現存在三類特征差異較為明顯的新生“典型畫像”。基于畫像,可以制定不同群體的精準招生宣傳措施并提供不同階段的個性化服務。根據細分市場提供精準信息服務成為研究熱點和行業共識。精準服務的前提是對細分市場用戶群體特征的分析,把握潛在目標群體的擇校動機,較好地回答“向誰宣傳”“宣傳什么”的問題。研究的創新在于探索根據新高考改革背景下擇校行為的理論研究制定具體校本招生宣傳政策的數據分析方法。
[關鍵詞] 新高考;擇校行為;用戶畫像;K-Means聚類
[基金項目] 2020年度福建省中青年教師教育科研項目(科技類)“基于K-均值聚類的高校宣傳用戶畫像研究”(JAT200321);2020年度閩南師范大學教育教學改革研究項目“實踐取向的公費師范培養項目綜合改革研究”(JG202026)
[作者簡介] 劉華強(1983—),男,福建壽寧人,心理學碩士,閩南師范大學學科建設與研究生工作處學科建設辦公室主任,助理研究員,主要從事教育管理研究;劉建華(1978—),男,福建南靖人,經濟學博士,閩南師范大學數學與統計學院副教授,商學院調查與數據研究中心主任,主要從事貝葉斯統計、模型選擇研究。
[中圖分類號] G644 [文獻標識碼] A [文章編號] 1674-9324(2022)09-0049-04 [收稿日期] 2021-09-23
新高考改革背景下,00后學生擇校自由權得到釋放,高校招生宣傳必然由粗放型向智慧型轉變。以往不區分對象、內容寬泛、單向傳播的宣傳方式已無法滿足考生的多元化、個性化需求。當前大數據環境下的精準營銷策略都與用戶需求有緊密的聯系,Zoratti S 等提出了利用數據挖掘事物間的關聯性[1],Zhen Y 等提出通過識別不同類別客戶之間的潛在特征進而提出適當的精準營銷策略[2]。用戶畫像分析是近年來深度挖掘用戶需求的重要方法,用以更好地理解用戶需求,實現個性化、精準化信息服務。在高等教育領域,近年來出現多項研究,探討了用戶畫像在圖書館服務、思想政治工作、學生評價、心理健康評估等場景下的應用。但該技術在招生宣傳的應用研究尚不多見,也缺乏可以復制的案例。
一、研究方法
(一)用戶畫像的概念
最早提出用戶畫像的概念是交互設計之父A.Cooper,他認為用戶畫像是一種建立在一定數據基礎上概括用戶行為特征、需求和目標的模型[3]。經過用戶特征屬性歸納或相似度計算進行聚類,可以從海量數據中獲取某產品(服務)的“典型用戶”的可視化形象——群體用戶畫像,從而實現用戶分類、市場細分等目標。相較于銷售人員或產品設計人員主觀歸納的用戶特征,用戶畫像作為用戶靜態和動態屬性特征提煉后得出的“典型用戶”的概念模型,更加強調用戶的主體地位,更加凸顯用戶的特定化需求[4]。
(二)高校新生擇校行為的構成因素
用戶的基本特征、需求及偏好等特征信息是構建用戶畫像的基礎性數據單元。通常也將用戶畫像的屬性分為兩個部分:一部分包括性別、年齡等身份屬性數據,另一部分為行為數據。研究中抽取這些特征信息中最具代表性的信息或者核心信息成為標簽。
在高考生擇校及專業選擇影響屬性的研究中,國內學者關注的屬性主要可以概括為家庭經濟社會背景、成本與收益的比較、高校特征、受教育者價值觀念和高等教育信息五個方面。劉自團等開展的不同家庭經濟背景子女的擇校差異及影響因素調查采用謝作栩教授團隊所研制的“大一新生調查問卷”,共包含16個影響因素,分別是父母、家人或其他親屬的影響或建議,中學教師及其他非親屬長輩的影響或建議,朋友、同學、學長(姐)的影響或建議,學校的聲望,離家較遠,離家較近,有親朋好友在本校,校園環境、設施、設備,特殊項目(如實驗班、特色班或按大類招生等),大學師資,學校知名度,學科、專業聲譽,學費和生活費用因素,就業前景,學校招生分數段,大學所在地的經濟發達程度等,為高校新生用戶畫像的構成標簽提供了依據。上述屬性均為較為靜態的因素,本研究根據招生工作人員意見,增加對宣傳工作至關重要的“搜尋院校招生信息時間”作為可變信息標簽。
(三)建立高校新生用戶畫像的模型與方法
為了從大量數據中獲取“典型用戶”的可視化形象,需要將用戶分類為不同的組群。K-means聚類分析以算法快速簡單、適合挖掘大規模數據集的優勢成為建立分類的常用方法之一,其數學思想是將n個對象的數據分成k個簇(k≤n),簇中對象的“距離”較小,不同簇中對象的“距離”較大。通過K-means聚類分析,能夠將一批樣本數據(或變量)按照它們在性質上的親疏程度在沒有先驗知識的情況下自動進行分類,達到“物以類聚”的目的。傅振南利用K-means算法對錄取學生所在學校進行細分,得出了不同學校簇(用戶)中學生的報考傾向,提供了“招生問題的描述和聚類分析的目標—招生相關源數據收集—數據預處理—聚類分析—結果可視化和解釋”的研究范式。參考傅振南的研究,結合孫吉貴提出的典型的聚類過程,本研究將生成高校新生用戶畫像的步驟分為數據預處理與特征提取、擇校行為的模型選擇、聚類結果可視化解釋三個步驟。
二、高校新生用戶畫像構建的數據處理
(一)數據預處理與特征提取
使用網絡平臺采集福建省某省屬高校(以下簡稱M校)2019級、2020級新生近一萬人在高考填報志愿中院校及專業選擇的行為特征。調查數據用網絡平臺上填答電子問卷的方式收集并匹配學生中學檔案數據和高考志愿填報數據獲得。調查在每年新生入學后一個月內進行,共收到調查問卷9761份,其中有效問卷9400份,有效率為96.31%。本問卷調查對同一IP地址、同一手機/電腦的用戶填寫的問卷數進行了嚴格設置,并且不允許斷點續答,從而保證每份問卷均回答完整有效。部分學生利用不同手機、電腦進行重復作答,經審核后予以剔除。本調查報告的所有統計數據均由網絡平臺后端數據統計生成。
(二)擇校行為的模型選擇
可能影響學生志愿填報行為的因素眾多,部分因素由于存在多個類別,需要引入多個虛擬變量進行刻畫。為刻畫學生志愿填報行為,需要從眾多的影響因素中選擇顯著的變量(或變量組),同時又要從存在多個類別的因素(即變量組)中選擇顯著的虛擬變量。因此采用了基于壓縮估計的雙層變量選擇方法對學生志愿填報行為進行統計建模分析,第一層選擇顯著組,第二層選擇組內顯著單個變量。
根據前文研究方法部分高校新生用戶畫像的標簽選擇的討論,結合M校特色,本研究以填報志愿時M院校是否排在第一愿志學校作為填報行為的度量,變量代碼為First,作為因變量。選擇的可能影響因變量First的因素包括:性別Sex,生源地SYD、應往屆YWJ、中學所在地Location、文理科WLK、省份Prov、家庭經濟水平Eco、父母最高學歷Edu、父母職業是否與學生就讀專業相關Occupation、大學目標規劃Plan,以及搜尋院校招生信息的時間Search。其中,Location有三個類別,引入了兩個虛擬變量——Location1和Location2;大學目標規劃也分成三個類別,引入兩個虛擬變量——Plan1和Plan2。這些自變量中家庭經濟水平Eco和父母最高學歷Edu為順序型變量,搜尋招生信息時間為數值型變量,其余變量均為分類變量。
由于因變量為0-1的二分類變量,因此建立logistic回歸模型:
(1)
其中X為所有的自變量,β為回歸系數。采用基于壓縮估計的雙層變量選擇方法進行變量選擇,最終得到表1中的回歸結果。
表1的全樣本回歸結果表明,女生比男生更傾向于報考M校,她們在填報志愿時把M校列為第一志愿院校的概率比男生高。類似的,農村生源地的學生、理科學生、福建考生、要報考師范類的學生,以及搜尋招生院校信息時間較短的學生,在填報志愿時均更傾向于把M校列為第一志愿院校。其余幾個因素均不影響學生填報志愿的行為。
細分來看,對于師范類學生,影響學生是否將M校列為第一志愿院校的因素與全樣本相同,且系數符號也完全一致,但在系數的絕對數值上均比全樣本的回歸系數更大,表明對師范類學生來說,女生、農村生源學生、理科生、福建生源學生及搜尋院校信息更短的學生更傾向于以第一志愿院校報考M校師范類。與全樣本和師范類樣本的回歸結果不同,對非師范類學生而言,性別Sex和搜尋院校信息時間Search這兩個變量則并不影響學生填報志愿時是否把M校列為第一志愿院校,其余的影響因素均與全樣本和師范類樣本回歸的影響因素相同且符號一致,但在回歸系數的絕對數值上要更小一些,這表明雖然生源地SYD、文理科WLK、省份Prov是重要的影響因素,但影響程度并不如對師范類學生那么大。
(三)聚類結果可視化解釋
采用K-Means聚類方法,最終得到了如圖1所示的三類學生畫像。
第一類:福建省+農村生源+在縣城中學就讀+文科+非獨生子女+想從教的女生,其家庭經濟狀況介于較低和中等之間,且偏向于中等,父母的最高學歷略高于初中水平,她們約在考前1個月開始搜索院校招生信息。
第二類:福建省+城鎮生源+在市區中學就讀+理科+獨生子女+想考研的女生,其家庭經濟狀況略低于中等水平,父母最高學歷略高于高中/中專水平,她們在考前半個月左右開始搜尋院校招生信息。
第三類:省外+農村生源+在縣城中學就讀+理科+非獨生子女+不考研不從教(即想畢業后直接就業)的女生,其家庭經濟水平介于較低和中等之間,父母最高學歷為初中水平,他們在高考結束后填報志愿前才開始關注院校招生信息。
三、分析與建議
過去在招生宣傳期學校一般采取“廣撒網+轟炸”策略,造成了數據爆炸和信息環境污染等問題,導致考生信息檢索成本高而院校宣傳效果差的資源錯配。在上述背景下,不同的高校如何從全國一萬多所高中找出適合本校的目標高中,成為高校招生宣傳工作的重要問題。
本研究通過構建“用戶畫像”,用數據重構潛在新生群體的主要需求、偏好、動機特征,以考生為中心,通過目標群體細分形成某特定院校精準線上線下宣傳方案。例如,本研究的案例學校顯現出在縣城中學就讀學生更偏愛師范類、城鎮生源偏愛考研的特點,這就要求根據不同性質的中學設計不同的宣講策略,見表2。
在填報期,學生根據高考成績選擇學校和專業的意向已相對清晰,關注點更加集中在個性化需求。根據用戶畫像進行用戶需求預測,精準推送細化到專業、知名教師團隊、教學科研平臺、社團、競賽等招生宣傳“點”信息,減少“信息冗余”噪音。以用戶畫像為依據將學生引導到細分的同類考生交流微信群或者QQ群,增加社群的情感黏性、認同感和歸屬感。
通過用戶畫像,學生工作教師可以較為便捷地發現報考大致動機及其錄取專業出入較大的學生,進行有針對性的生涯輔導。
四、優化建議和研究展望
用戶畫像的優勢依賴大數據,本研究只基于調查收集一所學校新生的數據,數據來源及數量具有較大的限制。后續研究可以跨院校跨機構、多平臺特別是網絡社交平臺開展數據收集,實現地域和跨領域的數據融合,為教育主管部門、高校、中學師生及第三方平臺提供更豐富的數據服務,更好地滿足考生多樣化需求,讓考生家長收獲更多新高考改革“紅利”。
參考文獻
[1]秦仲篪,莊穆妮,管慧,等.大數據視角下歐萊雅(中國)的用戶畫像分析[J].長沙大學學報,2018,32(5):44-49+55.
[2]ZHEN Y, SI Y, ZHANG D et al. A decision-making framework for precision marketing [J].Expert systems with applications,2015(7):3357-3367.
[3]王麗,譚凱波,黃云.用戶畫像在圖書館個性化服務應用中的問題及對策[J].數字圖書館論壇,2021(10):66-72.
[4]劉海鷗.國內外用戶畫像研究綜述[J].情報理論與實踐,2018(11):155-160.
Visual Analysis of Students’ School Choice Behavior under the Background of the New College Entrance Examination Reform: Taking M University as an Example
LIU Hua-qianga, LIU Jian-huab
(a.Department of Discipline Construction and Postgraduate Work, b. School of Mathematics and Statistics, Minnan Normal University, Zhangzhou, Fujian 363000, China)
Abstract: The new college entrance examination reform has forced universities to pay more attention to “users’ needs”. By collecting the data of the freshmen in a normal university, this study builds a visual model and finds that there are three kinds of “typical portraits” of freshmen with obvious differences in characteristics. Based on the “portraits”, we can formulate accurate recruitment and publicity measures for different groups and provide personalized services at different stages. To provide accurate information services according to the characteristics of the users has become a research hot subject and a consensus of the industry. The premise of accurate service is to analyze the characteristics of user groups in the market segments, grasp the motivation of school choice of the potential target groups, and better answer the questions of “who to publicize” and “what to publicize”. The innovation of the research lies in exploring the data analysis method for formulating specific school-based enrollment publicity policies based on the theoretical research on school choice behavior under the background of the new college entrance examination reform.
Key words: new college entrance examination reform; college-choice behavior; user profile; K-Means cluster