黃戴琴 周強 虞飛華



摘要:浙江新高考改革為“七選三”的模式后,高考志愿填報多了一個科目限選要求,考生志愿填報成為一項復(fù)雜的數(shù)據(jù)工程。本研究基于高校基本信息數(shù)據(jù)、當(dāng)年招生計劃數(shù)據(jù)、歷年投檔數(shù)據(jù)、考生個人數(shù)據(jù),通過設(shè)計推薦算法,基于Android平臺開發(fā)了高考志愿填報輔助系統(tǒng),能夠快速精確地推薦一組符合考生填報意愿的當(dāng)年招生計劃數(shù)據(jù)列表。
關(guān)鍵詞:大數(shù)據(jù)分析;用戶協(xié)同過濾;高考志愿填報;推薦系統(tǒng)
中圖分類號:TP311 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)31-0075-04
高考是目前我國教育體制中最重要的考試之一。恢復(fù)高考以來,很多考生通過高考進入高校學(xué)習(xí),改變了自己的命運,也有很多人考生因為志愿填報的失誤,錯失了心目中想要踏入的大學(xué),又或是從事完全不適合自己的行業(yè),而遺憾終身。高考志愿填報關(guān)乎一個人的命運,如何在上千所學(xué)校,上萬個專業(yè)中挑選出符合考生自己分?jǐn)?shù)以及興趣的高校和專業(yè),是困擾廣大考生和家長的重要問題。
浙江省新高考改革后,脫離傳統(tǒng)的單調(diào)文理分科模式,采用新型“7選3模式”,即除去語文、數(shù)學(xué)和外語三門必考課程之外,還要在傳統(tǒng)的理科和文科科目中選3門作為高考自選科目,其中包括歷史、政治、地理、物理、化學(xué)、生物和技術(shù)(含通用技術(shù)和信息技術(shù))。浙江省新高考志愿填報實行平行專業(yè)志愿填報機制,以一所學(xué)校的一個專業(yè)為一個志愿,最多填報80個志愿。
“7選3模式”對于考生而言多了一份分?jǐn)?shù)自信和興趣抉擇,同時也限制了報考專業(yè)方向。在這個模式下,部分專業(yè)對選考科目及分?jǐn)?shù)有明確要求。這就成為考生報考志愿的一大難點。傳統(tǒng)的志愿抉擇階段主要盲目地借助于大量的書籍和網(wǎng)絡(luò)上的資料,各種各樣的資料讓人眼花繚亂,根本無法從這么多良莠不齊的信息中找到真正有價值的,浪費大量時間在查找資料上,往往卻徒勞無功,導(dǎo)致對有效信息掌握不足或自身定位不清晰。李勝在《傳統(tǒng)高考志愿填報的反思及現(xiàn)實展望》中提到,多數(shù)家長和教師過多的關(guān)注高校的“名聲”,而忽略了與學(xué)生自身興趣和能力匹配的專業(yè)嘲,這種錯誤的想法也影響了大多數(shù)考生對未來發(fā)展和職業(yè)規(guī)劃的不重視甚至迷茫和被動。隨著信息時代的和教育信息化的飛速發(fā)展,大可以借助大數(shù)據(jù)和互聯(lián)網(wǎng)的力量,在眾多院校和專業(yè)中找到適合自己的方向。
目前我國考志愿填報平臺相關(guān)研究較多。中國教育在線、高考派、第一高考網(wǎng)等是國內(nèi)高考志愿填報平臺的典型案例。上述主流的高考志愿填報服務(wù)平臺,主要提供院校信息查詢功能,各院校的歷年招生分?jǐn)?shù)查詢?yōu)橹饕δ埽⑶译m然有根據(jù)考生分?jǐn)?shù)進行志愿智能推薦,但沒有綜合考慮“浙江省新高考7選3限制”、考生填報意愿的院校地域信息、院校聲譽度、是否雙一流、歷年招生信息、當(dāng)年招生計劃、大學(xué)排行榜信息、學(xué)科專業(yè)排名信息、就業(yè)信息等數(shù)據(jù)。顯然這些信息,對考生來說是志愿填報的重要參考信息,并且部分信息每年都是動態(tài)變化的,如歷年招生人數(shù)和當(dāng)年招生計劃人數(shù)的增減,就會對院校專業(yè)的招生分?jǐn)?shù)產(chǎn)生一定的波動和不穩(wěn)定性,上述平臺且缺乏靈活性。
基于分析國內(nèi)主流高考志愿填報平臺的不足,本研究提出一個“浙江新高考”志愿填報方案智能推薦平臺,有目的指向浙江省新高考政策,旨在解決考生志愿填報不明確問題,采集新高考志愿填報涉及的數(shù)據(jù),結(jié)合考生填報意愿和高考成績,通過大數(shù)據(jù)計算和基于用戶的協(xié)同過濾算法,給考生智能推薦的一個或多個志愿填報候選方案。
1推薦算法設(shè)計
協(xié)同過濾推薦算法是一個雖然傳統(tǒng)古老但依然應(yīng)用廣泛的推薦算法,主要用于預(yù)測和推薦,基于對用戶的偏好對用戶進行群組劃分并產(chǎn)生相似推薦。協(xié)同過濾技術(shù)分為四類:基于用戶的協(xié)同過濾嘲、基于項目的協(xié)同過濾、基于混合的協(xié)同過濾、基于模型的協(xié)同過濾。
基于用戶的協(xié)同過濾推薦的原理就是“物以類聚,人以群分”,將目標(biāo)用戶的喜好或標(biāo)簽作為一種反饋,與其他有相似喜好的用戶組成一個集合,這種用戶被稱作目標(biāo)用戶的“鄰居”。最后將目標(biāo)用戶的“鄰居”的其他目標(biāo)用戶沒接觸過的喜好推薦給目標(biāo)用戶,形成目標(biāo)用戶的“新喜好”。
基于項目的協(xié)同過濾算法與之類似,是以項目或物品作為目標(biāo),通過用戶的評價,比較不同項目與項目之間的評價距離來產(chǎn)生預(yù)測評價,生成推薦集合。基于混合的協(xié)同過濾算法顧名思義就是把“用戶”和“項目”混合在一起形成的推薦算法。基于模型的協(xié)同過濾算法將用戶和項目之間的關(guān)系作為研究對象,設(shè)計一個合適的模型,通過過程優(yōu)化來達(dá)到推薦效果。
通過綜合比較上述四種過濾方法,本文針對浙江新高考志愿填報的特點,融合大數(shù)據(jù)技術(shù),采用了基于用戶的協(xié)同過濾技術(shù),通過對考生的各種屬性和偏好,給予有效的高考志愿填報推薦。
建立一個基于用戶的協(xié)同過濾系統(tǒng)只需要三步:第一步,繪制用戶畫像矩陣;第二步,搜索最近鄰;第三步,生成推薦結(jié)果。
1.1用戶畫像矩陣建立
在大環(huán)境的影響下,高考不僅是考生個人自己的事,更成為一個家庭的大事。根據(jù)相關(guān)文獻和調(diào)研發(fā)現(xiàn),高考志愿填報的影響因素,不僅包括考生的高考分?jǐn)?shù),還包括考生的個人興趣、發(fā)展前景和家庭情況等,谷寶柱在《高考志愿選擇行為的影響因素研究》中利用國內(nèi)外文獻和問卷調(diào)查相結(jié)合,得出結(jié)論:影響考生高考志愿填報的主要因素有個人因素、家庭因素、高校因素、國家社會因素和經(jīng)濟因素五個方面。綜合分析影響考生填報志愿的因素和考生的個人意愿得出在高考志愿填報中,影響志愿填報的因素主要有:學(xué)校類型(如985、211、一流大學(xué)、普通一本、普通二本、普通三本等),學(xué)校地區(qū)、考生分?jǐn)?shù)、歷年錄取分?jǐn)?shù)線等。根據(jù)這些影響因素和考生自身意愿確定了用戶偏好信息的方向和內(nèi)容,繪制用戶畫像矩陣。
用戶畫像矩陣內(nèi)容主要來源于用戶自己完善的信息內(nèi)容,以考生的基本屬性數(shù)據(jù)、學(xué)生的總分、三門主課分?jǐn)?shù)、7選3科目及其對應(yīng)分?jǐn)?shù)為基礎(chǔ),通過要求所推薦的學(xué)校是否要是985院校、所推薦的學(xué)校是否要是211院校以及對城市和地區(qū)的完成偏好設(shè)置,共同作為目標(biāo)用戶的喜好和標(biāo)簽。
用戶畫像矩陣建立后,就將其作為用戶屬性,用于接下來的數(shù)據(jù)分析。
1.2最近鄰搜索
1.2.1用戶數(shù)據(jù)標(biāo)準(zhǔn)化
為了方便數(shù)據(jù)處理,根據(jù)考生輸人的考生成績信息和填報意向信息,在用戶屬性確定后,對數(shù)據(jù)進行數(shù)據(jù)標(biāo)準(zhǔn)化處理,本文采用rain-max標(biāo)準(zhǔn)化對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,如公示l所示:
其中d表示考生的原始數(shù)據(jù),rain表示屬性的最小值,min表示屬性的最大值。
1.2.2計算用戶鄰近性
最近鄰搜索就是以考生屬性為基礎(chǔ),計算考生與考生偏好之間的相似度。在標(biāo)準(zhǔn)化的考生屬性數(shù)據(jù)的基礎(chǔ)上,采用皮爾遜相關(guān)系數(shù)進行最近鄰搜索,計算考生之間的距離,以此來表示考生間的相似鄰近度,如公示2所示:
1.3推薦結(jié)果生成
推薦結(jié)果是基于鄰近用戶的錄取高校和專業(yè)產(chǎn)生的,首先要確定鄰居用戶,通過相似鄰近度的計算和搜索,將近鄰度為0的用戶作為目標(biāo)用戶的最近鄰用戶,作為鄰居用戶并將其對應(yīng)成功錄取的院校加入推薦集合中。
由于每年的試卷難度不同等因素,分?jǐn)?shù)作為參考量的價值并不穩(wěn)定,所以根據(jù)用戶的排名作為主要參考更為嚴(yán)格精準(zhǔn)。根據(jù)目標(biāo)用戶的所處分?jǐn)?shù)排名段,選取距離最小的x個用戶作為另據(jù)用戶,并將x個用戶所錄取的高校按人數(shù)進行降序排列處理,并依次加入推薦集合中,再根據(jù)考生的偏好設(shè)置進行逐一甄別,甄別后的推薦內(nèi)容放入新的推薦集合,直到新的推薦集合中的個數(shù)到達(dá)目標(biāo)數(shù),即50條,形成最終的推薦集合。
2平臺功能設(shè)計
經(jīng)過向高考考生和家長發(fā)放問卷調(diào)研,結(jié)合基于用戶協(xié)同過濾算法,本文設(shè)計的浙江新高考志愿填報平臺主要分為an-droid客戶端和服務(wù)端兩個程序,包含以下幾個模塊,具體如圖1所示。
2.1android客戶端功能
1)用戶注冊:用于考生申請合法身份,建立考生的個人信息檔案并保存考生的基本社會屬性,作為目標(biāo)用戶。
2)用戶登錄:驗證考生身份的合法性,保障考生的信息安全。
3)高考成績填報:保存考生的語文、數(shù)學(xué)和外語三門公共課分?jǐn)?shù)、7選3科目及其對應(yīng)分?jǐn)?shù)、學(xué)生總分以及排序位序信息作為必須數(shù)據(jù),應(yīng)用于數(shù)據(jù)的協(xié)同過濾算法。
4)意向信息填報:主要收集考生對高校層次、地理位置偏好以及專業(yè)的意向信息,作為主要篩選和推薦依據(jù)。
5)高校資訊和信息展示:包含展示各個高校的基本信息、專業(yè)情況和歷年招生情況,為考生更好提供對高校了解的環(huán)境和途徑。也會向用戶提供呈現(xiàn)一些與高考相關(guān)信息的文章,用戶可以瀏覽資訊以了解一些填報志愿的相關(guān)政策和由各考試院推送的一些有用的文章。
2.2服務(wù)端功能
1)數(shù)據(jù)采集:首先選取各高校官方招生網(wǎng)站、省教育考試院、第三方評價機構(gòu)和教育部網(wǎng)站為目標(biāo)URLs,也就是指定入口。將這些URL從網(wǎng)絡(luò)上下載下來存放進待抓取的容器中,把待抓取的容器中的URL提取出來,并進行訪問,解析后的數(shù)據(jù)儲存到服務(wù)器中。將解析完成的URL重新放回容器中,在容器中進行篩選后循環(huán)之前的操作。
利用網(wǎng)絡(luò)爬蟲技術(shù)從各高校網(wǎng)站和省教育考試院網(wǎng)站收集獲取各高校基本信息數(shù)據(jù)、當(dāng)年專業(yè)招生計劃數(shù)據(jù)、歷年專業(yè)招生計劃數(shù)據(jù)、歷年專業(yè)錄取分?jǐn)?shù)數(shù)據(jù)和,從第三方評價機構(gòu)中收集高校綜合排名數(shù)據(jù)、學(xué)科專業(yè)排名數(shù)據(jù)和就業(yè)質(zhì)量排名數(shù)據(jù),從教育部網(wǎng)站獲取雙一流建設(shè)大學(xué)和雙一流學(xué)科建設(shè)大學(xué)數(shù)據(jù),數(shù)據(jù)來源如圖2所示。
2)數(shù)據(jù)存儲:一個安全可靠的系統(tǒng)必然離不開數(shù)據(jù)存儲。系統(tǒng)將通過爬蟲技術(shù)抓取到的數(shù)據(jù)以Excel表格的格式保存到本地服務(wù)器,將Excel文件通過接口API上傳到數(shù)據(jù)庫服務(wù)器,對文件中的數(shù)據(jù)進行處理,處理完成后成功連接到數(shù)據(jù)庫并將數(shù)據(jù)插入到數(shù)據(jù)庫對應(yīng)的數(shù)據(jù)表中。
3)數(shù)據(jù)計算:主要對高校、招生專業(yè)的排名情況、歷年招生計劃、本年招生信息和歷年錄取情況、考生成績、考生的意向數(shù)據(jù)進行大數(shù)據(jù)計算。
4)志愿推薦:運用基于用戶協(xié)同過濾算法,先根據(jù)用戶屬性建立用戶畫像矩陣,然后利用公示(1)對數(shù)據(jù)進行標(biāo)準(zhǔn)化。在經(jīng)過標(biāo)準(zhǔn)化后的數(shù)據(jù)基礎(chǔ)上,利用公示(2)計算考生與考生之間的距離,最后生成推薦集,即生成符合高生意愿的高校和專業(yè)志愿推薦列表。
3系統(tǒng)測試
設(shè)計測試用例,根據(jù)測試用例進行系統(tǒng)測試,首先填寫考生的名次、批次,語文、數(shù)學(xué)和外語三門公共課成績和7選3的科目和對應(yīng)分?jǐn)?shù),自動生成總成績,如圖3所示。
然后,考生填志愿填報意向意愿,包括排除的省、直轄市和自治區(qū),學(xué)校辦學(xué)性質(zhì)和類型,是否要求一流大學(xué)建設(shè)和是否要求一流學(xué)科建設(shè),是否要求985、211和重點大學(xué),如圖4所示。
根據(jù)圖3和圖4的數(shù)據(jù),高考志愿填報輔助推薦平臺,經(jīng)過服務(wù)端計算,最后將推薦結(jié)果列表推送到android客戶端,效果如圖5所示:
4總結(jié)
針對浙江省新高考的特點,本文設(shè)計的浙江新高考志愿填報推薦平臺,結(jié)合了網(wǎng)絡(luò)爬蟲技術(shù)、大數(shù)據(jù)處理技術(shù)和基于用戶協(xié)同過濾算法,通過采集大量高考生填報相關(guān)的數(shù)據(jù)和各個高校招生情況和信息,設(shè)計用戶協(xié)同過濾算法,設(shè)計了android客戶端和服務(wù)端。測試結(jié)果表明,該平臺可以為考生推薦符合考生成績區(qū)間和考生感興趣的學(xué)校和專業(yè)列表,能夠大大減少考生在海量數(shù)據(jù)中尋找高校和專業(yè)的時間,相對手工填報明顯提高了精確度,解決了由于信息不足或者對自身定位有誤等問題,更好地填補了目前高考推薦系統(tǒng)對于浙江省考生志愿填報推薦的空缺,滿足廣大浙江考生的需求,具有較好的應(yīng)用價值。雖然本平臺已經(jīng)有了較好的推薦效果,但是在用戶協(xié)同過濾算法中,還需要通過數(shù)據(jù)訓(xùn)練集的不斷測試,完善協(xié)同過濾算法以提高推薦精確度,特別在數(shù)據(jù)稀疏的情況,需要進一步的研究和改進。