殷文俊
(滁州城市職業學院,安徽 滁州 239000)
伴隨著信息技術的不斷發展,大數據也隨之進入飛速發展時代。在大數據的環境下,高校招生工作也應與時俱進,改變以往經驗論做法,轉為以數據為基礎的科學招生法。大數據時代,數據已經從簡易的加工對象成為基礎性信息。近些年,考生報考需求出現許多個性化需求,招生工作從簡單印發宣傳資料方式逐漸轉化為服務性工作,利用大數據分析挖掘出更有利于學校發展的考生,同時可通過考生咨詢訪問的大數據提升招生工作成效,已成為高校關注的重點。以此為出發點,通過調查當前高校招生方式,在分析當前高校招生過程中存在問題的基礎上,采用線性回歸的方法建立了預測模型,并對某校文科類新生的報道率進行了預測,與實際情況相比,該模型的預測準確率為90.8%,研究結果可為高校招生預測策略研究提供一定的理論依據。
高校招生方式重點包含招生資料的發放、公眾媒體發布消息、實地咨詢、強化與中學溝通、各大高校網站發布消息等招生方式。
從整體情況來看,現在的招生工作主要面臨三大難題需要解決。第一,存在時間制約。高校開展招生宣傳的時間往往較多集中于考生報考前后,持續宣傳成效差;第二,地理條件的約束。若考生實地咨詢均圍繞在[1-2]高校周圍省市,由于地區發展狀況的影響,尤其表現在新媒體發布消息等方式用于經濟水平發展低的地域的成效較差;第三,存在一定盲目性,猶如大海撈針,不具有針對性,造成招生費用大、效益低。基于大數據分析,可有效補充現如今招生難題,提升高校招生工作的效率,為精準招生、高效招生奠定扎實基礎。
所謂大數據,其表現為海量數據量,一般通過現階段應用程序或系統無法處理,在某一有效時間范圍可獲取、加工、整理,為決策者提供決策的數據。大數據有著傳統數據無法比擬的優勢,如數據量巨大、高增長率、結構多樣性等特征。
大數據和傳統數據在特征和數據來源均有所不同,處理和應用大數據需要選用有別于傳統的思維方式,唯以此才能挖掘大數據所蘊含的價值。預測作為大數據的中心價值,可以把數學算法應用于巨量數據中,建立數據模型,從而精準地預估事物發生的可能性。在大數據時代,信息技術越加成熟,學生報考意愿、來校后的培養、畢業后從事工作和外部環境對畢業學生就業相關建議意見等均可以記載于數據庫內,通過分析一系列數據對學生報考意愿預測是非常有幫助的。大數據技術環境下,學生報考行為不再是以往存在的獨立事件,而是互相關聯的一體,開展行為預測,進而編制有針對性、高效的招生方案,對于提升高校招生效率具有重要意義。
現如今填報志愿,一部分考生在招生現場進行報考相關問題的咨詢,較大比例的學生會通過打高校招生電話和互聯網查詢的方式開展報考事項查詢。電話與互聯網咨詢時間制約較小,對學生和家長掌握高校相關情況比較有利,在某種程度上解決了招生工作的短板問題。
大數據的實質是進行數據的深度挖掘和運用,為預測預估提供一定依據。在大數據環境下,高校開展招生工作時可和各大高校網站、新媒體等技術如微信APP相融合,第一時間解答考生心中所疑,以考生需求為基礎,為考生編制個性化填報志愿等服務,因而,大數據應用于招生預測具有十分重要的意義。
當自變量為分類型的數據結構,因變量為連續型的數據結構時,可使用方差分析法對自變量的變化是否對因變量形成影響進行分析,例如以報考不同專業的考生中在錄取分數的差別為自變量分析本校的報考熱門專業。在研究方差過程中,重點傾向于要離差平方和(SSF)、不同組別間的離差平方和(SSM)、總離差平方和(SST),然后通過統計量的代表性因子權重分析不同組之間存在差異的數值,最后通過差異性數值來驗證當前分析模型的代表性。
假設招生分類數據中有n個組,每個組有mi個數據,每個數據用xij表示,因而可用公式(1)-(3)表示以上關聯關系。
(1)
(2)
(3)

(4)
(5)
其中n為水平數,m為總記錄數。經上面多個公式代入相應數值經運算得到臨界值,若統計量F超出臨界值則反映出每個數據差異性大,以獲得的差異性系數作為基礎,能建立具有預測性能的有關模型。此外同樣可根據決定系數R2可分析模型的代表性,R2越大說明模型解釋性或代表性較好。
當自變量及因變量均為連續數值型數據結構時,可使用線性回歸分析法對這些數據進行影響分析。將這些數據的點位分布情況集合抽象化為一條近似的直線,而后把該歷史數據經過線性回歸模型預測院校招生走向。例如,在招生之中把往年考生錄取規模和來校報到的人數之間以此建立線性回歸模型,運用此模型可達到獲得新生報到數量,由此得到報到率。線性回歸模型可用以下公式表達:
y=β0+β1x1+β2x2+…+ε
(6)
其中β0為該方程的y軸截距,x1,x2,…為自變量,β1,β2,…為自變量相關系數,ε為方程的擾動系數。如果模型僅存在一個自變量,則方程(6)成為一元線性回歸模型,具體如下所示
y=β0+β1x1+ε
(7)
對于一元線性回歸模型,可依據給定的數據,利用最小二乘估計法可得出β0,β1,而此時線性回歸方差為公式(8)及公式(9):
(8)
(9)
為保證該方程的適用性,需依據給定的數據計算此時方程的擬合度(R2)并使用檢驗方程(F)對方程進行檢驗、使用檢驗系數(t)對方程的系數進行檢驗,如式(10)-(12):
(10)
(11)
(12)
雖然某一學校乃至于某一專業的每年新生報到率變化較小,但是依據上述新生報到率只可能獲得某個到校或某個專業報到的新生人數,但對于具體哪種類型的新生可能會來報到則無法進行準確的掌握,上述問題使得對于具體新生工作的開展是無法計劃的。所以各院校及各類專業都需精準獲取考生來校報到實情,尤其針對報到人數占比小的專業及院校,精準預測報到實情有利于下一步工作的開展。基于是否來校報到的情況,可將“是否報到”因變量狀態設定為0和1,該數值依次表示為不報到和報到,所以使用線性回歸方式建模可達到預測新生報到情況。
作為自變量,新生的錄取樣本數據的變量有很多,根據經驗并結合實際情況選取如下變量(如表1所示)來建立模型。
表1 變量選取說明

在開展線性回歸分析前,研究各分類中的自因變量兩者存在何種關系,并采用多元線性回歸方式建模,使用“逐步選擇”法選取自變量,將進入、保留在模型中的顯著性水平的有關參數設為0.100。除此之外,需要進一步篩查保留在模型中的5個自變量作為主要影響因素,本文選取的5個變量分別為錄取專業順序、成績與分數線差、科類、年齡、投檔志愿,在實驗室16臺計算機建立了一個高校招生策略預測實驗平臺。計算機集群采用典型的主/從結構,也稱為Master/Salve結構。其中一臺計算機作為Master(管理節點),負責集群內的資源管理和任務分配;其他計算機作為Salve(數據節點),負責保存各數據塊,并完成與數據塊相對應的任務。當MapReduce作業提交至Master節點時,Master將數據文件進行分塊,并記錄與各數據塊相對應的名字空間與元數據。然后將各數據塊冗余保存在各數據節點并分配相應的作業任務,并負責監控MapReduce作業的執行過程。圖1具體反映建模過程的ROC曲線變化。

圖1 建模過程中的ROC曲線變化
從圖1可知,ROC曲線變化整體情況為初期呈上升趨勢,在特異度達到0.25后逐漸趨于平穩,由此可知錄取專業順序、成績與分數線差等變量對考生報到情況存在顯著影響。原因可能是由于一定比例的學生沒有被自己心儀的專業所錄取或高考總分高的學生可能采用復讀爭取下一年能考上更理想院校。此外,上述模型ROC曲線的面積為0.864,因而可認為該模型可精準預測大約86.4%的考生是否來校報到。
本文采用上述模型預測了某校錄取文科類1598名考生的報到情況。與實際狀況對比可知,該模型可精準預測考生報到數量為1347人,不來校報到的考生數量為152人,預測精度達90.2%,預測可靠性較高。該案例進一步說明該模型的準確性,并能在某一程度代表新生報到情況,具有較強現實意義。
高校招生工作好壞直接影響高校生源質量,對高校未來發展存在密切聯系。在大數據環境之下,高校應該利用大數據分析預測考生填報志愿意向、報到率等。本文通過調查當前高校招生方式,在分析了當前高校招生過程中存在的問題的基礎上,采用線性回歸的方法建立了預測模型并對某校文科類新生的報道率進行了預測,與實際情況相比,該模型的預測準確率為90.8%,具有較強的可行性。研究結果對于高校解決現如今招生存在的問題,降低高校招生費用,提升招生質量及效率具有重要意義。