王舒 李浩* 鐘科 聶珊 周文安
(1.四川省計算機研究院 四川省成都市 610041 2.四川大學招生辦公室 四川省成都市 610065)
在我國,高考一直是一個重要事件,它對于考生以及考生家庭都有著重要的意義,它關系著考生大學四年的學習以及未來人生發展,被很多人視為人生的一次轉折。這些年我國的高考志愿填報方式逐漸改革,由之前的考前填報、估分填報變為了考后拿到成績再填報,這種填報方式降低了考生因發揮異常而與填報學校失之交臂的風險,但同時,如何根據自己的成績填報理想的志愿尤為重要[1]。
高考志愿填報輔助系統目前有兩類,一類是通過考生的心理測評來為考生推薦適合考生的專業和院校[2];另一類是以歷史高考成績為依據,為考生推薦符合成績范圍的專業和院校[3,4]。這一類高考志愿填報系統目前國內有一些,提供往年高校錄取分數、比例介紹,專業簡介和就業前景等信息描述??傮w來說推薦的信息量較大,但是大多數是信息的羅列而缺少對信息底層數據的挖掘與分析,重點推薦,因此并不能解決考生志愿填報的盲目性。
本文圍繞上述內容展開研究,通過對分數標準化方法的改進并結合灰度預測模型,設計并實現了基于改進灰度算法的分數預測模型,并應用于高考志愿決策系統,能夠快速和準確地給出高校錄取分數的預測結果。
本文的研究工作主要以標準分轉換為基礎,并應用了灰度預測模型,因此對標準分計算、灰度預測模型進行了相關研究。
標準分制度是根據教育測量學理論建立的一套有關分數報告、分數解釋和分數使用的制度。它向考生報告各科標準分及百分等級,報告總分(改稱綜合分)的標準分百分等級[4]。其標準化過程如下:
設構成原始成績的集合為{x1, x2,x3, …, xn},則平均分計算公式為:


表1:標準分轉換結果
標準差為:

對于任意原始分xi有:

則稱Zi是xi的標準分,也稱Z 分數。
目前我國高考標準分[6]采用CEEB 分數,計算方法為:

采用標準分比采用原始分計算優點是十分明顯的,因為標準分主要體現的是考生的排名情況,但是針對本系統來說,傳統的標準分計算方法存在以下不足:首先標準分是按照正態分布來計算的,但是由于每年的考生水平以及考題難易程度不相同,考生成績分布情況受影響;其次如果數據不完整會導致計算結果不準確。因此有研究者提出使用位次信息作為分析依據,但是考生動輒數萬名,為此信息在計算以及表示的時候都不夠直觀,文獻[6]提出,通過一分一段將分數轉換為位次,再由位次轉換為分數,這樣做可以解決上述問題。但是卻忽略了一個問題,即在分數與位次轉換過程中,一個位次對應的分數是唯一的,而一個分數對應的位次不唯一。以四川省高考數據為例,2019 年理科分數為655 的共有300 名考生,排名6671 至6971,因此這個排名段內的名次均對應了理科655 分。
基于上述問題本文提出了一種新的標準分計算方法,能夠更準確地將分數與位次的對應關系表示出來。
定量預測方法有很多,目前應用比較廣泛的有神經網絡法、回歸分析法、時間序列法、灰色預測法等等[12],這些方法各有優缺點。而針對高考數據分析來說,首先樣本不需要過多,因為隨著區域以及高等教育的發展,多年以前的高考數據基本不具有參考性;其次高考分數分布沒有明顯的規律。因此灰度預測法適用于分數線的預測。
灰度預測是由鄧聚龍教授在上世紀八十年代提出的[7]。它具有如下幾個特點[8]:
(1)不需要大量樣本;
(2)樣本不需要有規律性分布;
(3)計算工作量??;
(4)定量分析與定性分析結果不會不一致;
(5)可用于Recent、短期、中長期預測;
(6)灰度預測準確率高。
文獻[9~10]以及文獻[13]采用了灰度預測模型對高考錄取分數進行了預測,文獻[14~16]針對灰度預測模型本身進行了改進研究。但目前的研究中并未將高校錄取人數變化對高校錄取分數線的影響引入到灰度模型中做改進測試。

圖1:標準分與原始分對比

圖2:算法結果對比
一所高校招生人數增多或者減少都會影響考生對該校志愿的填報意愿,從而影響該校錄取分數線?;谏鲜鲅芯勘疚膶叶饶P陀嬎惴椒右愿倪M,引入了影響因子,更滿足高校分數預測的實際需求。
改進標準分計算方法如下:{s1, s2, …, sn}表示n 所高校在最近一年錄取分數線,根據一分一段得到排名為{r1, r2, …, rn},其中r={Rlow, Rhigh},表示最低排名到最高排名區間范圍。根據r 轉換為該高校歷年分數{Sy1, Sy2, …, Sym},SS={Wlow, Whigh}即為某高校在某年度的標準分。
以五所高校(中國人民大學RUC、南開大學NKU、吉林大學JLU、江蘇大學JSU、東北林業大學NEFU)在四川省內2015 年~2018 年的高考分數為例,基于2019 年的標準分轉換結果如表1所示。

表2:實驗結果

表3:誤差比對
觀察表1 可以看出,高校原始錄取分數分差較大,沒有直觀的可比性,通過轉換為標準分后,分數比較平緩,說明該學校在四川省內收分處于一個較穩定的區間內,更利于學生參考。從上表中選取吉林大學,將轉換前與轉換后的分數進行對比如圖1 所示。
根據圖1 可以看出轉換后的數據相比之前的數據,提高了數據一致性,解決了因分數波動對分數預測造成的影響。
設某高校錄取標準分原始序列為:
y(0)=(y(0)(1), y(0)(2), …, y(0)(n) ),d 為作用于y 的算子,它的定義為:

s0為該高校擬招生人數,S0為有效考生總人數,sn為該高校對應年的招生人數Sn為對應年有效考生總人數。則新序列為x(0)=(x(0)(1), x(0)(2), …, x(0)(n)),其中

計算該數列的級比為:

計算步驟如下:
(1)原始數據累加以便弱化隨機序列的波動性和隨機性,分別得到x^((0) )的一次累加生成數列

(2)對x(1)(t)建立x(1)(t)的一階線性微分方程:

(3)對累加生成數據x(1)做均值生成B 與向量Yn,即




分別對高校的錄取分數采取原始分灰度預測(GM)、標準分灰度預測(SS-GM)、改進標準分灰度預測(N-SS-GM),抽取十所高校預測結果如表2 所示。
通過實驗結果比對,不采用標準分預測的分數結果與實際分數相差較多,采用標準分預測和采用改進灰度預測模型預測結果更接近于實際分數。
通過對模型生成結果s(1)與真實數據s(0)之間的殘差e 和相對誤差q(x):

來驗證文本算法的有效性,對上述10 個高校的計算結果進行檢驗,如表3 所示。
將計算結果用折線圖表示,如圖2 所示。
由圖2 可以看出,改進的標準分灰度預測模型(N-SS-GM)的相對誤差在大多數高校預測中要優于標準分灰度預測模型,山西大學由于在2019 年招生人數增加很大,所以改進后模型的誤差率較低,而原始預測模型則誤差率相對較高??傮w分析改進后的算法誤差率在很低的范圍內,優于其他算法。
本文針對高考真實數據進行分析,采用了改進的標準分算法對標準分進行更直觀化的轉換,后采用改進灰度預測算法預測分數,實驗結果證明效果很好。接下來的工作主要有以下幾個方面:首先,擴大實驗數據的范圍,將方法應用于較低分數段進行驗證;其次,在分析預測高校分數的基礎上,預測專業的錄取分數;最后將預測分數結果與錄取率計算相結合,給出完整的報考指南。