基于投影尋蹤模型的網評評委綜合素質評價

2018-01-06 05:10:33梁薇

統計與決策 2017年23期

梁薇

（江西警察學院刑科系，南昌 330103）

0 引言

當今，我國各級教育主管部門為了提高大學生的綜合素質，組織開展全國性或區域性的大學生綜合素質競賽，如全國大學生“挑戰杯”競賽、大學生數學建模競賽、大學生創新創業競賽等。各類競賽層出不窮，為了確保競賽評比結果的公平和公正，有效地控制評卷過程中人為誤差，提高競賽結果的公信力。因此，將互聯網技術應用到競賽評閱當中。選擇網絡閱卷已成為提高整個競賽管理效率中的一個至關重要環節。

本文以某省教育主管部門某年組織的高校研究生數學建模競賽網評評委的實際數據為樣本，在提出評價指標體系基礎上，利用客觀賦權法中探索性數據分析—投影尋蹤法，并結合遺傳算法建立了遺傳—投影尋蹤評價模型，運用該模型對這次研究生數學建模競賽的網評評委綜合素質進行評價，以期達到提高網絡閱卷質量和競賽公信力的目的。

1 遺傳算法的投影尋蹤模型綜合評價模型

為了更準確地評價網評評委綜合素質，考慮建立一個涵蓋各個指標的綜合評價模型，最常用的方法是采用主成分法。由于評價網評評委工作的優劣沒有一個明確的標準，所以只能建立無監督的評價模型。同時考慮到一個優良評價體系應能將不同表現的群體盡可能的區分開，才能達到評價的目的，因此本文采用投影尋蹤法以聚類的方式建立一個能盡可能區分不同基本素質評委的綜合評價模型。

投影尋蹤是用來分析和處理高維數據，尤其是非正態、非線性的高維數據的一類統計方法。基本思想是把高維數據通過某種組合投影到低維的子空間上，并通過極小化某個投影指標，尋找出能反映高維數據結構或特征的投影，在低維空間上對數據結構進行分析，已達到研究和分析高維數據的目的。

遺傳算法是解決函數優化問題的數據挖掘方法，智能算法的一種，是通過計算機編碼實現生物學進化過程中的復制、交叉、變異、線性、倒位等遺傳過程，實現系統設計、函數優化等復雜過程。計算的結果是一種通過模擬自然進化過程搜索最優解的方法。

用遺傳算法的投影尋蹤技術建立投影尋蹤聚類模型步驟：設第i個樣本第 j個指標為2，…,m;），其中n為樣本個數，m為指標個數。

（1）將樣本指標數據歸一化處理。由于各指標的量綱不盡相同或數值范圍相差較大，因此，在建模之前對數據進行歸一化處理為：

（2）建立數據的線性投影。所謂投影實質上就是從不同的角度去觀察數據，尋找最能充分發掘數據特征的作為最優投影，方可在單位超球面中隨機抽取若干個初始投影方向a（a1， a2，…，am），計算投影指標的大小，根據指標選大的原則，最后確定最大指標對應的解為最優投影方向。

（3）尋找目標函數。綜合投影指標值時，要求投影值zi的散布特征應為：局部投影點盡可能密集，最好凝聚成若干點團；而在整體上投影點團之間盡可能散開，故可將目標函數Q（a）定義為類間距離s（a）與類內密度d（a）的乘積，即：

Q（a）=s（a ）?d（a）

類間距離用樣本序列的投影特征值方差計算：

（4）優化投影方向。由上述分析可知，當Q（a）取得最大值時所對應的投影方向就是所要尋找的最優方向。因此，尋找最優方向的問題可轉化為下列優化問題：

在滿足約束條件的情況下，求出Q（a）的最大值，同時也就找到了最優投影方向。由于這是一個復雜非線性優化問題，可采用遺傳算法進行優化。

（5）綜合評價聚類分析。根據最優投影方向，便可計算反映各評價指標的綜合信息的投影特征值Zi，以Zi的差異水平對樣本群進行聚類分析并進行綜合評價。

2 遺傳算法的投影尋蹤模型在網評評委綜合素質評價中的應用

2.1 數據來源與處理

本文采用某省教育廳組織的一次研究生數學建模競賽的數據。該比賽共有五個題目，共聘請了196名網評評委。每個題目根據提交論文（或項目）的多少分配網評評委，最多的D題共有69名網評評委，最少的A題共有14名網評評委。每篇論文至少四位評委評閱，每個評委評閱八至十篇不等。現根據各網評評委在網評階段的評分結果以及最終論文的成績，對各網評評委綜合素質進行評價。

2.2 指標體系構建

運用投影尋蹤模型對網評評委的綜合素質作評價，首要條件是構建合理的度量網評評委綜合素質的指標體系。由于網評評委對參賽論文（或項目）僅僅是根據自身的知識和經驗等因素綜合判斷給出一個分值，如何使用一個具體分值來構建評價指標體系，成為本文的重點之一。為此，本文在對各類競賽進行定性分析基礎上，遵循全面性和代表性的原則，將對每個網評評委的評分結果從不同角度進行分析，通過相關轉換提取了寬嚴度、離散度、可靠度、有效度和準確度五個指標，以五個指標構建網評評委綜合素質評價指標體系如下：

2.2.1 寬嚴度指標

我們知道在具體到評卷過程中，每個評委對評分標準把握的寬嚴程度不同，常出現有的偏嚴格、有的偏寬松情況。有一種傾向是朝著平均數打分，或者盡量多給中間檔次的分數，或者確定檔次之后，傾向于給該檔的中間分，這種中庸的價值取向在統計學中就是用集中趨勢去評價，這些評委屬|作為衡量嚴寬度的指標，其中Pki表示第k個于求同思維特點。因此，在這里采用評分均值偏差評委評閱的第i篇論文的均值，表示第i題網評的平均分。以每份論文的總平均分為參照點，網評評委給分越接近總平均分表示閱卷質量越好，根據此標準將均值偏差標準化為0～1之間的得分。

2.2.2 離散度指標

網評評委閱卷時，與前一種趨中偏好不同的是發散偏好，即相對于給中間分而言，更容易給出兩端分值。當然，這種偏好在一定程度上屬于求異思維風格。

為了反映這類評委發散的偏好，可以通過將每個網評評委的評分的方差與該篇總方差對比，即來度量，其中表示第k個評委評閱的第i篇論文的方差，表示第i篇論文網評的總方差。當方差偏差較大時，認為該教師的評分具有發散偏好；反之，當方差偏差較小時，認為其評分具有趨中傾向，根據此標準將方差偏差標準化為0～1之間的得分。

2.2.3 可靠度指標

對于每一個評委來說，評閱的每份論文的評分與其他評閱同一論文的各位評委評分趨于一致時，可以認為該評委的評分是可信的，若與其他評委評分相差較大時，該評委的可信度將會遭到質疑。因此選用克倫巴赫α系數（Cronbacha信度系數）來計算一致性信度系數。Cronbacha信度系數是一套常用的衡量心理或教育測驗可靠性的方法，依一定公式估量測驗的內部一致性。作為信度的指標，它克服部分折半法的缺點，是目前社會研究最常使用的信度指標，它是測量一組同義或平行測“總和”的信度。克倫巴赫α的原型計算公式為：

通過克倫巴赫系數α可以檢驗每個網評評委對每份論文打分與其他網評評委打分情況是否一致，即該網評評委對論文的評判標準與其他網評評委是否一致。若α較低，則表示該網評評委與其他網評評委的一致性較差，若α較高，則表示該網評評委與其他網評評委的一致性較好。

2.2.4 有效度指標

根據數學建模競賽的評分規則，評分過程中標準差閥值一般不能大于論文滿分的1/6。為判斷評分是否有效，即判斷若干個評委評分的標準差是否超過閾值。用每篇上每個評委的有效閱卷數量與總數量的比值計為有效評分率。數據值越大，有效閱卷越多，表示閱卷質量越好。

計算公式：有效度=每個評委有效閱卷數量/每個評委總工作量。

2.2.5 準確度指標

為了檢驗網評評委評分對最終成績的預見性，考慮到獲獎情況為有序離散變量，這里以網評評委評分為自變量，以最終成績為因變量，引入有序Logit模型來描述評分準確性。有序Logit模型是二項分布的logit回歸向多項分布的推廣，有序Logit模型基本原理如下：

假定對于第 i個論文，因變量Yi有4個取值：0，1，2，3（分別對應未獲獎、三等獎、二等獎、一等獎）自變量為Xi，則有序logit回歸的模型為：

其模型產生的偽R2系數表明了自變量對因變量的解釋能力，因此本文選取偽R2系數來描述網評評委評分的準確性。

在回歸分析中，判決系數R2和修正后的判決系數偽R2是度量回歸方程擬合程度的一個重要統計量。將按網評評委分組的打分和最終成績構建有序logit回歸模型，并得出檢驗值偽R2。偽R2同樣可度量logit回歸模型的擬合程度，偽R2值高，則模型擬合得好，在網評評委評分過程中則可說明評分的準確性較高；反之則模型擬合較差，在網評評委評分過程中則可說明評分的準確性較低。

2.3 綜合評價結果

根據前述的遺傳算法和投影尋蹤模型，利用MATLAB軟件對某省組織的研究生數學建模競賽中196名網評評委綜合素質進行評價。

通過圖1可以看出，遺傳算法在迭代了20次后就已經收斂，此時的適應度函數即目標函數值為0.0088，通過目標函數值的比較（0.0088＞0.0081）也可以看出，遺傳算法迭代收斂過程的優劣可見一斑。

因此，采用遺傳算法得到的投影尋蹤綜合評價模型的結果：

其中：A1、A2、A3、A4、A5分別為標準化后寬嚴度、離散度、可靠度、有效度、準確度的各指標值。從模型參數重要性看 A2＜A5＜A4＜A3＜A1。說明寬嚴度和可靠度是影響投影特征值的兩個重要參系數。

將各投影指標帶入公式，可以得到各樣本的投影特征值畫出的排序散點圖,如圖2所示。

圖1 遺傳算法迭代收斂過程

圖2 基于遺傳算法的投影特征值

根據圖2投影特征值的分布判斷，遺傳算法的效果較為理想。為了更加直觀，本文將前十名和后十名網評評委的各指標與投影特征值分別列于后文表1和表2及圖3中。前十名投影特征值在1.47～1.54之間，后十名投影特征值在0.14～0.60之間。前、后十名之間相差近1個單位，說明群組內聚集的密度較大，但群組間的區分明顯，由此基于遺傳算法的投影尋蹤模型能有效地對不同網評評委基本素質進行評價。

圖3 前十名、后十名投影特征值圖

2.4 綜合評價分析

通過表1和表2的結果發現投影特征值越大的網評評委綜合素質越高，反之，投影特征值越小的網評評委綜合素質越低。將前、后十名的網評評委投影特征值與評委基本素質指標的對比分析如下：

（1）前十名網評評委綜合素質分析（見下頁表1和圖4）。在前十名評委中五個指標只有離散度和準確度有些差異，其他三個指標均差異很小。說明他們的共同特點是兼顧求同思維與求異思維，綜合素質較高。如專家E22寬嚴度為0.99963，離散度得分為0.68712，表明他的評分與E組專家打分的總體表現極為接近，其有效度為1表明沒有出現過無效評分，準確性為0.867，表明其網評打分能夠很好地預見最終的成績。

表1 前十名網評評委投影指標

圖4 前十名網評評委投影指標圖

（2）后十名網評評委綜合素質分析（見表2和圖5）。在后十名評委中五個指標的寬嚴度、離散度和準確度均表現出明顯的差異。說明這些評委有點偏求同思維、有點偏求異思維、有的兩者均不考慮，尤其是第三種評委可能對某一競賽領域缺乏經驗或不熟悉，因此在綜合素質體現就較低。如表現最差的是專家E28，其寬嚴度得分僅為0.0000，離散度為0.17021，表明他的打分與E組專家打分的總體表現相差較大；有效度為0.66010，表明其有接近三分之一的評分屬于無效評分。

表2 后十名網評評委投影指標

圖5 后十名網評評委投影指標圖

3 結論與建議

本文首次將投影尋蹤法引入到對網評評委綜合素質評價中來，也是一次大膽的嘗試。本文遵循了樣本數量為指標個數的3～5倍以上計算結果具有穩鍵性的基本要求，建模使用了196個專家的評分數據。模型結果顯示：評委的綜合素質特別優秀和較差的均為少數，即1.0及以下和1.4及以上的均為30人左右，分別占15.3%，近70%網評評委綜合素質相差不大，基本呈現正態分布趨勢，這與實際相符的，表明該模型評價取得了較理想的結果。因此，投影尋蹤法模型是一種科學、合理的綜合評價方法。

本文結合評價結果，提出以下幾點建議：（1）建立各類網絡評委專家庫。因競賽種類繁多，為了使各類競賽有序進行，建立各類競賽相關的網評專家庫，對每次網評評委的表現差異進行評價、遴選，不斷完善和更新網評專家庫。（2）建立網絡專家評分管理系統、完善網絡評委評分標準。該系統能夠根據評分標準對異常評分進行篩選和剔除，并按規則自行調整。（3）構建合理的評價指標體系也是綜合評價的關鍵所在。根據沒有差異就沒有統計的原則，在對現有提取的五個指標進行充分研究的基礎上，對各個樣本差異小的指標建議刪去，補充其他相關指標，以確保綜合評價的全面性。（4）完善評價等級劃分。在最終結果的評價上只進行了綜合素質高低的排序未劃分明確的等級，它對于遴選網評評委有很重要的參考價值。

[1]陳正偉.新編統計學[M].北京:北京郵電大學出版社,2012.

[2]吳喜之.復雜數據統計方法——基于R的應用[M].北京:中國人民大學出版社,2013.

[3]付強,趙小勇.投影尋蹤模型原理及其應用[M].北京:科學出版社,2007.

[4]毛紫陽,吳孟達.基于序關系的競賽網評評委評價方法[J].數學的實踐與認識,2006,（10）.

[5]卓金武.MATLAB在數學建模中的應用[M].北京:北京航空航天大學出版社,2010.

[6]趙海燕,芮南.雙評作文題網上閱卷評卷教師評卷水平評價維度的確定[J].評價與測量,2009,（2）.

[7]程毛林,韓云.基于投影尋蹤主成分分析法的綜合國力評價模型研究[J].淮陰師范學院學報:自然科學版,2015,（1）.

[8]易昆南.殘缺數據的論文名次及評委水平的評判與逆判[J].湘潭大學自然科學學報,2005,（2）.

[9]龔千健,王濤,裴瑩瑩.打分機制公平性評估的概率統計模型[J].數學建模及其應用,2013,（2）.

[10]徐翠霞,樊小東.關于高校講課競賽評審機制的思考[J].黑龍江教育,2012,（8）.