沈光輝,葉 彤,孫小堅,范涌峰
(1.江蘇大學教師教育學院,鎮江 212013;2.江蘇大學教育測評循證研究中心,鎮江 212013;3.西南大學數學與統計學院,重慶 400715;4.西南大學教育學部,重慶 400715)
2018年9月習近平總書記在全國教育大會上強調:要扭轉不科學的教育評價導向,克服“五唯”,從根本上解決教育評價指揮棒問題。2020年10月,中共中央國務院印發《深化新時代教育評價改革總體方案》,明確提出要改進結果評價,強化過程評價,探索增值評價,健全綜合評價。教育評價是新時代教育改革和發展最關鍵的領域,也是近二十年我國教育改革和發展的熱點和難點問題。建立科學有效的教育測評模型是新時代教育評價改革的重要議題,是教育評價功能得以發揮的重要保證。為此,近年來不少學者圍繞我國各級各類教育質量、教育管理等方面問題建立了相關教育測評模型,并形成了比較成熟的教育測評模型構建范式。其中教育測評模型構建的一般步驟為:首先確定教育測評模型構建的價值取向,然后明確教育測評對象的操作性定義,接著構建教育測評指標體系,最后確定教育測評指標權重并生成教育測評模型。其中指標權重的確定是測評模型的關鍵一環,將直接影響測評結果(范涌峰,宋乃慶,2019)。在教育測評模型中常用的權重計算方法有主觀賦權法(AHP法、德爾菲法等)、客觀賦權法(熵值法、主成分分析法、因子分析法、變異系數法等)和主客觀綜合賦權法(綜合運用主觀賦權法和客觀賦權法)。這些方法各有優勢,但是在使用中仍存在一些不足,而貝葉斯修正的AHP—熵值法對于彌補權重計算中的這些不足有重要價值,在教育測評中具有重要的應用前景。下文將圍繞當前教育測評中常用指標權重計算方法及主要局限、貝葉斯修正的AHP—熵值法權重計算、貝葉斯修正的AHP—熵值法的應用以及多種方法比較展開。需要說明的是文中提到的AHP、加權AHP、貝葉斯修正的AHP、AHP-熵值法、貝葉斯修正的AHP-熵值法中涉及的AHP均為層次分析法。
AHP是教育測評中最常用的主觀賦權法之一。AHP的基本原理就是把所要研究的復雜問題看作一個大系統,通過對系統的多個因素的分析,劃出各因素間相互聯系的有序層次;再請專家對每一層次的各因素進行較為客觀的判斷后,相應給出相對重要性的定量表示;進而建立數學模型,計算出每一層次全部因素的相對重要性的權值,并加以排序;最后根據排序結果進行規劃決策和選擇解決問題的措施(丁家玲,葉金華,2003)。AHP法計算權重取決于專家的判斷,專家的權威性直接影響到權重大小,如果選擇的專家比較權威,計算出的權重結果將比較接近實際情況,該方法易于操作,調研專家人數不多,主要通過問卷的形式進行數據調研,然后通過R語言、Matlab、Yaahp等專業軟件直接計算結果。其中重要的一步就是構造專家打分判斷矩陣,判斷矩陣既可以計算指標權重,也可以對專家打分的一致性進行檢驗,保證了各個專家打分的邏輯性。教育研究者普遍使用該方法計算指標權重,如內地民族班教育質量測評模型(宋乃慶 等,2019),采用AHP法構造專家判斷矩陣,對少量未通過一致性檢驗的判斷矩陣進行科學修正,使用R語言計算出最終指標權重;大學生就業創業教育評價指標體系(劉海濱,楊穎秀,陳雷,2012),組建了50人專家團隊,以專家組的形式確定出統一的判斷矩陣,通過使用Matlab計算出最終指標權重;STEM教育質量評價指標體系(李艷燕 等,2020),通過對9位STEM教學經驗豐富、擁有豐碩研究成果的專家進行調研,構造判斷矩陣,通過Yaahp軟件使用AHP法計算出權重,最后對每位專家的指標權重取均值得到最終權重。然而,AHP法在確定權重時存在以下不足:雖然用到了數學公式進行計算,但評價結果依然有較強的主觀性;通常只計算一、二級指標權重,觀測點的權重由于不易獲得而常取等值,主要原因在于觀測點的判斷矩陣較多,專家填答起來比較困難。
在客觀賦權法上,有不少教育研究者通過熵值法進行指標權重計算。熵值法計算指標權重比較客觀,通過數據驅動計算指標權重。熵值法主要利用信息論中的信息熵進行權重計算,信息熵是系統無序程度的度量,信息是系統有序程度的度量,二者絕對值相等,符號相反,信息熵越小則信息量越大、指標權重越大(郭顯光,1998)。如應用型高校實踐教學質量評價指標體系(鄭謙 等,2016)、全日制專業碩士教育評價指標體系(胡恩華,陳沛然,顧桂芳,2015)、中國高等教育省域財政壓力指數(羅志敏,馬浚鋒,2020)等均通過熵值法計算指標權重。然而,熵值法忽略了指標本身的重要程度,有時確定的指標權重與預期相差很遠,另外受樣本的影響很大,計算結果不穩定(郭顯光,1994)。
此外,主客觀綜合賦權法在測評模型中受到廣泛推廣,主客觀結合法通常將一種主觀權重計算方法與一種客觀權重計算方法進行組合求綜合權重。它克服了主、客觀兩類評價方法的缺陷,同時吸收了兩類評價方法的優點,對評價對象作了更為全面、合理的評價(曾憲報,1997)。組合評價方法可分為評價權重的組合和評價結論的組合兩個方向(彭張林 等,2016),其中評價權重的組合又分為區分主客觀權重的組合和不區分主客觀權重的組合兩類,評價結論的組合又分為序值組合和評價值組合兩類。目前常用的區分主客觀權重的評價權重的組合方法有融入德爾菲法的因子分析(張喬木,2017)、變異系數-AHP 組合賦權(張玉玲,遲國泰,祝志川,2011)、AHP法與熵值法相結合(沈光輝,高鑫,宋乃慶,2022)等,這些方法都很好的克服了評價結果過于主觀或者過于客觀的問題,但是這些方法忽視了專家水平對指標權重的影響。不同專家會因職稱、專業領域、對評價選題的熟悉程度等方面不同而存在水平差異,由此得出的權重差異較大,所以取平均的做法并不合適。
為緩解以上方法的不足,本研究嘗試在AHP-熵值法的基礎上將專家自身的權重信息納入考慮,換言之,研究采用貝葉斯修正的AHP-熵值法來計算一、二級指標權重及觀測點權重,以獲得更加科學、合理的測評結果。該方法首先分別用貝葉斯修正的AHP法和熵值法計算權重,然后將兩者進行組合,分別采用線性加權和最小二乘法對主、客觀方法的權重進行分配,最后通過比較總殘差平方和選取最接近多種原始方法結果的組合方法。
貝葉斯修正的AHP法在AHP法的基礎上加入了專家自身權重,利用貝葉斯思想對專家權重進行修正,然后將修正后的專家權重與AHP法所得的指標權重進行加權求出最終結果(江浩,江兵,2010)。貝葉斯修正的AHP法計算權重具體步驟如下:
(1)計算專家初始權值
根據經驗對n個專家(p1,p2,…,pn)給出一個合理的先驗分值S(p1),S(p2),…,S(pn),對先驗分值進行標準化處理得到初始專家權重S′(p1),S′(p2),…,S′(pn)。這里的先驗分值可以通過專家職稱、判斷依據、對研究內容的熟悉程度等方面獲得,如專家職稱教授、副教授、講師分別對應分值1、0.8、0.6;專家對指標重要程度判斷依據由實踐經驗、理論分析、國內外同行了解、直觀感覺四部分組成,實踐經驗方面填寫大、中、小分別對應分值0.5、0.4、0.3,理論分析方面填寫大、中、小分別對應分值0.3、0.2、0.1,國內外同行了解填寫大、中、小分值均為0.1,直觀感覺填寫大、中、小分值均為0.1;專家對研究內容的熟悉程度非常熟悉、比較熟悉、一般、比較不熟悉、非常不熟悉分別對應分值1、0.8、0.6、0.4、0.2(Shen,2023;沈光輝,2023)。
(2)計算各級指標的初步加權AHP權重
n個專家對m個指標(f1,f2,…,fm)進行兩兩比較,得出判斷矩陣A,對通過一致性檢驗的判斷矩陣進行歸一化處理得到指標權重S′(fj/pi),i=1,2,…,n;j=1,2,…,m。
由全概率公式可以求得指標的初步加權AHP權重S′(fj):
(1)
(3)修正專家權重和加權AHP權重
根據貝葉斯公式對專家權重進行修正,得到后驗專家權重S′(pi/fj)
(2)
根據后驗專家權重S′(pi/fj)以及AHP法計算的指標權重S′(fj/pi)計算指標的后驗加權AHP權重,即貝葉斯修正的AHP法所得權重U(fj):
(3)
(1)原始數據矩陣歸一化

對得分矩陣進行規范化處理得到標準矩陣A′,A′中各項元素:

(2)計算熵值
計算第j項指標下第i個學生提供信息的特征比重為pij
(4)
指標j的熵值ej
(5)

(6)
(3)計算熵權
各指標的客觀權重V=(v1,v2,…,vm),其中vj
(7)
貝葉斯修正的AHP—熵值法綜合考慮了貝葉斯修正的AHP法和熵值法的權重,確定主客觀方法權重比例的方式通常有兩種:第一主觀判斷兩類方法權重,如根據專家意見,將兩者按照一定的比例進行線性加權,即線性加權組合評價方法;第二客觀判斷兩類方法權重,如基于最小二乘的思想確定權重,即最小二乘意義下的組合評價方法。
(1)線性加權組合評價方法
O=αU+(1-α)V
(8)
其中U表示貝葉斯修正的AHP法計算得到的指標權重,V表示熵值法計算得到的指標權重,α為比例系數,α∈(0,1),在賦權時需對主、客觀權重所占比例進行權衡,根據專家建議確定(李芳 等,2020)。
(2)最小二乘意義下的組合評價方法
采用毛定祥(2002)提出的一種最小二乘意義下主客觀評價一致的組合評價方法,具體如下。
令貝葉斯修正的AHP法計算得到的指標權重為
U=(u1,u2,…,um)T
熵值法計算得到的指標權重為
V=(v1,v2,…,vm)T
最小二乘意義下的組合評價指標權重為
W=(w1,w2,…,wm)T

(9)
對所有評價對象的所有指標而言,主客觀賦權下的評價值的偏差應當越小越好,為此建立如下最小二乘法優化組合評價模型。
minH(w)=
(10)
約束條件為
(11)
構造Lagrange函數
L=
(12)

(13)
(14)
用矩陣表示為
(15)
其中A為m×m對角陣,e、W、B均為m×1的向量。
(16)
e=[1,1,…,1]T
(17)
W=[w1,w2,…,wm]T
(18)
B=
(19)
解上述矩陣方程得到
(20)
(3)兩種貝葉斯修正的AHP-熵值法結果比較
不論是基于專家賦權還是基于最小二乘思想的主客觀組合賦權法,都是一種主客觀結合的折中思想,權重結果介于主觀權重和客觀權重之間,均具有可行性,兩者之間選擇一種方案即可。當專家不好確定主客觀權重配比時,可考慮用最小二乘法思想計算組合權重。若專家可以給出很好的判斷,且要在專家賦權法與最小二乘思想賦權法之間擇優選擇時,可借鑒王一任(2012)的研究思路,認為原始多種評價法的結果與組合評價法的結果之間雖不盡相同,但應非常相近,最佳的組合方法可選定為最接近多種原始方法結果的組合法。為此,通過比較兩個組合方法與貝葉斯修正的AHP法和熵值法之間學生得分總的殘差平方和 來確定最優方案,當 最小時方案最優,具體計算公式如下。
由于專家賦權組合法得到的q個學生的得分向量為O=(o1,o2,…,oq)T,最小二乘思想組合法得到的學生得分向量為W=(w1,w2,…,wq)T,貝葉斯修正的AHP法計算得到的學生得分向量為U=(u1,u2,…,uq)T,熵值法得到的學生得分向量為V=(v1,v2,…,vq)T。
則有
(21)
(22)
最佳組合方法對應的總的殘差平方和
SSE′=min(SSEO,SSEW)
(23)
以沈光輝(2019)構建的內地民族班教育質量測評模型為例,對貝葉斯修正的AHP—熵值法進行應用。內地民族班教育質量測評模型包含品德與勞動、學業發展、身心發展、審美與興趣、服務西藏5個一級指標和理想信念等17個二級指標,并根據一、二級指標設計了27道測試題。在用AHP法計算一、二級指標時調研了6位相關領域比較權威的專家,最終5位專家的數據有效。學生測試問卷以A地西藏中學高中9個班350名學生為調查對象,共發放驗證調查問卷350份,回收有效問卷302份,有效率為86.29%。
根據5位專家的判斷矩陣,通過AHP法計算出一、二級指標的權重,結合實際情況給出五位專家的先驗權重為(0.30,0.25,0.15,0.15,0.15)。根據公式(1)~(3)計算出貝葉斯修正的AHP法的權重,具體結果見表1。

表1 貝葉斯修正的AHP法權重結果
根據公式(4)~(7)計算出一、二級指標權重及測試題權重,具體結果如表2所示。

表2 熵值法權重結果
將基于線性加權組合的貝葉斯修正的AHP-熵值法記為“組合權重1”,在確定主客觀配比時,專家一致認為該項研究中主觀賦值相對重要,通過整合專家對主客觀權重占比的意見,認為主觀權重占60%比較合適,根據公式(8)取α=0.6進行權重計算;最小二乘意義下的貝葉斯修正的AHP-熵值法記為“組合權重2”,根據公式(9)-(20)計算權重。兩種組合法所得結果如表3所示。

表3 一、二級指標及測試題綜合權重
(1)貝葉斯修正的AHP-熵值法與AHP-熵值法測評結果比較
為比較貝葉斯修正的AHP-熵值法與AHP-熵值法測評權重優劣,首先求出AHP、加權貝葉斯修正的AHP、熵值法、基于線性加權的貝葉斯修正的AHP-熵值法、基于最小二乘的貝葉斯修正的AHP-熵值法、基于線性加權的AHP-熵值法、基于最小二乘的AHP-熵值法7種權重結果,然后分別求出7種權重結果與302名學生在27個測試題上得分的加權平均分(滿分為5分),最后運用公式(21)-(23)分別在線性加權方式和最小二乘思想兩種方法下,計算貝葉斯修正的AHP-熵值法和AHP-熵值法與兩組主、客觀單獨測評結果之間的殘差平方和,通過比較殘差平方和大小來判斷方法的適用性,具體結果如表4所示。發現在線性加權方式下,貝葉斯修正的AHP-熵值法與兩組主、客觀單獨測評結果之間的殘差平方和分別為9.9729和9.8796,要小于AHP-熵值法與兩組主、客觀單獨測評結果之間的殘差平方和23.3294、23.5816,說明貝葉斯修正的AHP-熵值法測評的結果更加處于主客觀之間;同樣在最小二乘思想下,貝葉斯修正的AHP-熵值法與兩組主、客觀單獨測評結果之間的殘差平方和分別為13.9199和14.3790,要小于AHP-熵值法與兩組主、客觀單獨測評結果之間的殘差平方和54.6522和52.4674。綜上,從該案例來看貝葉斯修正的AHP-熵值法測評結果更佳,更加接近主、客觀原始計算結果。

表4 貝葉斯修正的AHP-熵值法與AHP-熵值法測評結果比較
(2)兩種貝葉斯修正的AHP-熵值法比較
兩種貝葉斯修正的AHP-熵值法所得的一、二級指標及測試題權重的等級相關系數Rs在0.01的顯著性水平下相關性顯著,且相關系數Rs分別為1、0.9951、0.9817,表明兩種貝葉斯修正的AHP-熵值法計算的權重排序具有較高的一致性。從表4可以看出,基于線性加權的貝葉斯修正的AHP-熵值法所得學生得分的總殘差平方和SSEO為9.8796,基于最小二乘思想的貝葉斯修正的AHP-熵值法所得權重的總殘差平方和SSEW為14.3790,說明在該案例中基于線性加權的貝葉斯修正的AHP-熵值法效果更佳。
(3)主、客觀方法及貝葉斯修正的AHP-熵值法之間的比較
采用AHP、加權AHP、貝葉斯修正的AHP、熵值法、基于線性加權的貝葉斯修正的AHP-熵值法(貝葉斯修正的AHP-熵值法1)和最小二乘意義下的貝葉斯修正的AHP-熵值法(貝葉斯修正的AHP-熵值法2)六種方法計算一、二級指標及測試題權重并進行比較,詳細情況見圖1-3。

圖1 一級指標權重比較

圖2 二級指標權重比較

圖3 測試題指標權重比較
從圖1~3可以看出,AHP、加權AHP和貝葉斯修正的AHP計算的一、二級指標和測試題權重變化不大,與該案例中給出的專家先驗權重差異不大有關,貝葉斯修正起到微調權重的作用;熵值法計算的一、二級指標權重和測試題權重與三類AHP法計算的權重有較大不同,一級指標中身心發展和服務西藏的權重差異較大,二級指標中人格品質、勞動技能、知識技能態度、心理健康、民族文化傳承的權重差異較大,測試題中題目2、5、7、9、11、12、17、18、25、26、27的權重差異較大;貝葉斯修正的AHP-熵值法綜合了主觀權重和客觀權重信息,其權重值處于三類AHP法和熵值法之間,平衡了部分指標或試題主客觀權重差異較大的問題。
指標權重計算是教育測評中的重點和難點,主觀和客觀權重計算方法均被廣泛使用,然而主觀賦權受專家水平約束,客觀賦權受樣本數據約束。同時,主客觀相結合賦權的方式也受到了不少學者的青睞,但是目前這類方法普遍忽視了專家自身的權重。為此,提出貝葉斯修正的AHP-熵值法進行指標權重計算,該方法采用主客觀相結合的方式將AHP法和熵值法進行結合,同時納入專家自身權重,并基于數據對專家權重進行了貝葉斯修正,最后計算綜合權重。通過實例分析,發現該方法具有可行性、可操作和有效性。為更好的進行權重方法選擇,研究對貝葉斯修正AHP-熵值法進行如下討論。
(1)貝葉斯修正的AHP-熵值法與傳統方法比較及其選擇。與傳統教育測評權重計算方法相比,該模型可以克服專家水平差異、主觀性或客觀性強、觀測點權重難獲得等不足。其中貝葉斯修正的思想有助于削弱專家先驗權重的主觀性,使得專家的權重更加合理、客觀。雖然貝葉斯修正的AHP-熵值法平衡了主客觀評價法,考慮了專家本身存在的權重差異等,但隨著納入因素的增多,要求的條件也會更加苛刻。因此,當專家信息全面,主客觀數據均可獲得時,可采用貝葉斯修正的AHP-熵值法;當無法獲得更加全面的專家信息時,可考慮使用常規的主客觀結合法計算指標權重;當無法同時獲得主客觀數據時,單一的主觀或客觀評價方法依舊可以使用。
(2)兩種貝葉斯修正的AHP-熵值法的優缺點及其選擇。基于線性加權的貝葉斯修正的AHP-熵值法的優點在于對主客觀方法進行組合時計算方法簡單,只需要計算簡單的加權平均數,但是難點在于要注意權衡主客觀權重配比,需充分考慮專家的權威性,以專家團隊達成共識為宜。此外,該方法需要給出兩次專家咨詢結果,這在一定程度上也加重了結果的主觀性。最小二乘意義下的貝葉斯修正的AHP-熵值法優點在于只需要用到一次專家主觀賦權數據,但是缺點是對主客觀方法進行組合時相比線性加權的方式要更為復雜。兩種方法選擇思路:在專家咨詢數據不易獲得的情況下,采用最小二乘意義下的貝葉斯修正的AHP-熵值法;在專家咨詢數據容易獲得的情況下,可以計算出兩種貝葉斯修正的AHP-熵值法測評結果,并通過與主、客觀單獨測評結果之間的殘差平方和進行比較,選擇殘差平方和最小的方法。
(3)貝葉斯修正的AHP-熵值法的應用前景。當前,主客觀綜合評價法已成為權重計算方法的主流趨勢。第一,該方法在教育學和心理學領域有很好的應用前景。教育學和心理學領域開展了大量量表開發與模型構建工作,未來測評需求大,可以將該方法引入進來。為新時代教育評價改革服務,為落實中共中央、國務院《深化新時代教育評價改革總體方案》提出的改進結果評價,強化過程評價,探索增值評價,健全綜合評價服務。第二,該方法可拓展應用領域廣泛,不論是在教育學、心理學、管理學、經濟學、藝術學等人文社會科學領域,還是在醫學、計算機、環境科學等自然科學領域,都可以使用該方法進行測評指標權重計算。