中國大學綜合實力排行榜排名方法的比較分析
——基于高等教育機構排名柏林原則的視角

2019-03-27 03:30:56田虎偉王艷麗王雪燕

復旦教育論壇 2019年6期

田虎偉，王艷麗，王雪燕

（1.河南科技大學高等教育與區域經濟發展研究中心，河南洛陽471023；2.河南科技大學管理學院，河南洛陽471023；3.河南科技大學高等教育研究所，河南洛陽471023）

政府評估、質量認證和社會組織對大學的排名是我國高等教育外部質量評估體系的重要組成部分。2017年9月21日，在教育部、財政部、國家發展改革委公布了世界一流大學和一流學科（簡稱“雙一流”）建設高校及建設學科名單之后，有關負責人明確表示，在“雙一流”建設高校及建設學科的認定遴選程序中，依托專家委員會，確定采用的國內國際評價有：（1）國內第三方評價，包括人才培養類、學科水平類、貢獻獎勵類、政策導向類等四類；（2）高校認可度較高、客觀性較強的國際第三方學科評價[1]。這既是對國內外相關高等教育第三方評價的認可，也凸顯了國內一些社會組織和個人主導的大學排行榜在排名方法的科學性、規范性和排名結果的有效性等方面的不足。

雖然目前國內已有不少文獻對中國多個大學排名進行了研究，但主要集中在對排名指標體系和算法等方面的研討。例如：《論“中國大學評價”的科學性、合理性及公正性》[2]，《中國大學綜合排名指標體系比較研究》[3]，《基于公信力視角的大學排名研究——對〈2010中國大學評價〉指標體系及算法的質疑》[4]，《我國大學排名評價體系的分析與思考——以中國校友會網大學排名為例》[5]，《大學綜合評價的統計研究》[6]，《大學社會評價中的符號資本研究》[7]。很少有針對大學排行榜排名方法特別是排名規范進行的系統研究。

為此，本文選取國內排名持續時間較長或社會影響較大、特色較為鮮明的四個中國大學綜合實力排行榜，從國際大學排名的基本規范即國際高等教育機構排名柏林原則（以下簡稱柏林原則）的角度，對其排名方法進行定量比較分析，并據此提出相關建議。研究的目的在于幫助中國大學排名者（機構）認識自身在排名方法方面存在的局限性和不足，希冀其不斷改進排名方法，提升排名質量，以便更好地服務考生、政府、高校和社會等。

一、高等教育機構排名的柏林原則

自1983年《美國新聞與世界報道》（U.S News&World Report）首次發布大學排名以來，泰晤士報世界大學排名（Times Higher Education Rankings），QS世界大學排名（QS World University Rankings）等相繼出現。截至目前，國際上凡是高等教育規模較大的國家大多有大學排名。大學排名已發展成為由多機構參與、服務于多個目的的多個排名體系共存的局面。

為了規范大學排名機構的行為，聯合國教科文組織、歐洲高等教育研究中心和華盛頓高等教育政策研究所組成的大學排名國際專家組（IREG）于2006年在柏林召開的會議上，討論通過了一系列高等教育排名的質量標準和操作范例，即“高等教育機構排名的柏林原則”。柏林原則合計16項，從排名的目的、指標設計與權重、數據收集與處理和結果公布等四個方面做出了規范，以作為對高等教育機構進行排名需遵守的共同準則，為大學排名的制作和發布提供了指南[6，8]。本課題組認為，柏林原則的四個方面相互聯系、互為支持，構成了一個排名規范的有機整體。方法是實現目的的手段和方式，方法總是與目的相連，因而該原則首先突出了排名目的的規范；其次，方法理所應當包括指標體系設計、數據采集與處理、結果發布的方式等方面的要求。正因為柏林原則在邏輯方面的嚴密性和對實踐的指導意義，柏林原則目前已經成為越來越多的國際大學排名機構的基本評價準則。它對中國大學綜合實力排行榜也具有借鑒意義，同時也為社會公眾、政府和高校理性認識、評價國內大學排名提供了一個國際觀察視角。

二、基于柏林原則的中國大學綜合實力排行榜比較分析

（一）研究方法

1.研究對象

以武書連的“中國大學綜合實力排名”（以下簡稱武書連榜）、艾瑞深中國校友會網的“校友會中國大學排行榜”（以下簡稱校友會榜）、邱均平的“中國大學及學科專業評價報告”①（以下簡稱邱均平榜）、上海軟科教育信息咨詢有限公司的“中國最好大學排名”（以下簡稱軟科榜）等四大排行榜發布的相關排名方法文本為比較分析對象。具體材料的主要來源有：

（1）武書連等發表的論文《2010中國大學評價》[9]、武書連出版的《挑大學選專業——2017高考志愿填報指南》[10]、《挑大學選專業——2018高考志愿填報指南》[11]等。

（2）趙德國、蔡言厚、黨亞茹出版的《2017中國大學評價研究報告——中國高考志愿填報指南》[12]1-10和《2018中國大學評價研究報告——中國高考志愿填報指南》[13]1-20等。

（3）邱均平的《從高校科研競爭力評價向綜合評價的發展——關于“中國高校綜合競爭力評價”的說明》[14]，邱均平等編著的《2017-2018中國大學及學科專業評價報告》[15]Ⅰ-Ⅲ，中國科學評價研究中心網站發布的《2017年中國大學綜合競爭力評價指標體系（本科院校）》[16]等。

（4）最好大學網的《軟科中國最好大學排名2017-排名方法》[17]、《“中國最好大學排名”的特點》[18]等。

2.等級設定與分析方法

以柏林原則16項為基準，參照五級等距量表設置五個等級的吻合度（A為非常吻合，B為比較吻合，C為一般，D為比較不吻合，E為非常不吻合），對四大中國大學綜合實力排行榜的排名方法資料進行逐項對照、分析比較，給予量化等級吻合度評價和定性分析。

（二）結果與分析

四大中國大學綜合實力排行榜排名方法與高等教育機構排名柏林原則的吻合度見表1。

由表1可知，首先，從總體上看四大中國大學綜合實力排行榜均沒有獲得E級。這說明中國四大榜單在排名方法上均無與柏林原則完全不吻合的情況。其次，從各榜單獲得A級、D級的數量來看，武書連榜獲4A、3D，校友會榜獲3A、2D，邱均平榜獲2A、3D，軟科榜獲4A、3D。這說明各排行榜排名方法與柏林原則總體上有較大差距，但也各有優勢和不足。以下把四大中國大學綜合實力排行榜與柏林原則的吻合度評價為A級的選項視作優點，評價為D級的選項視作缺點，并按照順序逐項說明評判依據。評價為B級、C級的選項視作一般，暫不做評析。

1.武書連榜

優點：第2、第4、第9、第11項吻合度高。（1）在《挑大學選專業——2018高考志愿填報指南》的第一章中明確說明了“怎樣利用大學排行榜填報志愿”，并首次把758所高校劃分了六個層次，給出了“2018中國大學按層次報考順序”，更進一步明確其目標群體是考生和考生家長。（2）該榜單制作人在《2010中國大學評價》一文中對排名的指標體系及每個指標的意義和采用的時間范圍都進行了詳細的說明。（3）該榜單的一級指標有人才培養和科學研究兩部分，其權重分配是根據大學人才培養投入人力和科學研究投入人力在總投入人力中所占的比重計算而來的，每項三級指標也有具體的權重和賦值。該榜單指標體系長期保持相對穩定狀態。（4）該榜單采用的數據來源于教育部、科技部等權威機構公開發布的數據，并在《加州理工學院在中國能排第幾名？——復中國科學技術大學大學評價課題組》[19]一文中對每項數據的采集方法進行了說明。

缺點：第3、第14、第16項吻合度較低。（1）該排名對高等教育機構的多樣性和不同使命與目標等方面的認識上不到位，使用統一指標體系、統一權重對不同層次、類別的本科院校統一排名，沒有分類型、分層次的高校排名。（2）該排名很少通過組建研究團隊、召開咨詢會等體制性措施增強排名的可靠性；團隊成員不公開，具體數量未知，也很少參與學術界的活動，發布結果的時候說明不夠詳細。（3）該排名很少對其排名的不足和改進進行公開說明，尤其是最近幾年，該排名對個別指標進行了微調，但迄今未見發布相關調整信息。

2.校友會榜單

優點：第2、第3、第4項吻合度高。（1）在該排名發布的《2017中國大學評價研究報告——中國高考志愿填報指南》中，明確界定其目標群體為考生和家長。（2）該排名將中國大學分為研究型大學、專業型大學、應用型大學和技術型大學等四種類型，并按投資體制區分出獨立學院和民辦大學等，進行分類排名，考慮了高等教育機構的多樣性和它們不同的使命和目標。（3）該排名數據來源范圍明確、含義清晰，且能將不同渠道、不同立場的數據組合起來，組成對被排名院校更全面的評價[6]。

缺點：第7、第16項吻合度較低。（1）該排名指標的恰當性和有效性欠佳。該榜單2017年采用四級評價指標體系：“一級指標由人才培養、科學研究和社會服務三大指標構成。二級指標由教育教學、學科建設、師資隊伍、學術科研、社會影響、國際影響等指標構成。三級指標由教育教學、學科專業、杰出師資、科研成果、科研基地、科研項目、辦學層次、社會聲譽、國際影響等核心指標構成。四級指標由教學水平、創新創業教育、德育、杰出校友、星級學科、星級專業、杰出師資、高端科研成果等核心辦學質量指標構成，涵蓋的指標觀測點有280多項。”[12]3應該肯定的是該排行榜指標體系較為全面，涵蓋大學的三大職能，涉及大學的投入、產出等眾多方面，但其中不少指標比較高端，如杰出校友中的“世界各國的國家元首”“諾貝爾獎獲得者”“國際排名”等指標對于一般本科院校難以達到，沒有普遍性，恰當性較差。同時，在2018年高端科研成果中新增了大量“美國工業與應用數學學會杰出貢獻獎、國際氣象組織（IMO）獎等獎項，其恰當性更差[13]18。（2）該排名指標體系中的“評價指標參數”即采分點達280多項，但缺少對采分點特別是新增采分點的賦值信息，個別采分點的準確性沒有保障[13]4-5。

3.邱均平榜

優點：第3、第14項吻合度高。（1）該排名將普通本科院校按照重點大學、一般大學和民辦本科院校三類進行分類排行。（2）能夠通過組建研究團隊，召開咨詢會和年度發布會等方式吸收合理化建議。

缺點：第2、第15、第16項吻合度較低。（1）排名目的和目標群體過多。“為政府管理部門的宏觀管理和決策提供定量依據，為各高校準確定位、發揮比較優勢、明確改革方向提供翔實的參考，為廣大考生選擇適合自己的大學和專業提供報考指南。”[15]5-10（2）排名信息提供不完整，例如絕大部分年度排名的指標權重、指標賦值、原始數據等信息在紙質版中未見公布，機構網站公布的相關信息也不完整。（3）該排名在消除或降低原始數據中的誤差，告知機構和公眾排名中曾犯過的錯誤等方面存在不足。

4.軟科榜

優點：第1、第6、第11、第12項吻合度高。（1）排名完全從社會、市場、同行的角度對大學進行評價。該排名共使用9項指標，其中“新生高考成績”反映了學生和家長對大學人才培養聲譽和能力的認可程度，“畢業生就業率”反映了社會對大學人才培養成果的接受程度，科學研究方面的“論文數量”“論文質量”“高被引論文”“高被引學者”四項指標體現了國際學術共同體（通過審稿和引用行為）對大學科研工作成果和影響力的意見，服務社會方面的“企業科研經費”和“技術轉讓收入”兩項指標反映了企業對于大學技術創新能力和貢獻的真實判斷，國際化方面的“留學生比例”體現了來華留學生對大學國際聲譽和國際化教育環境的印象和選擇[18]。（2）該排名在其網站上發布的《軟科中國最好大學排名-2015排名方法》《軟科中國最好大學排名2017-排名方法》中說明了每個排名指標的統計方法和數據來源。（3）該排名在其網站中不但說明了每個排名指標的統計方法和數據來源，且每年都公開了每項指標的原始數據。這是其他榜單所沒有做到的。（4）該排名從教育部高考招生信息發布平臺——陽光高考網、各高校發布的年度畢業生就業質量報告、Scopus數據庫等收集相應數據，數據經過層層審核且口徑一致。

缺點：第5、第7、第9項吻合度較低。（1）該排名對院校所處教育體系的語言的、文化的、經濟的以及歷史的背景沒有給予考慮。例如，生源質量和學生國際化指標與區域經濟文化發展水平和被評院校的學科結構等因素有關，對于經濟欠發達地區、以農林地礦類為主的院校明顯不公平。（2）該排名指標的恰當性和有效性欠佳。“中國最好大學排名”應該是人才培養、科學研究、社會服務、國際影響力等均俱佳的大學排名；然而，其指標體系不但指標數量偏少（2015-2017年為9個二級指標，2018年為10個二級指標），而且結構不合理，質量不高，指標的恰當性欠佳。例如，在其人才培養質量一級指標下的二級指標設置中，僅僅設置生源質量、培養結果2個二級指標（2018年又新增一個社會聲譽二級指標），這樣的指標體系設置難以突出大部分以人才培養為主高校的職能。在科學研究一級指標下，二級指標僅僅使用論文數量、質量、高被引論文和高被引學者作為衡量大學科學研究水平的指標。眾所周知，大學的科學研究成果包括但不限于學術論文，僅僅使用學術論文相關指標，只對理科院校有利，難以反映工程技術類等應用性學科院校的真實科研水平。在指標的有效性方面，人才培養、社會服務、國際化等下屬的二級指標僅選用1年的數據，科學研究下屬的二級指標僅使用5年的數據，周期太短，不足以支撐其研究結論，導致的結果是同一院校在不同年度的名次波動較大。（3）該排名的指標體系及權重分配變動過于頻繁。該排名指標體系在2015-2018年間就經歷兩次變化。例如，該榜單2015年初次發布排行榜時的指標體系共有3個一級指標和9個二級指標。2017年和2018年該排名指標體系變化情況分別是：刪除“服務社會”一級指標下的“產學研合作（校企合作論文）”，且把“服務社會”占比由15%降至10%，同時新增第四個一級指標“國際化（5%）”；在“人才培養”一級指標下新增了“社會聲譽”二級指標，比重為5%，同時把“培養結果”權重由15%降低至10%。

三、問題與建議

由上述比較分析結果可知，在總計64項評級項目中，四大排行榜僅僅得到了13個A級評價，占到總計64個A級的20.3%。從各個排行榜的具體情況上看，武書連榜和軟科榜各獲得4個A級、3個D級，較優；校友會榜獲得3個A級、2個D級，居中；邱均平榜獲得2個A級、3個D級，較差。這說明四大排行榜雖然各有優勢和不足，但其排名方法的規范性與柏林原則所要求的排名規范相比還有很大的差距。為此，基于柏林原則的要求和上述分析，為促進中國大學綜合實力排名的科學化、規范化，特對排名機構提出如下建議。

（一）參照柏林原則，改進排名方法，提高排名的規范性

我國四大榜單的制作者應以16條（項）柏林原則為基準，逐項對照，肯定成績，查找差距，采取一切可能措施，努力改進排名方法。

1.排名目的

從總體上看，四大中國大學綜合實力排行榜在排名目的板塊上與柏林原則吻合度較高，在總評級13個A中占據7個A，但在各排行榜之間存在較大差異，其中校友會榜獲得3個A，武書連榜2個A，邱均平榜和軟科榜各1個A。但其存在的共同問題是，排名對被排名院校所處教育體系的語言的、文化的、經濟的以及歷史的背景等考慮不夠（武書連榜、校友會榜和邱均平榜均為C級，軟科榜為D級），特別是軟科榜中的生源質量和學生國際化指標對于經濟欠發達地區、農林地礦類為主的院校明顯不公平。因為這兩個指標均屬于投入指標而非產出指標，高考生報考院校的實踐證明，院校所處區域的經濟發達程度和院校專業設置是考生選報院校的重要因素，且生源質量高和留學生數量多并不能代表院校培養人才質量就必然高。為此，建議四大榜單制作者應適度考慮被排名院校所處的經濟環境和院校類型等因素，通過指標權重調整、個別指標適度補償等方式加以解決。

2.指標設計與權重

在指標設計與權重方面，武書連榜的總體表現較好，特別是其權重分配非常明確且保持穩定與柏林原則的吻合度高，軟科榜在排名方法的清楚透明方面吻合度高；但是校友會榜、軟科榜在個別指標的恰當性、有效性方面與柏林原則的吻合度欠佳。為此本課題組提出的具體建議如下：

校友會榜：指標設計應保持中國大學校友成就排名的特色，適度刪減一些過于高端的指標和采集難度較大的一些指標，并對所有采分點明確賦值。邱均平榜：應明晰評價指標體系權重，突出綜合實力排行榜主題。軟科榜：“中國最好大學排名”可能源于《美國新聞與世界報道》每年發布的“最佳學府排行榜”（Best Colleges rankings），不一定符合中國人的認知邏輯和認知心理。“沒有最好，只有更好”。該排行榜似乎應更名為“軟科中國大學綜合競爭力排名”更準確一些；同時適度增加人才培養、科學研究和社會服務下屬的二級指標，國際化指標在目前情況下應暫緩列入或降低其權重。

3.數據收集與處理

在數據收集與處理方面，軟科榜在數據采集的科學性和數據的可核實方面表現優異，數據采集和處理整體比較規范；武書連榜數據的可核實性強，但團隊成員少，使用組織方法和組織措施來保證排名質量措施少。為此，建議中國大學綜合實力排名機構要采用成立咨詢委員會、監督委員會甚至邀請國際排名專家參與等體制性的措施來增強排名的可靠性。

4.結果公布

在結果公布方面，中國四大綜合實力排行榜整體表現欠佳。在排名制作信息提供方面，武書連榜僅有紙質報告公布排名過程的有限信息和結果，無網站信息發布；邱均平榜有紙質報告和網站信息發布，但不完整、不系統；校友會榜有紙質報告和網站信息發布大量信息，但采分點指標賦值不透明；軟科榜有紙質版報告，在網站有較為完整的信息發布，但未認識到自己排名邏輯和內容上的局限性。在消除或降低原始數據中的誤差和告知各自排名曾經犯過的錯誤方面，四大綜合實力排行榜的制作者均無行動。本課題組的建議：一、四大綜合實力排行榜均應在各自發布的年度報告或網站中公布有關排名制作的所有信息，包括排名方法、指標體系和新增指標及其權重或賦值的變化情況、依據等；二、要敢于承認各自排名中存在的不足和曾經所犯過的錯誤。

（二）使用《IREG排名審計手冊》開展自我審計，有條件者可申請排名審計

1．《IREG排名審計手冊》

2009年10月，在IREG的基礎上創建了IREG學術排名和卓越協會（IREG Observatory on Academic Ranking and Excellence）[20]。為提高排名的透明度、提高排名的整體質量，以及為排名用戶提供識別可信賴排名的工具，2011年IREG協會執行委員會基于柏林原則，制定了IREG排名審計的標準，并發布了《IREG排名審計手冊》。《IREG排名審計手冊》的功能是指導排名組織如何在IREG排名審計的所有階段匯總和提供所要求的信息和其他證據，為IREG秘書處和審計團隊的成員準備和執行審計過程的所有階段（信息收集、團隊訪問和撰寫報告）服務。

2.IREG排名審計標準及一般評估規則

（1）IREG排名審計標準

IREG排名審計標準涉及排名的五個維度：第一，其目的的定義，目標群體及其基本方法；第二，其方法的各個方面，包括指標的選擇，數據收集方法和指標的計算；第三，出版物并介紹他們的結果；第四，排名和排名組織的透明度和響應性；第五，在排名中內部質量保障流程和工具的各個方面。其中許多標準都涉及柏林原則，但又補充了自2006年柏林原則出版以來關于排名組織的出版物和結果的陳述、透明度與反應能力、質量保證等方面的最新討論成果，因而一些新標準與柏林原則無直接關系。

（2）一般評估規則

在審核過程中，評估小組根據該標準的完成程度對每個指標進行評分。審核評分分為6個等級：不夠/不存在（Not sufficient/not existing）-1分；邊緣應用（Marginally applied）-2分；足夠（Adequate）-3分；好（Good）-4分；強（Strong）-5分；杰出（Distinguished）-6分。由于并非所有標準都具有相同的相關性，標準被分為權重為2的核心標準和權重為1的常規標準。因此，每個常規標準的最高分為6，每個核心標準的最高分數為12。根據標準的歸屬（10個核心和10個常規標準），總分最高為180。

3.IREG排名審計的申請條件及步驟

（1）申請條件

符合IREG排名審計的國家和國際排名：過去四年中至少發布過兩次，最后一個版本不應超過兩年。

（2）申請步驟

第一，排名組織的審計排名申請書和相應數據表與硬盤拷貝發送至IREG協會總裁。

第二，執行委員會在四周內決定是否接受審計申請并通知排名組織。

第三，排名組織須在收到執行委員會同意審計的決定后，在兩周內支付審計費用。

第四，執行委員會任命一個審計小組，由三至五名具有高等教育專業經驗的獨立國際專家組成；審計過程由審計協調員協調。

第五，排名組織按照《IREG排名審計手冊》中的說明準備詳細的自我報告（用英文），并在審計開始后兩個月內發送給IREG協會秘書處。

審計過程的后續步驟遵循《IREG排名審計手冊》規定的程序。

4.排名組織的自評報告

排名組織編制自評報告是審計過程的重要組成部分，也是審計小組在形成關于審計決策的報告和建議時將采用的主要證據。自評報告必須按照規定的格式撰寫，內容包括：有關排名活動的先前記錄的信息；排名的目的和主要目標群體的概述；區域覆蓋范圍；詳細說明方法；排名內部質量保障的描述工具；排名的公布和使用概要和關于排名對個人（例如學生）、機構和高等教育系統的影響的可用信息。該報告連同附件和其他文件應以電子版方式發送給IREG秘書處，并以電子版和紙質版（雙面打印版）發送給審計小組成員和IREG排名協調員。

由此可見，IREG排名審計是IREG學術排名和卓越協會為促使大學排名組織和個人提高排名整體質量的一項重要措施，也是其提供的一項專業服務項目。IREG排名審計需要大學排名組織根據《IREG排名審計手冊》的要求自愿申請并提交自評報告，由該協會執行委員會及其審計小組按照IREG排名審計標準及評估方法，經過相應的許多流程，歷時12個月以上才能完成。其中，特別是審計標準中涉及排名組織對參與排名的高等教育機構做出回應的情況，排名組織將質量保障措施應用于排名過程本身的情況，審計標準記錄質量保障的內部流程、為提高排名可信度的所采取組織措施等情況，只有排名組織自身清楚且主動提供并給予后續配合，才能開展排名審計評估。大學排名研究者作為一個局外人，無法獲得上述資料。因此，本課題組只能從柏林原則的角度進行實證研究。

本研究存在的不足和尚待進一步研究問題：一是由于篇幅所限，對評級依據特別是B級、C級的評級依據沒有逐一對照列舉說明；二是對四大排行榜的個別建議特別是操作層面的建議可能有不妥當之處；三是對于《IREG排名審計手冊》的研究需要進一步深入。

注釋

①由于“中國大學及學科專業評價報告”發布的榜單多達617個，例如中國一流大學競爭力排行榜、中國重點大學競爭力排行榜、中國一般大學競爭力排行榜、中國本科院校競爭力總排行榜，中國民辦本科院校競爭力排行榜等，為了保證不同榜單之間評價對象的一致性和可比性，本文主要抽取其中的“中國本科院校競爭力總排行榜”（含重點大學、一般大學和民辦本科院校）為例。

中國大學綜合實力排行榜排名方法的比較分析——基于高等教育機構排名柏林原則的視角