贠 濤,張金倩楠,李姍姍,趙新力,2
(1.中國科學技術交流中心,北京 100045;2.清華大學中國科技政策研究中心,北京 100084)
科技評價可以判斷科學技術活動及其產出影響價值,是保證科技事業(yè)健康、可持續(xù)發(fā)展的重要手段[1]。具體到科研項目這一類科技活動,國際上通常應用同行評審作為確定項目立項的重要參考[2]。同行評審已經在科學活動中使用了三百多年[3]。1752年英格蘭皇家學會為《哲學匯刊》成立專門的論文評審委員會標志著同行評審制度的誕生[4],1937年在美國成立的國家癌癥咨詢委員會標志著同行評審制度在美國開始應用。如今,同行評審制度已在世界各國的各個領域普遍使用,也是當今科學界不可或缺的重要工具。
但是同行評審制度本身也存在不少問題,專家遴選制度和評議過程都有可能受經濟利益、社會關系、競爭關系、個人偏好等因素影響而引發(fā)不公正的同行評審。孫平[5]、郭碧堅等[6]從同行評議制度的根源出發(fā)分析該制度的缺陷,并對影響該制度公正性的各種原因進行了探討除此之外,評審專家的評審行為容易也受到項目申請者在科研領域業(yè)績方面聲望的影響[7]。為了維護同行評議和專家評審的科學、公正、公平、客觀,許多研究者提出了各種解決方案。孟陶然等[8]分析了專家抽取不均衡性,并提出了提高抽取次數較少專家的抽中概率的方法。龔旭[9]論建模提出評分偏差模型用以計算異常評分偏差、科研項目爭議性和專家評分慣性對異常評分進行預測。徐洪峰[10]提出了基于距離和相關系數的專家反評估模型用來衡量評審效果和水平,并基于云模型檢測異常評分數據。靳健等人[11]構造了整數優(yōu)化模型以高效地為多篇待審文稿推薦評審專家的方法,提高了評審契合度。
在國家重點研發(fā)計劃項目評審的具體實踐中,為了更好地維護評審結果的公正客觀,項目管理機構一般會在國家科技專家?guī)煜到y(tǒng)中隨機抽取17 位專家,對特定組別的項目進行評審。在“一帶一路”國際科技合作項目評審中同樣也遵循這一規(guī)則。但是由于國際合作項目不下設課題,每個項目的經費體量較小,且領域分布較為分散(包括農業(yè)、醫(yī)藥健康、先進制造、資源、環(huán)境、材料等14個領域),導致評審分組較多但組內項目較少。因此,評審環(huán)節(jié)費用偏高、評審環(huán)節(jié)的投入產出比較低,給項目管理機構帶來了較大負擔,成為了項目評審立項管理環(huán)節(jié)中的一個難點。當前,尚未有針對科技項目評審專家人數設定的相關研究報道。
本文從“一帶一路”國際科技合作項目評審實踐出發(fā),探究了在盡量不影響評審質量的前提下進一步精簡評審專家人數的可能性。這一問題可通過分析減少若干評審專家后,項目得票排序的改變程度來回答。利用實際評審過程中評審專家對各項目的打分表,可以獲得若干位評審專家所打分數在不計入最終評分的情況下,產生的新的項目排序序列。通過對比新的排序結果與實際的評審結果,對項目立項的影響將會分為兩種情況:1.在兩組立項序列項目相同,但順序改變;2.相比于一組立項序列,另一組序列中出現(xiàn)若干立項項目的替換。
斯皮爾曼[12]等級相關系數常用來刻畫變量間的單調相關的顯著程度,可以利用兩個變量以升序或者降序的元素排名大小作線性相關分析來反映兩個變量之間聯(lián)系的密切程度,應用于優(yōu)先考慮數據次序的場景。在圖像相關性分析方面,朱亞輝[13]使用斯皮爾曼等級相關系數對相似程度較高的評價指標進行了合理聚類;賈曉芬等[14]借助斯皮爾曼等級相關系數提高了彩色圖像中噪點和邊緣點的檢測率與檢測精度;張文耀[15]引入斯皮爾曼等級相關系數來度量網絡的度相關,它與參數無關且適合大規(guī)模網絡。
上述兩種專家對項目立項結果的影響程度衡量場景與斯皮爾曼等級相關系數的適用場景十分一致。因此,本文選擇斯皮爾曼等級相關系數來定量衡量評審專家數量對項目立項的影響程度,這在專家評審影響評價方面具有一定創(chuàng)新性。
本文提出的方法力圖衡量不同數量的專家組合對同行評審的影響,即i 位專家在特定項目評審規(guī)則下(國家重點研發(fā)計劃項目評審規(guī)則)對立項結果產生的影響。在此研究背景下,最終根據評審專家對評審項目的評分和項目評審立項規(guī)則,可以獲得某評審組的立項序列。項目序列指的是通過評審后,按照優(yōu)先次序排序的有序項目對象。表1 中顯示了本文中使用的符號及其定義。

表1 本文涉及的符號及定義
這里借助圖1、圖2 來闡述兩種專家組合產生的影響。圖1 與圖2 左端的序列都是由原始專家評分數據集,根據立項評審規(guī)則r 產生的長度為6 的項目結果序列p(6),而結果序列p(6)中的1 6 序號代表在整個項目排序中前6 位的項目。原始專家評分數據集中除去某j 位專家組合之后的專家評分數據集,根據立項評審規(guī)則r 產生的長度為i 的項目結果序列q(i,j)。如果q(i,j)中項目序列仍由p(i)中的項目集組成,只是項目之間的順序發(fā)生了變化,即為這里定義的第一種序列影響。如圖1 所示,右端的序列q(6,j)仍為p(6)中項目集組成,并且項目序號仍使用p(6)中的項目序號,只是項目之間的順序發(fā)生了改變。如果q(i,j)中項目序列的項目集對比p(i)中的項目集發(fā)生了項目替換,即為這里定義的第二種序列影響。如圖2 所示,右端的序列q(6,j)對比p(6)中項目集,出現(xiàn)了7 號項目替換p(6)中的6 號項目進入項目立項結果集。

圖1 第一種專家組合對項目立項的影響

圖2 第二種專家組合對項目立項的影響
這兩種序列影響都可以在項目序列排名的基礎上使用斯皮爾曼等級相關系數來定量衡量。斯皮爾曼等級相關系數的基本定義為:2個定序n維隨機變量X和Y的排名之間的皮爾遜0 相關系數。隨機變量的之間的斯皮爾曼等級相關系數可以表示為:

當獲得一對項目立項序列,兩組序列中對應項目元素的排名差值是可獲取的,那么我們研究的在同行評審過程中的共謀行為就可以通過斯皮爾曼等級相關系數的定量數值進行衡量。對于第一種重復立項的項目的順序產生序列影響,兩組立項序列對應的項目集合是一樣的,使用對應項目元素的差值根據公式2 進行衡量。對于第二種序列影響,相比于一組立項序列,另一組序列中存在新增的立項項目,所以兩組立項序列對應的項目集合是不同的,這里采用一個新增項目或落選項目的最大索引的方法來切分獲得最小有效序列長度。
例如圖3,相比于p(6),在q(6,j)中新增的項目序號7,代表在原始的項目序列p 中排名第7 位的項目,也就是在p 中索引號為7,而相較于q(6,j),p(6)中序號為6 的項目,在q 中將會被替換到第9 位,也就是索引號為9。就像圖3 中選擇7 和9 之間的較大值9 作為新增項目影響的序列長度值,如果選擇所有q(i,j)中新增項目在序列p 中索引號最大值和p(i)中被替換項目在序列q 中索引號最大值之間的較大值,這個值就是對于第二種影響這一對項目序列中完整包含項目新增加和被替換情況的最小序列長度。然后利用等式2 進行計算。

圖3 第二種專家組合影響的斯皮爾曼等級系數計算思路
本方法使用等系數加權來獲得兩種影響的平均值。按照以上分析方法思路,編寫了“評議人組合影響評估算法”和“評議人影響相關系數”算法程序,應用于后續(xù)實證研究的大量數據計算。
本文基于“十三五”期間5 批次國家重點研發(fā)計劃“一帶一路”國際合作項目評審工作,采用項目評審原始真實的專家打分數據對本文方法進行驗證分析和探討。表2 是一次項目評審產生的17 位評審專家對18 項評審項目的評分數據表,在表格中使用Ri代表17 位項目評審專家,Pj代表18 項評審項目。

表2 國家重點研發(fā)計劃某評審組專家對組內項目的原始打分表
各個學科領域的同行評審活動都有各自的評審規(guī)則,而本文的實驗依據同行評審中項目立項評審的規(guī)則r 如下:
(1)評審專家對參與評審的項目進行百分制打分,原則上單次評審專家數目為17 位;
(2)在評分數據中,評分75 及以上表示支持此項目,低于75 分表示不支持該項目。按照評審專家對項目的評分,對項目進行計票;
(3)對項目進行票數排序,同樣票數以評分高低作為第二排序標準;
(4)立項項目所得贊成票須不少于評審專家數的一半。
首先,在如表2 所示的單個評分數據表基礎上,對本文提出方法進行實驗。在不同數量評審專家的全部組合情況下,評審專家組合的評分是否計入立項計算依據,得到相應情況下立項項目序列對,進而應用斯皮爾曼等級相關系數得到各個組合對應的影響值。圖4 展示了在評審專家組合中專家人數分別為1,2,7,8 時,評審專家組合產生影響最大的前10%影響值(按照遞減排名)。由于原始斯皮爾曼等級相關系數的取值范圍為[-1,1],當得到評審專家組合對應的越小,越接近于-1,代表該評審專家組合在項目評審中產生影響越大。左子圖是1-4 位評審專家組合圖像,右子圖是5-8 位評審專家組合圖像。結合兩子圖可以看到,各條曲線的圖像趨勢都是增長減緩的上升趨勢,代表本i 位評審專家組合的影響遞減排名中,評審專家組合影響越大,他們的值越小。通過兩圖對比可以看到,隨著評審專家位數的增加,其圖像總是在圖的右下方延伸。在各人數組合同一位次,隨著評審專家組合中人數增加,他們產生的影響值在變小,代表在項目評審中產生的影響在增大。

圖4 排除不同數目評審專家打分后影響最大的前10%分布
我們將歷年的評審數據進行了綜合分析,圖5展示的是在不同數目評審專家(1-8)組合下,隨組合中評審專家人數增加,產生影響的平均值為減小趨勢。影響的平均值從一位評審專家的0.43 下降到8 位評審專家的0.34。當排除掉的評審專家人數越多,與原項目評審結果的差異程度就越大。

圖5 排除不同數目評審專家的影響平均值
另外,我們還考慮了如果某些專家在某些因素的影響下,對特定的項目看法趨于一致時對評審結果的影響。因此,這里將原方法中“某個評審專家組合的原始評分是否計入立項計算依據”,改動為使用統(tǒng)一分數值進行填充。在本實驗的評分規(guī)則中75 分作為項目評價的分界點,評分小于75 分代表否認該項目,評分大于75 分代表支持該項目,故下面的實驗中使用0 分,70 分,75 分,100 分來替換、填充評審專家組合的評分來探索組合影響區(qū)間特征。
如圖6 所示,它展示了2 到7 位評審專家組合的變化曲線,左子圖為表4 評分數據表進行評審專家組合分數填充替換之后得到的評分影響區(qū)間圖像,右子圖為另一份數據維度相同的評分數據表的相應圖像。在左子圖中,直到評審專家組合人數達到3位之后評分填充產生的影響開始出現(xiàn)明顯變化,主要表現(xiàn)為0 分和70 分填充的影響值變大,代表評審專家組合影響變小,而75 分和100 分填充則出現(xiàn)影響值變小,即評審專家組合的影響變大的情況。

圖6 不同評審專家組合分數填充情況下斯皮爾曼方法計算的影響值
而在右子圖,在評審專家組合人數達到2 位之后,75 分和100 分填充曲線繼續(xù)重合,呈現(xiàn)下降趨勢,而對于0 分和70 分填充重合曲線,呈現(xiàn)上升趨勢。右子圖中,兩對重合曲線的變化范圍稍大于左子圖中曲線,主要體現(xiàn)在0 分與70 分重合曲線影響值的持續(xù)升高。綜合上圖,隨著組合中評審專家位數的增大,當使用大于等于75 分分數填充進行項目評審,評審專家組合的影響會逐步變大,而小于75 分的分數填充帶來的評審專家組合影響會逐步變小。
當前,在國家重點研發(fā)計劃“一帶一路”國際科技合作項目的評審階段,每一組項目須由17 位專家審閱申報書并結合申報人答辯情況,各自獨立作出立項與否的判斷。國際合作項目為全領域覆蓋征集,在評審答辯階段往往分組較多,邀請的專家人數也較多。本文針對“一帶一路”國際科技合作項目評審環(huán)節(jié)評審支出費用偏高,評審環(huán)節(jié)的投入產出比較低的問題,基于國際科技合作項目“十三五”項目評審歷史打分數據,利用斯皮爾曼等級相關系數設計了影響系數的計算方法,衡量排除不同數量評審專家打分對“一帶一路”國際科技合作項目評審結果影響,發(fā)現(xiàn)在專家評審人數依然有進一步優(yōu)化的空間。圖5 給出了排除掉不同數量專家評分后對評審結果的平均影響值,近似一條平滑的直線。從1 人影響值的0.43,下降至8 人影響值的0.34。結合圖4 所展現(xiàn)的不同數目專家打分排除后對結果影響最大的前10%分布,本文認為在立項結果影響值不大的前提下,建議可進一步減少6 位答辯評審專家,以明顯降低項目評審環(huán)節(jié)成本。
同時,本文也考慮到在特殊情形下,若干位專家可能對特定項目做出非基于專業(yè)判斷的評價,因此探討了在不同數目專家同時對某項目給出通過或者不通過分數時對評審結果的影響。發(fā)現(xiàn)專家均持肯定態(tài)度時對于評審結果的影響較大。因此,我們建議在評審過程中,應當盡量減少干擾專家評判項目的因素(比如將專家評審前公示優(yōu)化為專家評審后公示),繼續(xù)強化對評審專家行為的監(jiān)督,暢通對“打招呼”行為的舉報渠道,對于違規(guī)的評審專家進行嚴格的誠信記錄和懲戒。我們希望通過此研究能夠在項目管理的實踐中進一步提高效率,并保證項目評審的公平公正。本研究可以為其它類別同行專家評審人數的優(yōu)化提供參考。