鐘 華,肖 暢,單連慧,安新穎
(中國醫學科學院醫學信息研究所醫學科技評價研究室,北京 100020)
科研項目的代表性成果是判斷學術質量的主要依據,也是項目科研學術價值和社會經濟價值的本源。近年來國家多個部委發文要求建立正確合理的中國科技評價體系,積極推進學術評價改革,如2016 年中共中央、國務院印發的《“健康中國2030”規劃綱要》提出建立更好的醫學創新激勵機制和以應用為導向的成果評價機制;2021 年《國務院辦公廳關于完善科技成果評價機制的指導意見》提出健全完善科技成果分類評價體系,基礎研究成果應推行代表作制度,實行定量評價與定性評價相結合。在國家的積極倡導下,代表作評價制度已成為創新型國家建設過程中提高科研成果質量和影響力的重要方式,是我國深化科技評價制度改革的關鍵舉措[1]。代表性成果評價作為評判科研項目學術及社會價值的準則,在科學研究中發揮著示范和導向作用,對學術活動有著至關重要的影響,但如何科學、準確、客觀地開展科研成果代表作評價,以及如何創新代表作評價方法和工具仍然是學術難題。本研究梳理國內外科研項目評價的研究和實踐,針對醫學科學研究特點,基于定量數據和客觀證據支持構建并優化量化數據和方法支持的代表性成果評價體系,為更好地識別和揭示項目代表性成果的質量、貢獻和影響提供參考。
在各國持續推動和完善科研項目代表作評價制度的背景下,各類科研機構及科技管理部門不斷開展學術評價改革的研究和實踐,在科研項目評價方法和工具上進行探索和改進,并持續完善科研項目評價體系和流程[2]。各國有關研究和實踐的特點具體分析如下。
各國積極推進學術代表作評價實踐。如,英國科研卓越框架(REF)[3]利用同行評議和代表作制度對論文、著作、知識產權、技術性報告等成果的影響力和質量進行評價;我國教育部[4]在《第五輪學科評估工作方案》中提出科研評價將聚焦標志性學術成果,采用計量評價與專家評價相結合、中國期刊與國外期刊相結合的代表作評價方法,通過定量數據和客觀證據的專家融合評價方法實現多元評價;我國的國家重點研發計劃項目評價也要求凸顯成果質量,突出代表性成果和項目實施效果評價[5]。目前,實施代表作評價的作用和意義在國際科技評價中已得到較為普遍的認可[6],但還沒有形成具有普遍參考意義的代表作評價制度[7]。
各國將定量分析和同行評價作為判斷學術質量的重要工具和手段。通過定量分析,可以更充分地對研究工作和成果進行觀察和描繪,為專家判斷提供更多的依據,在信息集成基礎上形成更科學的意見。在學術評價中,知情同行評議(informed peer review)的評價模式在英國、美國也有多年實踐,是將科技成果的定量信息(如成果數量、引用情況、后期認可和影響程度等)提供給專家,輔助和支持專家的評價決策[8]。2018 年澳大利亞第四次全國卓越研究評估(ERA)的評價指標既包括定量指標,如引文分析數據、出版物情況、專利指南等研究應用數量和科研收入等,也包括ERA同行評議的定性指標,并依據科研評價量表進行評級[9]。英國醫學研究理事會(MRC)[10]的項目評審在采取同行評議機制的同時,也利用定量方法對包括論文、報告、書籍、知識產權、數據庫與模型等科研成果產出情況進行分析。REF[3]的各學科評審專家借助定量指標輔助判斷,對科研成果按質量高低分為5 個星級,賦予不同權重。
各國持續研發和改進各類科學計量方法,并將之應用于科研基金資助和項目的影響評估。如,英國國家衛生研究院(NIHR)將科學計量分析結果作為項目整體信息的組成部分,項目申請人的科學計量學表現作為支持評審過程的重要證據,提交給項目評審專家組[11]。但在NIHR 的不同項目類型中,科學計量數據在項目專家評審過程中的重要程度不一樣,例如NIHR-CLAHRC 項目指南中提到,申請人提交的出版物清單將進行獨立的文獻計量分析,并進行分析和審查,以驗證完整性和與擬申請項目主題的相關性,以及與計劃目標的相關性。REF[3]在評估英國高等教育機構學科的研究質量時也利用科學計量學數據,要求最多提交4 項研究成果(例如期刊文章、專著、章節等),同行評審從原創性、重要性和嚴謹性方面評估產出質量,并在一些學科評估中使用了引文信息,將引文作為具有學術意義的積極指標。
科學高效的評價工具和方法在各類科技項目管理中發揮重要作用,各國根據自身國情和科技發展現狀不斷優化完善評價方法,通過構建科學高效的項目評價工具和方法,有效識別和揭示各類項目成果的質量、貢獻和影響,為醫學發展和學科建設提供支持和服務。例如,歐盟[12]提出的“地平線2020 計劃”評價體系包括邏輯模型、影響路徑分析和評價方法3 個核心部分,同時采用了文本挖掘等新的大數據分析技術手段;加拿大健康科學院(CAHS)[13]設計的科技評價框架是為醫學研究資助者開發一種用于捕獲醫學研究影響的穩健方法和相關指標體系,是CAHS 開展科學評估遵循的基本框架;英國國家衛生研究院設計的Dashboard 框架用于監測和評估科研活動和實施績效,相關指標包括整個邏輯模型的各階段并覆蓋平衡計分卡的各領域[14];愛爾蘭衛生研究委員會采用Payback 模型將社會和經濟影響分為五大類因素開展項目事后評價[15];日本醫學研究與開發署開展的項目事后評價分為基本方案(ACT-M)和應用方案(ACT-MS)兩種類型,并設計10級評價量表,為研究領域和內容多樣化的資助項目提供了較為統一的測度方式[16]。
在科研項目評價中,代表作指在所從事學科領域內能夠體現項目成果學術水平、創新性和影響力,最能得到同行認可的成果。科研項目實施代表性成果評價,一方面突出的是“成果質量和影響”,需凝練出最能體現項目研究水平的科研產出作為代表性成果,并以代表作作為支撐;另一方面突出的是“代表性”,通過限制提交的成果數量,在項目內對產出成果進行初步遴選,從而降低單純量化方式帶來的負面作用[17]。科研項目代表性成果評價主要有項目自評、同行評價、定量評價3 種方式,項目自評是項目團隊對實施和執行的成果水平和影響進行的評價,同行評價是小同行專家來評議項目成果水平,定量評價可依據定量數據和客觀證據對成果在領域內的水平進行描述分析、為專家同行評價提供數據支持[18]。
近年來,我國各級科技管理部門、高校和科研院所不斷推行代表作評價制度,代表作評價的意義和作用已經在科學項目管理、科技獎勵、職稱評審中逐步被認可和推行,但是目前國際上還未在科研項目代表作評價方面形成能被普遍參考的體系,特別是我國的代表性成果評價制度還處于研究和探索階段,缺乏具有推廣基礎的示范應用,因此在科研項目代表作評價指標和體系、方法和工具等方面還需進一步研究。
利用定量數據和客觀證據的支持,結合專家綜合評判的代表作評價模式是一種綜合、多源、客觀的科技成果評價方式。它有別于單純以論文數量、代表作數量、影響因子等作為單一量化評價來源的傳統方式,基于各類統計數據和學術資源,利用科學計量方法和評價分析工具,設計并構建系統、科學的科研項目代表作評價體系,通過提供能夠反映代表作質量、學術影響力、應用效果和價值的量化評估數據,為專家同行評議提供數據和證據支持,特別是在專家個體間因知識結構或研究范式容易產生非共識認知等問題時,能有效減少專家同行評議的主觀性[19]。同時,多元化評價手段也可在成果評議過程管理和決策方面構建起較為全面、科學、規范的評價質量規范流程和體系,進一步確保評價公正性和客觀性。
以某醫學院校20 個已經結題的科研項目作為實證對象,納入評價范圍的每個項目提供一項代表性成果,每項代表性成果提供不超過10 個代表作支撐材料,代表作支撐材料包括但不限于論文、專利、標準、報告等形式,根據各項目提供的代表性成果,重點對高質量論文、高價值專利、指南、標準、研究報告、臨床試驗項目及新藥、醫療器械證書等代表作進行分析。納入評價范圍的20 個科研項目(以下簡稱“樣本項目”)類型包括醫學基礎前沿、疾病防治、藥械研發等類型,不同類型項目的代表作各有側重,如醫學基礎前沿類項目的基本定位是鼓勵從醫學基礎研究中挖掘和凝練深層次科學問題,代表性成果主要側重考查具有重要科學價值的,在新理論、新技術、新方法等方面最具代表性的成果水平;藥械研發類項目旨在鼓勵針對醫藥產業發展需求培育具有自主技術和產品優勢的研究,代表性成果主要考查項目在新理論、新技術、新方法、創新性藥物及醫療器械等方面最具代表性的成果水平;疾病防治類項目鼓勵針對各類疾病預防和診療的突破性研究,代表性成果主要考查臨床術式、診療方案、臨床指南、標準等方面的成果及水平。
基于文獻研究和專家意見建立量化支持部分的項目代表作評價體系(見表1),依次分級計算投入和產出指標數據。在投入指標方面,考慮不同項目資助金額、實施周期和團隊人員投入因素。在產出指標方面,根據每個項目提交代表性成果的支撐材料實施細化分級計算,例如對于高質量中英文論文,分別根據中國科學院文獻情報中心[20]制定的《中國科學院文獻情報中心期刊分區表》和“中國科技期刊卓越行動計劃”入選期刊目錄進行逐級賦權;對于高價值發明專利,按照三方授權發明專利、在海外有同族專利權的發明專利、國內發明專利授權、《專利合作條約》(PCT)的發明專利申請、國內發明專利申請進行逐級賦權;對于獲后續課題資助項目數量和轉化合同金額,按照項目級別和實際合同金額進行逐級賦權。

表1 科研項目代表作定量分析指標
對樣本項目數據進行預處理后,采用數據包絡分析方法(DEA)進行科研項目代表作評價。數據包絡分析是一種構造生產前沿面函數的非參數計量方法,通過分析決策單元投入與產出指標數據,從相對有效性角度出發,可以有效地評估多投入多產出決策單元的相對效率情況[21]。數據包絡分析方法主要用來評價同類型單位之間的相對有效性,其中基于VRS 假設的BCC 模型方程如下:

式(1)中:j為決策單元;i和r分別為投入指標和產出指標;S為松弛變量。
BBC 模型研究規模報酬可變情況時投入產出效率情況,綜合效益(OE)分為技術效益(TE)和規模效益(KE)。技術效益反映技術因素帶來的效率,該值等于1 則說明要素合理使用;反之,該值小于1 說明要素技術效率還有提升空間。規模效益反映規模帶來的效率,該值等于1 則說明規模收益不變(最優狀態);該值小于1 說明規模收益遞增(規模過小可擴大規模增加效益);該值大于1 說明規模收益遞減(規模過大可減少規模增加效益)。綜合效益反映決策單元DMU 要素的效率情況,為技術效益與規模效益的乘積。松弛變量表示為減少多少投入時可達到目標效率,S+即代表為增加多少產出時達到目標效率,S-即代表為減少多少產出時達到目標效率。結合綜合效益指標、S-和S+這3 個指標可判斷DEA 有效性:綜合效益為1 且S-和S+均為0,則DEA 強有效;綜合效益為1 但S-和S+大于0,則DEA 弱有效;如果綜合效益小于1,則為非DEA有效。
運用MaxDEA 軟件計算各樣本項目代表性成果的綜合效率值,對各項目產出代表性成果進行效率分析,計算結果如表2 所示。

表2 樣本項目代表性成果評價結果
從項目綜合效益值來看,20 個樣本項目的綜合效率值為0.530,其中DEA 有效的數量為6 個,約占代表性成果總數的1/3。綜合考慮項目資金、人員投入及研究期限,DEA 有效的6 個項目代表性成果在質量和影響方面的量化分析數據值更高,以DMU3 為例,該項目資助金額相對不多,規模中等,但有較高影響力的產出,其代表性成果所提交的10項代表作支撐材料中包括5 篇一區論文和1 篇二區論文,并有國家發明專利授權1 項、國家發明專利申請3 項,該項目基于這些代表性成果開展了系列連貫性研究,建設藥物技術平臺,在全方位解決藥物耐受和治療問題方面發揮重要作用。
將樣本項目代表性成果的基本統計數據、科學計量數據、效率分析數據及數據使用說明等整合后,作為項目同行評議的支撐材料提供給專家,用于輔助專家定性判斷;在項目評價結束后,將定量評價結果和同行評議結果進行對比,發現兩者呈正相關關系。可見利用科學計量統計和數據包絡分析方法綜合計算得到的科研項目代表性成果的量化分析結果,可在一定程度上反映學術成果的質量和影響力,可作為專家定性評價的參考和依據,也在一定程度上對同行評議結果進行了印證,能更好地控制同行評議中主觀判斷因素的負面影響。
代表作評價制度是我國逐步完善科技評價機制的重要舉措,在科研項目成果評價中,堅持以創新質量、績效、貢獻為核心的評價導向,推行代表作評價機制,能有效破解“唯論文”“唯數量”等問題。本研究在對國內外科研項目成果評價方法和體系進行分析的基礎上,提出基于定量數據和客觀證據支持的科研項目代表性成果評價方法,選取20 個科研項目的代表性成果進行實證分析,依次分級計算投入和產出指標數據,利用數據包絡分析模型計算項目效率,將定量分析結果用于支持專家評價,實證分析結果能在一定程度上反映和測算出科研項目在既定投入基礎上所產出代表性成果的質量和影響力,能較為有效地對同行評議提供支持。本研究是對科研項目代表性成果評價的初步探索,未來在代表作評價方法體系研究、評價指標構建、分層分類實施等方面還將進一步完善和細化。
基于以上研究結果,對我國醫學科研項目代表性成果評價的實施和發展提出如下建議:
一是強調代表作形式的多樣性,建立分層分類的項目成果評價體系。醫學科研項目產出代表性成果形式可多樣化,應包括論文、專利、指南、標準、藥械、報告等多種類型;此外,醫學科學研究的復雜性對科技評價工作是巨大的考驗[22],醫學基礎、臨床、口腔、公共衛生、藥學等各學科都各具特點,科技評價標準也應隨之進行分類設置,根據不同項目類型的定位與產出特征設置差異化的評價體系及評價指標權重。
二是提倡代表作評價方式的多元性,正確發揮量化評價在學術評價中的作用。科技評價方法從技術層面上可分為定量評價、定性評價和綜合評價三大類,單一的定性或定量方法已經很難滿足科技評價活動需求,世界主要國家都在破立并舉中不斷探索和優化科技評價方法和實踐,使定性和定量評價方法在科技評價實踐中得以不斷綜合交融,因此在代表作評價過程中,不應將單純的論文數量作為唯一的硬性評價指標,也不能僅采用傳統的定性評價方法從而放棄了對定量評價方法的探索和應用,定量評價依然是學術評價中不可缺少的判定依據,應結合科技成果產出類型,以及在完善專家信用和專家評價體系基礎之上的學術同行評議,建立起量與質有機結合的多元化綜合評價體系,避免形成單一的評價模式。
三是利用新的方法和技術改進傳統評價方法,持續改善科研成果評價效率和質量。醫學科技評價工作具有海量評價數據處理特點和深度精準分析的需求,應建立嵌入集成化工具庫和方法庫的評價系統,將云計算、數據挖掘、機器學習、人工智能和區塊鏈等為代表的信息技術逐步用于科研項目評價中,以動態監測的高質量立體集成數據為基礎,深入剖析醫學科技發展規律,發揮定量評價客觀、精確和可操作的優勢,將能更好地解決評價效率和精度問題。