胡 意,鄭宏松,陳麗麗,鄒倩瑜
(廣東省科技創新監測研究中心,廣州 510033)
科技專家在參與科技計劃項目評審、科技業務咨詢等活動過程中,充分發揮了專家群體的特長、知識、經驗、智慧和判斷能力,有效促進科技管理工作向專業化、規范化、科學化發展。毫無疑問,科技專家群體為促進中國科技進步發揮了重要貢獻。但是在以往的科技計劃項目評審、科技業務咨詢服務過程中也暴露出一些問題,例如部分科技專家在評審工作中態度不端(閑聊、玩手機、打電話等)、專業能力不強(專業知識欠缺、提不出指導意見等)、濫用專家權力(評價有失公允、搞裙帶關系等)等問題時有發生,對科技主管部門形象造成負面影響。在這種背景下開展科技專家評審質量評價模型研究,推動科技專家管理工作的科學化、規范化、合理化具有現實意義。
2019 年6 月,中共中央辦公廳、國務院辦公廳印發了《關于進一步弘揚科學家精神加強作風和學風建設的意見》(中辦發〔2019〕35 號)[1],提出科技工作者要加強作風與學風建設,營造風清氣正的科研環境,通過良好學術生態,激發全社會創新創造活力。廣東省科技廳在2014、2017、2020 年先后發布《廣東省科學技術廳關于省科技計劃信用的管理辦法(試行)》(粵科監審字〔2014〕118 號)、《廣東省科學技術廳關于省級科技計劃(專項、基金等)嚴重失信行為記錄與懲戒暫行規定》(粵科監審字〔2017〕102 號)、《廣東省科研誠信管理辦法〈試行〉》(粵科規范字〔2020〕2 號)等文[2-4],持續推動科研誠信建章立法,努力營造公平、公正、透明的科研管理環境。其中在《廣東省科研誠信管理辦法〈試行〉》(粵科規范字〔2020〕2 號)[4]中明確將科研活動申報、評審、實施、驗收、監督檢查和評估評價活動中,存在的“未按規定履行職責、違反回避制度、濫用職權、徇私舞弊、出具虛假或失實結論的、打招呼、走關系”等行為定義為科研失信行為。
通過國家和廣東省科技專家信息管理相關政策的研究可以看出,國家和地方政府部門都在積極推動科研誠信體制的建立與完善,但羅馬非一日建成,針對科技專家評審質量的監督管理機制目前還是處于政策空窗期。
金義等[5]、徐洪飛等[6]、莊嚴[7]主要將神經網絡算法與評價指標有機結合形成了系統的評價模型,并通過仿真實驗驗證了基于神經網絡算法的評價模型的適用性、精準性。金義等將BP 神經網絡算法應用于校園網絡安全評價中,通過仿真實驗訓練出適用于校園網絡安全評價的算法模型[5]。徐洪飛等針對高校機械實驗室建立了包含兩級安全評價指標體系的IPSO-BP 神經網絡的安全評價模型,通過專家評分數據對模型展開訓練,樣本數據的預測結果相對誤差符合預期要求,從而構建了科學可靠的實驗室安全評價模型[6]。莊嚴開展了基于神經網絡的高校科研團隊評價模型研究,在構建科研團隊綜合指標評價體系后,引入具有出色學習分類能力的SOM神經網絡算法開展高校科研團隊綜合實力評價模型研究,仿真實驗驗證了分類評價方法的準確率,也暴露出一定局限性,通過引入粒子群優化算法實現了模型的調優,再次提升了模型的可靠性[7]。
綜上可知,神經網絡算法在處理非線性問題上具有顯著優勢,依賴于較強的自學習、自適應能力推動模型不斷迭代學習,反向進行參數因子調優,提升算法的精準性與智能化程度,被廣泛應用于各行各業的評估評價中。本文通過建立科學、高效、智能的專家評價模型,促進神經網絡算法在科技專家管理領域的推廣應用。
通過對工作質量評價體系研究方面文獻[8-10]梳理,結合前人的工作質量評價指標原始量表與科技主管部門的政策法規文件,建立專家評審質量四維模型,分別為專家基本素質、工作態度、專業程度及指導水平4 個一級指標,對應20 個具體二級指標,在考慮二級指標的設立時,充分結合當前科技管理部門科技業務評審過程遇到的實際問題及管理者經驗與教訓。隨著科技管理事業的推演發展,相關評分指標應該是動態變化、與時俱進的。質量評價指標見表1。在表1 中,各層級指標間相互響應、相互作用,但其中的因果、關聯關系是很難量化的。因此引入在處理離散、非線性問題上具有獨特優勢的神經網絡算法,輔助開展科技專家評審質量綜合評價分析。
神經網絡的自學習、自適應特點對實現智能化、自動化、精準化生成專家評審質量綜合評價結果信息具有高度適應性,可以避免“陷入”傳統方法例如層次分析法、專家判斷法在各級指標權重科學合理性上的煩瑣研究流程。通過結合大量的訓練數據展開自學習過程,對算法中權重參數不斷調優,使神經網絡評價預測結果高度逼近傳統方法的真實結果。
專家工作質量評價模型建立基本步驟主要包括:①確定輸入層的神經元。將20 個二級評價指標作為輸入神經元;②確定輸出層的神經元。將專家評審質量綜合評價結果作為唯一的1 個輸出神經元;③確認隱含層神經元。結合本文評價數據較為簡潔。因此隱含層設置為1 層,參考金義等[5]提出的經驗公式將隱含層神經元數量設置為5~25 的整數,可以進行參數調整以適應最終訓練目標。④確定神經元轉換函數。神經網絡通常采用Sigmoid 函數作為神經元轉換函數,能夠將數據范圍轉化控制在合理水平之間。至此基于神經網絡的專家工作質量評價模型建立完成。
神經網絡算法的訓練過程主要包括:①設置算法的初始權重、學習速率、訓練次數、訓練誤差目標等參數;②選取總數量90%的真實的專家二級指標評分數據及綜合評分結果數據作為訓練數據;③運用神經網絡算法計算專家綜合評價結果預測值;④對比真實評分結果與預測值誤差,反向調整權重參數,如果誤差為偏小,則適當調大權重參數,如果誤差為偏大,則適當調小權重參數;⑤結合設定的訓練次數及訓練誤差目標不斷迭代調優,直至訓練次數及訓練誤差都達到設定目標方可結束訓練過程。
選取2 000 組真實的科技專家評審質量評價數據,包含二級指標評分及綜合評分數據,隨機抽取其中的1 800 組評價數據用作訓練數據,訓練次數設為不少于1 500 次、目標誤差不大于2%,在算法訓練過程中,可能遇到參數設置不合理導致預測值誤差大的情況,需要反復調整設置的參數,通過預測值結果與真實綜合評分的誤差進行對比,不斷擬合、迭代、反向調參,給出無限逼近真實評分的預測值。截取的部分訓練數據見表2。

表2 科技專家評審質量評價訓練集
經過反復訓練及神經網絡算法的參數調優后,形成了性能較為穩定、符合精度要求的科技專家評審質量評價模型。這時需要利用剩下的200 組真實數據對基于神經網絡算法的科技專家評審質量評價模型進行最后的實證測試。通過將二級評價指標數據作為輸入神經元輸入算法模型得出了預測值,將預測值與真實綜合評分結果間誤差進行比較,結果如圖1 所示,其中每個帶編號的圓環代表預測值與真實綜合評分間誤差所處的區間。

圖1 測試集誤差區間分布情況
結合圖1 可以看出,實證測試結果顯示的誤差大體能控制在[-2%,2%]區間內,據統計200 個測試結果中有161 個結果符合設置的目標誤差要求,占比80.5%;另外有39 個測試結果誤差大于2%,占比19.5%;根據基于神經網絡模型的實證結果可以看出,該算法模型的精準度基本能符合預測要求,但是還有進一步提升精度(80.5%)和減小誤差(當前誤差目標是2%之內)的空間。
首先就當前科技主管部門在科技計劃項目評審中遇到的痛點進行剖析;其次結合質量評價及神經網絡相關理論研究成果,開展了基于神經網絡算法的科技專家評審質量評價模型的研究,重點探討了模型的設計流程及訓練、測試方法;最后結合科技專家評審質量評價真實數據對算法模型進行了實證測試。測試結果顯示,基于神經網絡算法的專家評審質量模型在允許2%誤差的前提下,自動預測評分值精度超過80%,基本能夠滿足自動化評價要求,但是在誤差控制及預測精度上還有較大進步空間。通過結合神經網絡算方法為科技專家評審質量評價工作提供了一種科學化、自動化、智能化、高效化的評價路徑。當前人工智能、大數據、云計算技術的應用與發展已經步入深水區,通過結合新一代信息技術實現科技治理工作現代化即將變為現實。