何勝 李萍 史航 習海旭 吳智勤


摘要:“破四唯”是黨中央和國務院針對“人才評價”問題的重要決策。在“破四唯”精神的指引下,基于高校圖書館大數據和社交網絡大數據,科學構建了科研人才畫像標簽模型,并以論文評價為例討論了標簽模型的應用方案。該研究可為“破四唯”要求下新的科研人才評價體系的建立提供有益參考。
關鍵詞:用戶畫像;人才評價;高校館大數據;破四唯
中圖分類號:G250.73文獻標識碼:A文章編號:2095-7394(2021)06-0115-06
2018年7月3日,中共中央辦公廳、國務院辦公廳印發了《關于深化項目評審、人才評價、機構評估改革的意見》[1]的文件(以下簡稱《文件》),指出要“科學設立人才評價指標”,即“突出品德、能力、業績導向,克服唯論文、唯職稱、唯學歷、唯獎項傾向,推行代表作評價制度,注重標志性成果的質量、貢獻、影響”,提出“把學科領域活躍度和影響力、重要學術組織或期刊任職、研發成果原創性、成果轉化效益、科技服務滿意度等作為重要評價指標”。學界將《文件》中的“克服唯論文、唯職稱、唯學歷、唯獎項傾向”概述為“破四唯”[2]。以教師、研究生、其他類型的科研人員為主體的高??蒲腥瞬攀歉咝D書館的主要用戶,可以基于圖書館所積累的海量用戶屬性數據和個性化行為數據,析出標簽并構建人才畫像模型,為“破四唯”要求下高校人才評價提供科學依據和有力支撐。
1用戶畫像標簽模型研究現狀
1.1一般用戶畫像標簽模型的研究
面向一般用戶畫像標簽模型構建的研究開展的較多[3-4]。在標簽模型構建過程中,融合各類大數據進行標簽抽取是通用方法。AL-SHAMRI[5]綜述了基于用戶畫像標簽構建個性化推薦系統的方法和過程,包括數據收集、用戶畫像、相似度計算、社交網絡近鄰選擇及預測等;BULUT[6]將社交網絡分析引入用戶畫像標簽模型構建過程,以具體社交網絡為對象,調查用戶動機并據此劃分用戶群;JOSEPH[7]對用戶社交網絡(Twitter)信息加以分析和抽取,預測用戶屬性以完善用戶畫像標簽,并給出應用案例;牛溫佳等人[8]以知識工程理論為指導,提出基于知識抽取和用戶社交網絡行為分析的用戶畫像標簽構建方案。
高校館具有豐富的科研文獻資源和用戶行為數據,包括論文庫和圖書借閱庫等,為標簽抽取和數據融合提供了優質的數據源。廖運平等人[9]闡述了智慧圖書館用戶畫像的內涵、特征、創建方法和創建步驟并給出了案例;于興尚等人[10]以精準個性化服務為目標,討論了畫像建模過程中的圖書館數據源融合方法和標簽模型構建技術等問題。
1.2科研人才畫像標簽模型的研究
科研人才畫像又被稱為學者畫像或專家畫像。高揚等人[11]以智能制造領域為例,基于社交網絡平臺數據,從科研人才的基本屬性、研究興趣、學術影響力三個維度構建了杰出人才畫像模型;鄭昂等人[12]基于數字圖書館資源,來分析學者的特征屬性,構建用戶畫像和學者庫,以服務人才識別、科研團隊和專題資源建設等;彭程程等人[13]提出可顯示“學術譜系”和“研究脈絡”的智慧校園學者畫像系統。
從上述分析可以看出:已有大多數文獻將社交網絡大數據或圖書館大數據引入到用戶畫像的標簽建模中,但是將兩者結合起來共同作為數據源進行標簽建模的研究則較少;對一般用戶畫像研究的較多,對科研人才畫像研究的較少,特別是面向人才評價并結合“破四唯”要求的人才畫像研究更為鮮見。鑒于此,本文密切結合新形勢下《文件》精神,融合圖書館大數據與社交網絡大數據,構建科研人才畫像標簽模型。
2適應“破四唯”要求的科研人才畫像標簽模型構建思想
2.1需將“論文、職稱、學歷、獎項”作為參考要素
《文件》的第三條“改進科技人才評價方式”中之第(二)款“科學設立評價指標”指出:“將SCI和核心期刊論文發表數量、論文引用榜單和影響因子排名等僅作為評價參考”[1],這意味著在人才評價中,既要突出不唯論文、職稱、學歷、獎項,又要“作為評價參考”,體現了《文件》的辯證性思維和實事求是的精神。其中:“論文”一定程度上反映了科研人員對階段性工作的總結和提煉,是高度濃縮后的研究成果;“職稱”是所在單位對科研人員多年工作成績的一種認定,高級別職稱意味著在相關領域深厚的學術積累;“學歷”一定程度上反映科研人員的學術歷程,更高學歷需要相對更多的時間和研究積累,能部分反映科研人員的知識結構和能力形成的軌跡以及學術潛力;“獎項”是頒獎機構對科研成果的認可程度,權威部門頒發的獎項一般能較好地體現科研人才的社會需求度和認可度,這四個方面對于科學評價人才,都具有一定參考意義。近年來,由于社會導向異化以及部分科研人員追逐功利,導致論文數量、職稱和學歷高低、獲獎數量并不能精確反映科研人員的學術潛力以及對社會的貢獻度,但是如果全盤否定這四個方面則會走向另一個極端,同樣有悖于《文件》的精神實質。因此,本文在科研人才畫像標簽模型構建過程中,仍然將“論文、職稱、學歷、獎項”作為人才評價的參考屬性。
2.2需要融合高校圖書館與社交網絡大數據
正如《文件》指出,人才評價要“克服唯論文、唯職稱、唯學歷、唯獎項傾向”,應對措施是“注重標志性成果的質量、貢獻、影響”。那么,人才畫像應如何表征標志性成果的質量、貢獻和影響?高校圖書館擁有圖書借閱系統、論文數據庫等資源,一方面保有科研人員的基本特征數據和大量的借閱日志數據,方便抽取用戶的個性特征和行為特征;另一方面以論文為代表的成果數據庫存儲了海量的下載、被引和評價記錄,對這些記錄進行分析和提取,結合已經構建的人才畫像標簽模型,可有效發現標志性成果,并能恰當評價其質量、貢獻、影響。由此可見,融合高校館大數據進行畫像能夠為科研人才評價提供有力支撐。
《文件》還指出,人才評價要“把學科領域活躍度和影響力、重要學術組織或期刊任職、研發成果原創性、成果轉化效益、科技服務滿意度等作為重要評價指標”,對這些指標進行評價一般要依賴科學界、工業界等領域的參與和認同??蒲腥藛T聚集的社交平臺和評論網站(如微博、知乎網站、科研團隊微信公眾號)等社交網絡大數據是人才畫像的主要數據來源,運用語義計算領域的機器學習算法對其分析,可以實現科學而精準的畫像標簽抽取。
基于上述分析,本文在將“論文、職稱、學歷、獎項”作為人才評價指標的基礎上,引入高校館大數據和社交網絡大數據,構建新的人才畫像模型。
3“破四唯”背景下人才畫像標簽模型的構建
科研人才畫像標簽模型一般可從用戶人口標簽和科研屬性標簽兩個方面加以研究。高校館科研用戶指利用圖書館各種資源從事科學研究的個體(如高校教師、研究生)或群體(如科研團隊)[14],對比以教學、休閑為目標的圖書館用戶,是一類以科學探索和創新為己任的特殊圖書館用戶。一方面,科研創新工作建立在個體付出艱辛努力以及群體通力協作的基礎上,人才畫像需要深度描述個體和群體的人口信息特征,從而形成科研用戶人口標簽模型;另一方面,用戶的科研成果可較好地反映其科研素質,用戶的學科服務能反映其服務社會的能力,二者共同構成人才的科研屬性標簽。因此,可嘗試構建高??蒲腥瞬女嬒駱撕災P?,如圖1所示。
3.1用戶人口屬性標簽建模
為提高科研用戶服務的精細化和精準度,可將用戶人口屬性標簽細分為群體人口信息和個體人口信息兩部分。群體人口信息標簽包括“群體名稱”“群體管理機構”和“群體成員社交圈”,即“群體微信、QQ群”等屬性。這部分標簽數據源于高校館信息系統的用戶行為日志、網頁數據和社交網絡數據,并需要綜合運用社交網絡分析的相關挖掘算法進行提取。個體人口信息標簽直接源于高校館信息系統中科研用戶注冊時的格式化數據,包括“用戶姓名”“所屬機構”“用戶職稱”“用戶學歷”等,其中“職稱”和“學歷”既標示了個人的重要特征,又兼顧了《文件》中的人才屬性。用戶人口屬性標簽屬于人才畫像的基礎標簽,可用于對科研個體和群體行為的分析和預測,為人才評價提供基礎數據支撐。
3.2用戶科研屬性標簽建模
依據科研創新活動分類方法,可以將用戶的科研屬性分為“用戶科研成果”和“用戶學科服務”兩部分。結合“破四唯”要求,“用戶科研成果標簽”主要包括“科研論文”“科研獲獎”“代表作”“專利成果”和“項目成果”等;“用戶學科服務標簽”主要包括“學術組織任職”“學術期刊任職”和“科技服務”,增加了“學科領域名稱”屬性,目的在于對不同學科領域加以區分。
用戶科研屬性標簽是人才評價的核心標簽,采用語義挖掘計算,經過分析“代表作”“專利成果”和“項目成果”標簽對應的大數據,可以有效分析成果的質量、貢獻和影響力,以及成果原創性;分析“學術組織任職”“學術期刊任職”和“科技服務”標簽的大數據,能評估科研人員在學科領域內的影響力、活躍度,及其科技服務滿意度。
值得指出的是,“論文、職稱、學歷、獎項”不再根據其論文數量、職稱高低、學歷高低以及獎項多寡來評價人才,而是通過語義挖掘計算方法評估論文的影響力,以及職稱、學歷和成果的相關度,高相關度意味著人才更高的成果凝練度和學科聚焦度。
4“破四唯”背景下高校圖書館科研人才畫像應用案例
“破四唯”要求中,論文是被重點關注的對象。2020年2月18日,教育部、科技部聯合印發《關于規范高等學校SCI論文相關指標使用,樹立正確評價導向的若干意見》[15],就“唯論文”問題提出需要健全分類評價體系:對于基礎研究,“評價重點是論文的創新水平和科學價值,不把SCI論文相關指標作為直接判斷依據”;對于應用研究和技術創新,“評價重點是對解決生產實踐中關鍵技術問題的實際貢獻,以及帶來的新技術、新產品、新工藝,實現產業化應用的實際效果,不以論文作為單一評價依據”。
根據上述文件精神,評價論文的關鍵在于評估論文發表后對科學領域或生產實踐領域產生的影響,即“論文影響力”,其計算方式是核心問題。結合圖1人才評價標簽模型,以“論文影響力計算”為例,探討論文評價過程中人才標簽的應用方法,具體過程如圖2所示。
4.1論文評價的數據來源
以論文評價為目的,數據來源包括高校圖書館大數據和社交網絡大數據。高校圖書館大數據包括中國知網、萬方數據庫,Science Direct、Springer Link等知名數據庫,收集了所有歷史及最新科研論文,其格式規范、內容嚴謹,方便抽取標簽。社交網絡大數據包括對科研人員較高黏度的各類社交平臺,如科研人員在Research Gate、face- book、Twitter、新浪微博、微信公眾號和知乎網站等社交平臺上產生的網絡大數據。這些社交平臺的“分享”“關注”及“好友”功能可以非常精準地反映用戶的科研偏好或領域團體的共同科研話題。Research Gate是服務科研人才的著名社交網絡平臺,提供包括論文分享、轉載和話題討論等功能,擁有1 000多萬用戶;新浪微博、facebook、Twitter 的博主、微信公眾號或朋友圈、知乎網站上的“知乎專欄”中,常以某個專題推送專業領域的論文,并開放收藏、點贊與轉載功能,為論文評價提供了豐富和高價值的數據資源。
將上述兩類數據進行元數據統一建模,借助大數據計算平臺(如Hadoop+Spark+GraphX),經過數據清洗、融合等語義計算和分析過程,形成格式一致、結構清晰的數據并存儲,作為科研人才畫像的基礎大數據。
4.2論文評價的標簽抽取
結合“破四唯”的要求,抽取高校圖書館館藏數據庫中的論文信息,包括論文ID、作者、題名、關鍵詞、期刊名等論文題錄數據,以及期刊類別、下載次數和被引次數等部分重要衍生數據;抽取社交網絡中論文ID、作者、題名、社交平臺類別等信息,以及收藏次數、點贊次數、轉載次數等部分重要的衍生數據。然后,建立各自對應的元數據模型,提取實體、關系和屬性,以便在分布式數據庫系統(如MonogoDB數據庫系統)中進行存儲。
4.3論文影響力的計算方法
為了方便計算,需要引入論文ID,以唯一匹配高校館藏論文和社交網絡論文。其中,館藏論文相關數據包括:期刊類別,如SCI、EI、核心期刊、CSSCI、CSCD;下載次數,用戶從專業數據庫中下載論文次數;被引次數,論文被引用次數。社交網絡數據包括:收藏次數,被其他用戶收藏次數;點贊次數,被其他用戶點贊次數;轉載次數,被其他用戶轉載次數。論文影響力計算公式為:論文影響力=∑參數i*權重j,其中參數i1可以根據期刊的質量和社會影響自行賦值,i2到i6直接來源于數據庫,權重j由研究者根據人才評價的具體目標或要求進行賦值。容易看出,參數i由期刊的檔次和用戶評價(下載、引用、轉載、收藏、點贊)的數據組成,再乘以權重j,最終結果體現了論文發表以后在高校館專業數據庫和社交網絡平臺上所產生的綜合影響力。
5結語
高校圖書館擁有海量的用戶屬性數據和個性化行為數據等資源,本文將其與社交網絡大數據資源深度融合,借助大數據平臺和語義分析工具,構建的用戶人口屬性標簽和用戶科研屬性標簽個性化模型,可全面完整地刻畫科研人才的特征,以助力人才評價;表明高校圖書館大數據資源具有重要應用價值,在新時代科研人才評價領域將發揮不可替代的作用。
參考文獻:
[1]中共中央辦公廳、國務院辦公廳.關于深化項目評審、人才評價、機構評估改革的意見[EB/OL].(2018-07-03)[2021-01-05].http://www.gov.cn/zhengce/2018-07/03/content_5303251.htm.
[2]劉云.“破四唯”能解決中國科技評價的問題癥結嗎?[J].科學學與科學技術管理,2020,41(08):3-6.
[3]吳智勤,李萍.大數據情境下高校圖書館科研用戶畫像構建策略研究[J].江蘇理工學院學報,2019,25(6):117- 121.
[4]高廣尚.用戶畫像構建方法研究綜述[J].數據分析與知識發現,2019,3(3):25-35.
[5] AL-SHAMRI M Y H. User profiling approaches for demographic recommender systems[J]. Knowledge- Based Systems,2016,100:175-187.
[6] BULUT Z A,DOG AN O. The ABCD typology:profile and motivations of Turkish social network sites users[J]. Computers in Human Behavior,2017,67:73-83.
[7] JOSEPH K,WEI W,CARLEY K M. Exploring patterns of identity usage in tweets:a new problem,solution and case study[C]//WWW '16:Proceedings of the 25th International Conference on World Wide Web. 2016:401-412.
[8]牛溫佳.用戶網絡行為畫像[M].北京:電子工業出版社,2016:9-15.
[9]廖運平,盧明芳,楊思洛.大數據視域下智慧圖書館用戶畫像研究[J].國家圖書館學刊,2020,29(3):73-82.
[10]于興尚,王迎勝.面向精準化服務的圖書館用戶畫像模型構建[J].圖書情報工作,2019,63(22):41-48.
[11]高揚,池雪花,章成志,等.杰出人才精準畫像構建研究:以智能制造領域為例[J].圖書館論壇,2019,39(6):90-97.
[12]鄭昂,曾建勛.數字圖書館學者庫構建方式研究[J].圖書情報工作,2020,64(5):133-140.
[13]彭程程,吳斌.“智慧校園”學者畫像系統研究[J].數字圖書館論壇,2019(2):2-11.
[14]宋美琦,陳燁,張瑞.用戶畫像研究述評[J].情報科學,2019,37(4):171-177.
[15]教育部、科技部.《關于規范高等學校SCI論文相關指標使用樹立正確評價導向的若干意見》的通知[EB/OL].(2020-02-18)[2021-01-05].http://www.gov.cn/zhengce/zhengceku/2020-03/03/content_5486229.htm.
Construction of Research Talent Portrait Label Model Under the Background of “Breaking Four-only”
HE Sheng1,LI Ping2,SHI Hang1,XI Haixu1,WU Zhiqin3
(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 213001,China;2.Institute of Foreign Languages,Jiangsu University of Technology,Changzhou 213001,China;3.Jiangsu University of Technology Library,Changzhou 213001,China)
Abstract:“Breaking the Four-only”is an important decision made by the Party Central Committee and the State Council on the issue of “talent evaluation ”.Under the guidance of the spirit of “breaking the four-only ”,based on the big data of university libraries and social networks,the label model of scientific research talent portraits is scientifically constructed,and taking paper evaluation as an example,the application scheme of the label model is discussed. This study can provide useful reference on the establishment of new evaluation system for scientific research talents under the requirement of “breaking the four-only”.
Key words:user portrait;talent evaluation;university libraries big data;breaking the four-only