樊宇航,吳曉昱,朱 悅,陳 苗,徐鵬景
(1.上海科技發展有限公司,上海 200062;2.上海科技創新資源數據中心數據智能研究院,上海 200062;3.聰明制藥(上海)有限公司,上海 201106)
目前,高等院校的排名評價多是基于學科體系的綜合性指標,較為知名的四個權威世界大學排名(QS世界大學排行榜、泰晤士世界大學排行榜、U.S.News世界大學排行榜以及ARWU世界大學)[1],都是通過設立可量化的硬性指標和主觀評分的軟性指標來進行排名,但是都不能夠直觀地將高等院校的研發能力及成果納入到產業體系中進行細分及排名。基于產業維度的高等院校排名能夠更直接對接現實產業體系,不僅能夠依靠多層次的產業體系將高等院校進行細分產業的劃分和排名,還能進一步推進高等院校研究成果在產學研體系中的產業化進程,同時為促進國內科技成果轉化提供決策依據。
根據《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》[2](下文簡稱“十四五”規劃)指導意見,國內需要建立以市場為導向的產學研用深度融合的技術創新體系。高等院校作為技術供給方,其功能需從人才培育、科學研究延伸到社會服務,尤其是在知識經濟社會中,高等院校將被推向社會發展的中心,成為社會經濟發展的重要動力;企業作為技術需求方,尋找適配自己業務方向的技術,進行相關產品的研發,投入到市場中來實現有效的技術轉化;政府則需要在了解雙方需求的前提下,通過制定政策,創立交易市場,加速整個工作過程。所以如何有針對性地統計和了解高等院校的技術研究領域方向,合理布局與之相對接的產業體系,對于強化高等院校在產學研體系中的位置有重要意義。
在產學研體系中,高校是其中研究的重要一環。沈佳坤等[3]認為“雙一流”高校是產學研融通創新的重要創新主體,通過知識鏈、創新鏈同產業鏈對接分析推動產學研融通創新的作用機制。伍娜等[4]以湖北省高校為例,通過構建產業合作創新耦合評價體系,提出應建立產學研戰略聯盟,引導創新要素加速向優勢產業集聚。景曉輝等[5]則從高校科技成果評價與轉化的角度,認為高校對于科技成果的產業化應用重視不夠,同時未建立有效的企業的產業需求與高校科研團隊及科技成果的匹配機制。沈彬等[6]針對這一困境,提出利用新型研發機構,促進高校技術交流創新,這就需要明確高校研究的產業重點。
而在高校排名研究這一方面,國內以往也多以學科類綜合型排名體系為主。例如,秦惠民等[7]基于多輪德爾菲法和層次分析法提出的4維度3層次大學全球影響評價體系;趙江濤等[8]基于ARWU、QS和THE三個世界大學排名對比國內外一流大學,認為國內在人才培養維度上進步較小。評價基礎都是從文獻角度出發,比如論文角度,蔣知義等[9]基于ESI數據從科研生產力、科研影響力、科研發展力、科研創新力構建工程學科研競爭力。王艷等[10]同樣利用ESI數據,分析中部六省科研產出的差異,找出安徽省在科研競爭力和學科發展方面的優勢與不足;比如專利角度,張慧卿等[11]選取京津地區部分高校,利用20年的專利數據,反映其技術創新活躍度和創新能力。張銳等[12]則對25所高校進行了專利競爭力的分析評估,以具體評判高校的科研能力。
在評價高校各要素方面,大數據技術讓各個數據源之間都能建立聯系,并且隨著數據量的積累,規律的總結和發現也更加容易把握。尹天光[13]提出構建教學評價大數據綜合體系,整合數據接口,及時反饋各類教學評價數據。對于高校就業質量的評價,魏玉曦[14]在建立評價體系后,引入大數據挖掘技術,適應高校就業質量變化特點,使評價結果更加可靠。劉在洲[15]研究得出大數據在高校科研評價中的應用,具有提高處理速度、實現可視化表達、促進科研評價方法和方法創新發展等強大功能和應用價值。
本文基于海量文獻和專利數據以及產業體系詞庫,以中國42所雙一流大學為例,進行不同層級產業體系的高等院校排名,從而有針對性地反映各高校的研究重點,了解同一產業領域各高校的發展水平,從而協助技術轉移參與方確立合作目標和重點。
本文研究對象為國內一流高等院校,所以選擇2017年9月教育部、財政部和國家發改委聯合公布的世界一流大學名單,其中A類36所,B類6所,共計42所高校。
本文排名的基礎數據主要分為三大部分:國家知識產權局的專利數據,愛思唯爾的SCI文獻數據,以及自主構建的產業詞庫。前兩個數據來源均為ElasticSearch數據庫,提供按關鍵字查詢的全文搜索功能。產業詞庫是利用我們團隊之前的NLP相關算法和詞庫構建流程[16],以《戰略性新興產業重點產品和服務指導目錄》(2016版)的8大產業體系為基礎,填充相關產業詞。表1為部分產業體系結構和中英文的示例產業詞,ID號的不同長度代表產業體系的等級,長度為3是1級,為5是2級,為7是3級,為9是4級。

表1 部分產業體系結構和中英文的示例產業詞
檢索式的構建方式為專利或者文獻的標題和摘要包含產業詞庫的目標詞,同時專利申請人和文獻發表單位包含目標高校名稱,將文獻時間范圍確定為2016—2021年,形成作為高校排名的指標來源數據集。其中,由于涉及英文SCI文獻,調用百度翻譯api自動生成英文版本的產業詞庫;目標高校名稱利用愛思唯爾的機構列表,為42所國內高校生成不同格式的英文名稱和簡寫,以確保查全率;通過爬取SCI文獻涉及期刊的最新影響因子和中科院分區的信息,作為細節指標的補充。
基于產業詞庫的高校排名主要綜合兩個維度:一是專利維度評分,二是SCI論文維度評分。選擇這兩個維度,是因為專利和論文是高校公開的最為主要和重要的研究成果,從數據的可獲取性和客觀性上是最優選擇。評分策略是以專利/SCI論文的數量作為基礎,輔以相關反映研究成果質量的比例系數進行調整,以達到質量和數量相結合的目的。
專利維度的評分策略如下,首先是式(1)的專利數量分數,利用數據歸一化的方式,將專利數量分數控制在50~100分之間,這樣較為符合評分習慣。接著式(2)和式(3)分別計算發明專利比例系數和有權專利比例系數,其中發明專利具有更高的技術價值和研究價值;有權專利是現在能夠產生價值的專利,這兩個系數都直接反映了專利的質量,最后式(4)將前三個量相乘,獲得專利維度評分。

式中,50為最低分和高低分之差。

同理,SCI論文數量的評分策略如下,首先是式(5)的經過歸一化的SCI數量分數,接著式(6)~式(8)分別計算中科院1、2區論文數比例系數、刊均影響因子系數和篇均被引頻次系數,其中式(6)的系數代表了高校優質論文的占比,式(7)~式(8)則代表了論文的平均水平,這三者都反映了論文的質量,最后式(9)將這前四個指標相乘,獲得SCI論文維度評分。

式中,50為最低分和高低分之差。


最后式(10)將專利維度評分和SCI論文維度評分按7:3的比例進行融合,因為是基于產業體系的高校排名,專利所包含的信息以及其相較于論文與產業有更強關聯性,所以專利維度評分的比例更高。

雙一流高校排名通過詞-產業體系對應表,形成詞—文獻資源—產業領域的鏈條,通過上述的評分策略生成各產業領域的高校排行榜。該高校排名流程方法將傳統寬泛的高校排名,轉變為細分產業領域的排名,由資源下載、文本分詞、數據處理和結果呈現4個模塊組成,圖1為高校排名的具體實施流程,每個模塊的具體功能如下。

圖1 高校排名的實施流程
資源下載模塊:該模塊依據檢索策略和評分排名所需的字段信息,通過Python程序,批量構建ES檢索式,完成文獻檢索和結果數據保存,形成目標資源數據集。
文本分詞模塊:該模塊以產業詞庫為分詞詞典,利用jieba庫,對標題+摘要+關鍵詞的文本內容進行分詞。同時根據高校地址信息,形成各目標高校的文本分詞結果。
數據處理模塊:該模塊利用產業詞庫的詞-體系對應關系,通過調節參數n和m來確定重合詞和產業領域數量,其中,n代表選取詞頻Top-n的詞來表示文獻內容,m代表選取Top-m的產業領域來表示高校涉及的研究重點。該預處理流程旨在降低數據特征維度。
結果呈現模塊:該模塊針對不同層次的產業體系,計算得出與之相關的產業詞詞頻、專利數量和SCI論文數量等基本數值,以及發明專利比例等細化指標,最后根據各指標融合計算規則,計算出最終評分,形成高校排行榜。
產業詞庫的應用在四個模塊中都有所涉及。后期可以通過調整詞庫,復用整個實施流程,實現針對不同領域體系的高校細分排名,此外,可調參數的設置使得整個排名流程更加靈活。
將1級的8個產業體系排名取平均數來反映高校的平均水平,表2反映了排名前列的高校情況,其中清華大學平均排名最高,在6個產業中排名第1,在所有8個產業中也都排名前3,優勢非常明顯;排名第2的浙江大學,在各個產業領域的表現非常平衡,都能進前10。此外,由于是產業相關領域,工科強勢的高校,如哈爾濱工業大學、上海交通大學等,平均排名都比較靠前;其他的高校則有重點的優勢產業領域,如電子科技大學在新一代信息技術產業、天津大學在新能源汽車產業等。

表2 平均排名前列的高校情況
為進一步說明本文構建的高校排名的科學性,本文與軟科學科排名進行對比,選擇較為相似的材料科學與工程和新材料產業,前10排名結果如表3,總共有7所高校同時進入兩個排名前10,說明本文1級的高校排名與較為權威的高校排名差異不大。

表3 本文高校排名和軟科排名的對比
然而正如之前提到,現階段的高校排名無法滿足更加細化的排名,但基于本文的產業詞庫可以實現上述目標。以新材料產業為例,3級體系中有稀土功能材料和高性能纖維及復合材料,表4展示了3級產業體系的高校排名,在稀土領域,排名靠前的中國科學技術大學和北京大學都有稀土相關的學院或重點實驗室;上海交通大學在“稀土之都”內蒙古包頭成立了稀土研究院;在新材料領域排名不高的廈門大學,在細分的稀土領域可以排在第四,可能的原因是其和中國六大稀土集團之一的廈門鎢業聯合建立了研究所。在高性能纖維及復合材料領域,排名第4的山東大學參與建設了山東省高性能纖維及其復合材料協同創新中心,所以細分產業領域的排名具有一定的合理性。

表4 3級產業體系的高校排名
本文所構建的基于海量文獻數據和產業詞庫的高校排名方法,不僅能夠以更簡潔、更流程化的方式形成高質量排名高校,還能將高校研發實力定位到細分產業領域,為資源有效配置和推進技術成果產業化進程提供有力依據。■