李小龍,張海玲,劉 洋
(1.湖南工商大學大數據與互聯網創新研究院;2.湖南工商大學新零售虛擬現實技術湖南省重點實驗室,湖南長沙 410205)
在大科學時代,科學研究具備專深化、異構化、復雜化等特點,研究方向一致且知識結構互補的科研人員之間的合作成為科研產出的必備條件。產學研合作創新的重要構成為科研合作,《中國科研信息化藍皮書2015》指出,在知識經濟時代,“單打獨斗”的科研模式將被淘汰,協同創新模式成為主流。在提升凝聚創新思想、科研質量、培養綜合型、創新型科研人才方面,科研合作意義重大,且有助于實現重要學科領域的跨越式發展[1]。
科研合作有正式和非正式兩種主要形式。正式的科研合作指個人、機構和學校之間傳統的人事合作關系[2]。非正式合作是由科研人員自發形成的科研協作。績效是組織對其目標達成度的一種衡量,用以呈現最終運作成果[3-4]??蒲谐晒漠a生涉及了正式與非正式兩種合作模式,且其數量和質量最能體現科研合作績效。利用科研論文中涵括的信息,構建科研合作網絡,能在一定程度上對該領域學術科研交流的發展速度與質量深入探究,因此本文基于論文合作情況對科研合作進行分析。高績效科研合作網絡有助于增強科研實力,有效整合科研資源。建設高績效科研合作網絡,對于加強科研人員的核心競爭力,提升其自主創新能力和協同創新能力,具有重要的意義。
科研合作網絡是由科研人員基于研究任務自組織形成的社會網絡,實際上是屬于復雜網絡的研究范疇。復雜網絡的研究已經取得了很大的發展,在許多現實網絡中都存在拓撲結構[5-6]、小世界和無標度現象[7]。復雜網絡被廣泛應用于非均質傳播[8]、意見傳播[9]、團隊協作[10]、社區檢測研究[11-12]。由于學術論文呈指數級增長,研究科研合作已成為復雜網絡領域的一個關鍵問題。大多數研究集中于合著網絡的構建[13-14],國際或跨學科合作的分析,社區檢測的算法研究[12],以及科研合作中的鏈路分析和動力學分析。以上大部分研究缺乏對現實科研合作網絡的數據和深入分析,如何通過網絡結構的特征構建具有高績效性的科研合作網絡,獲得具體的指導仍然存在局限性。
針對科研合作網絡的研究領域,20 世紀60 年代,著名科學學家Price 便開始研究科研合作問題。早期的研究主要運用信息計量學方法(Informetrics)對合著現象的數量特征進行探討,但缺乏對于節點間的結構與隱含特征挖掘的深入研究。2001 年,Newman針對合著關系,首次采用社會網絡方法(Social Network Analysis,簡稱SNA)進行分析研究,構建了合著網絡關系圖。為研究社會網絡中不同節點間有何關聯和量化關系,進一步揭示網絡的關系結構,研究者們利用SNA 對其進行深入探究[15],眾多研究者鐘情于SNA 直觀靈活的可視化效果。Liu 等[16]應用SNA 對數字圖書館領域合著現象進行分析,并指出該方法適用于合著問題的分析。郭崇慧等[17]對“985 工程”高校校際科研合作網絡進行了研究,運用SNA 從整體、個體和社區三個方面分別對國內和國際期刊校際科研合作網絡的科研合作網絡圖、發文量和合著率、節點度、點介數、核心-邊緣結構和社區結構進行了對比分析。李亮等[18]從中心性分析、凝聚子群分析以及核心—邊緣結構三個角度,對《情報學報》期刊的合著網絡進行了實證研究。
以上研究一般采用SNA 對1 種類型節點的靜態小規模有界網絡進行分析。實際上,科研合作網絡是一個時序復雜網絡[19]。隨著研究的深入,有兩個問題需要解決:(1)論文信息具有復雜多樣性,對科研合作問題的研究必須從多個關系層面共同觀察;(2)SNA 在分析網絡演變動因及趨勢方面具有局限性,在理解、認識復雜動態網絡的多模態系統結構時具有明顯的不足[20]。基于以上原因,動態網絡分析法(Dynamic Network Analysis,簡稱DNA)引起了眾多研究者的關注。DNA 包含了傳統社會網絡分析、關聯分析(link analysis,簡稱LA)和多智能體系統(multi-agent systems,簡稱MAS)的理論與方法,是一個新興的研究領域。其中,元矩陣(metamatrix)是對實體與實體之間多元關系的表示。元矩陣中的實體包括人、知識/資源、事件/任務和組織,相應地在DNA 網絡中,包括主體(agent)、情景(event)、知識(knowledge)、位置(location)、組織(organization)、資源(resource)、任務(task)等。一個復雜的動態網絡中可以同時存在多種節點和不同性質的邊,元矩陣構成如表1 所示。
劉彤等[20]利用DNA 對北京地區納米技術領域的專利構建了多屬性專利網絡,分析了專利合作網絡的演變和動態特征,確定了網絡中潛在的重要關系和變化。翟東升等[21]建立了專利數據元矩陣,利用動態網絡分析工具ORA 挖掘專利信息,研究了LTE TDD 技術產業的現狀及中國企業面臨的問題。楊仲基等[22]研究了中國石墨烯產業專利合作網絡特征及演化態勢。
以上研究有助于科研合作領域研究方法的發展,并豐富了該領域的研究實踐。但已有研究還沒有對高績效的科研合作網絡進行深入剖析,揭示隱含的共性特征。樣本的選取也主要集中在同一個期刊,或者相同的學科領域。因此,深入研究高績效科研合作網絡獲得的重要創新績效,即發表的科研合著論文情況,通過利用動態網絡分析法構建科研合作網絡,挖掘不同領域高績效科研合作網絡的潛在的共性特征,可以揭示出不同領域開展高績效科研協同創新行為的相似規律。為此,本文以2017 年CNKI 綜合指數排名前五的學者為核心組建的高績效科研合作網絡為研究對象,設計web 爬蟲自動收集和遴選2006—2017 年間這些學者們發表的國內期刊論文作為樣本數據。運用動態網絡分析法,構建科研合作網絡的元矩陣和網絡模型,生成包含合著網絡和關鍵詞網絡的、帶含期刊論文影響因子權重的科研合作網絡,利用連邊粗細與節點大小直觀地對網絡進行可視化描述。從網絡總體結構、網絡整體屬性和個體屬性等三個層面揭示不同領域高績效科研團隊的共同特性,并按照三個時間段,探究其在評價時間內的演化規律。

表1 元矩陣的基本構成
本文的數據樣本均取自CNKI 中國學術期刊網絡出版總庫。CNKI 已經發展成為集期刊雜志、博士論文、碩士論文、會議論文、報紙、工具書、年鑒、專利、標準、國學、海外文獻資源為一體的、具有國際領先水平的網絡出版平臺,中心網站的日更新文獻量達5 萬篇以上。
數據樣本檢索時間為2018 年7 月24 日。本研究選取2017 年CNKI 高??蒲谐晒y計分析與評價數據庫中,綜合指數排名前五的學者為核心的科研合作網絡作為研究對象。由于此綜合指數的評價依據為CNKI 收錄的國內期刊論文,周期為2006—2017 年,故遴選的數據均來自CNKI 中,2006—2017 年間收錄的國內期刊論文。顯然論文質量與學者在合著中扮演的角色各有差異,但為了構建全面的以這五位學者為核心的科研合作網絡,本研究只剔除了信息不全的數據,保留了該核心學者參與的所有CNKI 收錄的論文。
在作者發文檢索中精確搜索作者的姓名與單位,年限限定為2006—2017 年,采用Java 語言編寫web爬蟲程序,獲取了檢索結果中每篇論文的特征信息:篇名、作者名稱、關鍵詞、參與機構與發表年月,并通過web 爬蟲,進一步收集了每一篇論文所發表期刊對應的復合影響因子,用以構建含權的合著網絡與關鍵詞網絡。經數據清洗,去除信息不全的數據,有效論文共計2 888 篇,按照時間將本文收集的論文合作數據均分為3 個時間段進行分析,每個時間 段4 年:2006—2009 年、2010—2013 年、2014—2017 年。最終選出作為案例的5 位學者樣本基本信息如表2 所示。

表2 學者樣本基本信息表
根據論文數據的特點構建基于動態網絡分析方法的二重元矩陣。首先將論文數據歸為以下兩類:(1)將作者視為分析的主體可以構建論文合著網絡;(2)將期刊論文數據中的關鍵詞作為知識,關鍵詞能代表研究的重點難點和熱點,以及研究領域的主要關注問題,故構建關鍵詞網絡對論文設計的主要知識進行探究。
在同一篇論文中署名的先后順序通常與相應的學者對論文的貢獻度有關,為了方便進行元矩陣的構建,本文假定在同一篇論文中,作者之間的聯系是相互的,合作關系是平等的,不因署名先后順序對合作關系進行判定。如圖1 所示,作者×作者矩陣為合著網絡,關鍵詞×關鍵詞矩陣為關鍵詞網絡。利用這兩個矩陣構成的二重元矩陣對論文數據進行分析,深入探究雙重科研合作網絡,挖掘高績效科研合作網絡結構及其內容的演化規律所隱含的共性特征。

圖1 論文數據二重元矩陣
傳統的SNA 主要研究1 種類型節點的靜態小規模有界網絡,而靜態網絡數據的不全面性會導致實際的時序復雜網絡丟失大量有價值信息,因此對網絡的動態變化深入研究具有重要意義。本文引入時間演化因素,基于元矩陣建立雙重的動態科研合作網絡:含權A-A 動態合著網絡、含權K-K 動態關鍵詞網絡。其中A 為作者(Author)、K 為關鍵詞(Keyword)。Borner 等[23]學者曾提出一種合著網絡邊權分析方法,不僅考慮了合作的次數還考慮了合著的效果。本文主要研究高績效的科研合作網絡,為了突出高績效性,不能僅考慮科研人員間的合作頻次,也應將合著效果納入考量。因此本研究在構建網絡時考慮用期刊的影響因子表示合著的效果,顯然在高影響因子期刊上發表的論文比在影響因子低的刊物上投稿帶來學術影響力更為顯著。本文中網絡連邊的權值即:作者之間所有合著論文發表的期刊在CNKI 中影響因子的疊加。
4.2.1 含權的A-A 動態合著網絡
4.2.2 含權的K-K 動態關鍵詞網絡

4.2.3 網絡屬性指標
網絡屬性指標分為整體和個體屬性指標。網絡整體屬性指標是指描述整個網絡規模、緊密程度等方面的指標,本文主要研究含權平均度、平均路徑長度、聚類系數。
無權網絡中,節點的度表示該節點與網絡中其他節點連接的次數,通常節點的度越高表示該節點與網絡中的其他節點聯系越緊密且相對越重要。含權網絡中,節點 的度稱為強度[24]。本研究為了考慮合著論文的效果,用論文所在期刊的影響因子進行衡量,故強度定義為所有與節點 相連的邊權值之和,如公式1 所示。


平均路徑長度 描述了網絡的整體性質,表示網絡中所有節點對之間的平均最短距離,節點間的距離是指從一個節點出發到達另一個節點所要經過的邊的最少數目[25]。其實質是網絡傳遞信息所需要經過中間節點的平均個數。若平均路徑長度小,則網絡內部信息的傳遞較為暢通,網絡運行效率高[2]。聚類系數CC 可計算網絡中與同一個節點相連的兩節點之間是否相互連接的平均概率,是對網絡集團化程度進行衡量的重要參數[3,25]。
網絡個體屬性指標主要是中心性指標??梢杂脕碓u價網絡中個體節點的重要與否、地位優越性及其聲望等[26]。常用的中心性指標有度中心性接近中心性和中介中心性三個指標,本文利用這三種指標對高績效的科研合作網絡中的個體進行測量,得出個體在網絡中的不同重要程度。
本文從網絡總體情況、整體屬性和個體屬性三個視角對2017 年CNKI 綜合指數排名前五的學者為核心的科研合作網絡,分3 個時間段進行分析。
研究科研合作網絡,傳統上是研究學者在同一篇論文中共同署名的問題。本文基于DNA,將科研合作網絡細化為合著網絡和關鍵詞網絡構成的雙重網絡。
表3 與表4 中列出了合著網絡與關鍵詞2006—2017 年間的網絡規模、連接次數與網絡密度的數值,有助于對其科研合作網絡總體情況的把握。

表3 2006—2017 年合著網絡總體情況

表4 2006—2017 年關鍵詞網絡總體情況
由表4 的統計結果可知三個時間段內,前五學者為核心的合著網絡各有變化,但每個時間段網絡規模變化均相對穩定,且網絡密度也基本穩定。五位學者雖各處于不同研究領域,但其合作網絡內部保持著十分明確的穩定合作關系。關鍵詞網絡的網絡規模相比于合著網絡更大,表4 中結果顯示,以序號1、2、3、5 的學者為核心的團隊目前的關鍵詞數量相比于十年前都有大幅度的減少,但網絡密度均大幅增加,研究呈現出趨向專、深、精的可能性,表明研究者們嘗試過眾多新知識和技術后,有摒棄部分對原有領域研究意義或貢獻相對較小的理論技術的傾向,這為了解科研合作的實際情況提供了一個新的視角與理論依據。
平均度、平均路徑長度和平均聚類系數是三個重要的整體屬性指標,本文中的平均度進一步考慮了節點間的權值。表5 展示了不同時間段內,合著網絡和關鍵詞網絡的這3 類屬性指標的具體數值。此外,還對不同網絡分階段的流動性進行了相應的統計分析。

表5 2006—2017 年合著網絡整體屬性指標
三個時間段內,前五學者為核心的合著網絡的交流與聚類情況可從表5 中得知。聚類系數反映了整個網絡的聚集性,聚類系數越大說明網絡的聚集性越好,在現實網絡中這種特性表現的非常明顯。本文構建的合著網絡中,可以清晰地看出任一時間段,平均聚類系數均高于0.800,充分說明高績效的科研團隊內部聚集性很強,集團化程度高。平均路徑長度均低于2,表明團隊內部的信息交流成本低,易于團隊內部的溝通合作。
以序號為1 的學者岑可法為例。分時間段,采用Gephi軟件對以岑可法為核心的合著網絡進行可視化,以連邊粗細和節點大小更直觀地顯示節點間的合作效果,圖中節點越大顏色越深表示該節點度中心性越高,由于連邊權值采用影響因子疊加,故連邊越粗表明實際合作效果越好,不僅僅由合作次數進行判別。由圖2 可以看出網絡整體連通情況良好,除岑可法外還存在幾位核心的成員,構成了不同的小團體,但成員之間的溝通仍然緊密。表5 中的三類指標呈現出一定的相關關系,含權平均度可以在一定意義上反映出合作效果,含權平均度越高表明合作效果越好。由數據可知,含權平均度增長時,聚類系數呈現上升趨勢,平均路徑長度數值則減小。進一步說明,高績效的科研合作網絡中,學者間交流緊密,內部聚集性較強,因此應采取相應措施降低內部的交流難度,鼓勵科研人員積極參與協同創新。

圖2 岑可法2006—2017 年合著網絡
根據表6 分析2006—2017 年間的科研人員整體流動情況。流動學者表示在此時間段內新加入或退出的學者數量之和。由表6 可知,三個時間段內,固定學者數量與流動學者數量均相對穩定,進一步說明高績效科研團隊的整體結構具有穩定性。流動學者數量在整體人員數量中所占比例大,與目前國內高校與科研機構中,以導師帶研究生進行科學研究的模式相吻合。研究生學習年限的限制是導致人員的流動性較大的主要原因。另外,每階段的人員變化率均保持在0.800 以上,但仍有一部分人員是基本穩定的,說明團隊中有一批固定學者的存在保證了高績效科研合作網絡整體結構的穩定。此現象表明在構建高績效科研合作網絡之初,除了以權威學者為核心外,更應當構建好網絡的核心骨架,選擇一批相對固定的學者將成為穩定高績效的基礎保證。

表6 2006—2017 年合著網絡整體階段性人員流動概況
表7 的結果顯示了在三個時間階段內關鍵詞網絡的流動變化情況。流動關鍵詞表示在此時間段內,新增或減少的關鍵詞數量之和。由表7 中數據可知,各時間段流動關鍵詞數量大,并且關鍵詞的變化率均維持在0.890 ~0.940 的范圍內,表明每個高績效的科研合作網絡對于所研究的領域都在不斷引入新的知識,保持著高度的創新性并勇于嘗試,與表4中關鍵詞網絡的整體變化趨勢相吻合,進一步表明研究者們在不斷探究新技術與理論,有擯棄部分對原有領域研究意義或貢獻相對較小的理論技術的可能。另外,關鍵詞的流動規律與學者的流動規律基本保持正相關,表明新的科研人員加入和退出與創新研究有互相影響的可能性。

表7 關鍵詞網絡整體階段性關鍵詞流動概況
在網絡個體層次分析上,度中心性、中介中心性和接近中心性分別反映了網絡中個體與其他節點的聯系能力、控制其他節點的能力和不受其他節點控制的能力。本文采用了這三類中心性指標來衡量個體的重要性。表8 中以五位核心學者的三類指標為例,并按照時間分段考察,反映其演化情況。

表8 2006—2017 年核心學者個體屬性指標
因本文研究對象為以排名前五的學者為核心構建的科研合作網絡,故五位學者在任意階段的接近中心性均為1。表8 中結果顯示,三個時間段內,每位學者的中介中心性都很高,均保持在0.800 ~0.950 的區間內,說明核心學者在團隊中起到了交流橋梁的關鍵性作用,并能夠強有力地對其他節點進行控制。
經數據分析可知,五個團隊的合著網絡以及關鍵詞網絡個體屬性指標排序情況基本一致,由于文章篇幅限制,選擇排名第一的岑可法合著網絡為例進行說明。表9 為三個中心性指標在合著網絡中,不同時間段內的排序情況。三個中心性指標排名第一均為岑可法,因此該學者在團隊中的核心地位毋庸置疑。度中心性、接近中心性和中介中心性從不同的角度反映了合著網絡中科研人員的重要程度,由排序數據可知,三類指標變化趨勢基本一致,呈正相關關系。

表9 2006—2017 年合著網絡個體屬性指標排序(以岑可法團隊為例)
本文根據2017 年CNKI 高??蒲谐晒y計與評價數據庫對國內學者的科研評價排名,選取前五的學者,收集整理五名學者在評價期內(2006—2017年)發表的2 888 篇論文,以此為基礎利用動態網絡分析法,構建了由合著網絡和關鍵詞網絡共同構成的科研合作網絡。通過對構建的雙重科研合作網絡進行分析,得出以下主要結論,并提出了相應的建議:
(1)高績效科研合作網絡注重研究深度且積極探索新理論。對合著網絡和關鍵詞網絡的統計分析結果表明,以綜合指數排名前五學者為核心的合著網絡在不同時間段雖各有變化,但每個時間段網絡規模都相對較高且網絡密度變化穩定,對應的關鍵詞網絡規模均明顯縮小,但網絡密度大幅增加,且關鍵詞變化率均維持在0.890 ~0.940 的范圍內,表明高績效的科研合作網絡在進行科學研究時有趨向與專、深、精的可能性。
構建高績效的科研合作網絡時,除了關注新技術、新理論與研究的前沿理論外,更應及時挖掘出對本領域推動較大的研究點進行深入研究,從而達到提升本領域研究深度的目的,產出高質量的科研成果,切忌只求新技術但不求實際科研效果。
(2)高績效科研合作網絡結構穩定,成員聚集性強,且擅于溝通協作與新知識的引入。網絡整體屬性指標分析結果表明,各個時間段內網絡的平均聚類系數均高于0.800,說明高績效的科研合作網絡內部聚集性很強。平均路徑長度均低于2,表明團隊內部的信息交流難度低,易于團隊內部的溝通合作。含權平均度與聚類系數呈現正相關關系,與平均路徑長度負相關,說明高績效性需要團隊內部的團結與合作交流,盡量降低團隊內部溝通的難度和成本。從科研人員流動情況與關鍵詞流動情況可看出,流動科研人員數量在整體人員數量中所占比例很大,每階段的變化率均保持高于0.800,但一批固定學者的存在保證了高績效科研團隊整體結構的穩定。關鍵詞的流動情況與科研人員流動情況表現出了較強的正相關關系,變化規律基本一致,對關鍵詞網絡的整體屬性指標分析進一步表明,固有的研究領域中不缺乏新知識的加入,這保證了科研團隊在相對確定的研究領域內始終能夠保持團隊的科研創新性。
從科研管理的角度看,若要構建高績效科研合作網絡,需要選擇好主心骨和一批相對固定的科研人員,以保證合作網絡在人員流動大的情況下結構仍然穩定,并應采取相應措施鼓勵科研人員的溝通與交流合作。例如加強科研交流的信息化平臺服務,從面對面為主的交流方式進一步利用線上的科研學術交流,有針對性的增強科研人員之間的交流。另外,科研管理部門應引進新的科研人員以促進科研合作過程中產生更多的創新,并鼓勵在原有的研究領域中不斷融合新的方法與思想,進行多領域知識的融合,拓寬研究的知識面,加大研究的廣度,這將有助于在已有科研領域產生新的發現,推動科學研究向前發展。
(3)高績效科研合作網絡中存在核心學者引領學科發展,資源控制能力強。微觀的中心性指標分析結果表明,在三個中心性指標下,每個團隊排名第一的均為綜合指數排名前五的學者,以合著網絡的三個個體屬性指標排序為例,可分析出,三個指標之間存在著很強的正相關關系。
從科研管理的角度看,核心學者起到了網絡中交流橋梁的作用,并能夠強有力地對其他節點進行控制,三個中心性分別代表了節點在網絡中所擁有的不同的能力。通過對中心性排序的分析,可得知一個學者的合作頻數越大,則該學者處于科研合作網絡中中心位置的可能性也越大,同時該學者對科研資源的掌控能力也就越強。在科研部門對科研人員進行管理時,除了要多引進新的科研人員以促進創新外,也應采取措施重點保護此類核心學者在網絡中的穩定,例如加大科研獎勵力度、提升相應行政職務、創造更好的科研實驗環境等,這是保證科研合作網絡穩定高績效的重要環節。
本文尚存在以下問題有待進一步的探索:(1)對科研合作網絡的構建提取了論文中的作者信息和關鍵詞信息,未考慮機構間合作、地域分布等更多樣的信息,在某種程度上簡化了科研合作網絡的多重屬性;(2)假設在同一篇論文中排名先后順序不影響作者對論文的貢獻與作者間的交流,而實際情況中作者的排名先后對論文的貢獻度是不同的;(3)本研究發現合著網絡與關鍵詞網絡的流動變化情況呈正相關的規律,但文中尚未給出具體的量化模型,這是接下來的研究中可以進一步解決的問題。