張 梅,翁志輝,楊 振,林海清,黃愛萍,劉健宏
(1.福建省農業科學院 農業經濟與科技信息研究所,福建 福州 350003; 2.福建農林大學 林學院,福建 福州 350002)
我國水土保持學科領域作者合著網絡分析
張 梅1,翁志輝1,楊 振2,林海清1,黃愛萍1,劉健宏1
(1.福建省農業科學院 農業經濟與科技信息研究所,福建 福州 350003; 2.福建農林大學 林學院,福建 福州 350002)
水土保持;合著網絡;社會網絡分析;Gephi
我國水土保持領域論文發表數量逐年增加,通過作者合著網絡分析,研究該領域論文作者合著規律及科研人員合作網絡具有重要意義。利用CNKI數據庫中2006—2016年發表的水土保持領域文獻構建作者合著網絡,利用網絡分析工具Gephi分析該網絡的節點度、節點加權度、聯通子圖數量和規模,對最大聯通子圖的網絡直徑、平均路徑長度、平均聚類系數等參數做進一步分析。結果表明,我國水土保持學科作者合著網絡具有明顯的無標度性和小世界性,網絡中存在著聯系非常緊密的聚類社區。
隨著學科研究復雜程度不斷加深,科研人員之間的合作逐漸成為普遍行為,對科研合作交流的研究也日趨深入。隨著合著論文數量的增加,對合著網絡的研究引起了人們的關注。合著網絡是指將發表科研成果的研究人員視為節點、研究人員之間的合著關系作為邊,從而構成的復雜網絡[1]。近年來水土保持領域論文發表數量迅速增加[2],作為社會研究熱點,水土保持領域學科不斷細化、交叉[3],科研人員之間的科研合作日益頻繁,對其合著網絡進行研究,可以闡明水土保持領域作者合著規律,對未來水土保持領域科研人員尋找合作伙伴、提高科研水平具有重要作用。
本研究數據來源于中國知網學術期刊、碩博論文、會議論文數據庫,獲取流程是在中國知網(CNKI)數據庫中,以高級檢索中文獻分類目錄“農業科技—農業基礎科學—土壤學—水土保持”為檢索范圍,發表時間設置為“2006年10月1日”到“2016年9月30日”,進行精確檢索,檢索日期為 2017 年 4 月2日。在獲得檢索結果后對數據進行篩選,去除類似會議通知等不相關文獻和重復文獻,共獲得19 816篇論文。
將CNKI檢索結果以Refworks格式的文本數據導出,利用Python語言編寫腳本對獲取的原始數據進行預處理:從原始數據中抽取每篇論文的作者并進行去重處理作為節點,按發表論文數量賦予權值;將作者的合著關系提取出來作為邊,并按合著次數對邊賦予權值,由這些節點和邊構建無向加權的論文合著網絡。使用Gephi軟件對構建的合著網絡進行進一步分析。Gephi是一款開源的可視化的復雜網絡分析軟件,它使用3D渲染引擎實時顯示大型網絡并進行統計、過濾、修改和聚類,可以對大型復雜網絡進行互動探索和發現[4]。利用Gephi對構建的合著網絡進行可視化展示和布局調整,運用統計功能計算合著網絡的節點度、節點加權度、聯通子圖數量和規模大小,并對最大聯通子圖的網絡直徑、平均路徑長度、平均聚類系數等參數進行分析,運用復雜網絡理論對水土保持學科作者合著網絡性質進行界定。
獲得的19 816篇論文中有作者署名的論文19 253篇,這些論文共有47 055個作者。對同名作者進行簡單去重,根據同名且單位相同的規則進行第一步合并得到29 497個作者。考慮到部分作者有在不同機構工作或兼職的經歷,因此不同單位的同名作者有可能為同一人。為處理這種情況,考慮到科研工作一般有延續性,如果有同名作者以不同單位發表論文,那么在合著網絡中,這些同名作者應該有著比較緊密的聯系,很可能跟同一批合作者有著共同的合著關系,因此將數據導入到Gephi中,對合著網絡進行社區發現。社區發現功能可以找到在復雜網絡中有著緊密聯系的節點集合,如果同名作者處于同一個社區,那么就認為這兩個作者有較大概率為同一人。使用Gephi的社區發現算法[5]得到10 482個社區,將同一社區中的同名作者進行人工分析去重,處理后得到28 714個作者。去除獨著的作者6 258個,剩余22 456個作者。這22 456個作者共合著了10 815篇論文,合著論文數量占論文總數的54.58%,每篇論文的平均合著人數約為2人。
從10 815篇論文中獲取作者的合著關系共有61 173個,將兩個作者在多篇文獻中的重復合著關系進行合并得到46 132個合著關系,并根據重復次數將合著關系賦予權值,可以得到合著次數分布。結果表明,只合著過1次的作者有38 420個,合著過2次的作者為4 960個,合著過3次的作者有1 460個;合著次數最多的作者為西安理工大學的李占斌和李鵬,共合著了68次,隨后合著次數迅速減少為32次(只有一個作者合著關系),再之后合著次數緩慢減少,合著關系緩慢增加。由這些作者和合著關系可以構建出一個由22 456個節點和46 132個邊組成的合著網絡。
網絡節點的度是指該節點與其他節點連接邊的數量,節點加權度是指該節點與其他節點連接邊的權值的總和,網絡的度分布就是網絡中節點度數的總體描述[6]。在合著網絡中節點的度指的是節點所對應的作者與其他多少個作者合著過,節點的加權度指的是節點對應的作者與其他作者總共合作過多少次。使用Gephi的度統計功能可以計算出該合著網絡節點平均度為4.109、平均加權度為5.377。度和加權度最大的節點對應的作者是李占斌,節點度為251、加權度為436,說明他與251個作者有436次合著關系。
現實中的很多網絡具有無標度特性,無標度網絡的重要特征是網絡中的大部分節點只和少部分節點相連,而極少的節點和大量節點相連。無標度網絡的度分布符合冪律分布,即P(k)≈k-γ,其中k為節點的度,γ為常數,P(k)為節點的出現概率。在現實中許多大規模的無標度網絡中,γ值介于2~3之間。將Gephi統計的節點度分布導出,取雙對數進行直線擬合,并根據直線的斜率得出水土保持學科合著網絡的γ值為2.52,說明水土保持學科合著網絡為系數2.52的無標度網絡。
聯通子圖是合著網絡中的子圖,在這個子圖中所有的節點兩兩之間都是互相聯通的,即兩個節點之間存在由邊構成的通路[7]。在合著網絡中一個聯通子圖代表一個合著團體,聯通子圖的規模大小說明該合著團體的作者數量多少。通過Gephi中的“連接組件”(聯通子圖)功能得出水土保持合著網絡中共有4 051個聯通子圖,其中最大的一個由7 134個作者組成,占所有作者總數的31.77%,而10人以下的小聯通子圖的作者總數占所有作者總數的59.27%。這說明在水土保持學科領域已經有了一個大規模的合著群體,但是小規模的合著群體還是占較大比例,體現了無標度網絡的特征。
雖然水土保持合著網絡的最大聯通子圖的節點只占整個網絡節點的31.77%,但是最大聯通子圖的邊有22 744條,占整個網絡的49.30%。考慮到最大聯通子圖的邊的平均加權值應該大于其他子圖,可以判斷最大聯通子圖的作者群體發表了水土保持學科研究領域一半以上的論文,對最大聯通子圖的特征分析能反映出水土保持合著網絡的重要特征。
2.4.1 網絡直徑和平均路徑長度
在網絡中從一個節點沿著邊到另一個節點的通路叫作兩點間的路徑,在無權網絡中路徑的長度就是組成路徑的邊的數量,兩點間的最短路徑稱為距離。網絡的直徑就是網絡中所有距離的最大值,平均路徑長度是所有距離的平均值。網絡的平均路徑長度能體現出網絡中任意兩個節點的聯通特性,距離越小表明聯系越緊密。通常在大規模網絡中平均路徑長度小于10則體現出小世界性。使用Gephi計算出水土保持合著網絡的最大聯通子圖網絡直徑為21,平均路徑長度為6.99,具有小世界性。
2.4.2 平均聚類系數
在網絡中聚類系數是指與同一節點連接的節點之間互相連接的程度,平均聚類系數是用來描述網絡中節點之間連接緊密程度的系數[8]。一個節點的聚類系數等于所有與它相連的節點相互之間所連的邊的數量除以這些節點之間可以連出的最大邊數[9]。平均聚類系數就是所有節點的聚類系數的算術平均值。平均聚類系數值范圍在0~1之間,越接近1說明節點之間的聯系越緊密。使用Gephi計算出水土保持合著網絡的最大聯通子圖網絡中有31 172個三角合作,平均聚類系數為0.801,具有小世界性。
2.4.3 模塊化
模塊化度量值是目前常用的一種衡量網絡中社區穩定度的方法。使用Gephi的社區發現算法對水土保持合著網絡的最大聯通子圖進行社區發現,可以找到55個社區。說明在水土保持合著網絡的主流研究人群中有55個緊密的合作團體,最小和最大的團體分別由10個和340個作者組成。同時,得到模塊化度量值為0.925,說明這些合作團體已經形成相當穩固的合著關系。
合著網絡分析是在當前大數據時代進行文獻計量分析的一種重要的方法[10],對于研究領域熱點問題發掘、科研合作關系建立、研究人員在科研合作中的角色定位、學者或科研機構的科學評價等有著十分積極的作用[11-14]。本研究以2006—2016年我國水土保持學科領域文獻成果為研究對象,構建了22 456個節點和46 132個邊的大規模合著網絡,對度分布和聯通子圖規模等進行了分析,并進一步分析了最大聯通子圖的網絡直徑、平均路徑長度、平均聚類系數和模塊化情況,發現在水土保持學科領域中,大部分作者是獨著或者只與少數一兩個作者有過合著關系,但部分高產作者有著比較多的合著關系,呈現非常明顯的無標度性和小世界性。最大聯通子圖占整個網絡的比例較高,說明在水土保持學科領域中相當大比例的研究人員之間有著一定的聯系,最大聯通子圖的平均路徑長度和平均聚類系數計算結果說明這些研究人員之間的聯系相當緊密,這些研究人員中有著55個緊密的合作團體,而0.925的模塊化度量值說明這些合作團體已經有著比較穩定的合著關系。在后期的學科團隊建設過程中,水土保持研究人員應繼續保持現有的合作關系,提升合作層次,同時進一步加強與其他科研單位的合作,加快水土保持學科發展。
[1] PRICE D J. Network of scientific papers[J].Science,1965,149(3683):510-515.
[2] 姚立會,邊寬江.我國水土保持文獻數量分布淺析[J].中國水土保持,2003(2):23-24,48.
[3] 曹曉萍,張芳琴.《水土保持研究》2000~2005年文獻計量分析[J].中國科技期刊研究,2007,18(4):605-607.
[4] BASTIAN M,HEYMANN S,JACOMY M.Gephi: an open source software for exploring and manipulating networks[C]// International Conference on Weblogs and Social Media,ICWSM,San Jose,California,USA,2009:361-362.
[5] BLONDEL V D,GUILLAUME J L,LAMBIOTTE R,et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics Theory & Experiment,2008(10):155-168.
[6] 曹霞,崔雷.合著網絡評價指標與文獻計量學評價指標相關性研究[J].中華醫學圖書情報雜志,2016,25(2):20-26,74.
[7] 劉鵬,夏昊翔.跨學科研究領域的合著網絡演化分析——以“復雜網絡”研究領域為例[J].情報雜志,2015,34(9):85-91.
[8] 王龍.合作網絡模型結構研究與應用[D].濟南:山東師范大學,2015:19-21.
[9] 章忠志,榮莉莉,周濤.一類無標度合作網絡的演化模型[J].系統工程理論與實踐,2005,25(11):55-60.
[10] 皮進修.大數據研究領域學術合著網絡研究[D].重慶:重慶師范大學,2016:10-19.
[11] 雷雪,王立學,曾建勛.作者合著有向網絡構建與分析[J].圖書情報工作,2015(5):94-99.
[12] 笪志祥,汪紹盛,方天縱.國內外水土保持研究現狀[J].亞熱帶水土保持,2009,21(2):24-26.
[13] 張洪偉,李華,未碧貴,等.國際水土保持研究的可視化圖譜分析[J].中國水土保持,2017(3):44-50,69.
[14] 張洪偉,李華,未碧貴,等.基于WoS平臺的中外水土保持研究計量學比較分析[J].水土保持通報,2017,37(1):212-218,349.
S157;P642
B
1000-0941(2017)12-0047-03
福建省科技計劃項目省屬公益類科研院所基本科研專項(2015R1016-6)
張梅(1987—),女,福建邵武市人,編輯,碩士,主要從事農業經濟與科技信息方面的研究。
2017-06-01
(責任編輯 李楊楊)