王菲菲,陳曉璇,楊辰毓妍
(1.北京工業大學 經濟與管理學院,北京 100124;2.中國醫學科學院 醫學信息研究所,北京 100020)
基因編輯是指對基因組進行定點修飾的一項新技術,其中被業內譽為“基因剪刀”的CRISPR基因組編輯技術曾入選《科學》雜志公布的十大科學突破。利用該技術,可以精確地定位到基因組的某一位點上,在這位點上剪斷靶標DNA 片段并插入新的基因片段。[1]現如今,基因編輯已經投入基因功能研究,基因治療,構建模式動物以及改造和培育新品種等方面,取得了良好的成績。在未來的發展中,基因編輯技術必將成為生命科學和生物醫學等領域研究與應用的重要工具,《科學》雜志稱其“將會給許多領域帶來持久的興奮和樂觀”,“勢必對研究產生革命性影響”。
在大數據背景下,科研工作的合作不斷增強,科研人員的合作關系深刻地影響了科學的發展,合作成了研究中的普遍現象,對于新興的基因編輯領域來說更是如此。因此,通過對合作規律的研究和分析,我們能更全方位地把握某一領域發展軌跡,進一步探索現有結構,預測未來發展方向。有的科研團隊是作為一個研究實體而存在的,但是更多的科研合作從外部難以識別,科學研究中的合作往往是通過產出論文的共同署名來體現的。[2]因此,在合作網絡視角下,通過對合著論文進行計量分析,利用社會網絡分析法和可視化工具發現團隊,研究團隊合作模式成為一種常用手段。[3]而如何衡量合作模式的優劣則通常利用績效測度的方法,即研究怎樣改變與利用影響團隊表現的因素來提高團隊績效,大大豐富了科研團隊的研究內容,為提出可行建議提供依據。
本文將借鑒前人經驗,對基因編輯這一熱點領域中科研人員的合作模式進行研究,對團隊績效進行測度,以期為該領域人員選擇合作對象和合作模式提供一定參考,也有助于進一步認識基因編輯領域當前研究脈絡,把握未來的發展方向。
本研究的數據樣本來源于“Web of Science”數據庫,按“gene edit* or crispr”為主題進行檢索,檢索時間段為1980年至2015年,檢索時間為2015年12月25日。共檢索文章10503篇,截取article,proceedings paper,review,book review四種文獻共9020篇為樣本進行分析研究。
本文運用社會網絡分析法進行合著網絡中科研團隊的發現,探索團隊的網絡結構,確立其產出績效因素,提出對科研團隊建設的有效建議。社會網絡分析法是對社會網絡中各種關系結構及其屬性加以分析的一套理論和方法,它主要分析的是行動者之間的關系模式。[4]該方法已經被證實可以應用于作者合作關系分析以及網絡結構闡釋。[5-6]本研究使用SPSS和Ucinet作為數據分析和可視化工具。
發文量是衡量一個研究者科研水平和學術能力的重要指標,一個領域的核心作者自然是在該領域產出較多,取得較高成就的帶頭人,故而在確定數據樣本之后,將文獻的所有作者提取出來。在此過程中筆者發現在基因編輯領域發文量較大的作者中中國研究者占很大比例,另外考慮到國外作者在署名時姓名縮寫的問題,故而為了保證樣本數據的準確性,對發文量大于等于10篇的作者共210人進行全名-機構人工比對消歧的方法,最終確定該領域173位核心作者如表1所示。

表1 發表10篇以上的核心作者群
本文根據社會網絡分析方法對基因編輯領域作者合作網絡進行如下幾個步驟的分析:選定有173位作者構成的核心作者群作為研究樣本;利用VBA編程自動構建核心作者間的合作矩陣;使用NetDraw繪制合作網絡圖;根據凝聚子群分析結合網絡圖確定核心作者團隊;進行網絡特征分析;對每個團隊進行績效測度指標計算及分析。
由于本文主要研究團隊識別及其績效測度,故已經對圖進行了進一步處理,排除了孤立點,使得圖像更加清晰,但是為了保證研究準確性,進一步使用了凝聚子群的方法對團隊識別進行進一步排查。
該網絡由基因編輯領域核心作者共同發文而形成的一個個子網組成,雖然有較大的橋梁型結構網絡以及一個網架型網絡,但是整體而言連通性不夠好。網絡中每一個頂點代表一個該領域研究人員,頂點的大小和作者的發表論文數量成正比,圓點越大,該作者產出越多;頂點之間的連線表示作者之間的合作發表文章的關系,線條的粗細與研究人員合作發表文章的頻次成正比,線條越粗,研究人員合作發表論文頻次越高。[7]大型橋梁型網絡和網架型網絡屬于高產作者聚集較多和合作頻次較高的網絡,但是該大型橋梁型網絡中橋梁節點較多,故采取凝聚子群法對網絡進行進一步劃分與合作關系網絡圖進行對比分析。
為了確保團隊識別的準確性,以及排除在構建可視化網絡時作圖的誤差,本文還將凝聚子群法中N-clique法運用于團隊發現的研究中。N-clique即n-派系,是指如果在一個團隊中,任何兩位作者之間在整體交往中的距離最大不超過n,就稱為n-派系。[8]將當n值為2,最小節點數為3時得到的多個團體的作者進行合并處理,可進一步歸結為12個小團體,這也與NetDraw繪制的社群圖一致,分別為:
團隊1網架型:Gregory,PDHolmes,MCUrnov,FD Rebar,E J Miller,J C Wang,J B Doyon,Y Zhang,L
團隊2三角型:Harris,R S Neuberger,M S Petersen-Mahrt,S K
團隊3橋梁型:Araya,A Maeder,M L Reyon,D Cathomen,T Blanc,V Joung,J K Davidson,N O Navaratnam,N Voytas,D F Anant,S Carlson,D F
團隊4橋梁型:Stuart,K Salavati,R Panigrahi,A K Read,L K Lukes,J Benne,R Sloof,P
團隊5網架型:Marusawa,H Chiba,T Kinoshita,K Honjo,T Muramatsu,M Nagaoka,H
團隊6網架型:Jantsch,M F Levanon,E Y Eisenberg,E Rechavi,G Amariglio,N
團隊7網架型:Higuchi,M Maas,S Seeburg,P H Sprengel,R
團隊8三角型:Gallo,A Keegan,L P O’Connell,M A
團隊9三角型:Gualberto,J M Bonnard,G Grienenberger,J M
團隊10三角型:Vartanian,J P Wain-Hobson,S Henry,M
團隊11橋梁型:Weissman,J SDoudna,J A Staals,R H J Jore,M M Wiedenheft,B Severinov,K Westra,E R Fineran,P C Semenova,E Brouns,S J J van der Oost,J Makarova,K S Wolf,Y I Gasiunas,G Charpentier,E Horvath,P Banfielf,J F Siksnys,V Fremaux,C Barrangou,R Moineau,S Koonin,E V Zhang,F Terns,R M Li,H Terns,M P
團隊12橋梁型:Prangishvili,D She,Q X Shah,S A Garrett,R A Backofen,R Small,I Randau,L Okuda,K Nakamura,T Sugita,M Sugiura,M Kossel,H Maier,R M Marchfelder,A Knoop,V Brennicke,A Wissinger,B Schuster,W Zehrmann A Verbitskiy,D Takenaka,M
12個核心科研團隊,人數為3—26人,差別較大。第11和12號團隊之間聯系也較密切,也可視為一整個比較龐大的橋梁型團隊,但是根據凝聚子群分析結果,以及11號團隊中多名成員貢獻和其他團隊成員比較,把其分為由26人組成的團隊11和21人組成的團隊12。需要說明的是,根據Ucinet帶有的凝聚子群分析算法得出結果,有部分團體并未在合作圖中顯示,筆者認為這是因為為了使合作圖清晰,在作圖時使用閾值進行篩選,有的合作關系實際強度不是非常顯著,故而被排除。并且本研究利用合作發文量作為合作指標,實際科研活動中,產出并不僅僅是文章的發表,也會有專利等其他類型產出。
根據上文團隊識別結果,確定基因編輯領域存在上述12個核心作者合作團隊。根據團隊成員的數量以及成員間的關系特點,可以用三種團隊類型來描述,分別是三角型、網架型以及橋梁型。[9-10]三角型團隊是由三個作者相互合作形成的子網絡,雖然也可實現某種程度上不同學科不同知識背景的研究人員合作,但是團隊規模太小,不利于資源的傳遞和新知識的傳播。網架型團隊由多作者合著關系構成,成員之間合作非常密切,信息共享程度較高,但是缺少成員的流動,難以實現新知識的引入和融合。橋梁型團隊也是由多作者的合著關系所構成,但是實際上可以看作是多個團隊構成,但是有的團隊成員起著橋梁的連接作用,這類網絡結構有利于不同學科不同領域研究者的交流,實現跨領域運用技術,知識融合。

表2 各類型團隊分布情況
如表2所示,三種團隊類型所占比例一樣,但是明顯有兩個橋梁型團隊較為龐大,分別是團隊11和團隊12。雖然橋梁型團隊具有跨學科合作的優點,有利于小團體之間優勢互補,使得知識跨領域擴散融合,產生創新的動力,但是和其他團隊不同的龐大的規模使得有必要通過數據指標對所有團隊進行績效測度分析。
進行科研團隊合作模式的研究,最大的目的是研究哪些具體的因素影響到團隊的表現,怎樣改變這些因素才最有利于團隊進行工作,提高其產出,這也是許多研究者從不同角度探討的重要問題。本研究試圖發現網絡的結構特性對團隊效率的影響,所以采用網絡的主要特征作為輸入對象,如密度,聚類系數和距離[11]。團隊的輸出采用了5個指標,分別是團隊總發文,人均發文,總被引頻次,人均被引頻次以及文章均被引頻次,其中團隊總發文與總被引頻次屬于絕對指標,而人均發文、人均被引頻次和文章均被引頻次屬于相對指標(見表3)。[12]

表3 輸入輸出指標

(2)聚類系數:衡量網絡的聚集性,在合著網絡中表現為作者的所有合作對象里也存在實際合作關系的概率。網絡的聚類系數為所有作者的聚類系數的平均值。假設網絡中的一個節點i有ki條邊將它和其他節點相連,這ki個節點就稱為節點i的鄰居。顯然,在這 個節點之間最多可能有ki(ki-1)/2條邊。而這ki個節點之間實際存在的邊數Ei和總的可能的邊數之比ki(ki-1)/2就定義為節點i的聚類系數Ci,即
Ci=2Ei/(ki(ki-1))
整個網絡的聚類系數C就是所有節點i的聚類系數Ci的平均值。
(3)距離:兩點之間的距離指的是連接這兩點的最短路徑長度。我們把關聯圖中最長的距離叫作圖的距離。網絡中兩個節點i和j之間的距離dij定義為連接這兩個節點的最短路徑上的邊數。網絡中任意兩個節點之間的距離的最大值稱為網絡的直徑,記為D,即

分別對12個團隊的密度,聚類系數和距離進行計算,結果如表4所示。
本文采取不區分作者排名的方法計算發文量。所使用的有作者發文量,團隊總發文,人均發文,總被引頻次,人均被引頻次以及文章均被引頻次五個產出指標,結果見表5所示。

表4 三項網絡特性輸入指標計算

表5 五項團隊產出指標計算
在研究輸入指標與輸出指標的關系之前,先對輸入指標做一個相關性研究分析,然后對輸出指標也做一個類似的相關性分析,最后對團隊產出的影響因素進行挖掘。
(1)輸入指標分析

表6 輸入指標Pearson相關分析
注:**表示顯著性水平達到0.01;*表示顯著性水平達到 0.05。
網絡特性的輸入指標分析主要討論指標之間的相關性,結果見表6。。密度和聚類系數:正相關系數達到0.910,隨著密度的增加,網絡的聚類系數成急劇上升趨勢,密度側重于網絡中各個點之間關聯的緊密程度,定義為圖中實際擁有的連線數與最多可能擁有的線數之比,而聚類系數衡量的是網絡的聚類性質。密度和距離:負相關系數達到0.684,隨著團隊中作者合作強度的增加,網絡平均路徑長度快速下降。聚類系數和距離:負相關系數0.449,隨著網絡聚類程度的提高,網絡的平均路徑長度下降,但下降速度不是很高。
(2)輸出指標分析

表7 輸出指標Pearson相關分析
注:**表示顯著性水平達到0.01。
五個相關輸出指標團隊總發文量,人均發文量,團隊總被引頻次,人均被引頻次,文章均被引頻次中,團隊總發文量,團隊總被引頻次以及文章均被引頻次衡量了團隊整體績效,而人均發文量,人均被引頻次則衡量了團隊中個人的研究績效,分析結果見表7。從研究來看,團隊總發文和團隊總被引頻次,還有人均被引頻次和文章均被引頻次間存在較強的正相關關系。團隊總發文量和文章均被頻次間存在較強的負相關關系。另外通過研究我們也發現,其他指標之間的相關性并不十分明顯,比如總發文量和人均被引頻次間的正相關系數為0.022,幾乎沒有相關性,還有總被引頻次和文章均被引頻次間相關性也較弱,這也證明了引入人均被引頻次和文章被引頻次兩個指標的重要性。
(3)網絡特性與團隊產出的影響因素挖掘

表8 網絡特性與團隊產出指標Pearson相關分析
注:**表示顯著性水平達到0.01;*表示顯著性水平達到 0.05。
本文將先從單個的網絡特性指標來挖掘其與團隊產出之間的關系,分析結果見表8。
①密度:一般而言,會認為團隊成員聯系越密切越有利于科研活動順利開展并取得良好成績,但從得到的分析數據來看,密度與團隊總發文量,人均發文量之間的負相關程度較為顯著,這說明科研團隊的密度越大反而越不利于團隊產出,密度與被引頻次之間達0.652的負相關系數也說明密度的增加也不利于團隊產出的質量。而密度與人均被引頻次及文章均被引頻次之間的關系并不明顯,這說明密度很大程度上與均被引頻次無關。
②聚類系數:網絡按組群分布,組群內的節點之間有密集的聯系,而組群與組群之間的聯系則較少,這種特性類似于關系網絡中“物以類聚、人以群分”的特性,這種屬性稱為網絡的聚類特性,聚類系數可以用來定量化網絡的這種屬性。聚類系數與團隊人均發文的負相關系數達到了0.718,隨著團隊聚類程度的提升,團隊人均發文顯著下降。與傳統認知不同,聚類程度越明顯,團隊成員的合作程度越高,反而影響了團隊的產出,只有對人均被引頻次和文章均被引頻次影響不大。
③距離:距離與總發文量、人均發文量和團隊被引頻次都是正相關關系,尤其與總發文量,正相關系數達到0.800。隨著網絡距離的增大,團隊的產出反而迅速增長,而人均被引頻次和文章均被引頻次與距離幾乎沒有太大關系,這也與上文關于密度這一維度的分析相互佐證。
本文將社會網絡分析方法運用于科研團隊的識別及績效測度研究中,從網絡的角度為科研團隊的研究提供了新的思路,研究結果顯示,與傳統思路不同,在基因編輯領域內,團隊聯系的密切還有高頻的合作反而使團隊產出效率降低,即連通度高的網架型團隊結構不再適應基因編輯這一新興領域的需要,過于緊密的聯系降低了團隊成員的自由度,使人員流動程度減弱,新的知識較難傳播。通過數據推測,橋梁型這一把眾多小團體結合起來的合作模式使不同專長的團體結合在一起,有利于激發團隊成員的創造性,團隊產出績效較高。
基因編輯領域起源于20世紀80年代,興盛于最近十年,把這樣的新熱點領域作為樣本得出的研究具有較高的參考價值,得出的不同于傳統的高效合作模式也可被其他領域研究人員參考。
針對本研究對影響科研的績效因素分析,筆者認為在現今高速發展的信息社會背景下,可以從以下三個方面提高科研團隊績效:
(1)大力推進外延式團隊合作,促進不同學科方向的團隊之間的合作,提高知識的交流程度,推廣跨領域技術的運用。通過開展國內外學術會議的方式為研究者合作提供機會,設立專項基金對跨國家跨領域跨機構的團隊進行獎勵以及提供保障,也可建設多樣化學術交流平臺,以期激發研究者知識的融合和創新。
(2)在繼續保障團隊合作的基礎上,適度給予團隊成員一定的自由度,不能讓團隊成為一個封閉的組織,鼓勵團隊內部成員多對外進行交流,學習新的知識,引入更多技術和思路。
(3)建立更為完備的監督體系,如建立新的私密平臺供研究者備份研究思路和進度,對研究成果的審核嚴格要求。以往團隊之間交流較少,團隊內部抱團較嚴重的成因包括部分學術道德低下的研究者會利用交流的平臺偷取其他研究者思路和成果,建立更為完備的監督體系為團隊成員毫無顧忌對外交流起到保駕護航的作用,也為建設優良研究風氣起著推動作用。
在后續研究中,可深入研究團隊合作動機,細化團隊劃分,使研究對象更加準確;也可更加細化績效指標,如考慮計算發文量時引入賦予不同權值的方法;還可以引入更多績效測度指標,如論文影響因子,更加全面、準確地測度團隊的整體及平均績效;此外,還能引入更多維度來對團隊研究內容進行更深一步的探討,豐富該新興領域合作網絡的研究,以期對該領域研究者和合作模式研究者提供更多參考。
參考文獻:
[1]劉蓓,尉瑋,王麗華.基因編輯新技術研究進展[J].亞熱帶農業研究,2013,9(4):262-269
[2]溫芳芳.基于社會網絡分析的中外圖書館學合作模式比較研究[J].國家圖書館學刊,2014(1):76-83.
[3]李綱,李春雅,李翔.基于社會網絡分析的科研團隊發現研究[J].圖書情報工作,2014,58(7):63-70,82.
[4]李遠明,譚世明.高校科研團隊的識別與網絡分析研究[J].科技進步與對策,2012,29(11):147-150.
[5] Otte E,Rousseau R.Social network analysis:a powerful strategy,also for the information sciences[J].Journal of Information Science,2016,28(6):441-453.
[6] Kretschmer H,Aguillo I F.Visibility of collaboration on the Web[J].Scientometrics,2004,61(3):405-426.
[7]吳菲菲,段國輝,黃魯成.基于團隊識別的3D打印技術發展前景分析[J].情報雜志,2013,32(8):62-67.
[8]邱均平,王菲菲.基于SNA的國內競爭情報領域作者合作關系研究[J].圖書館論壇 2010,30(6):34-40.
[9]湯建民.學術研究團隊的可視化識別及評估方法研究:以科學學研究領域為例[J].情報學報,2010,29(2):323-326.
[10]劉蓓,袁毅,Boutin Eric. 社會網絡分析法在論文合作網中的應用研究[J].情報學報,2008,27(3):409-411.
[11]劉軍.整體網分析——UCINET軟件使用指南[M].2版.上海:上海人民出版社,2014:126.
[12] 劉璇,朱慶華,段宇鋒.社會網絡分析法運用于科研團隊發現和評價的實證研究[J].信息資源管理學報,2011(3):32-37.