曹瑞雪 馬英紅 李海洋 于青林,3
(1.西安工程大學理學院 西安 710048)(2.山東師范大學管理學院 濟南 250014)(3.加拿大湯姆森河大學理學院 加拿大)
學科文獻的數量變化反映學科知識量的變化情況,學科知識量的增長及其規律與文獻的增長及其規律是緊密相連的,因此學科文獻是衡量學科知識量的重要尺度之一[1]。文獻計量學是以文獻量、作者數、詞匯數等數據來研究學科知識量變化的學科。學科的文獻數據可以從歷史性和連續性的數據中找出學科發展規律[2]。因此主要采用文獻計量分析體系,運用統計學的方法和技巧,使數據科學學科發展的現狀與趨勢更清晰明了。2004年,劉婧[3]通過統計中國知網數據庫與中文科技期刊數據庫中與洛特卡定律和普賴斯定律相關的文獻,經過時間、期刊、作者等多方面的整理分析,獲得了相關文獻的發展歷程與變化。2010年,邱均平和楊瑞仙[4]根據ESI和WOS數據庫,以臨床醫學領域熱門論文為數據,從國家分布、機構分布、期刊分布等方面研究了臨床醫學的發展。2016年,Floriana Gargiulo 等[5]基于 Mathematics Genealogy Project數據庫的博士數據從國家與學科兩方面對數學近代史進行了研究。運用復雜網絡工具對國家進行聚類分析,并對機構名次折線分布,博士國家三維分布,學科交叉程度分布,學者家族比例分布等進行了系統分析,并將分析結果與數學發展的歷史與現狀相比較 。2017年,趙蓉英、魏明坤[6]基 于citespace軟件對國際數據科學進行了時間維度分析。通過文獻計量分析以及數據科學的發展演進圖譜研究,將數據科學分為了以數據儲存為中心和以數據處理為中心的兩個發展階段,并對兩個階段的發展進行了細致的探討。“data science”是一個新的學科領域,通過對“data science”相關文獻的研究,從地域、機構等方面介紹了“data science”發展過程及發展現狀,并對于將來的發展趨勢[7~8]作出預測。
本文所選取的數據源是SCOPUS數據庫,該數據庫是全世界最大的摘要和引文數據庫,在文獻檢索方面具有很高的權威性。針對“data science”的論文產出量、論文來源以及論文的年度變化等情況進行了分析和探討。在論文產出方面,起初檢索與“論文標題,摘要,關鍵字”相關的“data science”論文,由于數據庫2002年-2004年美國與“data sci?ence”相關的論文數據從11291篇突降到了3323篇,導致總的數據從33706篇突降到8472篇,因為數據庫中數據的這種無故跌落現象未有合理的解釋,所以在論文產出規律分析中,檢索了SCOPUS數據庫中1980年-2016年“任意字段”與“data sci?ence”相關的論文記錄,共獲得文獻8627275篇論文數據。在論文來源國家分布方面,對SCOPUS中1980年-2016年在“標題,摘要,關鍵字”中含有“da?ta science”的論文,按占全球發文量90%的39個國家的發文量進行了檢索。機構分布方面,獲取了SCOPUS數據庫中1980年-2016年每年發文量排名前30名的機構。
本文的主要理論基于文獻計量學五大定律以及系統聚類的四類方法。文獻計量學的五大定律包括齊普夫定律、洛特卡定律[9]、布拉德福定律、加菲爾德定律以及普賴斯定律[10]。系統聚類的四類基本方法包括最短(長)距離法、類平均法、中間距離法以及重心法。這些基本定律和聚類方法是科學計量學、文獻計量學研究中的基本知識。本文基于上述方法,針對“data science”學科中,論文的產出量、論文來源等分類形式,對現狀進行了分析和探討,并對“data science”學科的發展趨勢進行了預測。
研究中,使用R語言[11]、SAS軟件對數據科學從論文產出,來源國家分布,來源機構分布方面研究了相關文獻的分布規律。論文產出方面,通過數據科學方法,將1980年-2016年的論文量檢驗了萊普斯的指數增長規律并運用SAS軟件對五年內的數據發展進行了預測。來源國家分布方面,從數據科學的不同發展階段出發,基于柯爾莫哥洛夫-斯米爾諾夫距離[12]對38個國家分別聚類,得出不同階段這些國家在數據科學領域所屬的類別。論文來源機構研究是基于SCOPUS網站1980年到2016年每年發文量前30的機構,通過計算相鄰兩年的機構變動程度,并通過統計學中的滑動平均處理,得到機構變動波動較大的兩年,找出波動較大的機構,并根據機構排名變化找出不同時期在數據科學領域起帶頭作用的機構。通過以上統計分析得出數據科學論文在全球的發展規律。
利用文獻計量學方法分析數據科學領域發展歷程時,根據科技文獻的增長及老化規律,對相關論文發文量進行年度統計分析,揭示該領域不同發展階段的發展狀況。并結合文獻計量學的相關定律對數據科學的發展進行了預測。
文獻計量學的這五大定律中,與相關的是普萊斯提出的科學文獻指數增長規律。這里借助論文增長的指數規律,對數據科學1980年-2016年相關的論文進行數據統計,并用1980年-2014年的論文數據進行指數擬合,對2015年-2021年進行預測,其中用2015年與2016年的論文數據對數據預測的準確性進行驗證。為直觀地表達數據科學論文的變化趨勢,以發文時間為橫坐標,發文量為縱坐標,畫出數據科學發文隨時間變化散點圖(如圖1所
示)。根據數據科學文獻的散點變化可以看出有相對明顯的數據增量的是1996年和2004年,這兩個增長點可以得到合理的解釋,因為1996年的“data science”首次作為術語出現在會議標題中:“Data Science,classification,and related methods”[13],2001年,美國計算機科學家William S.Cleveland將“data science”作為一門獨立學科介紹,在2004年數據科學這門學科開始被大家普遍接受并開始應用。根據圖1數據科學文獻的發展擬合曲線,可知數據科學論文的產出接近指數型增長,符合萊普斯指數增長規律并且曲線的擬合度較高(R2=0.9983)。所以可以通過SAS軟件比較自信的做出2014年后七年的預測,用2015年-2016年的數據對論文的預測準確性進行驗證。因為數據是非平b>0穩時間序列,所以通過構建自回歸滑動平均模型ARMA(1,1)對2014年后七年的論文量進行預測:,其中B為延遲算子,相當于把當前序列值的時間回撥了一個時刻,{εt}為隨機干擾序列。通過圖2對后七年的論文量擬合預測,預測到2015年和2016年的論文量分別為740192篇和796584篇,數據庫中2015年和2016年的論文量為731294篇和775968篇,通過數據驗證,預測準確性很高。所以可以相對保守估計出,在2016年之后未來發展中,五年內會發文4887767篇,近三年內數據會有32.1%的增長率。為了檢驗預測的可靠性,利用隨機抽樣抽取 Science,Nature,Lecture Notes In Computer Science(Including subseries Lec?ture Notes In Artificial Intelligence And Lecture Notes In Bioinformatics)三 種 雜 志 ,得 到 1980年-2016年“data science”論文在這三種期刊總發文量中所占比例,通過平滑處理后得到數據科學在期刊發文量中的占比變化折線圖。結果如圖3所示,在三種雜志中,“data science”論文所占比例從1980的0.0071逐漸上升至2016年的0.037。在此驗證了上文對“data science”學科發文量趨勢預測的正確性。

圖1 1980年-2014年國際數據科學文獻增長年度分布

圖2 數據科學2015年-2021年七年發文量增長預測

圖3 數據科學在期刊發文量中占比曲線圖
研究論文的來源國家分布,能幫助研究人員認清當前在某一領域較為進步的國家和地區,從而幫助研究人員認識本國該領域在國際上所處的位置,找到標桿國家,從而進行更有效的學習研究[14]。SCOPUS數據庫中收納了167個國家的發文量信息以及24905篇國家歸屬未知的文章。因為前39個國家的發文量達到總量的90%,所以只對前39個國家進行聚類分析。根據數據科學不同發展階段進行聚類,從而探究數據科學在各個國家的發展情況。
獲取占全球發文量90%的39個國家1980年-2016年發文量后,通過對數據標準化處理:,其中 fI(t)為I國在t時刻論文所占本國總發文量的比重,NI(t)為t時刻I國與數據科學相關的發文量,NI表示I國從1980年-2016年的總發文量。標準化數據后基于柯爾莫哥洛夫-斯米爾諾夫距離D=max | f(x)-g(x)|求得距離矩陣D。因為自變量是時間,所以距離矩陣D是基于時間求得的兩兩國家論文數據隨時間演變的最大值。獲得距離矩陣后,結合系統聚類法將其聚類。對一般問題,各種聚類得出的結果通常都不一樣。每一種聚類都代表某種合理但具有傾向的解釋。但是,通過對1980年-2016年的國家進行聚類方法實驗比較后,發現在的問題中,聚類的劃分都趨向一致。說明利用的距離矩陣和系統聚類方法,結果比較穩定,有很好的可靠性。為了計算的方便,下面均選擇系統聚類方法中的類平均法,分時間段對國家數據進行聚類。
在1996年和2001年數據科學有兩件標志性的事件,分別是第一次提出數據科學和數據科學成為一門獨立學科的時間,因此以1996年和2001年為結點,將時間區域劃分為1980年-1996年,1996年-2001年,2001年-2016年。針對數據科學三個不同發展階段,對39個國家進行了聚類分析,使得三個時間段內論文變換走勢接近的國家聚成一類。折線圖可以顯示隨時間t而變化的連續數據,可以看出在相同的時間間隔下,數據的趨勢變化情況。所以將聚類和折線圖結合對三個時間段每一類的國家論文趨勢進行分析。
在1980年-1996年的聚類中,為了使國家間有相對的可比性,讓分類盡量豐富并減少單個國家分一類的情況,通過實驗比較,選擇了將1980年-1996年的國家論文數據分為9類。通過對1980年-1996年,1980年-1996年,1980年-1996年的聚類圖以及每一類的折線走勢,可以直觀地了解到早期各類國家的論文走勢。從附錄中1980年-1996年來源國聚類圖以及各類別折線趨勢圖可以看出,早期各國家的數據科學論文比例都呈現出一定的波動,其中類5中的芬蘭、捷克和類8的馬來西亞呈現較多的數據波動,說明早期數據科學的發展中,相比其他國家,這些國家的數據科學發展還不穩定。從總的折線圖趨勢可以看出所有國家的論文數據都在1994年或1995年開始增長,說明數據科學在1996年第一次被提出前,很多國家對數據科學都已經開始發展,也為1996年數據科學的提出提供了基礎。通過1980年-1996年的國家聚類結果看出,中國與韓國較為接近,并且與日本、加拿大等發達國家聚為一類,說明早期在數據科學提出時,這些國家對一個新領域的提出都有很好的敏感度。從數據科學各國家發文量占全球發文量所占比例來看,早期美國發文量所占比例遠高于同時期的其他國家。
為了不使單個國家聚為一類的情況增多,例如新加坡不獨自成為一類,使得各類別之間更有比較性,選擇將國家聚為9個類別??梢酝ㄟ^附錄中1996年-2001年論文來源國各類別折線圖看出,1996年之后,論文來源國的各個類別走勢接近,并且各國家的論文走勢不再像1996年之前一樣數據波動并且趨勢各異。各國家的數據開始呈現出類似規律的變化,總體呈現出在1998年前的小幅度增長后,在1998年-1999年論文小幅度降低后開始快速上升。相比其他國家的數據科學發展,類6中的馬來西亞與中國在數據科學提出到成為獨立學科這幾年,發展起步較為緩慢。通過1996年-2001年的論文來源國聚類圖得出,美國作為科技排名第一的國家自成一類。加拿大、德國、意大利、法國、日本等發達國家論文走勢接近,聚為一類,說明這些發達國家早期對數據科學呈現出很強的學科靈敏度。中國與韓國、瑞士、英國、俄羅斯等國家,聚為一類,說明在數據科學剛提出的近幾年,這些國家也開始投入研究并發展數據科學。
為了避免單一國家(比如美國)聚為一類,使得各類別內的國家更多,選擇將2001年-2016年39個國家聚為7類。當類別從9類變為8類時,澳大利亞,南非兩個國家的類別組合進日本、馬來西亞等國的類7,當類別從8類變為7類時,美國由獨立的類別加入進了原本新加坡與烏克蘭的類3。通過類別的減少變換,可以找到各國家相對距離較近的類別,從而探索以往單獨一類的國家所屬類別的變化。通過圖5的折線趨勢圖得出,數據科學在2001年正式成為一門獨立學科后,各國家的論文比例普遍在2002年-2004年降低,說明隨著數據科學成為一門獨立學科后,數據科學論文的定義與要求都有了更全面規范的要求。2004年以后,各國家的論文比例普遍增長,說明隨著數據科學成為獨立學科并規范要求后,該學科開始呈現相對穩定的增長。通過圖4的國家聚類圖得出,美國作為科技最發達的國家,隨著類別減少,開始與新加坡,烏克蘭聚為一類。奧地利、新西蘭,意大利、比利時、加拿大等發達國家聚為一類。亞洲GDP前四名中的中國、韓國、印度聚到了一類,并且2001年-2016年是三個時期中中國距離眾發達國家最近的時期,說明在數據科學成為獨立學科后,亞洲的中國、韓國、印度等這些國家緊隨發達國家之后大力發展數據科學。近幾年隨著大數據時代的到來,全球各國家對數據科學都極其敏感并且都正在迎合,大力發展數據科學。

圖4 2001年-2016年國家聚類圖及其分類

圖5 2001年-2016年聚類各類別折線趨勢圖
比較三個時間段的聚類結果,每一個時間段,都會出現一個國家較多的類別,并且,該類別包括的國家大都在對應時期實力靠前。通過對三個時期的領頭類別國家對比發現,加拿大、以色列、意大利、荷蘭、比利時這些經濟實力較強的國家始終都在該類別中,數據科學發展的三個不同時期,都存在一個當時實力領頭的國家類別,隨著時間發展,中國距離該類別越來越近,中國對數據科學的發展從起初的發展緩慢到最后的緊臨領頭國家類別,說明中國對一個新興學科發展的實力所在。
為了觀察與數據科學相關機構的起伏變化,把自1980年至2016年中相鄰兩年的機構排名進行了比較。由于機構數量較多,選擇了每年的發文量前30名進行了排名比較。比較兩種排名之間的異同,可以根據逆序數[15]進行計算,T= ||t1+ ||t2+,其中ti為一個機構在相鄰兩年的名次差,T為所有機構在兩年中的名次變化總和。但是,運用逆序數會使得第二年未出現在前30名的機構難以計算。所以使用Jaccard距離來衡量相鄰兩年機構排名的變化程度:dj=1-J,其中Jac?card 系數 J(rank1,rank2)[16]通過給相鄰兩年的排名機構從前至后依次賦值30,29,28,…,0后計算

得到。最后通過計算Jaccard距離來衡量相鄰兩年的機構變動程度。例如:當相鄰兩年的機構排名rank1,rank2 相 等 時 , J(rank1,rank2)=1 ,d(rank1,rank2)=0;當相鄰兩年的機構排名始終不相等時,J(rank1,rank2)=0,d(rank1,rank2)=1。對相鄰兩年的機構排名變化程度進行量化得出折線圖后,通過統計學中的滑動平均處理找到機構變化幅度大的幾個年份和變化較大的機構。如圖6所示,1981年-1982年,1986年-1987年,1994年-1995年,2006年-2007年,2011年-2012年的機構變化較大。針對這五年,將機構排名列舉出來,在附錄中可見放大后的機構比較圖。通過比較,發現1996年第一次提出數據科學之前,機構排名的波動較大,造成機構排名波動的原因是大學發文量排名的起伏。在2001年數據科學成為一門獨立學科之后,波動較大的兩個階段是2006-2007年和2011-2012年度,這兩年機構間的波動幅度較小,并且機構變動中大學名次一般上升。比如:在2006-2007年的機構變動中,哥倫比亞大學上升7個名次,是這兩年上升名次最多的機構;在2011-2012年的機構變動中,清華大學上升了6個名次,悉尼大學上升了5個名次。說明在高校在數據科學的文獻計量機構中占了很大的比重,是發布文獻的主力軍。從機構的排名變化中,中國科學院發文量一直穩步增長,從1995年進入前30,到2003年超過俄羅斯科學院一直居于第一。說明在研究數據科學的機構中,中國科學院的研究力量不容小覷。與此同時,通過圖7機構變化曲線與冪函數的擬合(R2=0.5185),可以看出,機構變化的波動幅度在逐漸降低。說明隨著數據科學學科的發展與進一步改善,全球各機構也在不斷完善與發展,機構的排名趨于平穩化。

圖6 機構變化折線圖

圖7 機構變化折線擬合圖
基于SCOPUS中與數據科學相關的論文數據,通過采用文獻計量學的可視化分析,對國際上數據科學的論文總量、論文來源國家,以及論文來源機構按照不同的發展階段進行了分析研究。首先對論文總量,通過指數擬合并建立回歸模型對數據科學的論文發展進行預測,通過隨機抽樣驗證預測正確性后發現數據科學論文在未來幾年仍將持續指數型增長。顯示了數據科學作為一個新興學科的發展趨勢。其次,通過不同時間段對論文來源國家聚類的方法,實現了對數據科學不同研究階段的國家分析。通過三個階段聚類以及類別走勢分析,得出每個階段數據科學領域的領頭類別國家。并且隨著時間發展,中國、韓國、印度等國家緊隨發達國家之后,大力發展數據科學。比較三個不同階段,中國在數據科學領域從開始的邊緣國家,起初的發展緩慢到數據科學成為獨立學科后近幾年緊隨發達國家發展數據科學,可見中國在新興學科的發展凸顯出很強的后勁。最后,大數據時代的到來,在科學研究中以及實際應用中數據科學已經成為一個非常重要的分支,數據科學學科呈現出快速增長階段。隨著中國對數據科學的重視與發展,中國科學院也走到了機構中的前列。