張海燕
乘冪擬合法在確定洛特卡分布和定律參數中的應用*
張海燕
乘冪擬合是曲線擬合的一種類型。洛特卡定律的數學表達式yx=C/xn本身就是乘冪的形式,根據曲線擬合后所對應的乘冪方程,可以直接得出n值和C值,非常簡便準確。
乘冪擬合 洛特卡定律 分布 參數 K-S檢驗
目前業界對洛特卡定律的基礎性研究薄弱、墨守陳規。在洛特卡定律的基礎性研究中,繼20世紀90年代張賢澳[1-3]后鮮有人問津,嚴重制約了文獻計量學的發展和應用。計算機技術的發展和各種便捷高效的統計軟件出現為改善文獻計量學的基礎研究方法提供了可能。文獻計量學歸根到底是應用學科,只有不斷引入先進的分析工具才能推動其發展。
1.1 n值及C值的一般求法繁瑣
在洛特卡定律的數據統計和分析過程中,現在普遍采用的是1986年由美國學者米蘭德·李·鮑(Miranda Lee Pao)提出的以普賴斯和揚布蘭斯基準則為依據的刪除離差大的高產著者的數據,逐一擬合比較,從中選出最優的回歸直線的方法,即以回歸分析為基礎的擬合方法[4]。但是n值及C值的一般求法非常繁瑣(詳見下面公式),很容易在計算過程中出現錯誤。

1.2 高產作者的確定方法模糊
在實際應用過程中,洛特卡定律只適用于作者群體中占絕對數量優勢的低產作者,而高產作者作為特殊群體,不適用于洛特卡定律,所以要將高產作者的數據刪除。而為了方便起見,高產作者往往按照作者總數的1%或者是按普萊斯定律就是科學家總人數開平方所得到的人數來確定。之所以這樣處理,原因并不明確,因此高產作者的數據都是估算的,缺乏嚴謹的解釋說明。
現在其實完全可以通過利用常用的統計軟件如Excel來解決這一類過去難以突破的問題。在Excel的圖表向導中,通過添加趨勢線的方法來選擇最合適的分析類型對數據進行擬合是可行的解決方案。在運用洛特卡定律時,可以通過以下步驟來實施:
2.1 選擇合適數據
對論文數和作者數各取對數后,在Excel的圖表向導中選擇線性關系對這兩組數據進行擬合,在全部數據中選取連續多組數據逐一進行線性擬合比較,參考相關系數并從中選出最合適的擬合直線。而不在線性范圍內的那一部分高產作家數據就是要被刪除的數據,所以要去掉的高產作家不一定剛好是總人數的1%,也不一定是總人數開平方所得到的人數,而是不在線性范圍內的那一部分。這和米蘭德·李·鮑的刪除離差大的高產著者的數據是一致的。
2.2 求n值和C值即洛特卡分布參數
對選擇好的數據進行下一步分析。算出各個作者數在總作者數中(已經刪除高產作者)的百分比,然后對論文數和作者百分比這兩組數據在Excel的圖表向導中選擇乘冪關系進行擬合。筆者發現,選擇乘冪的分析類型是最直接和準確的。洛特卡定律的數學表達式yx=C/xn本身就是乘冪的形式,根據曲線擬合后所對應的乘冪方程,可以直接得出n值和C值,非常簡便和準確。
2.3 K-S檢驗
在乘冪擬合或線性擬合的圖形中,通過觀察第一組數據理論值與實際值的吻合度,可以初步判斷該組數據能否通過檢驗,計算出第一組數據的差值D1和D臨界,如果D1>D臨界,就可以判斷該組數據不能通過K-S檢驗,也不用再進行其它數據的計算,從而簡化K-S檢驗過程。
綜合運用線性擬合和曲線擬合兩種方法,先通過線性擬合選擇合適的研究數據,再對其進行乘冪擬合從而直接得出洛特卡分布函數表達式的方法直觀、簡便,值得推廣。
本文以3例文獻數據來解釋乘冪擬合法在確定洛特卡分布和定律參數中的應用。
例1采用邱均平等發表在《圖書情報研究》2009年第2期論文中的表7[5]的數據,制成表1。

表1 1978-1982年情報學作者分布表
因原表取前6組數據計算,故亦取同樣數據繪制圖1。

圖1 作者原始數據的乘冪擬合圖(對應于表1)
可見,論文數x與作者數y相關良好,且最高點基本為曲線起點,即x=1時的y值的理論值和實際值吻合度高。故初步推斷該組數據符合洛特卡分布。

表2 1978-1982年情報學作者分布的K-S檢驗表
取顯著性水平α=0.01時,D臨界=1.63/√975=0.0522,Dmax=0.0062,故Dmax<D臨界,該組數據可以通過K-S檢驗。與原文結果一致。
圖2中乘冪方程式y=0.774x-2.5563(x=1,2,……)即洛特卡分布函數表達式,與原文結果F (x)=0.76407x-2.57348基本相符,細微差別是由于在計算過程中有效數字的處理略有差異造成的。

圖2 作者百分比的乘冪擬合圖(對應于表2)
例2采用李麗娜發表在《情報雜志》2009年第5期論文中的表2[6]的數據,制成表3。

表3 十年間我國圖書情報領域論文文獻的作者分布

圖3 作者原始數據乘冪擬合圖(對應于表3)
原文取表中12組數據研究,本文亦然。可見,論文數x與作者數y相關尚好,但擬合曲線的起點即理論最高點比實際最高點高出很多,即x=1時的y值的理論值和實際值相差甚遠,故初步推斷該組數據不能通過K-S檢驗。
取顯著性水平α=0.01時,D臨界=1.63/√49084=0.0073;x=1時的y值的理論百分比與實際百分比的差值D1=(34081-28214)/49084 =0.1195,故D1>D臨界,其它累積差值可以不計算了,該組數據不能通過K-S檢驗。這與原文的檢驗結果一致;n=1.9539也與原文結果n=1.954相符。
例3 采用邱均平等發表在《圖書情報工作》2011年第10期論文中的表4[7]的數據,制成表4。

表4 2007-2010年科學網信息科學學科博文博主分布情況

圖4 博文與博主原始數據乘冪擬合圖(對應于表4)
原文取全部10組數據研究,本文亦然。可見,博文數x與博主數y相關尚好,但可以看出最高點與理論值有偏差,故先取x=1時的差值D1進行比較。
取顯著性水平α=0.01時,D臨界=1.63/√392=0.0823;x=1時的差值 D1=(123.72-121)/392=0.1195,故D1>D臨界,其它累積差值則不必計算了,該組數據不能通過K-S檢驗。這與原文結果一致;n=0.9223與原文結果n=0.92228相符。
通過以上3個例子可以看出,在確定洛特卡分布和定律參數的過程中,乘冪擬合作圖法與常規使用的公式法的結果完全一致,證明這種方法可行;而且采用這種方法可以大大減少易于出錯的繁瑣的計算過程,同時對洛特卡定律的理解和把握更直觀且準確。
在文獻計量學發展的各個不同階段,洛特卡定律表現出強大的生命力,其持續發展而成為科學研究不可或缺的重要量化工具。國內外圖書情報學者對它的完善和發展進行了積極探索,且成果豐碩。很多科研團隊都會在自己的研究領域中通過運用洛特卡定律來尋找該領域的核心作者等重要信息,加深對研究主題的認識,并進一步找到研究方向。
可是洛特卡定律是幾十年前產生的經驗定律,當時研究者只能借助手工統計和計算,過程非常繁瑣且易于出錯。現在可以用更為先進有效的統計手段來化繁為簡。本文通過借助于數據統計軟件Excel,沒有采用線性擬合的常規方法,而是改為直接使用曲線擬合的方法,通過對論文數及相應作者原始數據或百分比數據進行乘冪擬合,試圖在方法學上對洛特卡定律有所改進。本文選取3個例證來解釋乘冪擬合如何在確定洛特卡分布和定律參數中發揮作用,與常規方法相比,因為線性擬合需要將論文數和作者數都轉化為對數后再進行處理而使過程略顯麻煩,此時乘冪擬合直接簡便的優勢非常突出,當然這是建立在Excel強大的統計功能基礎上的。但是乘冪擬合的數據效果特別是對高產作者的剔除不如線性擬合更直觀明顯。所以對于洛特卡定律,綜合運用線性和乘冪的分析方法較為合適,即先通過線性擬合選擇合適的研究數據、刪掉不合適的高產作者數據,再對選擇后的數據進行乘冪擬合從而直接得出洛特卡分布的函數表達式。同時注意觀察圖像中的高點位置,據此來初步判斷研究數據能否通過K-S檢驗,從而簡化K-S檢驗過程。本文采用的作圖法較之常規使用的公式法更為直觀簡便,類似這種方法學上的改進,還可以應用在其它文獻計量學定律如布拉德福定律等的研究上,值得在各學科和各領域文獻的計量學研究方面推廣。
[1]張賢澳.非回歸分析的洛特卡定律參數n、c的直接估算[J].圖書情報工作,1991(12):27-35.
[2]張賢澳.洛特卡定律研究的方法探討[J].圖書情報工作,1995(3):11-18.
[3]張賢澳,李美文.廣義洛特卡定律參數特征的研究[J].情報探索,1996(6):10-15.
[4]M.L.Pao.An Empirical Examination of Lotka's law[J]. Journal of American Society for Information Science,1986(1):29-31.
[5]邱均平,楊思洛,王明芝.改革開放30年來我國情報學研究的回顧與展望(二)—情報學研究論文的作者分析[J].圖書情報研究,2009(2):8-13.
[6]李麗娜.多角度對圖書情報領域洛特卡分布的驗證[J].情報雜志,2009(5):5-7.
[7]邱均平,余凡.網絡學術信息作者分布規律研究——以科學網博客為例[J].圖書情報工作,2011(10):15-18.
Applying Exponentiation Fitting to Determine Lotka's Distribution and the Parameters of Lotka's Law
ZHANG Hai-yan
Fitting Exponentiation is a type of curve fitting and the mathematical expression of Lotka's law yx=C/xnis a form of exponentiation.According to the exponentiation equation,N and C values can be obtained directly and simply.
exponentiation fitting;Lotka's law;distribution;parameters;K-S test
格式 張海燕.乘冪擬合法在確定洛特卡分布和定律參數中的應用[J].圖書館論壇,2014(1):18-21.
張海燕(1978-)女,碩士,廣東藥學院圖書館館員。
2013-03-29
*本文系廣東藥學院人文思政研究專項課題“醫學領域論文的計量規律研究”(課題編號:RWSZ201123)研究成果之一