999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復雜網(wǎng)絡的期刊文獻引用頻次研究

2018-09-04 09:37:16馬逸晗張寧
軟件導刊 2018年6期

馬逸晗 張寧

摘 要:為了研究期刊文獻引用數(shù)量隨時間推移的變化規(guī)律,選取上海理工大學學報1998-2016年刊登的文章及引用文獻作為數(shù)據(jù)樣本,經過數(shù)據(jù)篩選和整理,形成新的數(shù)據(jù)樣本,隨后按照引用關系,將刊登文章和引用文獻形成一個新的引文網(wǎng)絡,并分析該網(wǎng)絡的靜態(tài)屬性,繪制冪率分布圖,發(fā)現(xiàn)該網(wǎng)絡呈明顯的冪率分布現(xiàn)象。隨后運用KS統(tǒng)計與極大似然估計擬合冪率分布X-min值和a指數(shù)進行冪率分布檢驗,結果證明該網(wǎng)絡的文獻引用頻次服從冪率分布。

關鍵詞:復雜網(wǎng)絡;冪率分布;K-S檢驗;極大似然估計

DOI:10.11907/rjdk.172846

中圖分類號:TP391

文獻標識碼:A 文章編號:1672-7800(2018)006-0181-04

Abstract:In order to study the change rules over time about variation of citation numbers of journal articles, this paper selected the published articles and references from Journal of Shanghai University of Science and Technology from 1998 to 2016 as data samples.New data samples were formed after data screening and collocation. Published articles and cited documents were transformed into a new citation network according to the reference relationship. The static properties of network were analyzed for making the power-law distribution map. It was found that the network showed a clear power-law distribution. We employed KS statistics and maximum likelihood estimation to fit the power distribution X-min and a exponent for power distribution test. The results showed that the citation frequency of the network followed a power-law distribution.

Key Words:complex network; power-law; distribution; K-S test; maximum likelihood estimation

0 引言

復雜性科學是21世紀的新興學科。此前,并未對復雜系統(tǒng)進行系統(tǒng)、深入的研究,因為復雜系統(tǒng)涉及學科眾多,需要采用合理的方法解決此類問題。復雜網(wǎng)絡和復雜系統(tǒng)都是探索整體規(guī)律,兩者之間有著緊密聯(lián)系。因此,復雜網(wǎng)絡成為研究復雜系統(tǒng)的重要方法之一。

特別是研究復雜系統(tǒng)時,假若在還原論基礎上建立定量模型十分困難,但是建立網(wǎng)絡模型十分容易。例如隨機網(wǎng)絡,其模型為n個定點,每一對定點的連接概率為P[1],以及Watts和Strogatz[2]提出的重要網(wǎng)絡——小世界網(wǎng)。該模型是對規(guī)則網(wǎng)絡中的邊略微進行改動,隨機增加與刪減幾條邊,可以使小世界網(wǎng)介于規(guī)則網(wǎng)與隨機網(wǎng)之間,因而更接近現(xiàn)實世界,從而具有更重要的研究價值。

對于復雜系統(tǒng)的研究需要探索其整體規(guī)律,因此需要注重定性研究。定性研究關注的要點是整體的概括而不是局部的精確。建立網(wǎng)絡模型后,即可對網(wǎng)絡靜態(tài)特性展開研究,如聚集系數(shù)、節(jié)點度分布、平均路徑長度等,并分析網(wǎng)絡動態(tài)過程,以上反映的都是系統(tǒng)整體規(guī)律。

本文研究的期刊文獻引用網(wǎng)絡,是通過文獻之間引用和被引用關系構成的集合。構成文獻的類型有多種,包括科技期刊、專業(yè)叢書、會議論文、科技報告等,這些文獻及其引用文獻都反映了某一學科領域的發(fā)展以及該學科與其它學科間的交互關系。隨著科技的發(fā)展,文獻數(shù)量大幅增加,新的文章引用已發(fā)表的文章及相關資料,通過相互之間的引用關系,構成一個規(guī)模龐大的復雜網(wǎng)絡。由于研究方法十分靈活,一種研究方法可能運用于多個領域,該網(wǎng)絡可以對不同學科進行交叉描述,所以是十分重要的研究介質。

從文獻引用網(wǎng)絡節(jié)點和邊的含義看,可看作衍生的社會網(wǎng)絡,該網(wǎng)絡中文獻代表節(jié)點,引用關系用連邊表示。但事實上該網(wǎng)絡與社會網(wǎng)絡有很大不同,社會網(wǎng)絡中關系變化迅速,新節(jié)點不斷出現(xiàn),舊節(jié)點不斷消亡。而文獻引用網(wǎng)絡中節(jié)點穩(wěn)固,引用關系確定,一旦確定則無法隨意刪除和修改。從時間先后順序看,只能是發(fā)表時間在后的文獻引用發(fā)表時間在前的文獻。文獻與文獻之間的引用關系不僅包含了二者之間的知識傳遞,更包含了作者、時間以及文獻價值等多種信息。

將文獻引用網(wǎng)絡與復雜網(wǎng)絡研究相結合,文獻計量學中提出普賴斯定律的普賴斯(Price),通過科學論文之間的引證關系描繪了科學論文的網(wǎng)絡圖,并對引文網(wǎng)絡中的出入度分布進行研究;隨后,Barabasi等[3]在《Science》上提出了無標度網(wǎng)絡模型,提出復雜網(wǎng)絡中的度分布呈明顯的冪率分布。對于復雜網(wǎng)絡的研究,涉及領域越來越廣,而對于冪率擬合還停留在圖形法,直到Clauset[4]和Barabasi[5]提出基于極大似然估計的冪率估計方法,并用KS統(tǒng)計對結果進行檢驗。目前國內對于引文網(wǎng)絡的研究也有許多新進展。如吳海峰等[6]對當前引文網(wǎng)絡的現(xiàn)狀及發(fā)展進行了綜述性介紹;王亮等[7]從引文網(wǎng)絡視角對知識流動相關概念進行剖析,總結出知識流動類型和要素;肖雪等[8]以期刊文獻為研究對象,利用統(tǒng)計分析、信息計量等方法,揭示該領域的知識發(fā)展脈絡和演進軌跡;楊波等[9]提出基于最大似然估計冪律分布的標度指數(shù)估計方法;尹麗春[10]從宏觀、中觀和微觀3個層面對科學引文網(wǎng)絡進行研究,探討網(wǎng)絡結構及其對知識流動傳播產生的影響。

隨著網(wǎng)絡技術的發(fā)展,可供參考的科技文獻越來越多。學者發(fā)表論文時,參考論文數(shù)量有沒有發(fā)生明顯變化?引用文獻頻次是否服從復雜網(wǎng)絡中的冪率分布現(xiàn)象?為了解釋上述現(xiàn)象并發(fā)現(xiàn)其分布規(guī)律,本文選取上海理工大學學報1998-2016年刊登的文章及引用文獻為數(shù)據(jù)樣本,以每篇文章的引用文獻頻次為研究對象,研究其分布規(guī)律。

1 研究方法

通過研究考證,現(xiàn)實世界中,很多網(wǎng)絡都服從冪率分布。對冪率分布的最初研究中提出的定律是Pareto分布,后期又出現(xiàn)了長尾理論[11],用于描述小事件普遍、大事件稀少的概率分布網(wǎng)絡。冪率分布的表達公式為:

通過公式(2)可以發(fā)現(xiàn),X的取值是整個公式的關鍵,因為在實際網(wǎng)絡中,并不是所有數(shù)據(jù)都滿足X值服從冪率分布,實證數(shù)據(jù)其實是對于X的某個值服從冪率分布,這里的X值記為X-min。由于X-min的存在,選擇的X-min大小將直接影響所求a的值,從而影響統(tǒng)計誤差。因此,根據(jù)Clauset[4]在2009年發(fā)表的文章,本文將根據(jù)其提供的方法估計X-min,該方法既適用于離散數(shù)據(jù),也可運用于連續(xù)數(shù)據(jù)。對于不服從正態(tài)分布的數(shù)據(jù)而言,常用的是K-S(Kolmogorov-Smirnov)檢驗方法,其用于計算實證數(shù)據(jù)的累積概率分布和擬合模型差值的最大值:

其中,F(xiàn)-n(x)是數(shù)據(jù)x最小值為X-min時的累積概率分布,F(xiàn)-0(x)是最擬合數(shù)據(jù)冪率分布的累積概率分布。所以首先需要對樣本進行估計,得出最擬合數(shù)據(jù),這里運用Cross-Validation[12-15]方法進行估計推斷。

其次,需要對所求的a值進行標準化,傳統(tǒng)研究方法是假設條件下的最小二乘估計法,這里選擇在數(shù)據(jù)集有限的條件下,采用極大似然法估計服從冪率分布的參數(shù)a[4],參數(shù)方程為:

所以根據(jù)對K-S(Kolmogorov-Smirnov)檢驗的描述,可以通過最擬合數(shù)據(jù)得出的P值判斷假設的合理性。對于一組數(shù)據(jù),假設它們服從冪率分布,通過最擬合數(shù)據(jù)可以得出擬合數(shù)據(jù)與理論X-min分布的距離。由實際數(shù)據(jù)和理論X-min建立的模型為N,該模型會有n組數(shù)據(jù)產生,若實際數(shù)據(jù)和理論X-min模型的距離比模型N的距離大,這樣的數(shù)據(jù)有m組,則mn值記為p,稱為p-值。若p-值較大,則實際數(shù)據(jù)和理論模型的差異是由統(tǒng)計誤差引起的;若p-值較小,理論模型的合理性則會受到質疑。一般若p值≤0.1,可以判斷實際數(shù)據(jù)并不服從冪率分布。

2 實證數(shù)據(jù)研究與分析

2.1 數(shù)據(jù)來源及處理

本文以上海理工大學學報1998-2016年刊登的文章及其引用文獻作為數(shù)據(jù)來源,由于原始數(shù)據(jù)來源是PDF格式的文章,需要進行人工摘錄、辨別和匯總,所以需要進行大量的數(shù)據(jù)分析和處理。首先需要將所刊登的文章及文獻都轉化成固定的檢索文獻格式,便于分類查找;然后按照一篇被引用文獻對應一篇刊載文章的形式進行摘抄記錄,每條記錄的格式為前部分是刊登文章的引用文獻格式,用分隔符分開,后面是引用文獻的文獻格式,即若一篇文章有30篇引用文獻,則應有30條記錄;記錄完成后,還需對這些數(shù)據(jù)進行去重及去偽。因為所有記錄都運用Java語言進行編號整理,文章有30篇引用文獻,在記錄時有60條,但實際上只有31條有效,所以需要對數(shù)據(jù)進行去重處理。此外,在早年的上海理工大學學報中有社科類專題,但是此類文章對研究會起干擾作用,所以需要將該專題的文章去除,此即去偽工作。經過上述操作步驟后,得到的數(shù)據(jù)才是較為準確的。經統(tǒng)計,上海理工大學學報1998-2016年刊登文章及引用文獻共計20 854條,其中刊載文章2 284篇,引用文獻數(shù)量為18 621篇,二者相加的數(shù)量超過了文章及文獻數(shù)量總和,是由于時間點靠后的刊載文章引用了時間點在前的文章,但所占比重較小,可忽略不計。通過對這些數(shù)據(jù)的分析,可以發(fā)現(xiàn)文章引用頻次是否服從冪率分布。

統(tǒng)計分析結果匯總如表1所示,發(fā)現(xiàn)其中度為0的點占據(jù)了絕大多數(shù),約為89.3%,因為在該復雜網(wǎng)絡中,每篇文章都作為一個節(jié)點,但是文章引用的文獻數(shù)量遠遠多于文章本身,往往為文章數(shù)量的幾十甚至上百倍。經分析發(fā)現(xiàn),文章引用頻次主要集中在2~16條。對于引用頻次極大與極小的文章也進行了具體分析,引用頻次過大的文章主要是一些綜述類文章,主要介紹學科發(fā)展現(xiàn)狀及未來發(fā)展前景,而一些引用頻次較小的文章主要是各位學者的心得體會。

為了更好地研究該網(wǎng)絡,經過統(tǒng)計分析,將網(wǎng)絡中度為0的節(jié)點去除,由引用頻次為1~160的節(jié)點構成一個新網(wǎng)絡。發(fā)現(xiàn)引用頻次在2~16的節(jié)點占整個網(wǎng)絡節(jié)點的86.5%,但其節(jié)點頻次僅占整體引用頻次個數(shù)的28.3%,這種文獻頻次分布規(guī)律與布拉德福期刊聚散分布規(guī)律、加菲爾德的文獻集中規(guī)律大體一致。

2.2 數(shù)據(jù)可視化及冪率分布檢驗

為了驗證前文的猜想,判斷引用文獻數(shù)目是否服從冪率分布。本文參考Clauset文章中的方法,應用Python統(tǒng)計分析軟件,得出引用頻次冪率分布圖如圖2所示。

通常判斷一個分布是否服從冪率分布的方法是通過圖形法,即觀察分布圖的形狀。冪率分布在橫坐標和縱坐標都是對數(shù)刻度的雙對數(shù)坐標系中顯示為一條直線,而指數(shù)分布在縱坐標為對數(shù)刻度的單對數(shù)坐標系中顯示為一條直線[16]。如圖2所示,橫坐標代表引用文獻數(shù)目頻次,縱坐標代表Pr[X≥x]。通過對X和Y軸進行對數(shù)縮放后觀察圖形,有著很明顯的直線趨勢,圖中已作出擬合直線,并且P值大于0.1。綜上述,引用文獻頻次可以假定服從冪率分布。擬合結果如表2所示。

其中,n表示引用文獻數(shù)目頻次,X表示引用頻次平均值,σ表示引用頻次標準差,X-max表示引用頻次最大值,X-min表示估計X最小值,a表示參數(shù)a估值,N-e表示引用頻次估值,p是判斷數(shù)據(jù)是否服從冪率分布的重要依據(jù)。

3 結語

為了研究期刊文獻引用數(shù)量隨時間變化以及技術變革的變化規(guī)律,本文選取上海理工大學學報1998-2016年的刊發(fā)及引用文獻作為數(shù)據(jù)樣本,通過研究期刊論文引用文獻的頻次分布規(guī)律,發(fā)現(xiàn)其構成網(wǎng)絡呈明顯的冪率分布現(xiàn)象,并且文獻引用頻次分布規(guī)律與布拉德福期刊聚散分布規(guī)律、加菲爾德文獻集中規(guī)律大體一致,說明大多數(shù)作者投稿時,文章中引用文獻數(shù)目具有一定規(guī)律性。同時運用KS統(tǒng)計和極大似然估計擬合冪率分布的X-min值和a指數(shù)進行冪率分布檢驗,結果證明該網(wǎng)絡的論文引用頻次在一定程度上服從冪率分布。此外,對于X-min值的形成作更深入的探究,將對未來引文網(wǎng)絡研究有著重要意義。

參考文獻:

[1] NEWMANMEJ. The structure and function of complex networds[J].SLAM Review,2003,45(2):167-256.

[2] WATTTS D J ,STROGATZ SH.Collective dynamics of “small-world”networds[J].Nature,1998,393:440-442.

[3] BARABASI A L,LBERT R.Emergenceof scaling in random networks[J].Sciences,1999,286:509512.

[4] CLAUSET A,SHALIZI C R,NEWMAN M E J.Power-law distributions in empirical data[J].SIAM review,2009,51(4):661-703.

[5] BARABASI AL,ALBERT R,JEONG H. Mean-field theory for scale -free random networks[J].Physica, 1999,272:173-187.

[6] 吳海峰,孫一鳴.引文網(wǎng)絡的研究現(xiàn)狀及其發(fā)展綜述[J].計算機應用與軟件,2012,29(2):164-168.

[7] 王亮,張慶普.基于引文網(wǎng)絡的知識流動過程與機制研究[J].哈爾濱工業(yè)大學學報:社會科學版,2014,16(1):110-116.

[8] 肖雪,陳云偉,鄧勇.引文網(wǎng)絡的社團劃分研究進展綜述[J].情報雜志,2016,35(4):125-130.

[9] 楊波,陳忠,段文奇.復雜網(wǎng)絡冪律函數(shù)標度指數(shù)的估計與檢驗[J].上海交通大學學報,2007(7):1066-1068,1073.

[10] 尹麗春.科學學引文網(wǎng)絡的結構研究[D].大連:大連理工大學,2006.

[11] [美] 克里斯·安德森.長尾理論[M].喬江濤,譯.北京:中信出版社,2006.

[12] 吳德勝,梁樑.基于V-fold Cross-validation和Elman神經網(wǎng)絡的信用評價研究[J].系統(tǒng)工程理論與實踐,2004,24(4):92-97.

[13] REFAEILZADEH P,TANG L,LIU H.Cross-validation,in encyclopedia of database systems[M].New York:Springer US,2009:532-538.

[14] CARLOS A,LPEZ SNCHEZ.A height-diameter model for pinusradiata[D].Don in Galicia(Northwest Spain):Annual of Forest Science,2003,60:237-245.

[15] BOYCE M S,VERNIER P R,NIELSEN S E,et al.Evaluating resource selection functions[J].Ecological Modeling,2002,157:281-300.

[16] 劉臣,單偉,于晶.中國學科知識網(wǎng)絡的演化研究——基于1981-2010年引文數(shù)據(jù)[J].系統(tǒng)工程理論與實踐,2013,33(2):431-436.

(責任編輯:黃 健)

主站蜘蛛池模板: 亚洲一区色| 国产裸舞福利在线视频合集| 色婷婷视频在线| 国产中文在线亚洲精品官网| 色国产视频| 久久黄色免费电影| 国产成人综合在线观看| 亚洲第一福利视频导航| 国产美女自慰在线观看| 亚洲第一天堂无码专区| AV熟女乱| 久久久成年黄色视频| 免费看的一级毛片| 毛片网站在线看| 国产一区二区三区精品久久呦| 亚洲高清在线播放| 福利在线不卡| 九九九精品视频| 国产精品一区在线观看你懂的| 人妻出轨无码中文一区二区| 国产无遮挡猛进猛出免费软件| 国产最新无码专区在线| 国内毛片视频| 日韩大片免费观看视频播放| 视频一区视频二区中文精品| 污网站在线观看视频| 色噜噜综合网| 欧洲免费精品视频在线| 亚洲最猛黑人xxxx黑人猛交 | 亚洲性视频网站| 日韩中文字幕免费在线观看| 欧美日韩理论| 欧美亚洲欧美| 看你懂的巨臀中文字幕一区二区 | 亚洲成人www| 国模沟沟一区二区三区| 亚洲国产欧洲精品路线久久| 在线日韩一区二区| 国产精选小视频在线观看| 日韩亚洲高清一区二区| 又黄又湿又爽的视频| 美女扒开下面流白浆在线试听| 青青久久91| 国产在线高清一级毛片| 国产AV无码专区亚洲A∨毛片| 97se亚洲综合在线天天| 色九九视频| 青青草国产一区二区三区| 在线国产毛片手机小视频| 久热这里只有精品6| 亚洲中文字幕23页在线| 婷五月综合| 亚洲大学生视频在线播放| 日韩无码白| 亚洲天堂网2014| 欧美另类图片视频无弹跳第一页 | 精品亚洲欧美中文字幕在线看| 亚洲国产中文精品va在线播放| 高清国产va日韩亚洲免费午夜电影| 亚洲天堂网站在线| 国产精品视频猛进猛出| 国产另类视频| 国产三级国产精品国产普男人| 久爱午夜精品免费视频| 国产在线八区| 国产swag在线观看| 日韩欧美在线观看| 中文字幕人妻av一区二区| 中文字幕在线视频免费| 在线欧美日韩| 亚洲天堂高清| 国产午夜一级毛片| 不卡色老大久久综合网| 亚洲国产成人自拍| 久久国产精品波多野结衣| 69av在线| 亚洲综合二区| 亚洲AV一二三区无码AV蜜桃| 色悠久久综合| 亚洲黄色激情网站| 99热这里只有免费国产精品 | 久久99热这里只有精品免费看|