向卓元 利朝香
(中南財經政法大學信息與安全工程學院 湖北武漢 430073)
社區發現研究是發現潛在的社區對于信息傳播規律的研究,其應用領域已涉及社會網絡、移動網絡、簽名網絡、交通網絡,是當前復雜網絡領域的研究熱點和重要研究方向,也是數據挖掘在復雜網絡中應用的熱門研究主題[1]。在社區發現研究中,將研究的個體看作點,個體間的關系看作邊,群組看作社區。發現這些潛在的社區及其結構對于研究信息傳播規律、智能監測、為客戶提供個性化的精準營銷推薦、對網絡進行輿情監測等應用領域具有重大的研究意義[2-3]。因此,如何在大規模網絡中挖掘出社區結構及檢測有意義的社區就成為目前一個熱門的研究熱點,引起了世界各國眾多學者對該領域研究的關注。
知識圖譜(Mapping knowledge domain),同時又被稱為科學知識圖譜、知識圖或知識可視化[4],是一個集圖論學、文獻計量學、統計學等眾多理論于一體的發展迅速的新生研究領域。知識圖譜CiteSpace作
為一種能夠將一個領域內研究歷史脈絡集中展現到一幅引文網絡圖上的文獻分析方法,通過繪制以“被引文獻”為節點的文獻共被引網絡圖譜,能標識出該領域的演進軌跡[5],并且近年來應用于探尋學科的研究熱點領域與研究前沿,自2003年誕生以來在我國勃然興起并在多個學科領域中得到應用。為了解近年來社區發現的最新研究進展,本文利用信息可視化軟件CiteSpaceV對2004—2017年期間Web of Science數據庫收錄的相關文獻進行系統性的量化分析,繪制知識圖譜,探尋社區發現研究的分布現狀、演進軌跡、研究熱點領域及前沿分析,以科學知識圖譜視角來反映社區發現的演化趨勢。
本文以Web of Science核心合集為文獻檢索數據庫,檢索2004—2017年14年間社區發現相關文獻,采用基本檢索的方式,主題為“community detection”or“community discovery”or“community mining”,時間跨度為2004年1月1日—2017年12月31日,選取Web of Science中的4個子庫(SCIEXPANDED、SSCI、A&HCI、ESCI)作為引文索引,文獻類型為Article、Proceeding papers和Review,檢索日期為2018年3月31日,共檢索出1 594條文獻記錄。
知識圖譜能夠呈現某個研究領域知識的分布狀況、發展歷程、結構及其規律[6],挖掘知識群之間相互關聯及演化進程等內部關系,可以直觀形象地發現該領域的分布狀況、演化路徑、研究熱點等。本文采用由美國德雷克賽爾大學信息科學與技術學院陳超美教授利用Java語言開發的CiteSpaceV軟件進行科學知識圖譜可視化分析[7]?;谏鐣W絡理論、共被引分析理論和尋徑網絡算法,探尋社區發現研究的關鍵軌跡及重要轉折點,并通過繪制一系列的科學知識圖譜來探索社區發現研究的分布狀況、演進軌跡、熱點領域和前沿分析。此方法已在建模與仿真、神經醫學、信息科學與管理科學等眾多領域得到應用。
論文發表數量與年度關系在一定程度上反映了該領域的發展趨勢、研究狀況及研究進展[8],通過發文量的時間分布能夠反映出某一時間段內社區發現的研究狀況。如圖1所示,有關社區發現的第一篇文獻發表于2004年,且在其后的4年間,發文量的增長速度較慢。在2008—2017年的10年間,總體增長速度較快,且2015—2016年論文數量迅速增長,增加值為104篇,說明國內外眾多研究學者致力于社區發現的研究,對社區發現領域的關注逐步提高。但2016—2017年論文數量增長速度有所下降。從折線圖的趨勢可以看出,社區發現研究在未來仍是研究的熱點領域。我國論文發文量的增長趨勢與世界基本同步,2017年發文量最多,為144篇,占14年間發文量的23.6%。總體上我國發文數量發展速度較快,說明我國這14年來對于社區發現的研究重視程度逐年增加。

圖1 2004—2017年我國及世界社區發現發文量分布
將數據導入到CiteSpaceV中,網絡節點選取國家(Country)和機構(Institution),運行軟件,得到社區發現研究的國家及機構科學知識圖譜(見圖2),用以分析各個國家和機構在該領域的實力分布以及國家、機構之間的關聯。圖2網絡由142個節點和258條邊構成。節點的大小表示發文頻次的高低,節點越大表示發文頻次越高。表1列出了該知識圖譜中發文頻次較高的國家及機構。

圖2 2004—2017年社區發現研究的國家及機構科學知識圖譜

表1 2004—2017年社區發現研究的高中心性國家及機構分布(中心性≥0.1)
綜合圖2和表1可知,節點中心性≥0.1的國家有美國、中國、英國、意大利、荷蘭、法國、新加坡、日本、比利時、西班牙,并且中心性依次降低,說明美中兩國是該領域研究成果最具影響力的國家。從各個節點的發文頻數上看,我國在該領域的文獻產出貢獻最大,為609篇,占全球總數量的38.2%,遠高于其他國家。但是在整個網絡中,美國的中心性最大,表明美國與網絡圖譜中的許多國家都有直接或間接的合作關系,如法國、比利時等。與發達國家相比,我國社區發現研究雖然起步較晚(首次發文時間為2006年),但是近年來發文數量呈現逐年增長的趨勢。中國作為社區發現研究文獻產量最大的國家,其研究機構主要分布在高校,具有代表性的有中國科學院、清華大學、西安電子科技大學、天津大學和吉林大學等。
通過對所刊載文獻的來源出版物進行統計分析,可以確定主要期刊來源,將為研究人員把握研究領域的核心期刊提供幫助[9]。將檢索到的社區發現文獻按所刊發的期刊進行統計,1 594篇文獻分布于489種刊物,其中發文量排名前10的期刊及其所刊載的文獻情況、近5年平均影響因子和被引頻次如表2所示。

表2 2004—2017年社區發現發文量排名前10的期刊
從發文數量和被引頻次上看,PHYSICAL REVIEW E作為物理類頂尖期刊,是刊載社區發現文獻的主要期刊,被引頻次最高,所刊載的相關文獻代表了該領域的研究軌跡、研究熱點和前沿。除此之外,PHYSICA A STATISTICAL MECHANICS AND ITS APPLICATIONS、PLOS ONE、SCIENTIFIC REPORTS以及JOURNAL OF STATISTICAL MECHANICS THEORY AND EXPERIMENT都是刊載社區發現文獻的主要期刊,刊載了眾多該領域的研究成果。
在共被引文獻網絡中,關鍵節點連接兩個以上聚類簇并起到關鍵作用[3],同時具有較高中心性。通過對共被引文獻進行科學知識圖譜分析,可以探尋某研究領域中起到關鍵作用的文獻及其演進軌跡[10]。
將數據導入到CiteSpaceV軟件中,時間區間設定為2004—2017年,將時間區設定為“1年”,網絡節點選擇引用參考文獻(Cited Reference),運行軟件,得到社區發現研究演化路徑知識圖譜(時區視圖)(見圖3)。該圖譜由546個節點和2 268條邊構成。節點大小表示文獻共被引頻次多少,節點的大小與網絡的中心性(Betweenness Centrality)成正比,節點越大表示文獻共被引次數越多。表3列出了節點中心性≥0.11的5篇關鍵節點文獻。

圖3 2004—2017年社區發現領域演化路徑知識圖譜(時區視圖)

表3 2004—2017年社區發現研究關鍵節點文獻(中心性≥0.11)
通過圖3和表3發現,關鍵節點均是對社區發現的發展起到關鍵作用的研究成果,按照文獻發表時間順序進行分析,即可梳理出社區發現研究的演進軌跡。
2004年,Clauset A、Newman M.E.J和Moore C提出了一種用于檢測社區結構的層次聚類算法,并用它來分析大型在線零售商網站上銷售的商品網絡,實驗結果表明,層次聚類算法可以從這個網絡中提取有意義的社區,并且揭示出客戶購買習慣中存在的大規模模式[11]。2008年,Clauset A、Moore Cristopher和Newman M.E.J提出了一種從網絡數據中推斷層次結構的一般技術,并證明了層次結構的存在可以一起解釋和定量地再現許多網絡的共同拓撲性質;進一步表明,可以用層次結構的知識來預測部分已知網絡中缺失連接的高準確性,以及比競爭技術更普遍的網絡結構;實驗結果表明層次結構是復雜網絡的中心組織原則,該技術能夠提供對許多網絡現象的洞察[12]。
2007年,Rosvall M和Bergstrom C T為網絡中的模塊化概念開發了信息論基礎,通過尋找其拓撲結構的最佳壓縮來識別網絡組成的模塊,并利用其結構中的規則解釋了這種方法的優點,并通過劃分一些真實世界和模型網絡來說明它們[13]。
2008年,Lancichinetti A、Fortunato S和Radicchi F介紹一類基準圖,它說明節點度和社區大小分布的異質性,使用這個基準測試兩種常用的社區檢測方法,模塊化優化和Potts模型聚類,結果顯示,基準對算法的測試比標準基準測試更嚴格,揭示了在首次分析時可能不明顯的限制[14]。因此,該文獻也成為社區發現研究領域被引頻次最高的文獻。2009年,Lancichinetti A、Fortunato S和Kertesz J提出了第一個找到重疊社區和分層結構的算法,該方法基于適應度函數的局部優化,社區結構適應性直方圖中的峰值顯示,該決議可以通過一個參數來調整,使得不同層次的組織可以被調查,該算法在真實網絡和人工網絡中都取得較好的測試結果[15]。
通過對關鍵節點文獻的深入剖析,社區發現研究的演進軌跡可以概括為:改進的算法、模塊度函數不斷被提出,并結合網絡的拓撲性質,用來發現、檢測潛在的、有意義的社區,社區重疊現象及分層結構被發現,并在真實網絡進行實證。
在Web of Science檢索數據時,分析研究方向的檢索結果,基于發文量(>20篇)的統計,列出社區發現研究所涉及的主要學科領域蔓延分布情況(見表4)。

表4 2004—2017年社區發現研究的學科領域蔓延分布(發文量>20)
從表4的數據可以看出,計算機科學發文量最高,是社區發現的主要學科,物理學的發文量僅次之;同時,社區發現的主要學科還有工程學、數學、科學技術及研究主題、運籌學與管理科學、信息科學與圖書館學、數學與計算生物學、生物化學與分子生物學。從上述分析可以看出,社區發現以計算機科學為中心,顯著的特性是跨學科、多領域相關綜合研究。社區發現于2004年刊發第一篇文獻,在14年里,其研究已經涉及多學科、多領域,發文量也逐年增長,吸引了眾多研究學者的關注并從事該領域的研究。
關鍵詞凝練了作者研究的核心,高度概括了一篇文獻的研究主題[16],因此通過對關鍵詞共現網絡圖譜進行分析,可以發現社區發現科學領域的研究熱點和主要方向。在CiteSpaceV中節點類型選取關鍵詞(Keyword),運行軟件,經合并同義詞和刪除重復關鍵詞等數據處理,得到社區發現研究熱點網絡圖譜(見圖4)。該網絡圖譜由126個節點和448條連線構成。通過對其進行梳理,可以清晰地發現目前社區發現研究主要有兩個熱點領域:一是在復雜網絡、社會網絡環境下的社區發現;二是基于模塊度、算法、模型、聚類等方法,并結合圖的拓撲結構,來研究社區結構,發現潛在的、有意義的社區。

圖4 2004—2017年社區發現研究熱點共現網絡圖譜
通過對樣本文獻數據進行整理分析,得到社區發現領域的高頻關鍵詞(見表5)。從圖4和表5可以看出,排除“社區發現”關鍵詞外,目前國際社區發現研究領域,出現頻次最高的關鍵詞是復雜網絡(complex network),出現頻次高達553次。此外,主要熱點詞匯還有社會網絡(social network)、算法(algorithm)、模度塊(modularity)、聚類(clustering)、社區結構(community structure)等。

表5 2004—2017年國際社區發現領域高頻關鍵詞
為了了解國內社區發現研究領域的研究現狀,以“社區發現”或“社區挖掘”作為主題詞,文獻類型選取期刊論文、博士論文和碩士論文,在中文期刊全文數據庫CNKI進行檢索,檢索時間范圍為2004—2017年,共檢索到1 445條數據。然后應用CiteSpaceV對樣本數據的關鍵詞進行可視化分析,整理出頻次較高的關鍵詞(見表6)。通過比較可以發現,國內社區發現研究的熱點與國際大部分是相同或相似的,這表明我國的社區發現研究緊跟國際研究前沿。

表6 2003—2017年我國社區發現領域高頻關鍵詞
CiteSpace的研究前沿是基于主題、摘要、關鍵詞和文獻記錄的標識語中提取的突現詞來確定的[17],能反映在某一時間段內該研究領域所探討的科學問題或專題。因此,通過對文獻關鍵詞的突現情況來探尋社區發現的研究前沿。社區發現14年間14個高突變熱點關鍵詞變化趨勢如表7所示。

表7 2004—2017年14個高突變關鍵詞變化趨勢
結合圖4和表7,可以得到目前社區發現研究的前沿關鍵詞為:復雜網絡(complex network)、代謝網絡(metabolic network)、解析度(resolution)、模塊度(modularity)、網狀(web)等。通過突現詞Burst值大小、起止時間、增長時間長度并結合演化路徑知識圖譜中節點文獻進行分析,社區發現的研究前沿可以概括為:①在復雜網絡(complex network)、代謝網絡(metabolic network)、生物網絡(biological network)和社會網絡(social network)情境下的社區發現;②應用模塊度(modularity)、功能模塊(functional module)、動力學(dynamics)、聚類技術(clustering technique)等方法識別個體所屬的社區,進一步發現信息傳播的規律,為信息傳播提供參考依據;③社區發現是發現信息傳播等的有效信息,用于解決實際問題和預測未來的發展狀況。