李成贊,黎建輝,王學志,沈志宏,杜一
(1.中國科學院計算機網絡信息中心,北京 100190;2.中國科學院大學,北京 100049)
科學數據是科研活動的輸入和產出,是科技創新的核心驅動要素。國際數據公司(International Data Corporation,IDC)最新報告“Data Age 2025”指出,全球信息化數據量以每兩年翻一番的速度快速增長,截至2020年,全球信息化數據存儲量達到47ZB。而全球僅有3%的潛在有價值的數據被開發利用,經過深入分析和挖掘的數據則更少[1]。通過Data Citation Index(DCI)的統計分析數據進一步發現,截至2018年年底,DCI中被引用過1次及以上的數據集僅占所收錄數據集的11.83%。
多項調查研究表明,數據用戶通過訪問存儲庫、機構網站或者搜索引擎發現和獲取數據仍然是當前開放共享數據資源傳播的主要途徑[2-4]。在數據量激增、信息過載的大數據時代,被動地等待用戶檢索和發現數據的方式在一定程度上限制了數據的傳播和重用。
學術論文經歷了超過350年的發展歷史[5],形成了超大規模的知識流動和信息傳播的復雜引文網絡。引文網絡中隱含了由文獻作者所組成的研究群體,該群體具有相似或相關的研究方向。通過復雜網絡的社區發現,算法可以將引文網絡劃分成不同的研究群體[6-7]。
隨著科學數據愈加迫切的開放共享需求與數據出版物實際低下的傳播效率以及重復利用率之間的矛盾日益顯著,如何利用現有學術論文形成的復雜引文網絡,向作為科學數據主要用戶的科研人員和學者進行數據資源的主動和精準推薦,以加速數據資源的傳播和重用,具有重要的研究價值和現實意義。
復雜網絡的研究工作起源已久。隨著計算機技術的發展,尤其是1998—1999年,Watts等[8]、Bar‐abási等[9]提出了小世界網絡模型和無標度網絡模型,開啟了復雜網絡研究的熱潮。眾多學者開始關注復雜網絡的結構、特征、信息傳播機制、動力學原理等理論研究[10-12]。隨著復雜網絡理論研究的深入,越來越多的學者利用復雜網絡理論知識研究和探討政治選舉、疾病傳播預測、人口遷徙、碳排放、經濟模式等現實問題[13-18]。
引文網絡作為一種典型的復雜網絡,許多學者利用引文網絡開展中心性分析、路徑分析、聚類分析、知識傳播分析等研究工作[19-24]。在基于引文網絡的社區發現研究方面,也已有相當長的一段歷史,1963年Kessler[25]提出了文獻耦合的概念;1973—1974年,Small等[26-27]提出了共引網絡的概念;1981年,White則首次提出作者共著的概念[28]。Huang等[29]學者利用引文網絡的共引和文獻耦合關系,開展領域前沿檢測研究。2004年,Newman[30]利用不同學科的論文作者信息,分析了作者之間協作關系的社區結構,并提出基于模塊度的層次社區結構分類方法。2018年,韓青等[31]基于文獻共被引特征開展文獻相似度計算研究工作。此外,國內外諸多學者還利用引文網絡開展學者、論文和期刊的影響力評價研究[32-34]。而在基于引文網絡的推薦研究方面,West等[35]基于論文引文網絡分層聚類方法,采用科學知識的層次結構,通過為不同的用戶建立多維關聯度進行論文推薦。Haruna等[36]通過研究基于共引關聯矩陣的相似性度量進行學術論文推薦。
總體來看,在復雜網絡的理論、模型、算法以及應用等方面,已形成了蔚為可觀的研究成果,基于引文網絡的知識傳播、社區發現、影響力評價方面的研究同樣成效顯著。但是到目前為止,基于引文網絡利用社區發現方法進行數據資源推薦,改善開放共享數據資源傳播和重用現狀,并深入分析“合著、共引、耦合”不同關聯社區構建方式,在數據推薦效果上的差異性方面,開展的深入研究和實踐工作則相對較少。
通過學術論文引文網絡的社區發現算法,可以將引文網絡劃分成不同的社區網絡。每個社區網絡內的研究群體具有相似或相關的研究方向。若能夠發現并驗證某數據資源對特定社區網絡中某個或某些學術論文具有研究或參考價值,則可以認為該社區網絡中的其他論文作者也可能會對該數據資源產生興趣,并據此向該社區網絡進行相應數據資源的推薦,以充分利用引文網絡的知識傳播機制加速數據資源的傳播和重用。
如圖1所示,基于引文網絡社區發現的數據推薦算法具體步驟為:

圖1 基于引文網絡社區發現的數據推薦原理與步驟
(1)構建引文網絡關聯模型,基于圖數據庫引擎建立學術論文的引文關聯網絡;
(2)基于合著、共引、耦合關系,利用模塊度Louvain社區發現算法,發現具有相似或相關研究方向的社區網絡;
(3)利用論文與數據集基于內容相似性或引用等關系,分別建立數據集與3種引文社區網絡之間的關聯;
(4)將與數據集建立起關聯的3種社區網絡中各論文節點,進行疊加去重后進行數據推薦。
如表1所示,為了開展研究,本文基于互聯網開放數據資源以及Web of Science核心數據庫獲得了以下測試數據:

表1 待推薦測試數據集
(1)發布于PANGAEA、Dryad、美國國家海洋和大氣局NOAA(National Oceanic and Atmospheric Administration)等,并在Earth System Science Data(ESSD)數據期刊上以數據論文方式進行出版的8個數據集,用作待推薦測試數據集;
(2)8個數據集的施引學術論文共計1001篇,用于推薦算法效果的測試與驗證;
(3)ESSD期刊中論文的施引論文5037篇,以及此5037篇論文的施引論文53809篇和參考文獻337483篇,用于學術論文引文網絡模型構建以及基于社區發現進行數據推薦測試。
針對數據集、論文、作者以及三者相互之間的引用、發表、合作等關系構建關聯知識網絡,將數據集、論文作者等實體以及實體間關聯,表示為一個頂點集以及頂點集的鄰接鏈表,每個鄰接鏈表存儲一個頂點的所有邊,并采用標準化的圖結構描述實體頂點及其關聯邊。具體引文關聯網絡模型設計如圖2所示。

圖2 引文關聯網絡模型
為了存儲引文網絡數據信息,并且方便基于引文網絡開展社區發現工作,本文選擇圖數據庫Neo4j作為引文網絡數據的存儲方案。圖數據庫善于處理大規模、復雜、互連接的數據。如圖3所示,相比采用傳統關系型數據庫,基于圖數據庫的關聯查詢時間復雜度可以保持在常數級別。此外,Neo4j還提供了高效的圖算法、推薦系統和OLAP(online analytical processing)風格的分析服務[37]。

圖3 關系型數據庫與圖數據庫算法復雜性對比
表2以數據集頂點為例,展示了引文關聯網絡模型中實體的形式化表達。表3給出了數據集與引文網絡關聯關系,即頂點間的關聯邊的形式化表達。

表2 數據集頂點實體模型

表3 數據集與引文網絡關聯關系模型
1)合著網絡
如圖4所示,基于合著關系的關聯網絡構建原理為:如果兩名作者存在過論文合作關系,那么說明兩名作者存在一定的關聯性。兩名作者合作的論文數量越多,則說明這兩名作者關系越緊密。

圖4 基于合著關系構建關聯
2)共引網絡
如圖5所示,基于共引關系的關聯網絡構建原理為:如果兩篇論文同時被某篇論文所引用,那么說明這兩篇論文存在一定的關聯性。兩篇論文同被引次數越高,說明這兩篇論文的相似性或者關聯度越高。

圖5 基于共引關系構建關聯
3)耦合網絡
如圖6所示,基于耦合關系的關聯網絡構建原理為:如果兩篇論文有相同的參考文獻,那么說明這兩篇論文存在一定的關聯性。兩篇論文相同的參考文獻數量越多,則說明這兩篇論文的相似性或者關聯度越高。

圖6 基于耦合關系構建關聯
目前,常用的社區發現算法包括:圖分割、層次聚類、劃分優化以及標簽傳播等社區發現算法[38-39]。本文基于引文網絡所開展的社區發現工作,主要采用基于模塊度的Louvain算法實現。該算法的優點是高效并且準確,被公認是性能最好的社區發現算法之一[40]。
模塊度和模塊度增量是Louvain算法中兩個最主要的參數。其中,模塊度Q用于描述劃分的社區內部節點的緊密程度,是評價社區劃分效果的重要指標。其計算公式[41]為

其中,m表示網絡中邊的總數;A表示節點間的重,若網絡中未引入權重,則Aij=1;ki表示節點k的度;σ(ci,cj)表示判斷社區ci與社區cj,如果是同一個社區,則取值為1,否則,取值為0。
在利用Louvain算法進行社區劃分過程中,對每個節點i,依次嘗試把節點i分配到其每個鄰居節點所在的社區,并計算分配前后的模塊度增量ΔQ,其簡化后的計算公式為

其中,ki,in表示社區c內節點與節點i的邊權重之和;表示與社區c內的節點相連的邊的權重之和。
數據集與社區網絡之間關聯的構建,是在引文網絡社區發現工作完成之后,整個數據推薦算法至關重要的一環。能否通過關聯構建將數據集引導到真正對其感興趣的社區網絡是決定數據推薦最終成效的關鍵。構建數據集與引文社區網絡之間的關聯關系可以有引用、相似性度量等方式。由于引用關系存在時間滯后性和不確定性,在數據集發布的最初階段,主要采用相似性度量方式構建關聯;當數據集發表超過一定時間,并出現施引論文時,亦可采用引用關系進行關聯構建。
本文主要采用相似性度量方式,構建數據集與引文社區網絡之間的關聯,具體構建方法為:首先,基于向量空間模型對數據集和論文的標題與摘要信息進行矢量化與特征提取;其次,在特征提取過程中,利用TF-IDF算法進行詞向量權值計算;最后,利用余弦相似度計算數據集與引文網絡中論文的相似度。
向量空間模型(vector space model,VSM)是自然語言處理中一種常用的模型,該模型由Gerard Salto等于1969年提出[42]。向量空間模型VSM將文本內容映射為一個特征向量V(d)=(t1,w1(d);…;tn,wn(d)),其 中ti(i=1,2,…,n)為 一 列 詞 條 項,wi(d)為ti在文檔d中的權值[42]。
TF-IDF(term frequency-inverse document fre‐quency)是一種用于信息檢索與數據挖掘的常用加權技術。字詞的重要性與其在單文本內容中出現的次數成正比,同時也與其在整個語料庫中出現的頻率成反比[43]。TF-IDF的計算公式為

其中,ni,j是該詞ti在文檔dj中的出現次數;是在文檔中所有字詞的出現次數之和;|D|表示語料庫中的文檔總數;|{j:ti∈dj}|指包含詞語ti的文檔數目,為避免被除數為零,一般情況下使用1+|{j:ti∈dj}|。
在特征提取過程中,由于選取的測試數據集和論文均為英文格式,因此,直接選擇空格進行分詞操作。為了提高相似性度量的準確度,本文在進行特征提取時,需要對a、the、of等常用詞進行停用處理,同時,還需要對英文的標點符號和數字等通過正則表達式方式進行清除。
此外,數據集di與論文dj之間的相似性度量采用余弦相似性進行實現,具體計算公式[44]為

其中,wk(di)表示數據集di描述信息中詞k的權重,該權重由公式(3)計算所得。
本文首先基于實驗數據進行了引文關聯網絡的構建,然后分別從合著、共引和耦合三種網絡關聯方式利用基于模塊度的Louvain社區發現算法完成了社區發現工作。為了提高社區內論文間的相關度、減少社區規模,本文選擇當兩篇論文出現共被引次數超過4次(含)以上時,構建兩篇論文的共引關聯;當兩篇論文相同的參考文獻超過5篇(含)時,構建兩篇論文的耦合關系。基于三種關系的社區發現最終結果如圖7所示。此外,圖7還展示了待推薦數據集與社區網絡之間通過相似性度量或者引用關系構建關聯的示例效果。

圖7 引文網絡三種社區發現效果與數據集推薦示例
利用引文網絡社區發現,對實驗數據進行推薦的效果如表4所示。本文在基于標題和摘要進行相似性度量以構建數據集與引文社區網絡的關聯時,選擇關聯數據論文的條件為相似度>0.50,如果相似度>0.50的論文數量超過5個,那么選擇相似度最高的5個論文構建關聯。由表4可知,在基于相似度的關聯構建方式下,除了數據集4推薦效果較差外,其他7個數據集的推薦論文中,覆蓋真實施引論文的概率均超過60%,平均覆蓋率為80.02%。這說明了通過相似度進行數據集與引文社區網絡之間的關聯關系構建,能夠有效的將待推薦數據集正確引導至可能對其感興趣的社區網絡中。針對推薦效果較差的數據集4,本文進一步通過選擇該數據集的第一篇施引論文,作為數據集與引文社區網絡的關聯構建方式。在該關聯網絡構建方式下,數據集4的真實施引論文被推薦到的覆蓋率達到了80.38%,這一定程度上說明了基于被引關系構建數據集與引文社區網絡間關聯的方法同樣有效。本文未計算推薦算法的查準率,主要是由于目前尚無法確認數據集對推薦的未施引論文沒有價值。這些被推薦而未施引的論文也可能是這些數據集的潛在感興趣用戶,該推測尚有待做進一步驗證。

表4 基于引文網絡社區發現的數據推薦效果
另外,通過合著、共引和耦合三種關聯網絡,利用社區發現算法所構建的社區網絡對最終推薦效果的影響程度來看,基于耦合關系構建的社區網絡貢獻度最大,且最穩定;合著關系次之。而基于共引關系構建的社區網絡,因受數據集發布時間長短和數據集真實被引用次數的影響而效果差異較大。
數據開放共享的目的是重用,而當前數據出版物的利用率和傳播效率整體偏低。為了加速科學數據的傳播和重用,提升科學數據開放共享成效,本文提出了一種基于引文網絡社區發現的數據推薦方法。該方法首先通過構建“數據集-論文-作者”之間的關聯網絡,利用Louvain算法分別從合著、共引和耦合三種關聯方式進行社區發現;然后,通過數據集與學術論文的標題及描述信息,基于TF-IDF算法與余弦相似性度量,構建數據集與學術論文引文網絡社區間的關聯,并以此進行數據推薦。從實驗結果可見,測試數據集所推薦的論文中,真實施引論文平均覆蓋率超過了80%,這說明了基于引文網絡社區發現的數據推薦方法,能夠有效發現數據集潛在感興趣的論文或作者。同時,可以發現在數據推薦效果的貢獻度和穩定性方面,基于耦合關系的社區發現表現最優,合著關系次之,而引用關系則受出版時間長短和被引次數的影響導致效果差異較大。
基于引文網絡社區發現的數據推薦方法,在真實施引論文被成功推薦的查全率方面表現良好。但是,該方法仍然存在進一步研究和優化的空間。首先,在數據推薦結果的查準率方面,對于進行了數據集推薦的未施引論文是否對推薦數據集感興趣,是否可以成為推薦數據集的潛在使用對象,亦或者推薦的數據集對未施引論文是否完全沒有價值,尚有待進一步研究和驗證。另外,在數據推薦算法中,可以進一步引入權重計算,并根據待推薦論文與數據集的關聯路徑距離以及論文在社區網絡中的重要程度優化推薦策略。
最后,本文希望通過基于引文網絡社區發現的數據推薦方法的研究和實踐工作,能夠充分利用現有學術論文經過幾百年的發展歷史所形成的龐大引文網絡和完善的知識傳播機制,推動開放科學數據的傳播和重用,為提高科學數據開放共享水平,以及促進科技創新和經濟社會發展做出貢獻。