唐蓓 夏秋菊
摘 要:通過構建基于Prefuse的知識圖譜系統框架,在此框架基礎上采用社會網絡算法構建信息檢索學科合作網絡知識圖譜并進行了分析。發現信息檢索研究人員在高產、高被引和高合作群體中不存在很強的一致性。合著網絡中形成以Zhang, L、Sprink, A和Schacter, DL為中心的最大規模科研群體,以Tulving, E和Cabeza, R為代表的凝聚力最強的合作群體。
關鍵詞:Prefuse 社會網絡 知識圖譜 信息檢索 合作網絡
中圖分類號: G254.9文獻標識碼: A 文章編號: 1003-6938(2012)05-0079-06
近年來,隨著多種知識圖譜分析工具的出現,一些研究者利用知識圖譜軟件(主要是CiteSpaceⅡ)對信息檢索學科進行了分析,如Rorissa A和Yuan X(2011)在2000~2009年數據的基礎上用CiteSpaceⅡ對信息檢索學科進行知識圖譜構建和學科分析[1];國內同樣有學者利用該軟件對信息檢索的子領域進行分析,但這些研究存在數據源時間跨度短、在一定程度上依賴于知識圖譜軟件的功能,而且未對信息檢索學科合作網絡進行分析研究。通過上述考慮,本文嘗試一種新的知識圖譜框架,基于該框架通過社會網絡算法構建信息檢索合作網絡并進行解讀,以便為國內外從事信息檢索研究的有關學者提供參考借鑒。
1 基于Prefuse的知識圖譜系統設計
2005年,Heer J、Card SK、Landay JA三人共同撰文提出了Prefuse的信息可視化框架[2]。Prefuse為數據建模、數據可視化以及用戶交互提供了豐富的軟件庫,可以支持表格、圖和樹顯示,還具有支持動態顯示、動態查詢等功能。Prefuse基于傳統的MVC架構進行開發,其可視化時需要經過如下處理過程[3]:
(1)抽象數據(Abstract Data)。Prefuse對數據進行可視化的首要步驟是獲取數據,并為數據提供了指定的接口和程序,可以顯示表、圖和多種樹形結構。本文主要使用XML格式的數據,通過把數據轉化成XML格式,如DOITrees、GraphML、TreeML格式,完成抽象數據的處理過程。
(2)數據過濾(Filtering)。主要是將抽象數據進行提取、轉化,使其適用于顯示。首先選取要進行可視化的一系列元素,如一個圖形或顯示在散點圖上的重點區域。然后形成一些可視化的屬性(稱為VisualItems),如源數據中顯示的文字、數字,顯示時的坐標點、顏色、大小等等。然后通過Action提供為上層組件。
(3)數據渲染(Rendering)。即圖形繪制的過程,可視化元素(VisualItems)通過渲染器(Renderers)繪制到屏幕上,其中用到上面形成的組件如顏色、位置、大小等等。Prefuse實現了一些基本渲染器,通過渲染器工廠RenderFactory進行管理。
(4)交互顯示(Interactive Display)。功能由Display組件完成,用于顯示ItemRegistry中注冊的組件??梢暬换スδ芡ㄟ^ControlListener接口實現,主要是提供對鼠標、鍵盤的監聽功能。
本文通過對數據的預處理、數據抽取、矩陣形成,進行聚類或社會網絡以后,把生成結果轉化成Prefuse可支持的TreeML、GraphML格式,借助Prefuse可視化框架,完成聚類顯示、社會網絡顯示的功能。
2 信息檢索學科分析的知識圖譜構建
2.1 數據源獲取
本研究數據來源于Web of Science的SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH數據庫,用“Information Retriev*”作主題檢索,檢索時間選擇20世紀50年代至今(截止至2011年11月25日),詞形還原打開,得到的檢索結果共計46561條記錄。以此作為構建信息檢索學科知識圖譜的數據集,以下簡稱為“數據集”。
2.2 數據處理
(1)提取作者數據。在原數據庫中,通過數據表paper的“authors”字段,可以獲得每篇文獻的作者數據,在作者字段中,為方便去重和區別不同作者,每個作者姓名以數據集中提供的全名進行表示,當文獻是合作文獻時,作者之間以分號進行分隔。選擇paper的“authors”字段的所有數據,通過編程對獲取的每個作者條目進行切分,從而得到所有作者數據。
(2)構建合作者對應關系。建立表author_author,其中包括兩個字段“firstauthor”和“secondauthor”。通過處理,共得到548,182條作者與作者對應數據。在構建“作者——作者”對應表時,第一作者與第二作者及其他作者不分權重,即所有作者的重要程度相同。構建作者與作者對應關系表時,通過對步驟一獲得的每一條合作者數據進行遍歷,得到作者與作者對應關系。
(3)生成合作者數據。對表author_author中的數據,根據“firstauthor”字段進行分組合并,對“secondauthor”進行合并,合并過程中剔除重復元素,“secondauthor”對應數據以分號進行連接,同時統計出每個作者的合作次數,然后將合作者數據插入表coauthor中。
處理完成后,共得到96,778個作者的合作者信息,其中與其他作者合作頻次最高的為Bryant, Stephen H.,合作頻次為245。與其他作者合作頻次達到200次以上的作者共22人(見表1)。
2.3 合作者網絡構建
由于本文的研究重點是確定合作者中的團體和其研究內容,所以文中采用無向無權網絡,構建過程如下:
(1)定義社會網絡數據結構。合作者網絡的定義包括節點、邊和社會網絡三個部分。節點包括aid和aname兩個字段,為網絡中最基本的構成元素,由類Node表示;邊由節點和與該節點關聯度為1的節點的集合構成,其中與該節點關聯的節點數即為該節點的度,由類Edges表示;社會網絡由節點的集合和邊的集合兩部分構成,其中社會網絡還可以獲取子網絡,由類SocialNetwork表示(見圖1)。
(2)構建合作者網絡。合作者網絡的構建根據數據庫中的合作者表coauthor和作者文獻產量表author_paper進行構建,合作者網絡的節點基于合作者的合作頻次和每一位作者的文獻產量進行選擇,然后根據其合作情況提取邊信息。在coauthor表格中有96,778條合作者信息,表author_paper中存儲有數據集中所有作者的文獻產量信息,共100,985條。
由于本文的研究目的是提取代表性的合作者社團及其研究方向,所以在合作者數據中作者提取了合作頻次超過53的前300條合作數據;另一方面,為了減少網絡復雜度高從而導致信息表征的不足的影響,僅提取文獻產量在10以上的作者,共407位高產作者。
以上步驟具體由類SocialNetworking完成(UML結構見圖2)。通過合作者網絡構建,共得到142個節點和71條邊。
(3)獲取合作者群體。在得到的合作者網絡中,每個子網絡代表一個合作群體,通過獲取子網絡,可以得到合作者網絡中最大合作群體以及其他合作群體。通過對各群體中的節點數、各節點的度、以及作者、作者發表的文獻特征進行提取,可以獲得各個合作群體的研究重點、研究特征等特性。
本文對合作群體的獲取,通過社團結構搜索算法進行,算法具體在SocialNetworking類的getSubNetWorkNodes方法完成,經過對合作者網絡的合作群體進行搜索,共得到21個合作群體,節點數最多的合作群體包括45個節點,節點數為22的群體有1個,節點數為11的群體有2個,節點數為5的群體有2個(見表2)。
[子網節點數\&45\&22\&11\&5\&4\&3\&2\&\&子網數\&1\&1\&2\&2\&2\&9\&4\&共計21個\&][表2 合作群體數及相應節點數]
2.4 知識圖譜生成
對社會網絡的可視化基于GraphML文件和Prefuse可視化框架進行。首先需要把上一步生成的合作者網絡轉化為進行可視化的GraphML文件,然后通過Prefuse框架提供的可視化接口,對GraphML進行讀取、渲染以及最后的展示。詳細流程為:
(1)生成可視化表征文件。采用GraphML進行圖形描述。GraphML格式最初由GML轉化而來,符合XML語言規范。通過編程將得到的合作者網絡數據進行轉化,轉化為GraphML格式的文檔(結構見圖3)。
(2)知識圖譜顯示。生成代表類別的GraphML文件以后,就可以通過Prefuse所提供的可視化組件進行圖譜顯示了,完成信息檢索合作者網絡的知識圖譜繪制。
從整個合作者網絡圖(見圖4)可以看出整個網絡圖可以分為不同的子圖,對其中各個子圖的節點分布并不均衡,最大的子圖有45個節點(見圖5),位于圖中央,依次是有22個節點的子圖(見圖6),最小的子圖僅僅2個節點,位于整個圖的邊緣。
3 信息檢索合作網絡知識圖譜的解讀
3.1 整體合作網絡特性分析
其中,fj表示合著者人數為j的論文數;N表示論文總數,k表示合著者人數的最大值。
經過統計,在得到的46,561條數據中合著文獻數達到38,506條,占文獻總數的82.70%,所以合著率為82.70%。其中合著人數最多的文獻有54個作者,合作者人數分別為2人、3人和4人的文獻數及所占合著文獻比例如表3所示,這三種情況共占合著文獻的79.13%。通過計算得到其合作指數CI為2.99,說明篇均作者2.99人。
3.2 最大子網絡分析
針對合著網絡中的節點最多的兩個子網絡進行具體分析,包括節點的度分析和子網絡中的合著子群分析。
通過編程統計,得到兩個子網絡中每個節點的度,表4顯示了節點數為45和22的子網絡中度數較高的前10為作者。
圖7中以徑向圖形式顯示了節點數為45和22的合著網絡子圖,結合表4,可以從圖中直觀的看到以Zhang, L、Sprink, A和Schacter, DL為中心,組成了網絡中規模較大的科研群體。節點數為22的子圖中形成了整個網絡中節點數最多、邊最為密集的凝聚子群,在這個凝聚子群中,節點度數最少的是Kohler, S和Markowitsch, HJ,度值為3,Tulving, E和Cabeza, R節點度值最大為9,共有10個節點,平均節點數為6.2,該凝聚子群是信息檢索領域凝聚力最強的合作群體,是信息檢索研究的重要科研群體。
[節點數為45的子網絡\&節點數為22的子網絡\&節點姓名\&節點度\&節點姓名\&節點度\&Zhang, L\&8\&Cabeza, R\&9\&Spink, A\&8\&Tulving, E\&9\&Zhang, Y\&6\&Houle, S\&9\&Huang, HL\&6\&McIntosh, AR\&8\&Li, J\&5\&Schacter, DL\&7\&Ma, WY\&5\&Craik, FIM\&6\&Zhang, J\&4\&MOSCOVITCH, M\&5\&Liu, Y\&4\&Nyberg, L\&5\&Chen, J\&4\&Nilsson, LG\&5\&Zhang, HJ\&3\&Rugg, MD\&4\&][表4 節點數為45和22的子網絡
中度數較高的前10為作者]
3.3 合作網絡研究者分析
評價科學家在網絡中的地位及其影響力通常有:發表文獻數、文獻被引次數、度值、中間中介數等指標。本文選用發表論文數、作者被引次數和節點度值三個指標。 表5顯示了發表論文數、作者被引次數和作者節點度值較高的研究人員,通過表格可以看出,Sprink A發表論文數和網絡中的節點度值都位于前列,Tulving E的作者被引次數和節點度位于前列,其他的28位研究人員并不存在同時在高產、高被引和高合作群體同時出現的情況,所以通過表格可以反映出信息檢索研究人員在高產、高被引和高合作群體中不存在很強的一致性。
[作者\&產出\&作者\&被引次數\&作者\&節點度數\&Chen, HC\&60\&Salton G\&4145\&Cabeza, R\&9\&Spink, A\&54\&Tulving E\&1494\&Tulving, E\&9\&Zhang, J\&42\&Baezayates R\&1084\&Houle, S\&9\&Crestani, F\&39\&Belkin NJ\&1054\&Zhang, L\&8\&Schacter, DL\&38\&Vanrijsbergen CJ\&965\&Spink, A\&8\&Del Bimbo, A\&36\&Deerwester S\&767\&McIntosh, AR\&8\&Jarvelin, K\&35\&Robertson SE\&717\&Schacter, DL\&7\&Snasel, Vaclav\&35\&Squire LR\&633\&Zhang, Y\&6\&Zhang, HJ\&33\&Porter MF\&569\&Huang, HL\&6\&Rugg, MD\&32\&Anderson JR\&558\&Craik, FIM\&6\&][表5 發表論文數、作者被引次數和節點度值統計表]
4 結語
本文主要對信息檢索領域的合作網絡進行知識圖譜構建和解析。通過數據預處理提取構建合作者網絡的合著數據,然后通過社會網絡算法構建合作網絡,再通過編程將網絡轉化為GraphML格式的文件,提供給Prefuse可視化接口進行知識圖譜顯示,完成合作網絡的知識圖譜構建。在此過程中自行實現社會網絡算法,實現合作者網絡的提取。借助構建知識圖譜和數據統計,對信息檢索的合作網絡進行分析,分析了合作網絡的整體特性、最大的兩個合作者網絡、凝聚性最強的合作網絡,然后對信息檢索的合作網絡研究者與高產作者和高被引作者進行了綜合分析。
參考文獻:
[1]Rorissa A, Yuan X. Visualizing and Mapping the Intellectual Structure of Information Retrieval[J]. Information Processing and Management, 2011,(48):120-135.
[2]Heer J,Card SK, Landay JA. Prefuse: A Tookit for Interactive Information Visualization[C].CHI,Portland, 2005:
421-430.
[3]Chu H. Research in Image Indexing and Retrieval as Reflected in the Literature[J]. JASIST, 2001, 52(12):1011-1018.
[4]劉鵬.科研合作復雜網絡模型的研究[D].廣州:暨南大學信息科學技術學院數學系, 2011.
[5]Suyeon Kim, Euiho Suh, Hyunseok Hwang. Building the knowledge map:an industrial case study[J].Journal of
Knowledge Management,2003,7(2):34-45.
[6]Ding Y, Yan E, Frazho A etc. PageRank for Ranking Authors in Co-citation Networks[J].Journal of the American Society for Information Science and Technology,2009, 60(11):2229-2243.
[7]林莉. 科研論文合著網絡結構與合作關系研究[D].長春:吉林大學社會醫學與衛生事業管理, 2010.
[8]李亮,朱慶華. 社會網絡分析方法在合著分析中的實證研究[J]. 情報科學,2008,26(4): 549-554.
[9]張英杰,冷伏海. Twitter類網站微信息組織及用戶關系網絡研究[J].圖書情報工作,2010,54(16):116-119.
[10]Hsinchun Chen[EB/OL].[2012-03-20].http://en.wikip
edia.org/ wiki/Hsinchun_Chen.
[11]王知津等. 十五年來我國網絡信息檢索研究述評[J]. 情報科學,2004,22(4):385-389.
[12]王智紅等.近十年來我國網絡信息檢索研究主題分析[J].情報雜志,2009,28(7):1-6.
作者簡介:唐蓓(1979-),女,碩士,上海工程技術大學圖書館館員,研究方向:信息可視化;夏秋菊(1985-),女,碩士,上海工程技術大學圖書館助理館員,研究方向:知識管理。