陳蘭杰 侯鵬娟
(1.中國科學技術信息研究所 北京 100038;2.河北大學管理學院 河北保定 071000;3.中國地質大學長城學院圖書館 河北保定 071000)
眾所周知,數字資源組織是數字資源開發利用的前提,當前,面對多樣的、海量的、非結構化的數字資源,傳統的文獻組織和數據庫組織已不能滿足用戶日益增長的需求,對數字文獻資源的組織正在從數字資源整合向更高層次的數字資源聚合邁進。[1]然而,由于數字文獻資源的分布分散、異質結構等特點,給充分利用數字文獻資源帶來了極大挑戰,為此,如何對海量數字文獻信息資源進行科學的組織和開發成為當前圖書情報界關注的熱點問題,這從近幾年國家級的課題可窺見一斑,例如:2012年國家自然科學基金項目“基于海量數字資源的科研關系網絡構建研究(曾建勛)”以及“語義網絡環境下數字圖書館資源多維度聚合與可視化研究(畢強)”;2013年國家自然科學基金項目“基于關聯書目數據的分層聚合和導航機制研究”。2012年國家社科基金重大項目中的三個項目都與數字文獻資源開發利用有關,“云計算環境下的信息資源集成與服務研究”(杜小勇)、“面向學科領域的網絡信息資源深度聚合與服務研究”(孫建軍)、“基于特定領域的網絡資源知識組織與導航機制研究”(曹樹金);2013年國家社科基金一般項目“公共數字文化服務中的資源整合研究”(肖希明);2014年國家社科基金青年項目“語義和情景關聯的網絡資源聚合單元分類體系構建”(馬翠嫦)等。
在學術研究方面,對數字文獻關聯關系揭示的研究也已引起眾多學者的關注。在國內,李亮先在2004年較早地提出信息資源關聯的應用[2],此后有關信息資源關聯的研究相繼展開,如基于關聯數據的館藏信息資源聚合[3]、基于社會網絡和資源關聯基礎上的數字圖書館資源聚合[4-6]、基于關聯數據的圖書館信息聚合研究[7]、基于共現與耦合的資源聚合[8]、基于語義的資源聚合與關聯識別[9-10]、基于元數據的文獻關聯研究[11]、基于多共現的文獻相關度判定[12]、基于多重共現揭示高校圖書館與核心期刊間的發文關聯關系研究[13]。在國外,已有文獻[14-16]較早地對科技文獻的關聯進行了探討,美國科學計量專家 Morris開發了交叉圖和時間線技術,實現了機構與研究主題兩種文獻特征項的關聯[17-18],Leydesdorff則把作者-期刊-關鍵詞的特征項關聯起來,實現了多個特征性的多重共現關聯[19]。
上述研究成果表明,對數字文獻資源的開發利用更加關注多維度、集成化、關聯化的特點,特別是更加注重海量數據環境下滿足不同用戶需求的應用。對數字資源的組織正在從文獻層面、記錄層面的組織轉向更加碎片化的知識間關聯的組織;從數字資源整合向數字資源聚合邁進,將分散獨立的數字資源構建成一個內容相互關聯、多維度、多層次的資源體系,形成集概念主題、學科內容和科研對象實體為一體的立體化知識網絡。[20]事實上,對海量數字資源的組織只從一個層面加以組織已經不能滿足用戶多樣化的需求,同時也會因信息冗余阻礙數字資源價值的充分發揮。因此,必須考慮數字資源內部組織結構、內容結構、與人的利用、知識更新之間的關聯,構建動態的、與時俱進的知識關聯網絡。
數字文獻資源關聯的直接作用是構建知識關聯網絡,而知識關聯網絡主要是由各種知識節點及節點間錯綜復雜的各種關系構成。
對數字文獻資源而言,構建知識關聯網絡則主要是基于數字文獻的外部特征和內容特征來實現。數字文獻的外部特征主要包括題名、作者、機構、工作單位、文獻出處、參考文獻等信息。內容特征則包括關鍵詞、主題詞、分類號、知識元等。在構建知識關聯網絡時,一方面可以通過外部特征的關聯來實現,也可以通過內容特征的關聯來實現,還可以通過外在特征與內容特征的交叉關聯來實現。一般而言,通過數字文獻外部特征的關聯形成的知識網絡是對數字文獻資源的簡單整合,而通過數字文獻內容特征的關聯形成的知識網絡和通過外在特征與內容特征的交叉關聯則是對數字文獻資源的深度聚合,顯然,后者的意義和價值更大,從某種程度上來說后者是一個知識發現的過程,數字文獻之間增加了更多的邏輯關系。
目前,在數字文獻資源知識關聯網絡中存在的關聯關系主要有:機構關聯、學者關聯、期刊關聯、主題關聯發現、文獻關聯和交叉關聯等多種關聯。[21]
加強對數字文獻資源關聯關系的研究,目的是構建一個多維的、內容關聯的知識網絡,具有如下重要價值和意義。
2.2.1 數字文獻資源的關聯是數字圖書館的資源建設與管理的重要內容。數字圖書館本身就是數字文獻資源的集合體,儲存有多種媒體、不同結構的異質數字資源,隨著這個集合體內容的不斷增加,有關聯關系的數字資源越來越多,為了充分發揮這些資源的潛在價值,需要建立這些資源的關聯。因此,利用數字文獻資源關聯技術可將有效信息資源有機地關聯起來。
2.2.2 數字文獻資源關聯是實現知識發現的重要途徑。利用數字文獻資源關聯技術可以實現信息資源的關聯應用,從某種程度上來說避免了檢索結果的單一化、無序化,為用戶的檢索提供了更智能化的導航,這無疑是信息檢索和知識發現的有力途徑。當然,數字文獻資源的不斷增加會導致資源關聯模式發生變化,新資源的收錄、資源之間的關聯關系網絡也會發生變化,其檢索結果和知識發現模式也會隨之改變。
2.2.3 數字文獻資源關聯能滿足用戶的個性化需求。通過關聯關系構建的知識網絡能從不同側面、不同角度展示數字文獻資源之間千絲萬縷的聯系,深入挖掘數字文獻網絡中所蘊含的內在價值,為知識發現提供可能,并能按照用戶的需求對數字文獻資源進行揭示,滿足用戶的個性化需求,提高用戶檢索效率及準確率。
3.1.1 原理。引文分析主要是對各類文獻資源之間的引用與被引用現象進行分析,以便揭示其數量分布特征和內在關聯規律。[22]引文分析是進行文獻關聯研究最早、也是最成熟的方法之一。通過文獻之間的引證形成的引文鏈接可以構建起知識信息間的關聯關系[23],對于實現科技文獻的集成信息服務和促進知識發現具有重要意義。
引文理論源于1955年加菲爾德(E·Garfield)在《科學》雜志上發表的《引文索引用于科學》[24]一文,在該文中加菲爾德率先提出了引文分析概念和相關理論,從此拉開了對引文分析的先河。科學文獻之間通過引用關系構成了特定研究主題的知識網絡,其單向無回路的特征揭示了學科主題的知識結構和發展過程。[25]在科技文獻網絡中,每一篇文獻都是一個知識節點并具有相應的價值。引文網絡不僅能揭示文獻之間的關聯,還能通過關聯關系進行文獻聚合,更好地滿足用戶個性化需求。[26]基于引文的關聯分析主要包括三種模式:基于引用的直接關聯模式、 基于同被引的關聯模式、基于引文的擴展關聯模式。
3.1.2 應用。基于引文的關聯前提是文獻之間有某種引用關系,因此,這種關聯是一種強關聯,這對于信息檢索需求具有重要價值。世界上最早利用引文建立關聯關系的文獻系統是1961年由美國科學信息研究所(ISI)創辦出版的檢索評價工具《科學引文索引》(Science Citation Index,簡稱SCI)。目前國內的CNKI《中國期刊全文數據庫》、萬方《中國科技期刊論文數據庫》、維普《中文科技期刊數據庫》等三大期刊全文數據庫均具有引文檢索分析功能。
近年來,基于引文開展文獻計量分析、知識關聯分析和科研影響力評估已經成為圖書情報領域的一個重要研究分支。如王立學等以發表于 2005-2009 年的情報學論文為基礎,通過頻次統計、關鍵詞共現、論文同被引等文獻計量分析方法,挖掘并闡釋研究主題關聯以及作者同被引、機構同被引和期刊同被引等關聯關系。[27]
3.2.1 原理。共現(Co-occurrence or occurrence) 現象是文獻計量中一個特有現象,主要是指科技文獻中相同或不同類型特征項共同出現的現象。例如多篇文獻中共同出現的同類特征項,如關鍵詞、作者、機構等,以及不同特征項共同出現的現象,如論文與關鍵詞、機構與作者等的共現等。共現分析就是采用定量化的方法來分析文獻中因特征項的共同出現所產生的文獻之間的內容關聯。一般而言,共現的特征項之間一定存在著某種關聯,關聯程度可用共現頻次來測度。
通過共現分析可以從多個維度挖掘和揭示隱含在文獻中的各類知識信息單元的內容關聯和邏輯關聯。在信息計量學研究中,主要采用分析文獻特征項之間關聯來探討文獻內容的關聯。信息計量學中的共現分析通常包括共詞分析、耦合分析、同被引分析和合作分析等。目前,研究較多的是二重共現,即兩個文獻特征項的共現。如果將共現現象擴展到三重或者更多,則其揭示的關聯關系和邏輯聯系會更加豐富,其價值也會更大。如邱均平等(2013)提出了四種基于共現和耦合的數字文獻資源關聯模式,分別是文獻特征關聯、文獻利用過程關聯、知識關聯和用戶需求關聯。[28]
3.2.2 應用。利用共現方法來揭示文獻之間的關聯關系在文獻計量研究中被廣泛應用,如Morris[29-30]開發了交叉圖和時間線技術來研究兩種相同特征項之間的關聯,以此發現哪些機構合作研究了哪些相關的研究主題;胡瓊芳和曾建勛[31]提出從共引、耦合、共篇三個3角度,利用引文-被引文-關鍵詞三個特征項共現的方法來挖掘論文之間的關聯;龐弘燊對Morris 的交叉圖技術進行了改進,提出了多重共現交叉圖技術,用以展示三個特征項(機構-期刊-關鍵詞)之間的共現關系,以揭示更多文獻之間的關聯信息。[32]
3.3.1 原理。社會網絡是因個體成員間有效互動形成的較穩定的社會關系和社會團體的總和。社會網絡分析法是在社會網研究過程中形成的方法,從資源聚合的角度,可將社會資源網絡看成是由知識單元、知識關聯和知識群落構成的三元組。[33]從數字文獻資源組織的角度來講,知識單元是知識關聯網絡中的知識節點,知識關聯是知識節點之間的關聯關系,知識群落則是依據關聯關系劃分的知識單元的集合,而不同知識群落之間的交叉關聯則構成多維立體的知識關聯網絡體系。
社會網絡分析法主要用于資源間關聯關系的分析,其將資源間的關系看成“網”或“網絡”,并對此“網絡”進行結構劃分,形成不同的子群,從而實現關聯文獻的聚合。社會網絡分析法實現資源聚合主要是圍繞網絡中心性、網絡群聚性和網絡關聯性三個維度展開。其中網絡中心性主要用于衡量節點在整個社會網絡中的地位和影響力;網絡群聚性主要用于實現節點分類和定位,用于網絡結構和層級劃分;網絡關聯性主要用于判斷網絡節點間關系以及節點的重要程度。對于數字文獻資源,可依據數字文獻資源的內外部特征建立社會網絡關系,進而開展數字資源結構屬性和關聯關系分析。
3.3.2 應用。畢強等(2014)采用社會網絡分析法對從資源特征間關聯和資源利用過程關聯的視角出發,提出了6種數字資源聚合模式:基于作者互引關系的資源聚合、基于作者合作關系的資源聚合、基于作者-關鍵詞關系的資源聚合、基于多作者-關鍵詞關系的資源聚合、基于多關鍵詞-作者關系的資源聚合,以及資源特征間交叉關聯的聚合。[34]其中,基于作者互引關系的關聯主要用于發現作者間引用情況,識別核心作者;基于作者合作關系的關聯主要用于挖掘作者間相同的研究主題,揭示外在的合作群體;基于作者關鍵詞交叉關聯主要用于揭示潛在的合作群體;基于多作者-關鍵詞關系的關聯主要用于尋找關鍵詞共同體,識別相同研究主題;基于多關鍵詞-作者關系的關聯主要用于識別同一研究領域的核心作者。郭金龍[35]對圖書情報界學者博客互引情況進行了社會網絡分析;魏群義[36]還利用社會網絡分析軟件Pajek對國內近10年圖書情報學碩士學位論文關鍵詞進行了統計。
3.4.1 原理。語義方法就是對文本,圖片,多媒體等各種資源進行語義標注,通過語義標注使得它們之間建立各種關聯,這些標注不僅人可以讀懂,而且計算機也能夠理解。[37]本體方法是通過對客觀世界事物進行系統化、抽象化的描述和組織,體現特定領域的知識結構。
利用語義和本體方法是構建數字文獻資源關聯最理想的方法之一。在本體中,概念之間、實例對象之間存在著各種復雜語義關系,如等級關系、等同關系、相似關系、相關關系、互操作關系等。通過對不同領域的資源集合構建領域本體,利用語義映射機制實現異構資源和系統之間的語義關聯,就可以實現異構的、不同類型資源的深度聚合。[38]
3.4.2 應用。早在20世紀90年代,國外就對基于本體模型的異構數字資源進行語義標注方式作了研究,本體在其中的作用是提供對資源進行語義標注的詞匯標準。H.Wache等人將基于本體的整合方法歸納為單一本體法、多本體法和混合法3種類型[39];李勁等(2013)則提出了兩種基于語義信息檢索可視化模型[40];何超等(2013)構建了基于本體的館藏數字資源語義聚合與可視化模型,該模型利用本體提供的語義知識進行深層次的館藏數字資源語義聚合。旨在解決數字資源孤島問題和數字資源超載問題,揭示館藏數字資源內部存在的錯綜復雜關聯和深層次內涵,從而增強對數字信息資源聚合結果的認知和理解。[41]
3.5.1 原理。關聯數據是指共享、連接各類數據、信息和知識的一種知識信息組織方式,它克服了本體的領域局限性,實現了各類數據的無縫鏈接。關聯數據一般包括創建、發布、自動關聯、瀏覽和鏈接維護等環節。關聯數據的本質在于為各類分布的、異構的數據建立語義關聯,因此,它在數字資源整合和共享方面具有得天獨厚的優勢。關聯數據旨在構建一個計算機能理解的具有結構化和富含語義的數據網絡。其最大優勢在于可以對分布式異構數據進行整合并提供關聯訪問。數字圖書館可利用關聯數據進行數字資源的組織、集成和關聯信息服務。關聯數據是數字圖書館進行信息資源發布和服務的核心技術之一。[42]
3.5.2 應用。關聯數據意在通過發布和鏈接結構化數據使得分散異構的數據孤島實現語義關聯,從而促進傳統文件網絡向數據網絡演進。在國外 ,瑞典國家圖書館最先將本國國家聯合目錄(LIBRIS)發布為關聯數據[43]。隨后,美國、德國、法國、OCLC 等國際、國家級的書目數據也紛紛開放了關聯數據服務。
我國對關聯數據在數字文獻資源聚合與分析中的應用研究才剛剛起步,主要是對關聯數據在信息資源整合中的應用進行理論探討。譬如,丁楠和潘有能構建了基于關聯數據的圖書館信息聚合模型[44];游毅和成全對基于關聯數據的館藏資源聚合模式進行了理論闡述[45]。
目前,國內對數字文獻資源關聯關系的揭示主要從兩個角度出發,一種思路是從發現數字文獻資源之間的關聯關系出發,利用計量分析來挖掘數字文獻資源之間的關聯關系,包括基于引文的、基于共現與耦合的和基于社會網絡分析的關聯關系與數字文獻資源聚合;另一種是從構建關聯關系出發,從知識組織角度,主要通過運用概念分析、本體、關聯數據等方法增強資源語義,從而進行關聯關系揭示,包括基于本體和語義的數字文獻資源聚合、基于關聯數據的數字文獻資源聚合等。
引文分析法直接揭示文獻之間的關聯關系,形式化程度高,其不足在于對數字文獻關聯關系揭示較單一。
基于共現與耦合的揭示方法能通過數字文獻中不同特征項實現數字文獻關聯,并可根據不同的研究目的來分析不同的特征項之間的共現關聯關系。其不足在于由于理論和技術原因,目前只能對三個或以下特征項進行共現分析。
社會網絡分析法可以提供多個聚合應用的數據關聯訪問,將不同資源的關聯特征或不同資源間建立的社會網絡進行整合、提取,并按用戶的需求組織資源。基于資源內、外部特征間的關聯以及資源利用過程的關聯,可以構建作者互引關系、作者合作關系、作者-關鍵詞等關系網絡,其主要缺點是難以形式化表達。
基于本體與語義的揭示方法能對數字資源本身構建豐富的語義,形式化程度高,可以共享復用,其主要不足在于重表達,輕分析,特別是本體往往局限于某一領域。
基于關聯數據的數字文獻關聯關系揭示法是應用于數字資源整合的極少實踐研究方法之一,其語義豐富,形式化程度高。主要不足在于對資源間隱含關系和深層次語義關系的識別還不夠充分。
在以往的研究中,大多數對數字文獻資源關聯關系揭示的視角往往基于某一單一的技術方法。但實際上很多方法在數字文獻資源關聯關系揭示方面存在著必然聯系和相似性,如社會網絡分析方法、復雜網絡分析方法、信息計量學等。因此,了解技術方法上的互補融合之處,是全面、透徹地揭示數字文獻資源關聯關系的關鍵所在,這也是實現數字文獻全方位關聯的重要保障。未來還會有更多的數字文獻資源關聯關系的揭示方法,必然也是多維度和多視角的。
(來稿時間:2014年10月)
1,21.張云中.從整合到聚合:國內數字資源再組織模式的變革.數字圖書館論壇,2014(6):16-20
2.李亮先.信息資源的關聯應用.情報雜志,2004(2):103-104
3.王濤.基于關聯數據的館藏信息資源聚合研究.圖書館學刊,2012(8):44-46
4.畢強,王雨,孫暢.數字圖書館資源聚合模式研究——基于社會網絡分析的視角.數字圖書館論壇,2014(6):2-7
5,34.畢強,王雨,吳海媛.基于社會網絡分析的數字圖書館資源聚合實證研究.數字圖書館論壇,2014(6):8-15
6.孫中秋等.大數據時代數字資源整合與聚合研究.數字圖書館論壇,2014(6):28-34
7,44.丁楠,潘有能.基于關聯數據的圖書館信息聚合研究.圖書與情報,2011(6):50-53
8,28.邱均平,王菲菲.基于共現與耦合的館藏文獻資源深度聚合研究探析. 中國圖書館學報,2013(5):25-33
9.賀德方,曾建勛.基于語義的館藏資源深度聚合研究.中國圖書館學報,2012,38(7):79-87
10.魏來.基于在線詞表的 folksonomy 語義關聯識別方法研究.圖書情報工作,2011,55(5):103-108
11.黃筱瑾.基于元數據的科學數據與科技文獻關聯研究.情報理論與實踐,2013(7):27-40
12,31.胡瓊芳,曾建勛.基于多共現的文獻相關度判定研究.情報理論與實踐,2010,33(8):77-80
13,32.龐弘燊.基于多重共現揭示高校圖書館與核心期刊間的發文關聯關系研究.圖書館,2012(2):75-78
14.ARONSON A R. Effective mapping of biomedical text to the UMLS metathesaurus: the metamap program//ProcAMIA Annu Fall Symp,2001: 17-21
15.MANNING C H S. Foundations of statistical natural language processing.Cambridge.MA: MIT Press,1999
16.YOSHIDA M,FUKUDA K,TAKAQI T. PNAD-CSS: a workbench for constructing a protein name abbreviation dictionary.Bioinformatics,2000,16(2):169-175
17,29. Morris S.A.etc.DIVA: a visualization system for exploring document databases for technology forecasting.Computers & Industrial Engineering,2002(43): 841-862
18,30. Morris S. A.,Gary G.Yen.Crossmaps: Visualization of overlapping relationships in collections of journal papers.[2014-08-21].http://www.pnas. org /cgi/doi/10.1073/pnas.030760410
19. Loet Leydesdorff.What Can Heterogeneity Add to the Scientometric Map? Steps towards algorithmic historiography.[2014-08-21].http:// arxiv.org/abs/1002.0532
20.畢強.數字資源:從整合到聚合的轉變.數字圖書館論壇,2014(6):前言
22.邱均平.信息計量學.武漢:武漢大學出版社, 2007:316-317
23.周曉英,陳蘭杰.基于引文網絡的知識鏈接框架研究.情報雜志,2010(10):37-40
24.Garfield E.citation indexes for science:a new dimension in documentation through association of ideas.science,1955,122:108-111
25,26.邱均平,董克.引文網絡中文獻深度聚合方法與實證研究——以 WOS 數據庫中 XML 研究論文為例.中國圖書館學報,2013(3):111-120
27.王立學,孫楊,楊代慶.基于引文的情報學領域主題關聯特征分析.情報雜志,2012(10):27-31
33.孫中秋,陳曉美,周珊珊.Folksonomy與SNA資源聚合類比研究.數字圖書館論壇,2014(6):21-27
35.郭金龍,許鑫.領域博客的社會網絡分析:基于圖書情報與互聯網博客的實證.圖書情報工作網刊,2012(1):1
36.魏群義,侯桂楠,霍然.近10年國內情報學碩士學位論文研究熱點統計分析.圖書情報工作,2012,56(2):35-39
37.凌海云,左志宏,陳蘭.語義標注元數據及其抽取技術.計算機應用研究,2004(7):147-149
38.馬文峰,杜小勇,盧曉慧.基于知識的資源整合.情報資料工作,2007(1):51-56
39.Wache, H., Voegele, T., Visser, U., Stuckenschmidt, H.,Schuster, G., Neumann, H., Huebner, S.Ontology-based integration of information - a survey of existing approaches.Proceedings of the workshop on Ontologies and Information Sharing at the International Joint Conference on Artificial Intelligence (IJCAI), 2001:108-117
40.李勁,程秀峰,宋紅文.基于語義的館藏資源深度聚合方法研究.情報科學,2013,31(11):100-103
41.何超,張玉峰.基于本體的館藏數字資源語義聚合與可視化研究.情報理論與實踐,2013,36(10):73-76,39
42.王濤.基于關聯數據的館藏信息資源聚合研究.圖書館學刊,2012(8):44-46
43. Sderbck A, Malmsten M.LIBRIS-Linked Library Data.Nodalities,2008(5):19-20
45.游毅,成全.試論基于關聯數據的館藏資源聚合模式.情報理論與實踐,2013,36(1):109-114