杜文龍,馮現永
(西安航空學院 圖書館,陜西 西安 710077)
近年來,科學研究逐漸從“假設驅動”向“基于探索”模式轉變。“假設驅動”可以描述為,科研人員首先提出一個科學假設,然后通過實驗來驗證這個假設是否成立,而“基于探索”模式可以表述為科研人員借助分析工具,通過對海量數據的深度分析能得到何種啟發。因此“基于探索”的科研模式也可以稱為“數據密集型”研究模式。
1.“戰略性閱讀”的由來
計算機和網絡的出現使數據信息呈“爆炸式”增長,通信技術的革新以及基于P2P技術的網絡應用逐步增多,用戶擁有了信息利用者和提供者的雙重身份,科技期刊的數字化使得科技論文的出版周期大大縮減,科學交流的新模式OA的出現使用戶利用科技論文更加方便。置身于無處不在的數據環境,面對海量數據信息,科技期刊的數字化出版以及科學交流模式的新變化都使用戶產生了如何對海量數據進行知識關聯和深度分析以快速、準確、動態地把握一個學科或主題領域的發展脈絡的“戰略性閱讀”需求。
2.“戰略性閱讀”的含義
在面對重大復雜問題和自主創新的挑戰時,科研人員和科技決策者越來越依賴“戰略性閱讀”[1]來幫助他們理清某學科的發展軌跡及學科結構,某領域的研究熱點、研究現狀以及發展趨勢,為他們進行項目選擇和科技決策提供支持。傳統閱讀是針對某篇具體的文獻,文獻之間的關聯無從揭示,而“戰略性閱讀”則是借助軟件或工具,同時對多篇文獻進行聚合、歸類和圖形化表達,能以知識地圖的方式展示各文獻之間的語義關聯。“戰略性閱讀”通常不是為了解決某個具體問題,而是建立宏知識( Meta Knowledge)[2]。宏知識是更為重要、更高層次的需求,即以戰略性的高度對科技發展進行宏觀把握。
為了支持“戰略性閱讀”,許多公司已經開發了多種工具,支持科研用戶對海量數據的深度分析[3],例如Thomson Reuters的 HistCite,美國 Drex-el 大學的CiteSpace,Thomson 公司和ominiviz 公司合作開發的refviz等。本文以HistCite為例,以 “數字圖書館”主題領域為宏知識來源,展示如何運用專業分析工具來滿足科研用戶的“戰略性閱讀”需求。
本文以Web of Science平臺中的SCI-EXPANDED, SSCI和A&HCI為來源數據庫。檢索式為:“TS=digital library”,時間跨度為所有年份,檢索返回1542條數據,經過學科精煉,屬于信息科學和圖書館學科的數據有535條。將文獻記錄的題錄信息以“TXT”格式下載并另存,檢索時間為2012年2月1日。
1.數字圖書館研究文獻的量化分析
(1)數字圖書館研究文獻的時間分布。535條文獻記錄的時間分布如圖1所示。

圖1 數字圖書館研究文獻的時間分布
從圖1可以看出,在所采集的數據范圍內,最早的數字圖書館研究論文出現在2002年,從2002年至2008年文獻發表數量的變化表現為迂回式增長,從2003年起,文獻發表量大幅增長,除了2004、2010和2011這三年之外,其他各年度的文獻發表量都在55篇以上,并于2005和2008年出現了兩次文獻增長高峰時期,發文量分別高達81篇和68篇。由此可見,數字圖書館研究歷程大致上可分為:初創(2002)、穩定發展(2003-2004)、蓬勃興起(2005-2008)、衰落(2009-2011)四個階段。
(2)數字圖書館研究文獻的國家(地區)分布。通過國家(地區)分布圖,可以獲悉數字圖書館研究的活躍地區。535篇文獻分布于世界上42個國家(地區),排名前12位的國家(地區)如表1所示。

表1 數字圖書館研究文獻的國家(地區)分布(前12位)
由表1可以看出,美國是數字圖書館研究最為活躍的國家,發文量最多,達160篇,占世界文章總數的29.91%,大大超出其他國家;其次為UK,雖載文量遠遜于美國,但是相對其他國家來說它的發文量很大,高達56篇,位居第二,百分比為10.46%;加拿大、澳大利亞、西班牙等國家和地區發文量比較接近,對數字圖書館研究有一定的影響力。而我國排名第11,載文量為9篇,所占比例僅1.68%,這在一定程度上反應了我國于該領域的研究在國際上的影響力還有待于提高。
(3)數字圖書館研究的重要作者分布。在HistCite主界面,可將這些文獻記錄按照作者、期刊、出版年等字段進行排序,這樣就可以獲悉數字圖書館研究領域的重要作者以及該領域的文章主要被刊載到哪些期刊上,如想了解該領域的核心作者,該軟件提供三個指標可對作者字段進行排序,分別為Recs、TLCS和TGCS,Recs為作者發文量,TLCS為作者在當前數據庫中總的被引頻次,TGCS為作者在SCI-EXPANDED, SSCI和A&HCI來源數據庫中總的被引頻次。綜合Recs和TLCS這兩項指標,可以確定數字圖書館研究領域的重要作者,如表2所示。

表2 數字圖書館領域重要作者分布
2.數字圖書館研究文獻的引文編年
HistCite主界面的Tools工具欄提供Graphs Maker功能,可以依據LCS或者GSC制圖。利用LCS制圖可以確定某領域的經典文獻,為了優化可視化圖譜,可利用count和value參數對節點的數量和最低閾值進行限制。節點過多會影響視圖的顯示效果,不易辨認經典文獻,節點過少節點之間的引用和繼承關系就不能很好地展現出來。筆者根據所下載數字圖書館領域文獻記錄的實際情況,將LCS的count數量限制為30,即形成后的圖譜只顯示被引頻次(降序)在前30位條文獻記錄。LCS模式下count=30時生成的引文編年圖如圖2所示。

圖2 數字圖書館研究文獻的引文編年圖
圖2中每一個圓圈節點代表一篇文獻,節點的大小與文獻的被引頻次成正比,節點越大,文獻的被引頻次越高。圓圈之間的連線表明節點之間存在引用關系,箭頭所示方向為被引用的文獻節點。圖2中節點由上及下的空間順序反映了文獻發表的時間先后順序,按文獻發表的年份給文獻賦予順序號并排放在圖中相應位置上[4]。通過引文編年圖可以觀察數字圖書館研究的歷史淵源、文獻之間的引用和繼承關系以及數字圖書館研究的發展脈絡。
圖2中,2002年以前的沒有相應的文獻節點,說明了2002年以前國際上數字圖書館領域沒有較高影響力的經典文獻。
早期形成的經典文獻有發表于2002年的節點7、6和13。文獻7為Miller RG發表在《JOURNAL OF ACADEMIC LIBRARIANSHIP 》28卷第3期上的文章“Shaping digital library content”;文獻6是Bates MJ發表在《INFORMATION PROCESSING & MANAGEMENT》38卷第3期的文章“The cascade of interactions in the digital library interface”。其中文獻7主要討論了數字圖書館的數字資源建設及數字資源管理方面的問題,作者提出在數字資源建設方面應該協調好自建與從數據庫商購買的關系[5]。使得數字圖書館數字資源的建設和管理問題成為該領域的研究熱點之一。文獻6探討了數字圖書館系統設計、信息檢索系統設計、用戶界面設計以及在線信息系統等相關問題[6]。在文章13中作者提出了“大眾性數字圖書館”的概念。作者認為大眾性數字圖書館提供了這樣一種檢索環境,即將基于數據庫商提供的書目數據檢索與基于互聯網的搜索引擎式檢索有機結合[7]。最后作者探討了大眾性數字圖書館的發展前景以及在實現用戶信息期望方面所起的作用。由此可知,2002年形成的經典文獻的研究側重點為數字圖書館的數字資源建設、系統設計、檢索機制、用戶界面設計等方面。
2003年出現的比較大的文獻節點有36,54,30和35,其中文獻54和35對后續的研究有較深遠的影響,文章54為Tuominen, K等的文章“Multiperspective digital libraries: The implications of constructionism for the development of digital libraries”,該文章在Web of Science中被引頻次達17次。作者首先強調了數字圖書館信息檢索系統的設計理念和理論工作的重要性。此后作者在社會知識傳遞和社會知識生產兩種視角下探討了數字圖書館的知識組織方式和原則、數字圖書館的知識結構等問題。文章35為Kassim, ARC和Kochtanek, TR發表在期刊《Online Information Review》上的文章“Designing, implementing, and evaluating an educational digital library resource”,該文側重于教育型數字圖書館的設計以及教育型數字圖書館的資源評價體系研究。作者設計了教育類數字資源基于用戶的5個評價指標,分別為集體評論、網絡日志分析、數據庫事務日志、網絡調查和可用性評估。這就使得數字圖書館數字資源的評價機制研究成為一個比較熱門的主題。
由于越來越多的經典文獻逐年形成,數字圖書館研究從2005年開始進入了興盛時期。體現為從2005年開始,關于數字圖書館方面的論文劇增,從2004年的43篇增至2005年的81篇,文獻之間的聯系也更加緊密,而且研究的主題更加寬泛,增加了對數據庫管理系統、數據處理、用戶群體研究、可用性評價等方面的研究。
本文主要探討了如何用專業的數據分析軟件來幫助用戶實現“戰略性閱讀”的愿景,本文的分析工具為引文編年圖軟件HistCite,以“數字圖書館”為例,用戶可以通過HistCite對該領域的題錄數據做更深層次的分析。通過“戰略性閱讀”,用戶可以不必閱讀每一篇文獻就可以獲得數字圖書館領域的相關宏知識,比如用戶可以快速鎖定數字圖書館領域的經典文獻、重要的科學家和研究活躍地帶。
利用HistCite繪制的引文編年圖是從時間上反映某領域歷年來重要文獻的引用和繼承關系,節點之間的共被引關系以及聯系程度的強弱無從體現, 但是HistCite在考察一個學科或者主題的歷史淵源、繼承關系以及發展的主要路徑方面有著獨特的優勢。筆者認為如果將HistCite、Refviz和CiteSpace等分析工具結合起來,集各工具之所長,可以克服各個工具自身的缺陷,也能更好地滿足用戶對海量科研數據的可視化分析,最大程度地滿足用戶的“戰略性閱讀”的需求。
隨著e-science機制的形成,科學研究逐漸從“假設式導向”模式向“數據密集式”模式轉變,科研人員為了提高科研的效率和產出,更趨向于 “戰略性閱讀”來幫助他們理清研究思路和進行項目規劃。“戰略性閱讀”的適用范圍不僅僅是科研人員,普通的圖書館用戶以及政府決策人員都應該通過“戰略性閱讀”來更好地擴充自身的宏知識。
[1] A H Renear,C L Palmer.Strategic Reading,Ontologies,and the Future of Scientific Publishing[J]. Science,2009,325( 5942):828-832.
[2] J A Evans,J G Foster. Metaknowledge[J].Science,2011,331( 6018):721-725.
[3] 張曉林.顛覆數字圖書館的大趨勢[J].中國圖書館學報,2011(9):4-12.
[4] 張國海. 電子政務研究文獻的量化可視分析[J].情報雜志,2011(6):82-86.
[5] Miller,RG.Shaping digital library content[J].Journal of Academic Librarianship,2002(3):97-103.
[6] Bates MJ.The cascade of interactions in the digital library interface[J].Information Processing & Managemnet ,2002 (3):381-400.
[7] Wolfram D,Xie HI. Traditional IR for web users: a context for general audience digital libraries RID A-2449-2008[J]. Information Processing & Managemnet 2002(5):627-648.