[摘要] 以2012年US News&World Reports公布的美國大學圖書情報專業TOP 20學校為依據,以SSCI收錄文章為數據源,借助Bibexcel提取關鍵詞構建相異矩陣,利用SPSS聚類分析,采用“Squared Euclidean Distance”方法,對2001-2005和2006-2011的樹狀圖分析兩個時間段研究熱點的共性和差異性。目的在于了解美國TOP 20高校圖書情報專業的過去、現在和未來,為國內本專業師生和即將留學美國的學生提供參考資料。
[關鍵詞]圖書情報 美國高校 Bibexcel Spss
1 引 言
當今世界,每個學科領域都在迅速變化和不停的更新之中,新的研究課題不斷涌現,并逐漸成為該領域的研究熱點和前沿方向。例如,圖書情報學隨著信息技術和網絡的發展不斷向多個全新的領域延伸。在此,筆者以美國最有影響力的機構《美國新聞和世界報導》(US News&World Reports)每年發布的美國大學排名為基礎,選取其2012年公布的圖書情報專業排名前20的美國高校作為研究對象(見表1),得到這20所高校的圖書情報專業的文章被SSCI收錄的情況:2001-2005年1 496篇;2006-2011年1 964篇,利用分析軟件Bibexcel提取關鍵詞(SSCI部分收錄文章關鍵詞,但仍然具有一定的代表性),同時刪除無意義的詞,形成構建相異矩陣;再使用SPSS軟件對關鍵詞矩陣進行層次聚類分析,從得到的樹狀圖分析聚類情況,探討美國高校圖書情報領域在2001-2005年,2006-2011年這兩個時間段的研究熱點的共性和差異性。
2 采集數據的采集
本文所有數據來源于美國科學情報研究所(Institute for Scientific Information, ISI)的《社會科學引文索引》數據庫(Social Science Citation Index,SSCI)。SSCI是美國科學情報研究所建立的綜合性社會科學引文獻數據庫,涉及經濟、法律、管理、心理學、區域研究、社會學、信息科學等多個學科。收錄50個語種的1 700多種重要的國際性期刊,累計約350萬條記錄。 檢索條件如下:
((SU=INFORMATION SCIENCE LIBRARY SCIENCE) AND (AD=( UNIV MICHIGAN OR RUTGERS STATE UNIV OR UNIV N CAROLINA OR UNIV N TEXAS OR SYRACUSE UNIV OR UNIV PITTSBURGH OR DREXEL UNIV OR FLORIDA STATE UNIV OR UNIV TENNESSEE OR INDIANA UNIV OR UNIV CALIF LOS ANGELES OR UNIV TEXAS AUSTIN OR UNIV WASHINGTON OR UNIV ILLINOIS OR UNIV WISCONSIN OR UNIV MARYLAND OR Wayne State University or Univ Wisconsin--Milwaukee or Kent State University or Univ South Carolina Columbia or Simmons College) ) AND出版類型=(Article), 時間限制分別為2001-2005年和2006-2011年,分別得出1 496篇和1 964篇文獻。
3 Bibexcel關鍵詞及相異矩陣
3.1軟件的功能簡介
Bibexcel是由瑞典科學家Person開發的文獻計量學研究軟件,用于幫助用戶分析文獻數據或者是文本類型格式的數據,實現引文分析。Bibexcel處理的數據來自 ISI Web of Knowledge平臺上的數據庫 ,包括 Web of Science數據庫、 Darwin Innovation Index數據庫和Medline數據庫等。Bibexcel除了對來源于上述數據庫中數據的相關知識單元 (如作者、關鍵詞、參考文獻等 )做頻次分析和排序外 ,還可構建知識單元的共現關系矩陣[2]。
3.2 準備工作
首先使用Excel將所有文章不同詞型、單復數詞和縮寫詞如library和libraries,e-journals 和electronic journals、model 和 modeling、electronic commerce 和 e- commerce等統一為一種常用形式,規范關鍵詞。
3.3 Bibexcel的操作步驟
?將SSCI檢索到的文章保存形式*.txt文件轉換成Bibexcel可以接受的dialog格式,產生 *.doc文件。
?對*.doc文件進行關鍵詞分析,產生*.out文件。
?對*.out文件進行排序和去除重復WORDS,進而產生了*.cit和*.oux文件;*.cit文件得到關鍵詞1 754個(2001-2005 年),取頻次大于5者,總計21個,見表2;*.out文件得到關鍵詞3 833個(2006-2011年),取關鍵詞頻次大于10者,總計20個,見表3。
?分析*.cit和*.oux文件,產生共現文件*.coc。
?*.coc 分析得到*.ccc。
?利用*.coc 和*.ccc,得到共現矩陣,為了消除頻次懸殊造成的影響,用ochiia 系數將共現矩陣轉換成為相似矩陣,方法是將共現矩陣中的每個數都除以與之相關的兩個關鍵詞總頻次開方的乘積,公式如下:
對上面進行數據共現矩陣轉換后,矩陣中兩個詞的對角線上的數據表示該詞與自身的相似程度,按上述公式計算后均為1,從而得到相關矩陣。相關矩陣中的數字表明的是數據間的相似性,數字的大小表明了相應兩個關鍵詞之間的距離遠近,數值越大則表明關鍵詞之間的距離越近,相似度越大; 反之,相似度越小。再用1 減去相關矩陣中的數據,就可以得到相異矩陣[3],見表4和表5。
4 SPSS層次聚類分析
4.1 SPSS軟件簡介
SPSS軟件是世界上最早的統計分析軟件,由美國斯坦福大學的三位研究生于20世紀60年代末研制,應用于自然科學、技術科學、社會科學的各個領域,具有自動統計繪圖、數據的深入分析等功能,使用方便,功能齊全,是世界上應用最廣泛的專業統計軟件。SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等,本文采用SPSS V19.0進行層次聚類分析。
4.2 層次聚類分析過程
首先,每個個體自成一類;然后,按照某種方法度量所有個體間的“親疏程度”,并將其中最“親密”的個體聚成一小類,形成n-1個類;接下來,再次度量剩余個體和小類間的“親疏程度”,并將當前最親密的個體或小類再聚到一起,直到形成一個最大的類為止。親屬程度的測量方法有幾種,本文采用“平方歐氏距離法”(Squared Euclidean Distance),其定義為兩個個體k個變量值之差的平方和,數學定義為:
SEUCLID(x,y)= (xi-yi)2 (2)
其中個體xi是x的第i個變量,個體yi是y的第i個變量[4];
步驟如下:數值–analyze –classify –hierarchical cluster 。
4.3 聚類分析
分析結果如圖1和圖2所示:
5 樹狀圖分析及對比分析
5.1 2001-2005年樹狀圖分析(研究熱點):
?互聯網上的搜索引擎和信息檢索的研究:包括關鍵詞7、16、21。
?互聯網上的圖書館和用戶研究:包括關鍵詞12、14、19。
?電子商務:包括關鍵詞4。
?信息鴻溝:包括關鍵詞3。
?企業的資源規劃和信息技術及革新:包括關鍵詞6、9、10。
?通訊:包括關鍵詞18。
?電子期刊及館際互借:包括關鍵詞5、11。
?信息系統和知識管理:包括關鍵詞8、13。
?技術采用及以計算機為傳媒的通訊:包括關鍵詞2、17。
?虛擬團隊及合作方法:包括關鍵詞1、15、20。
5.2 2006-2011年樹狀圖分析(研究熱點):
?美國學術圖書館及在互聯網應用:包括關鍵詞18、20、1。
?圖書館學:包括關鍵詞13。
?數字圖書館及用戶研究:包括關鍵詞4、19。
?情報學及及信息檢索:包括關鍵詞6、7。
?以計算機為傳媒的通訊及社會網絡:包括關鍵詞3、16。
?電子商務及信任問題:包括關鍵詞5、17。
?互聯網及公共圖書館:包括關鍵詞11、15。
?信息系統和知識管理:包括關鍵詞8、12。
?信息技術的革新及外包:包括關鍵詞9、10、14。
?引用分析:包括關鍵詞2。
5.3 兩種樹狀圖對比分析
兩段的共性與差異性比較,如表6所示:
從高頻關鍵詞來看,一些關鍵詞的排列順序發生了變化, 有的上升、 有的下降;有新出現的,也有消失的。但是有50%的關鍵詞10年來一直是圖書情報學的研究熱點,雖然這些方向的研究深度和廣度都有一定的轉變,或過渡到更高層次,但是始終屬于相同的科研領域,十幾年來一直被該領域的科研人員進行探索、開發和利用,成為該領域的永恒和重點。從表6第三列——10年來相同的關鍵詞(Internet、information retrieval、electronic commerce、knowledge management、information technology、information systems、world wide web、libraries、user studies、innovation、computer-mediated communication )可以看出,美國TOP高校圖書情報專業近10年的研究熱點,分析如下:
?信息檢索 :關鍵詞含有Internet、information retrieval、world wide web、information systems。計算機技術的不斷發展和廣泛應用,特別是計算機和網絡的結合,打破了傳統信息檢索的區域性和局限性,用戶可以足不出戶就輕松獲得所需要的信息,而且目前信息的形式呈現出多樣化。信息檢索先后經歷了脫機信息檢索、聯機信息檢索、光盤信息檢索、網絡化信息檢索等4個發展階段,檢索的對象也已從相對封閉、獨立的數據庫集中的管理信息內容逐漸擴展到如今開放的、動態的、快速的、分布廣泛且管理松散的網絡內容,但是它依然存在著許多問題,科研人員一直致力于研究和攻克如準確率或查準率、標引規范化、自動分類、概念語義空間等難題[5]。
?圖書館及用戶研究:關鍵詞含有libraries、user studies。用戶研究主要是以用戶為中心,為了使圖書館對用戶提供更人性化、更細致入微的服務而展開的研究,也就是現在人們常常聽說的積極用戶體驗。隨著信息技術和網絡技術的飛速發展,圖書館服務的用戶類型、用戶的意識和對信息資源和服務的要求等都與過去有很大的不同,同時面臨的技術條件和社會環境發生了很大的變化[6];從提供印刷版資源服務到提供數字資源業務為主是圖書館發展戰略轉移的重點和核心,國外的主要圖書館已經開始著手規劃和實施利用“云技術”進行數字資源長期保存計劃,不僅要保存正式的權威的知識系統,而且也要考慮社區或民眾創建的內容。為此,國外圖書館的用戶服務方針是“改進館內和館外用戶無縫發現和利用圖書館資源的經歷”。用戶研究主要體現在以下幾個方面:①深度挖掘圖書館資源、保持信息暢通;②加強對圖書館資源的利用,促進知識的傳播工作;③維護學術的客觀性和公正性;④創建和及時傳遞文獻、產品、服務和經驗,為用戶提供最佳服務;⑤實現對圖書館知識資源(無論是在線的還是館內的)的無縫獲取。這10年期間的轉變主要有幾點:①從有限的用戶群到所有用戶的平等獲取信息;②從文獻信息管理與服務到知識管理與知識服務的轉變;③從館員中介的服務到用戶自助服務的轉變;④從自我封閉到宣傳推廣的轉變;從圖書館員能力到用戶能力的轉變[7]。
?知識管理及革新:關鍵詞含有knowledge management、information technology、innovation。知識管理其實就是對各種有用知識進行系統化的管理,它是圖書館管理的新內容和新模式,也是一個圖書館的本質;圖書館不再是簡單地由圖書、館員、讀者構成的,重心轉向知識管理;知識管理是以知識資源和知識作為管理對象的,通常研究知識的創造、獲取、組織、存儲、傳播、共享、服務、利用等,形成綿延不斷的知識創新、積累與有效利用的良性循環系統,具體地已經由傳統的文獻資源管理過渡到信息資源管理再向目前的知識管理發展;以科學研究為先導的知識創新和以信息化為載體的管理創新,相互支撐,互為動力,構成了當代圖書館的新形態;知識管理主要體現在以下幾個方面:建立知識庫,強調館員的知識和交流,形成尊重知識的良好內部氛圍,把知識作為一種資產來管理等;其特點是:知識大眾化、網絡化、移動化、個性化和社會化,傳播數度快;形成知識無處不在的巨大知識庫。
?信息處理:關鍵詞含有 computer-mediated communication(CMC)、electronic commerce。CMC在美國的眾多高校中屬于“社會,社區和組織情報學”(Social, community, and organizational informatics)專業的內容;而electronic commerce一般屬于“以獎勵為中心的設計”(Incentive-centered design)專業的內容[8],但是隨著計算機和互聯網在圖書情報領域的快速發展和應用,產生了很多交叉學科和領域。CMC和electronic commerce成為信息處理的一種關鍵技術和手段。CMC是以計算機為媒介的交流方式,研究的重點主要是不同的網絡通信技術對社會的影響;electronic commerce的技術基礎是計算機技術、網絡技術和數據庫為依托的信息技術,通過互聯網尋找信息流等活動,交叉學科應用到目前,尤其是在2005年后逐漸成熟的,主要集中在電子商務的信用、安全、在線信息服務等方面的研究。雖然當前電子商務在信息安全性、交易體制、法規建設等方面還存在弊端,但由于美國政府對電子商務的格外重視,加強政府部門宏觀規劃和指導,制定良好的政策和法規,使得電子商務已從“技術實現”階段進入“技術開放和普及”階段。
5.4 新出現的熱點和逐漸消失的領域
?新型的圖書館。后5年對圖書館的研究比較集中在學術圖書館、公共圖書館和數字圖書館。
?從館際互借和電子期刊的研究逐漸過渡到對引文分析的領域。不僅對來源文獻進行分析,更多地從事引用文獻的分析;由館員參與的館際互借到目前由用戶直接借閱,節約了人力和時間。
?信息鴻溝的消失到社會網絡的普及。隨著網絡的普及和開發資源的利用,信息的鴻溝也隨著消失,信息的貧富懸殊差距在縮小,目前的信息的隨手可得,信息量急劇上升。
?對虛擬團隊的合作及企事業的資源規劃、方法、研究等逐漸降溫,替代他們的是“外包”策略。由計算機網絡和信息技術、人力資源三方面組成的虛擬團隊通過計算機網絡和信息技術相連接來完成任務。但幾年來外包是一種新的戰略管理模型,其業務內容主要包括信息技術、人力資源等;美國高校有關信息技術外包的理論和實踐已經較為成熟,一般涉及信息技術設備的引進和維護、通信網絡的管理、數據中心的運作、信息系統的開發和維護、備份和容災、信息技術培訓等[9]。
?隨著搜索引擎技術的成熟,研究人員更多地關注情報科學。網絡環境下,情報學的計量分析方法和手段發生了很大變化:①由定性到定量;②由文獻計量分析向信息、網絡計量分析發展;③計量方法由單一發展到多樣化,如共詞分析、圖譜分析、信息可視化等綜合方法,以及大量的統計分析軟件(CiteSpace、Bibexcel、SPSS)的使用。
6 結 論
通過對美國圖書情報專業TOP20高校近10年研究熱點的聚類分析,我們可以得出如下結論:兩時間段的科研有不同點也有相同點,這是隨著世界環境和美國的政策改變而改變,滿足社會的需要而改變,但是科學還是有一定的延續性,只是深度和廣度上的拓展,這就產生了共性,共性方向為:①信息檢索;②圖書館及用戶研究;③知識管理及革新;④信息處理。這些高校的研究是圖書情報專業的風向標,從中我們可以看出近幾年的科研方向和趨勢,為我們進一步了解該領域的科研狀況提供一些參考。
參考文獻:
[1] USNews:2012年美國大學圖書館學和信息研究專業研究生排名[EB/OL].[2011-08-30]. http://www. ivycedu.com/article/dxpm/1674.html.
[2] 姜春林,陳玉光. CSSCI數據導入Bibexcel實現共現矩陣的方法及實證研究[J].圖書館雜志 ,2010,29(4):58-63.
[3] 曹玲,楊靜,夏嚴. 國內競爭情報領域研究論文的共詞聚類分析[J]. 情報科學, 2010,28(6):923-926.
[4] 薛薇.基于SPSS的數據分析 [M].第二版.北京:中國人民大學出版社,2006:295-301.
[5] 謝安裕.網絡信息搜索引擎的發展研究[J].中國新技術新產品,2010(3):42-42.
[6] 羅玲. 淺論圖書館的用戶研究[J].四川圖書館學報, 2011(6):29-30.
[7] 初景利 ,吳冬曼.圖書館發展趨勢調研報告(三):資源建設和用戶服務[J]. 國家圖書館學刊 ,2010(3):3-9.
[8] 陳琦. 圖書館專業發展[EB/OL].[2007-06-28].http://lib.nwsuaf.edu.cn/old/txt/圖書館專業發展.ppt.
[9] 信息技術外包[EB/OL].[2012-01-13].http://baike.baidu.com/view/95244.htm.
[作者簡介] 謝 萍,女,1967,館員,發表論文2篇。魏小紅,女,1968,發表論文1篇。