□錢玲飛 汪榮
文獻借閱是高校圖書館傳統讀者服務工作中最基本、最主要的內容之一,隨著自動化技術在圖書館的廣泛應用,聯機公共檢索目錄(OPAC)系統每天產生大量的圖書借閱記錄數據,通過對這些數據的統計與分析,可以獲取有利于組織管理和文獻服務的信息,掌握讀者的閱讀傾向以及圖書的借閱狀況,提升服務質量,開展深層次服務工作。
h指數由美國學者赫希(Hirsch J.E.)于2005年提出,最初用于評價科學家成就。h是指科學家發表的h篇論文每篇論文的被引次數至少為h[1-2]。h指數是一個相對較簡單并且易于理解的復合指標。自提出h指數的概念后,國外對于h指數及其衍生指數的理論研究和應用研究很多,其中應用在圖書情報領域的主要有對于圖書館員的評價[3],對于圖書情報領域的學術研究水平的評價[4],對于圖書情報領域的期刊評價[5],但是未見對于借閱數據分析的評價。國內第一篇關于h指數的文章是2006年1月發表于《科學觀察》的《也談h指數的機會和局限性》[6],這是一篇翻譯的文章,此后有越來越多的國內學者開始研究h指數。國內學者對于h指數的研究主要是應用研究,其應用領域有大學h指數研究[7]、期刊h指數研究[8-10]、科研人員h指數研究[11-12],僅有一篇文章是關于圖書館流通數據的h指數研究[13],但是只是應用示例,沒有對結果進行深入分析。
雖然h指數是針對學術評價提出的,但它的思想和方法可以被用于其他類似的領域中。圖書館中處于流通狀態的圖書和學者的論文相似,圖書被借閱頻次對應論文被引頻次,可以像分析論文被引一樣分析借閱數據,從而可以將h指數應用于圖書館借閱數據分析。
在傳統上,對流通數據分析、評價的指標一般是借閱頻次(如圖書集合的借閱量、讀者群的借閱量等)和平均借閱量(如圖書的平均借閱量、讀者的平均借閱量等),這兩種指標一般是基于簡單統計的方法[14-16]。用傳統指標和方法雖然能夠在一定程度上揭示圖書館運營和讀者利用圖書的狀況,但存在明顯的不足。比如,利用簡單統計得出的借閱頻次只是客觀數字的集合,無法在圖書集合(讀者群)之間進行客觀的比較,也無法確定相對公正的界線來衡量和確定核心圖書和讀者;平均借閱量抹殺和掩蓋了圖書集合(讀者群)內部的差別,以致無法進行客觀的比較。近年也出現利用數據挖掘、關聯規則分析方法對流通數據進行分析,從而挖掘出一些深層信息[17-19]。利用這些方法雖然可以得出一些深層信息,但是比較復雜,不夠直觀,可操作性不強,結果受人為參數設定的影響較大。
圖書借閱h指數相對于傳統評價指標和方法的優勢在于增強了圖書集合(讀者群)之間的可比性,能夠更加客觀地反映圖書利用狀況和讀者的借閱情況;另一方面,通過圖書借閱h指數也可確定核心圖書和讀者,改變傳統的圖書借閱排行榜整齊劃一地列出前n名的局面,體現圖書集合(讀者群)的個性化特點。h指數作為一種直觀有效的指標,相對于數據挖掘、關聯規則分析方法,其計算方法相對簡單,可操作性強,便于在圖書館實際應用中推廣。
圖書館借閱數據在邏輯上由緊密相關、不可分割的兩個部分組成:一是讀者借閱圖書的數據;二是圖書被借閱的數據。如果將這兩個數據按照借閱頻次進行排序,就會形成一個類似于h指數原始定義中論文數與引文數的數據序列,從而可以計算相應的h指數。本文從匯文系統數據庫中提取2009年的借閱數據,分兩部分統計,第一部分按照《中圖書館分類法》,將各大類圖書的借閱情況進行統計分析;第二部分為對讀者進行分類,分為本科生、碩士生、博士生、教師、博導等,然后對各類讀者借閱情況進行統計分析。
按照h指數計算方法,表1中,A類圖書中共有13種書的借閱次數不小于13,得A類圖書2009年的借閱h指數為13。其他類別的圖書以相同的方法統計,結果見表2。

表1 A類圖書借閱情況表

表2 各類圖書借閱的h指數
將各類圖書借閱的h指數排序,結果如圖1所示:

圖1 2009年各類圖書借閱的h指數
從圖1可以看出,I類(文學類)、O類(數理科學和化學類)和T類(工業技術類)圖書借閱的h指數大于50,明顯高于其他類,X類(環境科學安全科學類)、S類(農業科學類)圖書借閱的h指數小于10,明顯低于其他類。I類圖書屬于文學類,讀者群廣泛,故其h指數高,O類圖書是數理化基礎學科,由于我校是理工類院校,大部分專業學生在學習時都要用到這類圖書,所以其h指數高。同樣的,我校沒有農業類專業,一般學生對這類書沒有需求,所以,農業科學類圖書借閱的h指數最低。其次是環境科學類圖書借閱的h指數較低,與讀者對這類問題關注較少也有關系。
由于I類、O類、T類圖書借閱的h指數很高,有必要對這幾類圖書進行深入分析,為此,我們提出核心圖書的概念,即,滿足借閱次數不小于h的圖書稱之為核心圖書。I大類的核心圖書共68種,對這68種圖書進行分析,這些圖書的分類號與入選數如圖2所示(為簡潔起見,入選數為1的未作分布圖統計):

圖2 文學類核心圖書分布

圖3 O類核心圖書分布

圖4 T類核心圖書分布
從圖2可以看到,I247(當代小說)類入選核心圖書數最多,占77%。從圖3和圖4可以看到,數學類和計算機類的習題集入選核心圖書較多。這說明,圖書館的核心圖書對學生的自學有很大幫助。TP312(程序語言、算法語言類)的圖書居T類核心圖書之首,說明這類圖書的需求量很大。另外,TP312MA類圖書(Matlab類)的圖書入選數為各類語言之首,說明作為工科院校,我校師生用Matlab作為實驗和仿真工具較多。
為了分析不同讀者類型的借閱狀況,本文提出讀者借閱h指數的概念,即對讀者進行分類,分為本科生、碩士生、博士生、教師及其他(主要包括成人教育、后勤機關、通用借書證用戶等),然后對各類讀者借閱情況進行h指數統計分析,結果見表3。

表3 各類讀者借閱h指數
從表3可見,本科生借閱h指數最高,其次是碩士生和博士生,這與本科生的課程最多、課程種類最廣有很大聯系。按照核心圖書的定義,借閱次數不少于h的讀者稱為核心讀者,對本科生、碩士生和博士生核心讀者的專業進行分析,各院系核心讀者總數前5的數量如表4所示:

表4 各院系核心讀者排名前5的數量
從表4可見,機電學院、自動化學院、航空宇航學院的核心讀者最多,其次是信息科學與技術學院、能源與動力學院,這幾個學院正是我校實力最強的學院,這說明,這些學院的學生有較好的學習習慣,能夠積極利用圖書館的資源。另一方面,從這些分析可見,圖書館應該優先保障這些重點學院的資源,以獲得較高的資源利用率。
圖書館在為讀者提供功能強大、形式多樣的數字化資源服務的同時,如何提升傳統文獻資源的信息服務質量,是圖書館全面做好讀者服務工作要研究的重要課題。h指數自被提出后,現已在學術評價、期刊評價、學術機構評價等方面得到充分的研究,并在實踐中得到了應用。隨著計算機網絡在圖書館中的廣泛應用,圖書館積累了大量的圖書借閱數據,通過對OPAC信息庫中記錄的圖書借閱數據進行h指數分析,可以指導圖書館優化館藏資源,了解讀者對不同類別文獻的閱讀需求,從而全面提升高校圖書館的服務質量。
本文以2009年數據為例進行借閱h指數分析,得出了一些有益的結論。今后還需要進一步細化分析,如進行各類圖書不同年度的借閱h指數分析,核心圖書的借閱讀者分析,核心讀者的借閱圖書的分析等。同時,在計算h指數的時候,也可以改進統計方法,比如,統計圖書排名時考慮此類圖書的館藏數,統計學院排名時考慮學院的總人數等,盡量做到客觀公正。
1 Hirsch J E.An Index to Quantify an Individual's Scientific ResearchOutput.Proceedings of the National Academy of Sciences of the USA,2005(46):16569-16572
2 Rousseau R.New Developments Related to the Hirsch Index.科學觀察,2006(4):23-25
3 Oppenheim,Charles.Using the h-index to rank influential British researchers in information science and librarianship.Journal of the American Society for Information Science and Technology,February 2007,58(2):297-301
4 Sanderson,M.Revisiting h measured on UK LIS and IR academics[J].Journal of the American Society for Information Science and Technology,May 2008,59(7):1184-1190
5 Onyancha,O.B.A Citation Analysis of Sub-Saharan African Library and Information Science Journals using Google Scholar.African Journal of Library,Archives &Information Science,Oct.2009:19(2):101-116
6 劉俊婉譯.也談h指數的機會和局限性.科學觀察,2006(1):10-11
7 萬錦堃,花平寰,趙呈剛.中國部分重點大學h指數的探討.科學觀察,2007(3):9-16
8 趙基明.h指數及其在中國學術期刊評價中的應用.評價與管理,2007(4):14-20
9 劉銀華.h指數評價期刊的有效性分析.情報理論與實踐,2007(6):809-811,815
10 姜春林等.H指數和G指數—期刊學術影響力評價的新指標.圖書情報工作,2006(12):63–65
11 邱均平等.h指數在人才評價中的應用—以圖書情報學領域中國學者為例.科學觀察,2007(3):17-22
12 陳亞芬.H指數在科研人員業績評價中的應用.科學管理研究,2008(5):52-54,85
13 周志峰.h指數應用于圖書館借閱數據分析的探索.圖書館建設,2009(11):82-84,89
14 周清華.從借閱數據分析讀者的閱讀特點.科技情報開發與經濟,2005,(2):65-67
15 許智林,王小華.分析數據尋找規律 科學管理優化服務—陜西理工學院(北區)2004~2005學年圖書借閱情況統計分析.現代情報,2006,(4):126-128
16 周佳麗.借閱數據分析背景下的館藏結構調整建議—以江蘇技術師范學院為例.圖書館學刊,2009,(7):87-90
17 張魯.數據挖掘技術在讀者借閱行為分析中的應用.情報雜志2005,(6):36-37,40
18 彭儀普,熊擁軍.關聯挖掘在文獻借閱歷史數據分析中的應用.情報雜志,2005(8):40-41,44
19 溫嶸生.基于OPAC信息庫圖書借閱數據關聯挖掘分析與應用.情報雜志,2007(7):61-63