〔摘 要〕隨著資源的數字化程度不斷提高,高校圖書館數字資源建設也得到逐步重視。數字資源的真實利用率一直是圖書館管理者所希望得到的數據之一。而數字資源使用率數據一般由數字資源供應商提供,真實性和準確性有待商榷。由于高校圖書館數字資源使用范圍有一定的限制性,借助于這個特點,設計與建設數字資源訪問統計系統,提供圖書館數字資源使用的真實信息,為圖書館資源建設提供決策基礎。本文從圖書館需求入手,引入系統需求和系統技術原理,同時介紹系統實現案例部分內容,指出數字資源統計系統建設的必要性與存在的難題。
〔關鍵詞〕數字資源;統計系統;高校圖書館
DOI:10.3969/j.issn.1008-0821.2015.09.026
〔中圖分類號〕G25074 〔文獻標識碼〕A 〔文章編號〕1008-0821(2015)09-0140-06
〔Abstract〕With the constant improvement degree of digital resources,the university library digital resource construction also gradually attention.True utilization ratio of digital resource has been one of library managers hope to get the data.The digital resource utilization data generally by digital resource suppliers,authenticity and accuracy is up for debate.Due to the college library digital resources have certain restriction,using range by using this feature,the design and construction of digital resources access statistics system,to provide the true information,library digital resources use resources construction to provide decision-making basis for the library.This article obtained from the library demand,the introduction of system requirements and system technology theory,at the same time introduce case part of system implementation,and pointed out the necessity of statistic system of digital resources construction and the existing problems.
〔Key words〕digital resources;the statistical system;the university library
1 數字資源使用現狀
11 相關研究
截至2015年1月15日為止,通過對中國知網數據庫搜索關鍵詞“數字資源使用統計”,一共搜索出5篇研究性論文。其中,學者秦鴻[1]以數字資源績效評估為切入點,從數據分析方面進行決策,認為使用量和成本的定量評價必須結合學科相關性、用戶調查等定性評價。數字資源績效研究,主要分3個方面:第一是數字資源評價指標體系相關研究;第二是數字資源使用統計研究,包括使用數據獲取方法以及數據的分析應用;第三是數據資源的評價方法選取研究等等。段惠靜[2]從數字服務績效評估相關的使用統計數據入手,進行系統的分析與闡釋,從而建設相關的數字資源評估體系。而對于數字資源使用相關研究中,杜瑩琦[3]從試用數字資源方面進行把關,結合下載頻次等相關條件進行綜合評價。吳金鵬[4]認為公共網絡資源與圖書館數字資源,兩者在爭奪讀者方面形成競爭態勢。縱觀以上研究,在獲取數字資源使用數據方面,沒有客觀有效的方法。而真實使用數據的獲取,是對數字資源使用情況乃至評估的基礎,所以構建數字資源使用統計系統迫在眉睫。
12 評估需要
根據教育部高校圖工委的相關報告指出,我國高等學校的數字資源采購經費逐年提高。同時高等學校對數字資源的投入不斷加大,評估數字資源效率問題也逐步被相關圖書館所重視。而對數字資源使用的各項評估,最基礎的數據就是使用率。而客觀真實的使用率數據,是影響圖書館決策者們正確判斷的基礎。所以,客觀真實使用率數據的獲得,是圖書館對各種數字資源評估的關鍵因素。
2 研究理論現實意義
21 理論意義
對于高校而言,圖書館作為一個文獻資源保障部門,提供服務效益不能與產品相同,也不能通過產值和利潤進行衡量。同時,隨著社會的不斷發展,資源的建設成本不斷提高,而圖書館的建設經費也有所增加,但是不能與資源增長費用成正比,造成了一定的圖書館經費匱乏。與此同時,讀者對資源信息獲取的要求也不斷提高,讀者群體不斷增大。這些諸多因素的集合,使圖書館在資源建設過程中,必須要考慮到資源的合理化建設的問題。簡單來說,用有限的資源建設經費,購買能夠滿足大部分讀者的需求的資源。
22 現實意義
高校對圖書館進行投入,主要目的就是通過圖書館,為讀者的教學與科研進行服務,從而提高讀者的教學質量和科研水平。隨著信息化程度的不斷提高,讀者對于數字資源的依賴性不斷加強。隨著資源成本的不斷增加,使圖書館在數字資源建設中,必須要遵循一定評估機制,通過數字資源使用率這個基礎數據,對數字資源進行一定的評價,同時也促使數字資源供應商不斷加強對讀者的宣傳和培訓,從而提高數字資源的使用率。做到了資源的最大化利用,避免了資源的浪費。endprint
3 數據分析方法選取
31 數據分析原理
數字資源使用的數據,是進行數據分析的基礎,也是數據分析的關鍵。數據分析[5]是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據也稱觀測值,是實驗、測量、觀察、調查等的結果,常以數量的形式給出。進行數據分析,首先要定義問題,例如數字資源使用系統數據分析等,主要目的就是對圖書館數字資源使用數據進行有效分析,向決策者提供真實有效的數據分析結果。數字資源數據分析流程可以用圖1來表示:
從圖1中可以看出,整個數字資源評價過程,數字資源使用數據獲取關系到整個數字資源評價結論,因此,數字資源使用數據的真實性,直接影響到決策者們對數字資源建設規劃與政策制定。
32 數據指標確定
根據高校圖書館數字資源的存在形式,可以分為:期刊型數據庫,例如:中國知網,萬方知識,維普期刊資源等等。電子書型數據庫,例如:超星數字圖書館,中華數字書苑等等。文摘索引型數據庫,例如中文社會科學引文索引,讀秀學術搜索,方略學科導航等等,多媒體學習型數據庫,例如:超星學術視頻數據庫,新東方多媒體學習庫等等。數字資源呈現方式不徑相同,所以對數據指標的確定,需要進行相應的調整。根據以上數字資源存在形式,結合各個數字資源使用方式,做出的統計數據指標如表1所示。
根據各種數字資源的類型不同,對數字資源使用的分析方式也不相同,所謂的數字資源使用,一般分為兩種模式:第一,資源訪問;第二,資源下載。但是對于文摘索引和多媒體學習兩種類型數據庫而言,不能按照上述兩個模式進行統計分析。文摘索引型數據庫,要從訪問量以及使用文摘索引型數據庫進行搜索使用量這兩個方面進行統計。而多媒體學習型數據庫,則同樣要從訪問量和在線觀看學習量這兩點來統計數據。
33 數據決策探究
數字資源建設過程中,需要實時調整優化整個資源體系結構,在經費一定的條件下,能夠做到盡可能多的滿足讀者需求,同時保障學校教學科研建設的文獻需求。所以,在利用數據決策時候,可以幫助決策者們做到以下幾點:
(1)能夠決定購買數字資源種類的問題。
(2)能夠決定購買數字資源內容的問題。
(3)能夠幫助決策者們對數字資源提供商進行有效督促。
(4)能夠促使數字資源提供商提供有效宣傳推廣。
數字資源建設,對于決策層的要求,就是實時掌握數字資源使用的真實數據。從數據分析中,可以讓決策者們能夠獲取讀者對數字資源滿意程度以及在資源建設過程中,可能存在的資源分配不合理的情況。
4 系統建設研究原理
數字資源評價體系中,重要的一個環節就是數字資源使用數據獲取。而在高校圖書館中,數字資源使用范圍一般是在高校的數字化校園環境內,所以在系統建設過程中,可以從環境限制條件入手,建設整體的數字資源使用數據統計系統。
41 系統環境研究
校園網建設[6]過程中,涉及相關技術包括局域網技術、虛擬局域網(VLAN,Virtual Local Area Network)技術、第三層交換技術、虛擬專用網絡(VPN,Virtual Private Network)技術,同時涉及校園無線網絡、校園網絡安全方面。校園網安全內容包括隔離與訪問控制、網絡傳輸安全、網絡入侵檢測系統、數據存儲備份系統以及病毒防護系統等等。數字資源訪問統計系統,從網絡傳輸入手,通過訪問控制相關技術獲取相關數據,進行網絡定點監控的方法,進行數字資源使用統計。
42 系統原理分析
高校圖書館網絡建設屬于高校整體網絡規劃中,是學校校園網絡管理范圍。數字資源的存儲分為本地資源和遠程資源。本地資源,即資源存放在高校圖書館存儲設備中,定期更新提供服務。遠程資源,即資源存放在數字資源提供商存儲設備中,提供遠程訪問支持。讀者訪問圖書館數字資源,一般需要在校園網絡范圍之內。有效讀者不在校園網絡范圍之內訪問,需要通過虛擬專用網絡(VPN)進行連接訪問。總之,讀者對于資源訪問、下載,需要在資源提供商規定的網絡范圍內進行。所以,以校園網絡出口訪問數據為研究對象,獲取校園網路范圍內訪問相關數字資源的網絡行為,對這些行為進行統計分析,是數字資源使用統計系統的基礎工作。
43 系統功能探究
高校圖書館管理者對統計功能是非常關心的功能之一,統計數據的呈現方式是關系到管理者能否在龐大的使用數據中獲得直觀利用率的感官體驗。所以,在統計類型中必須有以下幾個方面的功能:
(1)站點統計:記錄電子資源在某個時間段內被訪問的次數。報表中可以清晰地看到站點名稱、站點地址、訪問次數和創建時間。統計視圖可以直觀的以柱狀圖、餅狀圖、折線圖和區域圖的形式進行呈現等。
(2)訪問統計:記錄電子資源在某個時間段內被某個IP或人員訪問的次數。報表中可以清晰地看到站點名稱、IP地址(對接后可以看到對應的用戶信息)、站點地址、訪問次數和創建時間。訪問視圖可以直觀的以柱狀圖、餅狀圖、折線圖和區域圖的形式進行呈現等。
(3)熱點統計:按照統計類型統計每個類型最近訪問資源最多,可以統計資源熱點、人員熱點、圖書類型熱點、學院熱點等;訪問視圖可以直觀的以柱狀圖、餅狀圖、折線圖和區域圖的形式進行呈現等。
(4)站點統計升降視圖:記錄電子資源在不同的時間段被訪問的一個次數的對比,是上升還是下降,直觀了解資源被訪問的一個趨勢。
(5)訪問統計升降視圖:記錄電子資源在不同的時間段被不同的IP(或者人員)訪問的一個次數的對比,是上升還是下降,直觀了解IP(或人員)訪問資源的一個趨勢。
5 功能實現探索研究
51 圖書館資源現狀
數字資源的來源呈現多樣性。圖書館在信息化程度提高,尤其是資源信息化平臺逐步提升的過程中,各種方法和措施方便了讀者對圖書館資源的獲取,但是數字資源真實的利用數據以及數字資源提供商提供的數字資源使用率的數據準確率還有待考證。而且圖書館也忽視讀者在使用數字資源過程中的真實感知程度。綜上所述,圖書館通過獨立平臺對數字資源的利用率進行統計是十分必要的。通過對數字資源的利用情況進行統計,不僅可以讓圖書館了解各種數字資源的真實使用情況,而且可以讓圖書館知曉讀者尤其是教師讀者的研究喜好,可以對讀者進行定點的資源推送提供依據。endprint
52 功能實現迫切性
數字資源建設經費逐年提高,而缺乏合理的評估體系。而評估體系中最重要的數據之一就是真實的利用率數據。建設獨立的數字資源統計系統尤為重要。不僅可以為圖書館提供真實可信的數字資源利用率數據,而且可以在原始數據中進行充分的數據挖掘分析,提供給資源建設的管理者們進行資源規劃的支撐數據信息。
6 系統技術原理
數字資源統計分析的原理目前采用的方法有兩種:第一,是端口鏡像方式;第二,是網關分析方式。兩種方式各有利弊,端口鏡像方式硬件投入較少,但是需要獲取較高級別的網絡管理權限。網關分析方式硬件投入較大,節點較多,管理較為復雜,但是網絡管理權限較低。本文所選取的實驗方式是端口鏡像方式,并已經處于實現。
在校園網絡中,采用對核心交換機端口鏡像方式,獲取網絡中對圖書館數字資源訪問的數據信息的方法。鏡像數據流量采集的方法,不影響網絡的原始架構、不影響網絡的數據流向、不會造成網絡瓶頸以及可以有選擇的采集不同類型的數據信息。具體方式如圖2所示:
圖2 數字資源統計系統原理圖
校園網絡內通過核心交換機訪問外網,對核心交換機的訪問數據進行鏡像分析,可以獲取在校園網絡內訪問數字資源的信息,對信息進行分析處理,即可得到較為真實可靠的數字資源訪問的數據。而防火墻作用是從網絡安全考慮,編輯策略過濾掉與數字資源統計工作無關的信息。數字資源統計系統主要技術實現模塊有以下3個方面:第一,數據包獲取處理模塊;第二,統計數據存儲管理模塊;第三,統計數據呈現模塊。
61 數據包獲取處理模塊
該功能模塊是在校園網絡中,將數據包采用端口鏡像的方式進行采集,通過預先設置好的過濾機制進行數據包清洗,以獲得統計分析系統所需要處理的數字資源相關的數據包,用于統計分析。數據包獲取模塊中,一般采用目前網絡分析較為成熟的Winpacap或者Libpcap函數庫進行數據包捕獲。數據清洗是將與數字資源不匹配的數據包進行丟棄,以減少數據分析的工作量。數據包獲取處理過程中,會記錄相關數據包中信息,例如訪問地址、源地址,以及檢索詞等,同時會將行為做記錄,訪問頁面或者下載等信息。將這些結果記錄到統計數據存儲管理模塊中,一般是數據庫中,例如MySql或者Orcal數據庫中。
62 統計數據存儲管理模塊
統計數據存儲模塊,只要是由數據庫組成,其主要功能是保存統計系統的相關信息。并支持對相關信息調用。而統計數據存儲管理模塊同時也存儲著數字資源相關的數據信息,例如數字資源名稱、數字資源的訪問站點地址(URL)等等。
63 統計數據呈現模塊
統計數據呈現模塊,主要是將統計數據進行展示的作用,同時設置不同的統計歸類,分析方式調取數據庫信息進行呈現,例如數據庫比較、訪問的百分率等等。該模塊主要是采用頁面呈現方式,以圖表的形式將數據呈現給圖書館決策者們,用于資源建設規劃與調整。
總之,統計分析系統的技術原理采用的是當前比較成熟的網絡管理技術方案。不管選擇何種方案,其基本原理是不變的,需要解決的主要問題是如何獲取更高的網絡管理權限,用于數字資源統計系統建設,這才是關鍵的問題。
7 系統建設實際價值
71 數字資源使用的針對性
在統計分析系統中,加入資源中心模塊,可以統一管理所需分析的數字資源。通過分析系統,對網絡中鏡像數據進行歸類分析,得出各種數據資源利用率信息。所以,統計系統只針對數字資源相關信息。
72 數字資源數據的真實性
由于系統采集的鏡像數據是從核心交換機中直接獲取資源,統計的數據相對全面。這是由于所有網絡訪問外網資源都必須匯聚到核心交換機上,所以統計分析系統的統計數據較為準確。
73 數字資源采購的決策性
統計系統提供的利用率數據由于其具有針對性和真實性,可以為高校圖書館提供真實可靠的數字資源利用率數據,而在高校圖書館資源建設尤其是數字資源建設過程中,利用率信息的提供可以幫助圖書館決策者們合理規劃數字資源建設方案,同時為方案的執行提供原始依據。
74 系統建設難點
統計分析系統的建設需要學校網絡管理部門配合,而在核心交換機上采集網絡數據,其數據的安全性令網絡管理部門所擔心的。如圖2所示,在核心交換機和統計分析服務器之間加載硬件防火墻的目的就是進行一次數據過濾,使統計分析服務器只獲取到數字資源的相關數據,減少龐大數據的分析壓力,同時對其他校園網內的與數字資源不相關數據進行阻攔,打消網絡管理部門的顧慮。
8 系統案例與功能解析
81 系統組成
系統是由資源管理、統計分析、預警管理、系統配置四部分組成。資源管理部分是系統管理員對高校圖書館需要統計的數字資源訪問地址進行管理。統計分析部分是系統對校園網內系統管理員添加的數字資源訪問地址的讀者訪問行為進行統計分析,得出訪問次數、下載次數等相關信息功能,并對相關數據進行對比分析。預警管理主要是對分析服務器進行管理,例如磁盤空間預警等等。系統配置主要具備網卡配置功能、服務器配置功能以及相關參數配置和用戶管理功能等。
82 資源管理
系統的數字資源管理,主要是將數字資源的訪問地址進行添加和修改。讓系統實現對涉及相關數字資源進行統計和分析的功能。如圖3所示:
資源管理功能,可以隨時添加刪減數字資源地址,實現對資源特別是試用資源在規定時間內進行利用率統計,得出真實的利用率數據信息。資源管理功能的運用,可以讓圖書館對需要統計的數字資源進行有效的管理,添加新增資源地址,刪除失效資源地址。
83 統計分析
統計分析功能是系統的核心功能,需要實現對數字資源利用率數據進行有效的分析和處理,呈現詳細的分析報告。(如圖4所示)endprint
圖4 數字資源利用率分析圖
從圖4中,可以看出,系統對資源訪問的次數做了詳細的分析統計,統計近一周的數據來看,名稱為中國科學文獻數據庫服務系統的訪問次數達到22 969次,占到總訪問比例為3666%。其他的數字資源訪問信息,都可以在統計分析模塊中得到相應的數據結果。
84 讀者資源行為分析與資源推送
讀者資源行為分析,是在統計分析數據的基礎上,對讀者訪問圖書館的數字資源以及查閱相關學科分類的信息進行歸類統計,得到讀者對數字資源信息偏好的數據,并對該數據加以分析后進行相關的學科信息推送。讀者資源行為需求,是讀者對圖書館資源與服務的滿意度的佐證。獲得讀者需求的方法很多,采用信息技術的方法獲取讀者訪問需求數據,已經不再是很困難的事情,例如從網站訪問數據分析獲取讀者對圖書館網站欄目興趣也是一種獲取讀者對圖書館關注的途徑之一[7]。
總之,統計系統是在大數據分析的環境下,借助于網絡抓取技術獲取讀者在校園網內對圖書館的相關數字資源利用的數據信息,對數據進行分析處理得出一系列圖書館決策者們所需的數字資源利用率信息,讀者對相關學科的興趣愛好信息[8]等,并利用該信息規劃圖書館數字資源建設,對數字資源進行合理配置同時可以利用該信息對讀者進行定點資源推送服務。
85 存在遺漏之處
該系統方案,主要用于桌面訪問方式,而對于移動客戶端訪問方式不能做到有效統計,原因是多方面的,首先,移動客戶端以及資源提供是數字資源商自主管理;其次,移動客戶端型數字資源本身不受校園網絡限制,例如超星移動圖書館等;由于以上原因,對于移動客戶端型數字資源統計方式還需要關聯數字資源提供商的統計平臺進行數據整合。
總之,在當今數字資源還是以桌面平臺為主,尤其是多媒體資源,其數據量較大,移動客戶端雖然可以承載該服務,但是由于顯示效果以及流量的限制,讀者在當前環境下還是利用桌面訪問方式較多。由于統計系統能夠對數字資源提供商提供的統計平臺數據進行采集,可以采用數據采集方式進行整合,實現數字資源統計平臺的統一化與系統化。
9 結束語
統計系統的技術原理簡單,技術實現容易。需要解決的重點問題是網絡管理部門網絡交換機端口鏡像權限是否對數字資源統計系統的開放,而數據包分析,主要是對數據包中的日志信息進行分析。網絡管理部門從網絡安全維護考慮,不會同意圖書館對其管理職責范圍內的數據包進行有效分析,從而影響數字資源統計數據的準確性。如何獲取更高的網絡管理權限,這已經不是技術能夠解決的問題,需要相關法規對高校圖書館賦予一定的支持才行。對于建設數字資源統計系統,其實現的目的是多方面的,其一數字資源利用率數據統計,可以客觀真實的統計出在校園網絡范圍內讀者利用數字資源情況。其二讀者利用角度,圖書館管理者可以從讀者利用數字資源以及相關內容上獲取讀者的喜歡信息,從而提供針對性的信息資源推送,提高讀者服務效率,拉近讀者與圖書館之間的距離。總之,在信息技術不斷進步的時代,新的信息技術與資源呈現方式逐步被圖書館所利用,例如圖書館信息門戶從桌面平臺向移動平臺轉變[9-11],移動平臺也逐步實行聯盟化發展[12],圖書館的信息資源推送可以利用讀者資源行為的大數據分析進行定點推送等。數據包分析方法的原理和方法已經進行實踐應用測試[13]。而圖書館已經從基礎的硬件建設逐步向理念建設和思路建設轉變,好的理念、好的想法、好的思路,運用信息技術手段實現,是未來圖書館特色服務乃至圖書館發展與進步的源動力之一。
參考文獻
[1]秦鴻.決策支持視角下的數字資源使用統計分析實例研究[J].大學圖書館學報,2013,(6):60-65.
[2]段惠靜.數字資源使用統計分析——以山西大學圖書館為例[J].晉圖學刊,2012,(3):24-27.
[3]杜瑩琦.高校圖書館試用數字資源的選擇與評價策略[J].圖書館建設,2011,(7):13-15.
[4]吳金鵬.基于博弈論的高校數字圖書館發展策略研究[J].圖書館工作與研究,2011,(5):14-18.
[5]數據分析[OL].http:∥baike.haosou.com/doc/3840640.html,2015-01-20.
[6]黃煒.高校校園網架構及其安全系統的分析與設計[D].南昌:南昌大學信息工程學院,2010.
[7]陸康.網絡行為讀者需求分析運用探討[J].現代情報,2015,(5):94-97,104.
[8]劉慧.基于網絡行為的圖書館數字資源評價方法研究[J].現代情報,2015,(2):62-66.
[9]陸康,劉慧,王圣元.基于3G無線網絡時代手機圖書館的前景與發展[J].農業圖書情報學刊,2012,(7):177-179.
[10]陸康.基于4G網絡環境的移動圖書館研究[J].新世紀圖書館,2013,(11):63-65.
[11]陸康.基于增值業務的圖書館移動門戶建設研究[J].現代情報,2014,(11):143-146.
[12]吳靜.江寧大學城高校移動圖書館聯盟構建設想[J].圖書館學研究,2013,(8):86-88.
[13]王政軍.電子資源統計分析系統的設計與實現[D].大連:大連理工大學,2012.
(本文責任編輯:郭沫含)endprint