摘 要:針對圖書館電子資源惡意下載的診斷與限制問題,文章對關于高校海量的圖書資源進行了介紹,提出了圖書資源安全的存儲與備份的要求,探討了圖書資料的快速查詢,包括對電子圖書的快速查詢和對電子圖書違規使用的保護,探討采用行為審計設備的訪問識別與記錄,提出針對具體訪問數據包的特征分析與控制方法。
關鍵詞:圖書館;電子資源;惡意下載;診斷
電子資源在現代圖書館中所占的份額越來越重。高校在圖書購置方面的花費也有很大一部分是投入在電子資源的購買上。電子資源指國內外出版商發行的、由學校購買了校園使用權(或院系使用權)的網絡正式出版物或由學校建設的數字資源,包括數據庫、電子期刊、電子圖書和多媒體資源等。隨著信息化建設的深入,電子資源越來越顯示出其優越性。
1 海量的圖書資源
在南潯的古鎮里面,曾見過一屋子的磚,上面刻了密密麻麻的字,比最早的書簡還要占地方,一間客廳也放不了幾本書。而現在,一般10G容量的硬盤就可以存一兩萬本的書籍。電子圖書的存放空間問題不再是主要的問題。按照前面的算法估計,一座千萬冊書籍的圖書館只要幾十個TB的容量即可,最多也就是兩三臺個人電腦所占的空間。隨著技術的進步,硬盤的價格越來越低,海量的數據存儲越來越低成本、越來越時尚。在大規模關系型數據庫技術、便攜式數據文件技術、各種索引技術的支撐下,海量圖書資源的存放與索引也逐漸實現了自動化。電子圖書資源的規模也基本沒有真正意義的上限。
2 安全的存儲與備份
基于現代技術的快速備份技術,異地容災技術等都為數據資源的安全提供了有效的保障。省卻了傳統圖書修復的人力和物力。同時,也不用再擔心有人在書上亂寫亂劃而影響下一個人的閱讀。每個人只修改自己的拷貝,只在自己的空間內做筆記。
3 圖書資料的快速的查詢
結合各種優化的索引技術,基于關鍵索引信息的查詢耗時可以優化在毫秒級內,得到的結果快而全;通過一定的條件可以繼續篩選,直到找到有用的文章;可以在復制、粘貼間完成文章的摘錄。基于圖書文獻管理軟件的查詢(如EndNote,NoteExpress等),更是可以方便地在文章引用的過程中自動添加參考資料索引,方便地形成結構化的文章。
3.1 對電子圖書的快速查詢
電子圖書資源在區域控制、資源利用率統計等其它諸多方面也都有著硬拷貝無法比擬的優勢。盡管如此,在電子資源推廣的過程中仍有許多新的課題,比如電子資源的惡意下載問題。一般情況下,高校圖書館所購買的電子資源中,有很大一部分是最新的期刊數據庫,包括國內的和國外的。國內數據庫一般管理比較寬松。對于授權用戶的下載,基本不控制下載的數量和相關性。而國外昂貴的數據庫則管理相對嚴格,對數字資源的違規使用行為往往是判斷條件苛刻,處理方式干脆。
3.2 對電子圖書違規使用的保護
學校電子資源違規使用行為主要包括單位或個人私設代理服務器,為校外人員提供訪問本校購買的、僅限于合法用戶使用的電子資源;利用工具軟件批量下載電子資源或以非正常閱讀速度連續、集中、批量下載電子資源或整本下載電子期刊;將個人賬號借出或租給非合法用戶使用,或私自將所獲得的文獻批量提供給非合法用戶;因賬號保管不當,被他人利用,而造成電子資源違規使用;單位或個人利用下載電子資源所獲得的文獻資料進行商業牟利。所有這些行為,有一個共同的特征,就是惡意下載。
電子資源一般是按照學校的網絡地址范圍來購買許可。在校內基于學校身份認證的訪問屬合法使用。針對正常查閱和引用的特征,多數數據庫都會設置一個閾值(單位時間內的下載數)來控制惡意使用行為。比如,同一個IP地址在一分鐘內不得超過閾值篇數的下載量,否則將中斷數據庫的使用并發送協查通知。對惡意下載的診斷與限制也將成為數據庫正常使用的有效保障。
4 采用行為審計設備的訪問識別與記錄
鑒于國內IP地址的緊張,學校一般會在網絡出口處做地址映射,一個實際的IP地址可能對應了成千上萬個用戶的訪問。
(1)行為審計設備可以記錄所有這些用戶的校內端IP地址,以及對應的訪問地址。這一步獲得校內地址(內部ip)和訪問數據庫地址(NAT IP)的對應關系。(2)出口訪問端的認證設備記錄訪問者的IP(內部IP)和認證賬號(USERID)的對應關系。(3)認證設備采用的認證信息來自認證服務器(如LDAP或其它域認證設備),通過認證服務器內認證賬號(USERID)可以獲得對應的用戶信息(USER INFO)。
5 針對具體訪問數據包的特征分析與控制
獲得認證用戶與訪問數據庫的關系后還需要具體辨別用戶的行為。用一臺設備抓取所有的針對管控數據庫的訪問記錄,然后在后臺即時地進行特征分析,區別瀏覽和下載行為。針對不同管控數據庫的控制維度時間和下載次數的設置,判斷是否超過規定的閾值。如果超過則觸發預警機制,通知認證設備,暫時封鎖相應的用戶賬號,并提醒網管相應的事件信息,達到管控的目的。
6 結束語
需要注意的是,一般的審計設備都不建議放在核心的出口設備,防止單點故障。建議采用光端口分光或者監聽的方式搭建審計設備。不同的數據庫其實際訪問和下載的IP地址有可能會變動,需要及時更新數據庫對應IP地址列表的字典。
參考文獻
[1]時彤,郭青,馮佳,等.高校圖書館電子資源惡意下載現狀及對策[J].醫學信息學, 2011(12).
[2]左平.試論如何提高高校圖書館電子資源利用效率[J].科技創新導報, 2012(28).
作者簡介:張增修(1974-),男,華東師范大學信息化辦公室副主任。從事學校網絡與應用系統建設。
通訊作者:王江濤(1971-),男,華東師范大學軟件學院高級工程師,上海嵌入式系統研究所副所長,研究方向嵌入式軟件。