王 彤(山西大學經濟與管理學院)
?
大數據時代下的圖書館跨界服務信息安全技術問題及對策
王彤(山西大學經濟與管理學院)
摘要:在跨界服務概念為信息資源建設、圖書館服務模式轉型帶來優勢的同時,會伴隨產生新環境下的信息安全技術問題,這些問題的解決迫在眉睫。通過對大數據時代下圖書館跨界服務的特征及服務方式的分析,指出圖書館進行信息服務過程中的知識產權保護、隱私數據保護、惡意攻擊和計算機病毒、數據存儲兼容和容災等安全技術問題,并針對這一系列問題提出了對數據存儲及保護、知識產權的保護和訪問控制等相關對策。
關鍵詞:圖書館跨界服務;大數據;信息安全;技術問題;對策
在信息技術行業,大數據產業被普遍定義為:“建立在對互聯網、物聯網等渠道廣泛大量數據資源收集基礎上的數據存儲、價值提煉、智能處理和分發的信息服務業”,[1]通常將大數據的特征概括為以下4V:Volume(數據量大與數據完整性)、Variety(數據多樣性)、Velocity(響應速度快)和Value(獲得洞察力和價值)。圖書館作為數據、信息、文獻、知識的高度集中機構和信息服務提供場所,正是契合著這樣的數據特征和服務要求。大數據環境下,無論是對信息資源的有效整合及利用,還是所提供服務的深度、廣度和特色性、主動性,具有專業優勢的圖書館缺乏核心競爭力,極易被網絡和內容生產商、供應商等搶去信息服務空間,甚至可能被完全替代。因此,圖書館跨界服務是尋求未來發展出路和實現自身變革的必然結果。然而,由于其開放性的必然要求,在跨界服務為信息資源建設、信息服務質量、圖書館服務模式轉型帶來優勢的同時,信息安全技術的重要性也隨之上升到了新高度。
本文所描述的跨界服務是指圖書館在參與文獻、信息、知識的生產、分析、傳播和利用的過程中,以實現高效利用信息資源、拓展圖書館服務業務、提高各用戶的社會價值和經濟價值為目的,在不同的信息系統或信息環境下與其他組織機構開展業務協同或互聯互通的合作性服務。[2]圖書館跨界服務能夠創造性地提高自身和各合作組織機構的信息資源利用率和信息的流通,拓寬信息服務領域,在低成本條件下不僅能夠實現圖書館從圖書管理到知識整合、從傳播知識到全方位的知識服務、從被動接受用戶到主動推送服務完美轉型,而且,通過對用戶信息行為的深度挖掘,讓用戶享受到“一站式”的信息服務,為知識創新提供有利的氛圍和條件。這不但順應大數據時代下信息服務機構的發展需求,還能更廣泛地實現各組織機構以及用戶的社會價值。
2.1基于信息運動的跨界服務
信息運動是用信息鏈來描述的,信息鏈是由事實、數據、信息、知識和情報五個鏈環組成的。劉細文教授認為,圖書館的信息加工組織、服務提供甚至生存發展都依附于信息鏈的各個鏈環,因此,圖書館應該針對處于信息鏈不同層次用戶,結合數據分析、數據挖掘、信息過濾等技術,加強對用戶行為數據的分析,提供個性化、多樣化和定制化的創新服務。[3]
2.2基于知識組織創新過程的跨界服務
即基于知識鏈的跨界服務,可以看作是對信息運動過程中從信息到知識這一環節的延伸。圖書館應借助互聯網信息平臺,利用大數據環境特點,發揮數字資源優勢,匯集各種數據流、信息流、知識流,圍繞知識的生產過程、認證過程、存儲過程、組織過程、傳播過程、利用過程、創新過程等一系列循環流程實現知識鏈的動態構建與管理,開展集成化、系列化、一體化跨界信息服務,成為重要的知識核心。這樣的跨界服務可以使得信息加工程度更加深化、圖書館服務范圍更加寬泛,既能夠滿足用戶的需求,又能夠促進業界信息資源的共建共享,迎合知識經濟時代信息服務機構發展的要求。
2.3貫穿用戶工作流的柔性跨界服務
在大數據時代,圖書館更重要的是滿足用戶對知識概念的理解、知識邏輯關系的展示、知識推理、知識挖掘的需求,參與用戶知識創造的過程,[4]幫助用戶進行一系列信息活動,主動向用戶提供高效率的跨界服務。如:圖書館提供跨界服務為用戶描繪知識圖譜,以時間、地域為軸線,通過可視化方式將信息資源呈現給用戶。[5]以明尼蘇達大學圖書館提出的在線研究環境(Online Research Environment)為例,該系統集成了研究進度管理、動態前沿跟蹤、交叉學科研究、信息資源推薦、研究團隊協作交流、個性化知識樹構建等新型服務。
2.4聯結服務主體的集成跨界服務
由于搜索引擎、網絡出版商、社交網絡平臺以及各種軟件應用的逐步興起,圖書館提供信息服務的重要地位受到了嚴重沖擊。因此,圖書館應該主動適應新的信息環境,積極應對,與搜索引擎服務方(如Google、百度)、文獻管理系統(如Endnote、NoteExpress)、網絡教育服務方 (如 Mooc、2tor、Blackboard)、網絡社區化知識平臺(如Cyworld、豆瓣、知乎、Linkedln)等大眾化、商業化的網絡信息平臺結成聯盟,形成集成優勢,實現行業共贏的美好愿景。
信息資源同其他資源一樣,是有價值的。信息安全是圖書館跨界服務的基礎要求。如果信息安全缺乏保障,那么跨界系統建設就會是空中樓閣,一旦發生問題,損失不可估量。由于信息技術的迅猛發展,新的安全威脅不斷產生,因此信息安全的概念也在相應地更新,尤其在大數據時代,其影響愈發深遠。信息安全問題最大的一個特點就是隱蔽性,在不知不覺中就可能使信息服務機構蒙受重大損失。不同于普通的圖書館聯盟,圖書館在進行跨界信息服務過程中的信息安全要面臨來自更多不同領域的挑戰,無論是安全技術、人的行為,還是管理理念及制度,都是不容忽視的重要方面。本文主要從安全技術方面進行討論。
3.1對知識產權及衍生知識產權的保護問題
在大數據環境中,圖書館跨界服務會構建由海量信息資源組成的共享知識庫,以實現信息資源共享與交流。大量的數字化信息資源在網絡環境中傳播,極易被截取或復制,各種尖銳的知識產權矛盾由此而生。更有其極,在云共享和分布式存儲成為數據存儲主要發展方向的今天,知識產權矛盾不斷產生新的問題:各機構通過購買云服務,把自己的數字資源交給云服務商托管。按照傳統知識產權觀念,數據所有者應該完全擁有被托管數據的知識產權,但是在現實過程中,當數據被交給云服務提供商后,他們會深入挖掘自己作為“數據核心”的潛在價值,想方設法對這些數據加以利用。近年來,隨著云服務的推廣和技術的發展,不斷有服務提供方以數據整合、數據挖掘、知識服務的名義以用戶原始數據為基礎進行二次開發。以OCLC(聯機計算機圖書館中心)為例,其每季推出的高校圖書館與科研圖書館推薦書目、作品的服務,是其利用WorldCat聯合編目庫中集成的館藏數據開發出的一系列新產品。其Web級云計算圖書館集成系統一旦上線,將會收集大量圖書館的讀者信息及借閱信息。這些數據本是僅屬于成員機構的,但若云服務提供商加以二次開發而生成新產品或新服務,其知識產權的界定將成為新的問題。[6]
3.2用戶隱私保護問題
大數據背景下,圖書館跨界服務能為用戶提供豐富的知識服務——知識挖掘、知識評價、數據分析等。在利用大數據手段整合、分析、挖掘館藏數字資源內匯集的海量數據信息時,會涉及大量個體用戶和機構的私密信息,如果沒能對這些數據進行妥善處理,可能會對社會和自身帶來嚴重威脅。在提供跨界服務的過程中,圖書館收集的用戶信息包括用戶資料、讀者行為、習慣偏好、個人位置信息等,甚至已經深入到微博、微信等社交網絡,存在極大的商業價值,如果不慎泄露,對用戶的生活造成困擾,甚至威脅用戶安全。
3.3計算機病毒和惡意攻擊
圖書館跨界服務是通過互聯網傳遞信息與數字資源并提供服務的,海量的信息資源將吸引眾多攻擊者,不可避免地成為黑客容易攻擊的目標。他們通過尋找互聯網環境內的安全漏洞,廣泛利用0day漏洞和新型APT攻擊、各種病毒來竊取用戶資料或破壞存儲和傳輸的信息。這會對服務的數據環境安全帶來巨大挑戰。尤其在混合云環境中的分布式存儲條件下,數據和業務流程既可以在本地部署也可以在云端部署,或者在本地和云端同時部署,而為保證云端數據不被意外毀損、丟失,不被非法獲取、分析或運用,保證云服務的穩定性、長期性、有效性、數據安全性等,都使得數據跟蹤和信息處理成為一大難題。
3.4訪問權限問題
在跨界服務的數據合作系統中,由于知識分類和內部合作權限不同,圖書館及其上游的信息提供機構都同時作為數據使用者和數據管理員登錄,都具有數據的創建、更新、整合及瀏覽的權限,用戶的復雜性帶來更加復雜的權限管理問題。另外,在云計算環境中,合作成員對放置在云服務器中的數據和計算的控制變得困難,對于數據是否受到保護、計算任務是否被正確執行都不能確定。[7]并且訪問控制角色的動態授權和角色賦予后用戶訪問行為的監控乃至角色類型的新增等,也都面臨更復雜的問題。
3.5數據存儲兼容需求
根據相關調查,當前,數據庫類型數據每年以25%的速度增長,而傳統技術難以處理的音頻、視頻、圖片、網頁等非結構化的數據每年以50%~75%的速度增長,海量數據的存儲對存儲技術提出了新的要求。[8]而且,由跨界服務的特點可以知道,圖書館作為數據中心,數據結構多樣、存儲環境復雜、數據增長快、非結構化數據量大,存儲技術還不夠成熟,同時還要滿足實時性、可靠性和可擴展性等要求,對數據存儲結構的兼容性提出了新的挑戰。另外,跨界服務合作組織具有眾多成員機構,不同機構有可能使用的是不同廠商的不同信息系統、采用的是異構的數據保護方案,當系統進行擴展時,無法利用現有資源而造成資源浪費,現有圖書館信息資源跨界服務是否對此兼容,也是異構存儲管理難題。
3.6數據存儲容災需求
圖書館數據中心有大量的數字信息需要存儲,服務系統和設備一旦遭受自然災害、人為誤操作、病毒感染、設備故障、黑客入侵等破壞,出現數據損失的代價往往是極其高昂的。圖書館須為恢復數字資源和計算機系統采取技術上和設備上的保護,以確保系統的正常運行和服務順利提供。在以圖書館數據中心為核心的跨界存儲環境中,不同層次的服務器所需的保護層級是不同的。通常普通服務器所需容災只要進行定期備份即可滿足,部分關鍵服務器則需要實時備份保護,而最核心層服務器則需要應用容災級的全面防護。這些服務器又往往會涉及不同的系統平臺和數據結構,這就需要構建一個全面的、完整的保護策略,在面對跨界數據服務整體時要有統一性,在面對不同業務系統、不同業務層級時要有差異性和針對性。[9]因此,這對圖書館提供跨界服務數據存儲的容災能力就有了很高的要求。
針對以上指出的信息安全問題和信息安全目標,圖書館應做好對信息資源共享和服務提供環境的防御保護、實時保護和傳播保護的安全基本保障。據此,本文提出以下具體解決對策。
4.1知識產權保護對策
對于大數據背景下知識產權的保護,圖書館的信息資源存儲中心需要根據云計算的相關協議和標準,制定跨界合作組織內部運用云計算應遵循的準則和規范。同時,對提供云計算服務的企業進行評估及考核,細致地了解該企業提供產品的技術安全性能以及可持續使用情況,確保跨界合作組織使用標準化規范化的云計算體系,并且對其采取相關的訪問控制管理也是必要的。更重要的是,國家相關部門應盡快完善與新技術相適應的法律制度,才能平衡云服務提供商與圖書館、著作權人以及用戶之間的利益關系,避免云服務供應商利用圖書館豐富的館藏資源,導致資源的網絡傳播,侵害到著作權人的相關權益。
另外,信息加密、數字簽名、單向Hash函數、數字證書、水印防偽技術、安全容器技術、移動A-gent技術等手段能夠在一定程度上為打擊侵權行為提供有效防護。信息加密主要針對數據傳送過程,使得信息的傳輸安全可靠,以免被未授權人員獲取,更具體的技術與下文的數據保護、訪問控制重合。數字水印技術和數字指紋技術是在原始數據資源中嵌入有效的、不易察覺的并且不易破壞的產權標識,為打擊侵權行為提供有力證據。安全容器技術以InterTrust公司的DigiBox技術和IBM公司的Cryptolope技術[10]為代表,通過封裝加密,對數據進行保護。
4.2數據保護對策
在萬物互聯的時代,圖書館跨界服務的信息安全防護主要依托于積極主動防御。對于跨界服務這樣一個動態而又穩定的系統,加上以APT為典型代表的新型威脅和攻擊的不斷增長,傳統的、靜態的、單點的防御體系已經無法滿足新環境下的信息安全防護需求。需要通過利用大數據的手段結合現代網絡安全技術,比如添加大型的通用日志服務、能作實時關聯的引擎和針對合作組織中各個用戶的定制分析平臺,對數據的記錄、存儲進行分析,主動發現異常和潛藏著的威脅,實現威脅與入侵的快速檢測、快速發現和及時響應。
在大數據背景下,圖書館跨界服務數據存儲更多地依托于“云”。在“云”這種完全虛擬的環境中,同一臺物理機上可能連接著成百上千臺虛擬機,虛擬機之間是通過虛擬交換機來傳輸信息的,使用的是虛擬機管理器。因此,基于“云計算”和虛擬技術的“云安全”近幾年被很多企業和機構極力推崇。
IBM新興技術總監David Barnes對于如何加強云環境安全,提出了其云安全模型“三大要素”的創新概念:細粒度上下文安全(Fine-grained Context Security)、溯源(Provenance)和蜜罐(Honey Pot)。① 確保細粒度上下文安全是為了發現異常行為,方法包括深度自省、前瞻探測以及為系統、工作和人員構建行為模型。在高度虛擬的云環境中,對系統、工作負荷和人員的行為模式很容易進行總結,因此這樣做可以盡早減小攻擊造成的影響。② 溯源。為確保完全暴露在云環境中的數據和進程的安全,需要尋求某種手段來對數據進行驗證并自動生成記錄,以及自動追蹤所有進程的起源。通過溯源可以告知我們整個過程:誰(Who)在什么時間(When)以什么目的(Why)對數據進行了什么操作(What)。③ 蜜罐是用來檢測非常規和新型黑客的誘餌,蜜罐檢測可以幫助盡早發現試圖入侵系統的惡意軟件。因此,這就需要設置高度虛擬化的環境,每個環境都采用不同的配置和不同的系統參數,將真正的操作環境與誘餌隔離開來,引誘隱藏的惡意軟件,使其自動激活和暴露。這一切都通過不同于傳統數據中心的云端虛擬化實現,它允許設置引誘環境,并將其置于關鍵的云計算機之外。憑借這一特點,在惡意軟件入侵系統前,就可以將其檢測到并進行隔離。[11]圖書館可以參考David的“三大要素”,探索出基于“云”的能夠誘發攻擊環境、減小攻擊影響,攜帶數據追蹤技術數據保護系統,打造出比傳統信息存儲環境還要安全的云環境。
4.3數據存儲對策
(1)兼容。圖書館跨界服務可以通過構建分布式存儲系統來面對海量數據存儲的需求和挑戰。非結構化數據庫NoSQL(Not Only SQL)克服了傳統結構化數據庫的缺點,支持多樣化的數據結構和分布式存儲,許多大型企業都會采取這種NoSQL數據庫。比如Google開發的 BigTable,Amazon推出的 Dynamo,Facebook研發的 Cassandra,新浪微博使用的 Redistribute,豆瓣網提出的BeansDB。這類系統成本低廉,對硬件設備要求不高,非常適合圖書館跨界服務使用。另外,基于圖書館跨界服務中存在不同系統的對接以及各種存儲設備,另一種可以使用的分布式存儲方式是基于云計算發展的云存儲。云存儲通過專門的應用軟件將不同的存儲設備集合起來協同工作,使圖書館整合目前已有的存儲設備、滿足爆炸式增長的存儲需求、降低管理成本和復雜度,以實現數字資源的穩定存儲和長期可用。目前,國內主要的云服務提供商有:國內最大的公共云計算服務提供商阿里云,國內虛擬化與云計算產品及服務的開拓者紅山,具有自主知識產權的華為FusionSphere云平臺。這些云服務提供商已經在政府、企業、醫療、教育等領域實現了眾多成功案例,圖書館跨界服務也可以使用類似的云計算解決方案,還可以通過混搭平臺 (MS Drupal-Mashup)的方式解決資源整合問題。新一代的MS Drupal-Mashup平臺采用基于 Drupal及其擴展模塊、API接口和混搭技術,實現根據平臺建設需求將獨立于各云端的數字資源與圖書館現有資源相互整合。西安交通大學圖書館就是使用這一平臺將圖書館內不同系統間信息資源共享融合。[12]
(2)容災。對以圖書館為數據核心的跨界服務合作組織這個復雜的綜合體來說,對系統中的數據或應用做好備份容災是十分必要和重要的。備份的實時性、充分性和分布式的程度影響著系統的容災能力,同時其采購及管理運營成本也因此而不同。因此,圖書館可以依據自身特點,選擇合適的容災系統。這樣的容災系統可以從以下幾個方面著手考慮。① 支持多系統平臺的兼容以及主流數據庫的備份和恢復,同時還要提供更全面的虛擬化平臺保護。② 異地容災。圖書館跨界服務可以將本地的實時數據備份到異地服務器中,或者將本地備份數據復制至云服務商,通過異地的備份進行遠程恢復數據,從而提高抵抗各種可能的安全因素的容災能力。核心業務要確保業務連續,首先保證本地高可用性,另外還要有異地容災;③ 采用實時備份和細粒度恢復技術,提供高的備份效率和恢復效率,常用的技術如存儲快照和CDP (Continuous Data Protection)持續數據保護技術(支持異構存儲,可以實現在故障發生瞬間恢復到任何時間點)。④ 核心數據的備份副本最好能夠接管訪問。同時,圖書館可以通過使用多家運營商網絡通道連接,允許在某一段線路中斷時,立刻切換到其他運營商的線路上,從而不會影響到對用戶的服務。同樣重要的是,圖書館應該根據實際情況,定期進行災備演練以檢驗數據副本回復和容災系統的有效性。湖南省圖書館就是采用上海愛數軟件有限公司的一體化容災系統,實現了對虛擬平臺的集中保護。[13]
4.4訪問控制對策
盡管大多數云計算服務提供商都通過使用加密技術來保護用戶數據,但也只能實現數據在網絡傳輸中是加密的,數據在使用、存儲和傳播時仍然缺乏妥善的保護。在圖書館跨界服務中,可以將RMS權限管理擴展到各分享站點。只有被分配了相關權限的合作成員或者部門才能對有關數據進行與分配權限相對應的操作。這樣就可以做到無論數據是在機構內部還是外部,無論數據是處在傳輸中,還是存儲狀態甚至是使用中,都始終受到權限的保護,提供端到端持久的信息安全防護。在組織內部,還可以使用精細化的IP-guard加密系統,對核心機密進行全面而細致的保護,實現不同機構成員、不同部門甚至不同用戶之間的深度保密。另外一種技術,數據丟失防護(Data Loss Prevention,DLP)可以幫助圖書館數據管理中心深入檢查數據內容,實現數據定位和定級,了解數據的使用情況,跨端點、網絡和存儲系統自動地保護數據。這種技術不僅能做到對信息的加密保護,還可以識別風險,防止內部成員或部門對數據和信息資產被有意或無意流出。[14]
[參考文獻]
[1]大數據時代的意義和特征[EB/OL].[2015-07-08].http://blog.sina.com.cn/s/blog_60bbe6a50101jjct. html.
[2]張波,等.跨邊界信息資源共享及其在企業創業過程中的作用分析[J].情報雜志,2014,33 (11):182.
[3]劉細文,熊瑞.圖書館跨界服務的內涵、模式和實踐[J].中國圖書館學報,2008(34):33-34.
[4]黃長著,等.網絡環境下圖書情報學科與實踐的發展趨勢[M].北京:社會科學文獻出版社,2010:56-60.
[5]數字圖書館迎大數據時代:將整合資源提供深度服務[EB/OL].[2015-08-27].http://culture.people.com.cn/n/2014/1105/c172318-25981395.html.
[6]OCLC Announces Strategy to Move Library Management ServicesWebScale[EB/OL].[2015-08-28].http: //www.oclc.org/news/releases/200927.html
[7]王于丁,等.云計算訪問控制技術研究綜述[J].軟件學報,2015(26):1129-1150.
[8]中恒華瑞大數據存儲系統簡介[EB/OL].[2015-07-25].http://www.sinohuarui.com/Detail.aspx?id= 122.
[9]愛數軟件.通往大數據時代的備份變革——深入愛數一體化容災產品 [J].軟件產業與工程,2013(21):22-23.
[10]莊超,等.網絡內容安全分發與版權保護技術[J].計算機工程,2000(26):50-52.
[11]IBM混合云[EB/OL].[2015-07-25].http:// www.ibm.com/cloud-computing/cn/zh/landing/hybrid. html.
[12]李丹,等.Drupal的混搭技術在圖書館的應用[J].現代圖書情報技術,2013(10):79-84.
[13]愛數助力湖南省圖書館實現虛擬平臺集中保護[2015-08-15].[EB/OL].http://www.eisoo.com/ cn/case/casedetail.php?type=jgtsg&id=975?.
[14]孫繼銀,等.網絡竊密、監聽及防泄密技術[M].西安:西安電子科技大學出版社,2011:241.
中圖分類號:G203
文獻標志碼:A
文章編號:1005-8214(2016)06-0099-05
[作者簡介]王彤(1991-),女,山西大學經濟與管理學院圖書館學碩士研究生,研究方向:信息生態。
[收稿日期]2015-11-28[責任編輯]李金甌
Issues and Countermeasures on Information Security Technology of Cross-boundary Service of Library in the Age of Big Data
Wang Tong
Abstract:The cross-boundary service of library,which well does great good to the construction of information resources and the transformation of library service mode,brings lots of security technology issues in the new information environment as well.To solve these issues is a matter of great urgency.This article points out possible problems in the process of cross-boundary library service for library including intellectual property protection,privacy protection,viruses and attacks,the compatibility and disaster tolerance of data storage.This article presents a series related countermeasures as well.
Keywords:Cross-boundary Service of Library;Big Data;Information Security;Technical Issues;Countermeasures