鮑劼+李丕仕+都平平+朱世平+鄧志文



[摘要][目的/意義]研究有效的數據安全防護策略,以應對高校圖書館面臨的數據安全威脅,為高校圖書館提升服務質量和效率提供可靠的技術保障。[方法/手段]運用云存儲、分級加密、大數據分析、WAF、Pd3AC等技術和生命周期理論,結合高校圖書館面臨的數據安全問題,從存儲安全、網絡安全、隱私泄露三方面進行分析、研究。[結論/結果]從數據云安全存儲、提高網絡安全防護技術、基于數據生命周期的隱私保護三方面提出多維、有效的高校圖書館數據安全防護策略。
[關鍵詞]高校圖書館;數據安全;云存儲;網絡安全;隱私保護
互聯網、云計算、大數據等技術在圖書館廣泛應用,圖書館數字資源建設加快,數據資源總量每年顯著遞增,數據資源種類增多,現已包括數字、文本、圖像、音頻、視頻、多媒體等各種結構化或半結構化的數據類型,同時通過圖書館微信、微博、社交網絡等新媒體方式,讀者原創數據爆炸性增長,產生了大量的網絡日志、用戶行為信息等非結構化、隱私數據。如何做好這些海量數據的安全防護,已成為保證圖書館正常運轉、提升信息服務質量的重要技術保障工作。然而近年來,新技術快速發展下的數據安全問題變得越發嚴峻。Verizon發布的《2015數據泄露調查報告》顯示,2015年確認了2122起數據泄露事件,涉及61個國家組織;2016年,ISIS黑客組織泄露美國阿肯色州圖書館協會(ALA)800多名員工的個人信息,所幸信用卡信息未被泄露;2017年中國教育部的信息漏洞平臺內部通報某些高校存在弱口令漏洞,經排查漏洞存在于高校圖書館的OPAC系統。因此,以數據存儲、挖掘、分析、應用為己任的高校圖書館,分析和研究自身面臨的數據安全問題,采取可行的應對策略以保障圖書館的數據安全,是高校圖書館工作者亟需去思考和研究的問題。
1高校圖書館面臨的數據安全問題
高校圖書館數字化建設至今,數據資源已成為圖書館最重要的資源之一,高校圖書館的資源建設和服務決策更多地依賴于數據分析,數據本身的可靠性和安全性尤為重要。在此,結合高校圖書館面臨的數據安全威脅,從存儲安全、網絡安全、隱私泄露三個方面,就高校圖書館面臨的數據安全問題進行分析研究。
1.1存儲安全問題
高校圖書館歷經多年信息化、數字化建設,積累了大量的數字資源,數據環境具有海量存儲、管控難度大、開放復雜、級數遞增等特點。以中國礦業大學圖書館(后簡稱我館)為例,數據總量從2012年的26.3TB增至2016年底的147.6TB,并且還有逐年遞增加劇的趨勢,如此海量的數據對圖書館的存儲設備是個巨大的考驗,急劇增長的數據量也將超出傳統數據庫的管理能力。如何防止這些數據丟失、損毀、被非法盜取(利用)是高校圖書館存儲安全面臨的一個問題。
高校圖書館關注的數據已不僅限于館藏書目、電子期刊、電子圖書、學位論文、借閱信息等業務數據,還延伸到讀者在微信、微博、社交網絡等新媒體方式互動中產生的難以估量的社會化數據。數據種類包括結構化、半結構化和非結構化等多種類型,由于不同類型的數據對存儲系統的性能要求不同,因此存儲設備類型多樣。以我館為例,現有存儲設備包括磁盤陣列、SAN和NAS三種類型,三種存儲系統的存儲技術、管理方式、災難忍受度、性能等都不一樣,如何高效、安全地利用三種類型存儲是安全存儲面臨的一個問題。
高校圖書館為了降低成本,開始將一些數據存儲在“云”端,但云平臺本身在安全方面的隱患給高校圖書館的數據安全帶來威脅,主要表現在:云平臺的開放性給黑客帶來了竊取數據資源的機會;“云”服務提供商可能為了謀取利益而出賣這些數據和信息,導致圖書館核心信息和隱私數據泄露;云平臺海量用戶共存模式存在潛在的威脅;“云”服務提供商的安全訪問控制機制可能無法有效阻止非法用戶訪問;云平臺的虛擬化存在安全隱患,等等。
1.2網絡安全問題
高校圖書館是以網絡為基礎傳遞數字資源,提供信息服務的。圖書館網絡環境不僅面臨著傳統的病毒、木馬、DDoS攻擊等安全問題;現在,一方面由于數字資源規模巨大,黑客的一次攻擊能夠盜取更多的數據,無形之中使圖書館成為更有吸引力的目標;另一方面,黑客利用云計算、大數據等技術發起的高級可持續攻擊(APT)、僵尸網絡攻擊等新模式攻擊,能夠同時控制百萬臺計算機,這是傳統單點攻擊做不到的,由于可利用數據規模巨大,攻擊者能夠很好地隱藏攻擊代碼,使傳統的安全工具無法檢測。
高校圖書館的服務模式和讀者閱讀方式正在改變,伴隨著自助借還、無線接入、移動閱讀終端、微信、微博、云計算和其他新技術的應用,使得外部信息接入點增加,傳統網絡防護設備安全隱患加大,API(程序接口,如我館的匯文系統接口程序)的訪問權限開放等。這些都是圖書館數據資源受到攻擊和泄露的重要原因,也是高校圖書館網絡安全面臨的重要問題。
目前,圖書館的網絡安全防護基本采用殺毒軟件和防火墻相結合的模式來阻止病毒、木馬等惡意程序的入侵。掃描一遍現有的存儲需要花費幾天的時間,面對未來幾何級增長的數據、大量的外部信息接入、API接口開放等,將會需要更多的掃描時間,這些網絡安全問題亟需我們去研究和解決。
1.3隱私安全問題
移動互聯時代的高校圖書館,積極收集讀者個人信息(如個人身份信息、私人電話、E-mail等)和讀者活動信息(如閱讀行為、參考咨詢內容、上網行為、個人偏好、科技查新內容等)等,并對這些信息進行分析、挖掘、整合、利用,更好地根據讀者需求提供個性化服務、知識服務以及轉變服務模式。但同時,這些讀者隱私信息存在被任意獲取、泄露、擴散的隱患,將極大地威脅讀者個人隱私安全。
大多數高校圖書館都有閱讀終端設備、視頻監控設備、服務監控系統等,實現了對用戶信息和用戶行為(包括閱讀行為、閱讀需求和用戶地理位置信息)等隱私信息的數據采集與監控。這些數據的采集與分析,提高了用戶服務質量和讀者閱讀滿意度,同時為高校圖書館科學預測用戶服務模式變革提供了可靠的決策支持。但是,圖書館對這些隱私數據的使用權和所有權沒有明確的界定,也沒有用戶隱私數據保護措施。大量事件證明,數據未被妥善應用會對用戶的隱私造成極大的侵害,“棱鏡門”事件就是一個實例。
高校圖書館官方微信、微博、社交網絡等新媒體平臺的積極推進,使互聯網每時每刻都在產生與讀者個人相關的海量數據,這部分數據包含了大量的讀者個體特征、閱讀社會關系、個體行為等隱私數據,如果未被妥善處理,將增大讀者隱私泄露的風險。
2高校圖書館數據安全的解決方案
高校圖書館在使用數據處理、數據挖掘、數據分析等技術獲取數據蘊藏的有用信息,創新服務模式,提高服務質量的同時,應研究和解決如何確保數據存儲安全,如何降低網絡安全威脅,如何防止用戶隱私泄露。高校圖書館可以從數據存儲安全,提高網絡安全防護技術,讀者隱私數據保護三方面著眼,建立全方位、深度的數據安全防御體系。
2.1數據云安全存儲
高校圖書館由于數字資源呈爆炸性、無限增長狀態,現有的存儲系統將無法有效地存儲和管理這些數據,限制了數據的增長。根據各類數字資源的功能性和機密性需求,對于數據規模較大的電子期刊、電子書、多媒體等數字資源,其服務范圍較廣、涉及隱私敏感數據較少的情況,圖書館可考慮將這部分數字資源存儲在云端,利用云存儲實現數據的存儲、管理以及分析利用,保障數據的完整性、機密性和可用性;而對于數據規模相對較小,涉及隱私信息較多的讀者個人信息等敏感數據存儲在本地。云存儲的體系結構可分為4層,分別是:存儲層、基礎管理層、應用接口層和訪問層,如圖1所示。
安全云存儲系統由客戶端、服務器和云存儲服務提供方3個模塊構成。客戶端屬于訪問層,用戶(包括圖書館工作人員、讀者和服務提供商)通過各種終端應用云存儲服務,在該層用戶要進行身份認證和權限管理,用戶數據可以進行分級加密。客戶端和服務器端通過web service、應用軟件以及公用API接口進行數據交互。
服務器端的基礎管理層提供分布式文件系統、集群系統、數據分塊、數據索引以及數據加密備份等功能。服務器與云存儲服務提供方通過可信高速的內部網絡進行數據的存儲傳遞。
云存儲服務提供方屬于存儲層,主要對數據進行壓縮和冗余刪除處理,提高存儲的利用率。用戶訪問權限信息和用戶數據的完整性、機密性均由客戶端進行保障,可在客戶端運用分級加密訪問控制技術。
所謂分級加密,即用戶可以通過發送請求,要求變更加密等級,等級越高,密鑰越長,安全性就越高,運行開銷也就較大。用戶(圖書館工作人員)可以根據數據安全需求的高低,進行加密等級劃分,這種方式可以提高加密效率,進而提高數據的訪問效率。
2.2提高網絡安全防護技術
云計算、大數據、移動互聯等技術給高校圖書館的網絡安全帶來了很大的威脅,但同時也給網絡信息安全技術帶來了新機遇。傳統的網絡安全防護模式是“漏洞掃描一入侵檢測一訪問控制一響應恢復”,大多數網絡安全防御是在攻擊發生后,對其響應并處理,做好恢復工作。現在,網絡安全防護可以利用大數據的分析技術,構建一個安全智能平臺,對網絡異常情況分析,從而發現潛在攻擊,有效預測威脅,如圖2所示。
網絡安全智能平臺實時檢測異常,同時報告異常檢測結果,并利用大數據分析技術對這些檢測報告進行分析,發現攻擊行為和可疑行為,對攻擊行為做出響應處理,對可疑行為做出預測處理,并同時將攻擊行為以及可疑行為的分析結果反饋給網絡安全智能平臺的分析模塊,形成一個“監控一檢測一分析一反饋”模式的、集成的、智能的網絡安全防御解決平臺。通過大數據分析技術,可長時間分析更多種類數據(結構化、半結構化和非結構化),從而發現潛在威脅,預測未知的惡意攻擊行為;同時,能夠幫助應對高級持久威脅(APT),內部威脅和欺詐。
以我館為例,考慮到圖書館的各種信息服務多數以Web應用方式提供,因此我們部署了深信服的Web應用防火墻(WAF),該防火墻通過執行一系列針對HTTP/HTTPS的安全策略專門為Web應用提供保護。WAF設備對我館的Web業務進行7×24小時流量監控,實時發現系統新增漏洞,直觀呈現業務系統的漏洞和遭受的攻擊,并能快速定位有效攻擊,以便我們可以及時采取應急措施。該WAF設備能夠同時抵御網絡層和應用層的攻擊,并采用安全沙盒技術來發現可疑的未知威脅,防止新型攻擊集中爆發。
2.3基于數據生命周期的隱私保護方案
對于人類而言,遺忘一直是常態,而記憶才是例外。然而,數字技術與全球網絡的發展,讓社會喪失了遺忘的能力,取而代之的是完善的記憶。世界上90%以上的信息是數字形式的,因此我們能夠毫不費力地進行存儲、處理、利用,例如Google一直在存儲每位用戶的每次搜索請求與訪問記錄,可以說Google對我們的了解比我們自己能夠記住的還要多。如果大量數字化的私人信息沒有有效的監管,它不僅可能在今天被盜用,在若干年后仍然可能被盜用。
高校圖書館用戶的個人信息以及產生于微博、微信、社交網絡中的用戶敏感信息也可能以數字形式被搜集、存儲很久很久,繼而被大數據的挖掘技術、關聯分析技術所處理、整合、利用,一旦不能保證這些數據的合法利用,失去控制,那么將造成個人隱私泄露危機。在此,我們以“隱私數據生命周期”為理論基礎,把圖書館用戶的個人信息保護工作貫穿于整個數據生命周期。隱私數據生命周期包括:數據采集、數據存儲、數據處理與應用、數據傳輸以及數據刪除5個環節。根據5個環節中防范隱私泄露技術手段的不同,將分為4種類型保護方式:RBAC、權限管理、加密保護和安全刪除,從各個環節起到防范作用,如圖3所示。
RBAC:RBAC即基于角色的訪問控制,將權限和角色關聯,為不同角色賦予不同的權限,用戶成為某個角色時,就擁有了該角色的權限。在圖書館用戶敏感數據采集、處理(挖掘、分析、整合、共享)和應用這2個環節中,采用RBAC保護方式,對不同的數據使用人員(包括圖書館工作人員和服務運行商)規范其權限范圍,根據工作分工不同賦予不同的權限,實現數據使用個人具有最小權限,有效地防范用戶隱私的泄露。
匿名保護:對于數據采集環節,有一部分產生于微博、微信、社交網絡的圖書館用戶敏感數據,采用匿名保護技術,在數據發布時隱藏用戶的標識信息、屬性信息、用戶問關系,盡可能隱藏用戶個人數據中的敏感信息。同時,圖書館也應對搜集到的用戶個人信息匿名化。
分級加密:用戶的隱私數據以明文形式進行的存儲和傳輸在很大程度上是不可取的,因此在數據存儲和傳輸2個環節,應采用加密保護。這里,我們提出采用分級加密技術,根據保密等級不同,設定不同的密鑰長度,能夠在達到保密效果的同時有效降低運行開銷,提高圖書館應用系統的運行速度。
安全刪除:圖書館應科學地管理用戶個人信息,當用戶個人信息達到使用目的,確定不需要時,必須“銷毀”。敏感信息的銷毀,采用清洗/擦除或覆寫法,確保數據徹底刪除,無法復原,以免造成涉密信息泄露。
3結語
云計算、大數據、移動互聯等新技術給高校圖書館信息服務模式帶來深刻的變革,同時也給圖書館的數據安全帶來全新的挑戰。我們利用云存儲、分級加密、大數據分析、WAF、RBAC等技術和生命周期理論,從數據安全存儲、網絡安全防護技術加強、隱私數據有效監管三方面入手,建立全方位的、深度的信息安全防御體系,將數據安全防護貫穿整個圖書館信息化、數字化建設、運維、使用環節中,以保障高校圖書館信息服務的質量和效率,為廣大師生用戶提供可靠、可信的信息服務。但是,加密等級劃分、安全態勢分析和預測、安全邊界劃分、數據脫敏等問題,還需要我們進一步思考和研究。