基于大數據的圖書館個性化服務安全體系構建研究
陳臣
由于大數據的多數據性和復雜性,在大數據環境中頻繁出現不可預測的攻擊行為,且大數據導致的隱私泄露給用戶帶來了嚴重危害,錯誤數據將導致大數據分析結果不正確。為了保障圖書館大數據計算的安全,結合大數據安全的研究和可信云的概念,論文提出一種基于大數據的圖書館個性化服務安全體系。該系統模型可以有效地提升大數據的數據安全性,降低黑客惡意攻擊行為有效性,從而提高圖書館大數據的分析效率。
大數據圖書館個性化服務安全體系構建數據安全讀者隱私保護
大數據時代的來臨,在提高圖書館讀者需求感知、用戶關系管理(CRM)、用戶服務保障和服務市場競爭環境適應能力的同時,也大幅度增加了數據中心基礎設施結構的復雜度和服務安全風險。同時,圖書館數據中心基礎設施資源、管理與服務系統網絡和高價值的大數據資源,已成為黑客攻擊和竊取的主要目標。因此,如何利用大數據技術構建智能、自動、主動和互聯的安全防御系統,不斷增強圖書館系統服務、大數據計算、數據應用價值和數據可用性的安全,是保證大數據時代圖書館系統運營安全和用戶QOS(服務質量)的關鍵[1]。
1.1 大數據時代服務平臺的系統結構更加復雜和開放
首先,隨著讀者服務需求的增長和用戶服務模式變革,圖書館數據中心基礎設施硬件設備的服務架構和應用程序復雜度快速增長,如何實現圖書館基礎設施硬件設備服務效率與運營安全的最優化均衡,是圖書館大數據服務必須面對的一個重要問題。其次,云計算技術、大數據處理技術、傳感器技術和用戶服務網絡具有極強的開放性,管理員可以利用基礎設施結構、網絡和大數據資源的開放性,實現服務資源和大數據的快速整合和動態分配。但是,圖書館大數據環境所具有的極強開放性,大幅增強了黑客攻擊的目的性和成功率。第三,以非結構化數據為主體,已成為圖書館大數據庫結構和數據管理模式的主要特點。由于NoSQL(非關系型的數據庫)自身存在著大量的系統漏洞和不成熟性,導致圖書館對海量、非結構化數據的管理過程中存在著巨大的安全隱患。第四,大數據與云計算技術在數字圖書館中的廣泛應用,改變了圖書館在傳統IT環境下的安全需求和信息安全交付模式,黑客可采用許多新的方法和途徑對大數據服務平臺系統發起攻擊。此外,傳統的安全防御系統和策略,已不能滿足大數據時代圖書館安全管理與服務需求[2]。
1.2 圖書館大數據QOS(服務質量)保障與用戶隱私保護沖突激增
首先,圖書館在讀者個性化服務中,如果對用戶數據存在過度的分析和使用,可能會侵犯用戶隱私和降低讀者對圖書館服務的信任度。“棱鏡門”事件爆發后,美國總統奧巴馬辯解道:“你不能在擁有100%安全的情況下,同時擁有100%隱私和100%便利。”同樣,圖書館通過對讀者個體特征、閱讀社會關系、閱讀地理位置和閱讀內容等數據的過度采集與分析,能夠精確判斷讀者的身份、需求、目的、位置和行為路徑,但也會導致用戶行為隱私泄露和未來行為被預測。其次,云計算與大數據技術是圖書館大數據服務的關鍵技術。用戶大數據資源在采集、傳輸、存儲、處理、共享、分析和使用過程中,可能會被截獲、竊取、篡改和非法使用。同時,為了提高用戶服務的效率和經濟性,圖書館可能會將大量的用戶數據存儲在公有云端,而喪失對數據的管理與控制權。第三,伴隨微電子制造技術的發展,用戶閱讀終端將向多功能、集成化、多模式和低成本方向發展。讀者在使用閱讀終端進行大數據閱讀時,閱讀終端產生的大量閱讀模式、閱讀行為與內容、終端類型、終端配置和位置信息等數據,也可能會導致用戶隱私被侵犯。第四,用戶行為數據的價值密度、準確性、可用性和可控性,也是關系圖書館大數據分析科學性、服務質量保證有效和用戶隱私保護安全的關鍵因素[3]。
1.3 黑客會利用大數據技術對圖書館的管理與服務系統發起攻擊
首先,黑客會最大限度地收集圖書館和讀者的個人信息。比如圖書館系統與網絡參數的信息、設備配置參數、讀者個體特征數據、讀者閱讀關系數據、讀者的論壇與微博等數據,并通過對數據的精確分析,而提高非法攻擊的精確度和有效性。通過對所采集數據的分析和判斷,而直接分析出用戶與系統管理員的帳號、密碼和其它重要信息。其次,黑客會利用大數據技術,故意制造和向圖書館傳輸一些錯誤數據,并以此類數據影響圖書館大數據處理、分析和決策過程的準確性與精確度。這會嚴重干擾和影響圖書館大數據安全分析、檢測的正確性和有效性,最終將導致圖書館自身安全性、健壯性和防御系統可用性大幅下降。第三,圖書館眾多安全防御系統的互聯性、全局安全管控能力、系統的可視與可用性、安全威脅實時響應性和持續安全管理的能力等,也是決定圖書館整體安全防范能力和安全系統可控性的關鍵[4]。
1.4 NoSQL(非關系型數據庫)安全管理需要多層面的安全防護
伴隨讀者閱讀需求發展和圖書館服務模式變革,非結構化數據將占據圖書館數據總量的85%以上,并且非結構化數據增長的速度是結構化數據的10到20倍。NoSQL是圖書館非結構化數據存儲的主要模式。NoSQL不遵循結構化的數據形式,具有較強的數據存儲靈活性、可用性、經濟性和可擴展性。但也存在著數據存儲不通過標準的SQL語言訪問,數據庫結構復雜和數據可控性差的問題。
首先,NoSQL與關系數據庫(Relational DataBase,RDB)相比,非結構化數據可以跨越任何網絡、在任何地方、以任何格式在任何設備上存儲,沒有嚴格的數據格式要求。此外,傳統的數據庫安全防范與管理策略在NoSQL安全管理、控制中已失去作用。與關系數據庫相比,NoSQL對數據存儲、管理和安全保護策略具有不同的要求。其次,NoSQL對數據庫的訪問控制和隱私管理沒有制定相應標準,且基于NoSQL的數據管理應用程序數量龐大,具有較高的系統漏洞修補和其它安全需求。第三,為了保證大數據的安全性和可用性,非結構化數據會在位于不同存儲地理位置的服務器中對數據進行冗余存儲和備份,數據具有較強的冗余性和分散性,圖書館管理員難以對此類數據進行定位、監控和安全管理。第四,NoSQL服務器軟件沒有內置較強的安全策略,因此,要求訪問這些軟件的應用程序自身必須具備較強安全性。此外,NoSQL的安全管理對管理員的技術水平、經驗和客戶端軟件安全性提出了較高要求[5]。
1.5 大數據圖書館安全管理的智能、可視和自動化需求
隨著讀者閱讀QOS(服務質量)保證和大數據服務復雜度的不斷增加,圖書館可以從用戶閱讀終端、系統監控設備、傳感器網絡和服務反饋系統等設備中采集數據,數據來源具有多源、海量、實時和多類型的特點。為了提高系統和服務安全分析、管理與決策的科學性,要求數據的采集、處理與分析過程應具備較強的可視化和可控性。其次,大數據環境特點對圖書館安全管理提出了新的需求。要求圖書館可長期不間斷地采集海量的安全系統運行日志、安全管理與防御、設備運營、用戶行為的安全管理等數據,并建立圖書館安全管理的大數據庫,確保圖書館可基于安全管理大數據庫歷史數據的支持,實現對惡意攻擊行為的實時分析、識別和自動防御。同時,還應執行用戶閱讀終端的智能化安全管理和基于風險模式的身份認證策略,實現閱讀終端的移動性安全管理和系統網絡的“無邊界”安全防護。第三,大數據時代圖書館海量的管理與服務數據,遠遠超越了傳統IT環境下圖書館安全防護的能力和邊界。因此,利用云計算的超級計算、存儲和管理能力,實現安全數據的快速采集、過濾、挖掘和分析,是大數據時代圖書館安全管理的必由之路。圖書館應依靠云計算技術的支持,實現對信息安全事件管理、網絡監控、用戶身份認證和授權、身份管理、欺詐檢測與治理、風險評估與控制、巨量安全數據的分析與決策,確保大數據圖書館安全管理過程智能、可視、可控和自動化[6]。
2.1 基于大數據的圖書館個性化服務安全體系構建
大數據時代圖書館安全管理體系的構建,首先應確保圖書館管理與服務系統具有較高的運營效率、保密性、可靠性、經濟性和可控性。同時,還應保證圖書館管理與服務大數據資源安全、完整、流動、開放和可控,可有效防范大數據資源和用戶隱私數據被竊取、篡改、丟失和非法訪問。此外,當圖書館發生安全事件時,可依據系統運行日志和安全管理記錄對安全問題進行追溯、判斷、評估和控制,評判結果具有真實性和防抵賴性。
結合大數據時代圖書館安全管理需求和系統相關的安全標準、規范,構建的大數據時代圖書館安全管理體系如圖1所示。

圖書館安全管理體系的第一層是圖書館系統硬件設備安全防護層,主要由機房環境安全、系統硬件設備安全和數據傳輸網絡安全3部分組成。第二層是大數據資源的安全管理層,該層通過安全管理策略和數據安全控制,實現對圖書館大數據資源的安全采集、過濾、價值提取和存儲。第三層是系統安全管理平臺層,平臺層由不同的圖書館安全管理系統和應用軟件組成,具有良好的兼容性和可擴展性,可對圖書館管理與服務系統實現基于數據流流程的安全管理。第四層平臺為大數據安全互聯平臺,通過該層可實現圖書館不同安全管理系統與平臺的安全、管理與控制信息互聯。第五層是圖書館安全大數據挖掘與分析層,通過對安全大數據資源的深度挖掘與分析,明確大數據時代圖書館的安全需求、安全事件影響力和安全策略可用性,可為圖書館安全管理和安全決策提供大數據的分析與支持。第六層是圖書館安全大數據資源的采集與存儲層。通過對歷史大數據資源的采集與存儲,全面構建圖書館安全管理大數據資源庫。
大數據時代圖書館安全管理體系的構建,應堅持多功能平臺高度集成和智能、自動化的原則,能夠對圖書館安全事件和安全數據進行實時、快速的查詢與檢測。此外,還可對大數據庫系統中存儲的結構化和非結構化數據進行可視化處理與分析,具有較強的預測性和決策科學性[7]。
2.2 基于大數據的圖書館個性化服務安全管理對策
2.2.1 利用大數據技術構建圖書館安全防御體系
首先,圖書館應通過對安全大數據資源庫的分析與判斷,準確、及時地發現來自圖書館內部與外部的攻擊行為。圖書館安全大數據資源主要由系統運行日志、系統監控數據、欺詐識別與警報數據、服務器監控數據、防火墻運行日志和IDS(入侵檢測系統)日志等組成。圖書館應通過對安全大數據資源的分析,發現、定義惡意攻擊者和攻擊行為的內容、方式、規律和途徑,構建安全管理大數據資源庫,并在不同的安全管理與決策系統中實現數據的共享。其次,圖書館應加強基于大數據的SIEM(安全信息和事件管理)。大數據時代,圖書館安全管理對SIEM提出了智能、自動、實時和高可控的要求。因此,圖書館應將從監控系統、服務系統、傳輸網絡、安全數據庫和用戶終端中采集的安全數據進行整合,提高安全大數據資源的關聯性和整體價值密度,確保SIEM過程實時、高效、全面、主動和可視。第三,應基于安全大數據資源庫構建圖書館安全事件模擬系統。在模擬圖書館系統平臺運行與硬件環境后,應將可疑的應用服務、攻擊行為和安全事件在模擬系統中測試運行,實現對運行過程、實驗結果的自動觀測、分析、審計和告警,最終明確未知安全威脅的途徑、方法和風險度。第四,應基于歷史事件數據資源構建圖書館的安全防御體系,明確安全事件的發展趨勢和變異特點,實現對安全威脅的準確判定和安全問題的快速定位[8]。
2.2.2 圖書館大數據安全防護的數據價值密度與可用性保障
數據清洗是圖書館刪除與用戶服務無關隱私數據、增強數據價值密度的關鍵。管理員應通過對大數據資源的過濾、清洗、刪減、糾正、一致化、匹配、連接和診斷,完成對大數據資源價值密度和可用性的評估與優化。此外,還應依據用戶大數據服務和讀者隱私保護需求,支持讀者訪問大數據庫中與自身相關的數據資源,并對數據資源進行查詢、審查和糾正,增強大數據資源的價值密度、透明度和使用安全性。其次,應通過對讀者基于身份認定與權限分配的訪問控制管理,加強對非法攻擊、數據訪問、大數據應用、網路防御系統和智能安全分析系統的監控。此外,還應智能化地分析與識別黑客惡意偽造、篡改的錯誤數據,避免錯誤數據影響圖書館大數據分析、決策和安全管理的準確性。第三,為了提高數據存儲、管理的安全性與可用性,圖書館應通過融合存儲的方式,大幅度刪除大數據庫中的重復數據,在降低大數據存儲數據總量的前提下,提高大數據資源的質量和準確性。此外,應將大數據資源存儲、備份于多個分布式的數據存儲和管理節點之中,依據大數據的價值和安全管理需求,制定相應的大數據資源備份策略,實現多個節點的數據副本備份。確保當某一存儲節點發生故障時,不會丟失數據和影響數據的實時可用性[9]。
2.2.3 增強圖書館大數據庫管理與用戶服務基礎設施資源的安全性
目前,APT(高級持續性攻擊)已成為黑客獲取圖書館系統控制權和影響用戶大數據服務質量的重要因素,圖書館應利用大數據技術重構安全防御系統,實現安全問題的提前預測、發現、評估和防范決策[10]。
管理員應將安全風險預測技術、威脅檢測技術、危害程度評估技術和智能化安全管理技術,與大數據的數據清洗、過濾、分析和控制技術相結合,實時預測、發現圖書館安全事件發生的系統區域、攻擊類型、危害程度、持續時間和作用對象。并制定相應的安全保障預案,以及有針對性地增強安全防御系統的應用效率、可用性、可控性和自身健壯性。同時,應加強對圖書館系統網絡流量和通信線路信息傳輸的監控,及時監控、發現系統內存和網絡敏感數據的流向與流量,利用網關、防火墻或DLP(數據泄密防護)技術,捕獲、阻止敏感數據流流出圖書館系統網絡。其次,因圖書館大數據環境具有海量、實時、分布式架構和數據通信多模式的特點,傳統的系統安全管理、監控、日志分析、漏洞發現和安全評估軟件不能在大數據環境下有效運行,或者較低的運行效率不能滿足圖書館安全防護需求。由此,必須科學部署圖書館大數據系統的組織結構,準確定義大數據的接口標準和安全應用數據通信模式,確保大數據分析與決策技術可有效融合于圖書館安全防御系統之中。第三,在大數據安全資源的支持下,管理員應利用VLAN(虛擬局域網)技術,將數據中心網絡劃分為系統管理數據傳輸、用戶服務數據傳輸、安全防御與安全分析數據傳輸等虛擬化網絡。在保證系統虛擬網絡數據傳輸效率的前提下,管理員可利用網關、防火墻等設備,對保密數據的安全性和潛在威脅進行分析和預測,對數據流執行相應的安全管理策略。第四,圖書館還應將所有的大數據安全防御和管理系統軟件、工具和流程,按照統一標準、統一模式、統一平臺和統一管理的原則,集成到一個大的數據安全管理平臺之上,確保大數據安全系統平臺具有較高的運行效率、可用性、經濟性和可控性[11]。
2.2.4 大數據時代應加強讀者的隱私保護
大數據時代加強讀者隱私保護,是一個關系圖書館用戶QOS保證和服務可持續性,以及讀者閱讀收益率、閱讀可信度、愉悅感和服務滿意度的重要問題。
哈佛大學教授Latanya Sweeney曾經指出,只需要ZIP代碼、出生日期和性別就可以確定87%的美國人。因此,圖書館在讀者行為和關系數據的采集中,應以讀者閱讀需求預測和大數據服務QOS保障為依據,嚴格限制用戶數據采集的對象、內容、方法和途徑,不采集與讀者閱讀服務和圖書館服務質量保障無關的讀者隱私數據。其次,圖書館應從讀者隱私權利保護大局出發,對所采集的用戶隱私數據進行“匿名化”處理,刪除或者匿名化處理與用戶服務保障無關的個人隱私數據。譬如對讀者姓名、年齡、性別、社會關系、地理位置和隱私行為等數據,實施位置隱私保護、標識符匿名保護、連接關系匿名保護等。第三,管理員在做好圖書館邊界安全防護的同時,應對所有絕密數據和用戶隱私數據,實現訪問權限控制和數據加密,致使非法用戶無權訪問或無法識別已獲得的用戶隱私數據。第四,圖書館應將隱私數據的管理與使用權交付讀者,用戶擁有對個人隱私數據的采集、存儲、分析和使用權。此外,圖書館可依據讀者服務隱私安全的需求,由用戶依據大數據閱讀活動生命周期發展規律,決定個人隱私數據采集的內容、處理的精度、共享的對象、匿名的方式和銷毀的時間。第五,圖書館應依據隱私數據的特點和安全需求,將隱私數據劃分為不同的安全等級和應用范圍,對具有高級別的用戶隱私數據實現全程持續監控和安全管理[12]。
2.2.5 構建基于安全云的圖書館大數據服務體系
目前圖書館數據中心傳統的IT安全管理系統,已無法滿足大數據環境下圖書館安全防御所需要的數據計算與存儲要求。因此,必須構建基于安全云的圖書館大數據服務體系。
為保證大數據服務在滿足系統安全性需求和用戶服務QOS保障質量的前提下,具有較高的經濟性、便捷性、可控性和可擴展性,圖書館通常會采用租賃公有云服務的方式構建云服務中心。而云服務中心自身存在的第三方安全管理、多用戶共享和存儲空間邏輯隔離特點,導致圖書館公有云服務具有較大安全威脅。因此,圖書館首先應按照云服務的安全保障需求,與云服務商簽署科學的云服務租賃和安全管理協議,明確雙方在圖書館云服務安全管理中應承擔的責任、義務和權利。通過對云服務過程不間斷的安全檢測和審計,保證圖書館云服務過程安全、完整、保密和可用。其次,在資金與技術條件允許的前提下,圖書館可采用構建私有云的方式,來存儲數據中心系統管理數據、用戶服務數據、系統配置數據、讀者身份信息和用戶隱私等絕密數據,并嚴格控制非法用戶訪問和第三方協作商共享。第三,圖書館應構建基于安全云的大數據安全管理體系。安全管理體系可采用安全分層的方式進行管理,所劃分的5個安全防護層分別為數據與系統訪問控制層、網絡安全管理層、大數據應用與用戶服務安全管理層、數據的隱私保護層和數據完整性保障層。同時,對五個防護層應實現基于大數據的綜合、共享式安全管理[13]。
隨著大數據時代的來臨,讀者對閱讀服務安全性和QOS保障標準提出了更高要求,導致圖書館數據中心的基礎設施結構、用戶服務模式、數據環境和網絡系統更加復雜和多變。此外,與傳統IT環境相比,大數據環境下圖書館面臨著更多的安全威脅和惡意攻擊方式。同時,圖書館的系統管理與配置數據、用戶服務數據、讀者帳戶和密碼、用戶服務需求數據、讀者特征與行為數據、用戶服務模式和內容數據等,因具有極強的價值屬性而成為黑客攻擊、截獲、竊取和篡改的重要目標[14]。
因此,圖書館必須依據大數據時代面臨的安全威脅和安全需求,從數據中心基礎設施的安全保障、大數據資源的安全管理與存儲、安全防御平臺系統的可用性管理、大數據應用的安全性建設出發,構建高效、公平、透明、可控的圖書館大數據服務安全管理平臺。此外,還應從法律體系、服務管理和大數據應用等多個層面出發,制定基于大數據支持的安全管理與風險防控策略,才能保證圖書館系統管理與運營、讀者大數據服務和用戶保密資源安全,才能為讀者提供安全、高效、經濟和可靠的大數據閱讀服務[15]。
[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[2]高明,金澈清,王曉玲,等.數據世系管理技術研究綜述[J].計算機學報,2010,33(3):374-389.
[3]陳臣.基于大數據的圖書館個性化智慧服務體系構建[J].情報資料工作,2013(6):75-79.
[4]胡坤,劉鏑,劉明輝.大數據的安全理解及應對策略研究[J].電信科學,2014(2):112-122.
[5]Goel S,Hofman J M,Lahais S,et al.Predicting consumer behavior wity Web search[J].National Academy of Sciences,2010,7(41):17486-17490.
[6]馬曉亭,樊馨蔓.云計算環境下數字圖書館虛擬機安全性研究[J].新世紀圖書館,2013(7):64-65,56.
[7]馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2014,37(1):246-258.
[8]Zhang Li-Jie,Zhang Wei-Ning.Efficient edge anonymization of large social graphs[EB/OL][2014-04-12]. http://venom.cs.utsa.edu/dmz/techrep/2011/CS-TR-2011-004.pdf.
[9]楊高明,楊靜,張健沛.隱私保護的數據發布研究[J].計算機科學,2011,38(9):11-17.
[10]潘柱廷.高端信息安全與大數據[J].信息安全與通信保密,2012(12):19-20.
[11]羅恩韜,胡志剛,楊杰.大數據動態安全SAT雙向防御模型的研究[J].計算機應用研究,2013,31(11):36-45.
[12]周茜,于炯.云計算下基于信任的防御系統模型[J].計算機應用,2011,31(6):1531-1535.
[13]覃雄派,王會舉,杜小勇,等.大數據分析:RDBMS與MapReduce的競爭與共生[J].軟件學報,2012(1):32-45.
[14]何非,何克清.大數據及其科學問題與方法的探討[J].武漢大學學報:理學版,2014,60(1):1-12.
[15]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
陳臣蘭州商學院網絡中心副教授。甘肅蘭州,730020。
Research on the Security Framework Construction for the Library Personalized Service Based on Big Data
Chen Chen
Due to the multi-data and the complexity of big data,unmeasured attack behaviors take place frequently in the big data environment,and privacy issues related with big data analysis spell trouble for individuals,and deceptive or fake information within big data may lead to incorrect analysis results.In order to guarantee the safety of big data calculation of library,and based on the concepts of security research and trustworthy clouds of big data safety,a security framework construction for the library personalized service based on big data is put forward by this paper.This system model can effectively improve the data safety of big data,and reduce the hostile attack of hackers so as to improve the analysis efficiency of big data in library.
Big data.Library.Personalized service.Security framework construction.Data security.User privacy protection.
G250.76
2014-03-24 編校:劉明)