□文│楊鴻瑞
在工業化、信息化革命的推動下,人類的知識生產和社會活動產生了大量可以用于存儲和傳播的數據。據報道,全球數據正以每年40%左右的速度快速增長,2017年全球的數據總量為21.6ZB(1個ZB等于十萬億億字節),全球數據積累存量已達到引爆新一輪行業變革的規模和水平。[1]同時,面對席卷全球的大數據浪潮,數據泄露、損毀等安全問題也正在引起各行各業的高度關注。
2019年上半年,美國威瑞森(Verizon)公司發布 《Verizon 2019年數據泄露調查報告》(The Verizon 2019 Data Breach Investigations Report,簡稱DBIR)對包括73個組織的41686起安全事件樣本和2013起數據泄露樣本進行了統計和分析,結果顯示:從2018年開始云存儲配置錯誤、知識產權被盜等事件處于上升趨勢。此外,68%的數據泄露事件以勒索錢財為目的;超過一半的違規行為需要數月或更長時間才能發現。[2]
2019年5月,國家互聯網信息辦公室會同相關部門研究起草了《數據安全管理辦法(征求意見稿)》,并開始向社會公開征求意見。[3]該辦法對于在中華人民共和國境內利用網絡開展數據收集、存儲、傳輸、處理、使用等活動,提出了明確的監管要求。現階段,積極開展在大數據背景下出版業數據安全問題的研究,具有重要的現實意義。
當前,我國出版業正經歷傳統出版和新興出版融合發展的新階段,出版市場既有傳統紙質出版物,也有移動化、社交化、視頻化、互動化等互聯網傳播形式的出版新產品。
出版業數據既包含傳統出版數據,也包含互聯網性質的數據,具體如表1 所示。

表 1 出版業主要數據類型
表 1 數據中,從數據庫管理角度來看,既有結構化數據,也有大量半結構化、非結構化數據;從數據展現形式來看,有文本、圖形、圖像、音頻、視頻、軟件、動漫、游戲等類型的數據。
目前對我國出版業數據量大小缺乏精確的統計資料。2018年有專著首次對我國傳統出版物內容數據量進行計算和披露:2007至2016年全國書報刊累計出版數據量(不含復本數)約為2.87TB。[4]該結果按照傳統出版物內容以文字字符格式存儲計算得出。實際上,新興出版物包含大量圖片、音視頻等,其數據量比文本文件數據量大得多。此外,截至2017年年底,全國數字出版產業的累計用戶規模達到18.25億人(家/個)(包含了重復注冊和歷年塵封的用戶等)。[5]這些用戶信息數據多為半結構、非結構化數據,數據量巨大。如果加上表1中的所有數據,我國出版業的各種數據總和將是傳統出版內容數據量2.87TB的幾何級倍數。
一是涉及知識產權。出版業內容數據一般都經過三級或多級審查,屬于精挑細選的知識數據,基本上均涉及知識產權。
二是涉及公民個人隱私或第三方權益。出版企業在經營活動中產生了大量出版制作數據、營銷數據、用戶數據等,這些數據可能包含國家、企業、第三方的敏感信息以及公民個人隱私信息等。
三是屬于出版企業的重要數據財富。隨著大數據相關技術的發展,出版企業產生和獲取各種數據的能力大大提升,已經積累了海量數據,這些數據含金量高、完整性好,是可以進行大數據分析與挖掘的原始數據,將這些碎片化的數據經大數據分析后,價值將成倍增長,屬于價值巨大的數據。
目前我國出版業主要面臨以下數據安全方面的挑戰。
傳統的數據安全保護基礎是依據數據價值實行數據分級,對不同級別的數據實施不同的保護策略。而在大數據背景下,數據采集、處理、分析過程中,數據內容不斷發生迭代變化,數據邊界變得模糊,傳統的基于數據分級的保護策略不再適用于大數據環境下的保護。同時,大數據的訪問控制、加密存儲等機制都變得更為復雜,均面臨新的挑戰。
此外,當前出版企業多數信息系統均可以通過電腦終端或手機接入,網絡的非實名特征使得對于網絡威脅的識別更為復雜,網絡攻擊過程演變迅速,使得風險評估也更為困難。云平臺特別是公有云在管理上的不確定性,增加了數據泄露的風險,但無論是公有云還是私有云,數據的可用性、安全性、可審計性等都可能存在一定的安全隱患。
一是不法行為對出版業大數據的盜用變得容易。當前,不法行為通過黑客入侵、數據篡改、APT攻擊、內外勾結、業務邏輯漏洞、撞庫盜號等手段盜取有價值的數據變得更加容易。對出版業而言,大量的知識型數據和有價值的客戶信息數據,是不法者重點攻擊攫取的對象。特別是新興出版產品的大量涌現,盜版者通過遠程操作即可能得手。在大數據時代,一旦數據安全管理不到位,將表現為批量數據的“復制與粘貼”,與傳統意義上的盜版等不法行為相比,不法行為的難度和成本極大降低,而維權的難度和成本卻大大增加。
二是出版數據的濫用行為司空見慣。廣大客戶、作者和出版企業的版權保護意識比較薄弱,導致大量數據暢通無阻地下載、復制、轉發,一些網民認為網絡上提供的資源都是免費的,缺乏網絡付費購買的意識,加劇了數據的濫用。同時,網絡出版物都是通過數據形式傳播,容易模仿和復制,由于網絡數據復制的無限性、低成本以及數據二次利用和傳遞的隱蔽性,一旦形成“破窗效應”,就會催生越來越多的濫用行為。
我國出版業正由傳統出版向傳統出版與新興出版融合發展的過程轉變,移動閱讀、在線教育、知識服務、按需印刷、電子商務等新興業態發展迅速,新興出版存在傳播速度快、傳播主體多元化等特點,原來封閉式的相對靜止的出版數據將變得開放、共享、流動,傳統的信息科技基礎設施、管理模式已經無法適應新的要求,這對于出版業信息化建設以及數據治理都帶來了新的挑戰。具體表現在如下三個方面。
一是系統分散、存在大量信息孤島。由于歷史原因,我國出版企業與出版企業之間系統差異較大,數據交換標準不統一,數據共享、數據交換困難。在我國出版企業內部,信息化系統碎片化明顯,按照業務條線建立不同的部門系統,單個系統功能偏少,系統之間耦合性不強,數據結構不統一,數據分散,數據整合難度較大。
二是面臨人才、資金短缺等問題。部分出版企業特別是中小企業沒有完備的信息科技隊伍,信息化系統的開發、運維均采用外包制。數據安全主動權掌握在第三方,企業自身管控能力較差,加重了數據安全管理難度。同時,一些企業存在重發展、輕安全的思想,在信息化基礎建設及數據安全管理方面的資金投入不足,數據安全管理得不到有效保障。
三是信息化基礎薄弱。部分企業信息系統多年沒有升級、系統架構落后、軟硬件老舊,重要業務處理系統未同步建設災備系統、未采用高可用架構等,無法適應大數據發展的需要。
出版業大數據涉及出版工作的各個環節,加強數據治理,需要從企業戰略層面進行頂層設計,從企業各部門、各環節予以統籌考慮。
在大數據背景下,確保數據安全要成為企業的一種文化。出版業數據安全治理體系框架如圖1所示。

圖 1 大數據背景下出版業數據安全治理體系框架
出版業數據安全治理體系中,組織機構與管理制度是確保數據安全的前提,運營操作環節的各項安全是確保數據安全的重點,技術支持是確保數據安全的基礎。在當前大數據迅猛發展、出版企業技術應對措施普遍不足的情況下,加強技術支持也是現階段確保數據安全的關鍵。
組織管理層面。一是建立健全制度體系。出版業數據安全治理應首先建立完善行業級的數據安全管理規范和數據安全治理標準,強化統一管理;要加快國際標準關聯標識符(ISLI)、中國出版物在線信息交換(CNONIX)等標準的推廣和應用。在企業內部,要確立企業級的總體數據安全策略,建立健全覆蓋數據全生命周期的管理制度、操作規程、操作流程、技術標準等。
二是建立完善組織機構。在數據安全治理體系的建設過程中,出版企業要對數據安全治理中的角色、職責、工作內容劃分清晰,建立包括科技管理、系統研發、系統運維及數據管理在內的職能部門或專職團隊,明確相關部門在數據安全治理方面的權責利關系。在企業內部逐步建立起信息安全管理委員會,加強對出版企業包括數據安全在內的信息安全重大事項的統籌規劃和管理協調。
三是加強人力及資金等資源保障。數據安全是出版企業發展的基礎,數據安全治理是一個從上到下的系統工程,需要企業的高度重視和強有力支持,在人力資源及資金投入方面給予適當傾斜。要加強數據安全的宣傳、培訓和教育工作,大力培養數據安全風險管理方面的專業人才。
運營操作層面。一是加強對各類外部用戶的管控。當用戶需要對出版企業數據進行訪問時,首先要確認身份,包括進行用戶畫像,區分用戶為安全用戶還是危險用戶。對于危險用戶的防護措施,是運營操作層面需要防護的重點,一般采取如下三層防護措施:第一層是通過入侵檢測、防火墻、安全態勢感知平臺等防護手段,主動探測外在威脅,及時采取應對策略;第二層是采用數據加密、脫敏、防泄漏等安全防控手段,防患于未然;第三層是從系統建設階段定義數據訪問接口,使得數據的訪問受限并可控。
二是對出版工作各環節涉及的內部使用者實行全流程管控。出版工作中的選題策劃、創作編輯、排版制作、營銷發行、客戶服務、運行維護、內部監管等多個環節均涉及對企業數據的增、刪、改、查等操作,需要在各個環節加強數據使用者的管理。基本的方法是加強權限管理與日志管理,權限管理包括登錄身份控制、對訪問的數據范圍設定人員權限等;日志管理是為了加強事后審計及異常處理,審計日志中記錄了使用者的操作信息,能夠提供安全事件的事后追溯、定位問題原因及劃分事故責任等。同時,加強出版工作的過程管理和信息系統的業務需求評審,確保在出版工作的每個操作環節沒有業務安全漏洞或數據安全隱患。
三是加強運維管理。嚴格執行出版系統運行維護工作的各項管理制度、操作規程,要嚴格通過權限設置、模塊授權等手段來限制運維人員對數據的無限訪問權,加強對運維人員的操作日志審計和定期檢查。同時,加強供應商的管理,嚴格限制第三方人員對出版企業內部數據的訪問。
技術支持層面。大數據背景下,數據安全治理的關鍵在技術層面,需要采取切實可行的技術手段,對數據進行全生命周期的安全保障。
從技術層面看,數據的生命周期一般指數據創建(采集)、數據遷移(傳輸、交換)、數據應用(處理)、數據存檔(存儲)、數據回收(銷毀)等幾個階段,然后再次激活以及退出的整個過程。[6]具體的技術保障措施如下:
數據創建(采集)。指新的數據產生或現有數據內容發生顯著改變、更新的階段。在該階段,應從如下三個方面加強數據管控:一是數據完整性。包括數據的提取、轉換和加載的完整性。二是數據合規合法性。在數據創建階段就要充分考慮數據創建過程中所依據的原始信息是否合規合法,是否涉及他人隱私等。三是數據準確性。數據的準確性是一切數據具有價值的前提,在數據創建階段確保數據的準確性,能夠減少后續數據在應用階段產生的誤差,提高數據應用的效果。
數據遷移(傳輸、交換)。指數據在企業內部或內外部之間進行交互的階段。在該階段,一般利用加密、簽名、鑒別和認證等機制對數據進行安全管理,防止數據遭泄漏和篡改。具體如下:一是進行數據加密。加密傳輸是對數據進行保護的一種最可靠的辦法,使用中應選用國家密碼局認定的算法。二是運行安全工具。通過防病毒軟件、漏洞掃描等對系統自身進行識別、更新、排查。三是信息泄露檢測。采用數據防泄漏(DLP)技術,對數據進行內容識別、檢測。
數據應用(處理)。指針對動態數據進行的一系列活動的組合。數據應用安全重點關注如下幾點。一是合規合法使用。基于國家相關法律法規,在數據使用全過程中明確相關責任、建立保障機制。二是數據分析安全。在數據分析過程中采取適當的安全控制措施以防止由于數據分析而可能帶來的數據泄漏風險。三是采用密文數據處理。通過建立適合企業內數據服務特點的數據加密和解密處理策略和密鑰管理規范,以防止重要或敏感數據在應用處理過程的泄漏風險。四是數據脫敏處理。針對可見數據形式的敏感信息,通過一定的技術方法、脫敏規則進行敏感數據的變形,以實現在數據脫敏后達到數據的可用性和安全性的平衡。五是數據溯源。在數據應用處理過程中建立溯源機制,實現對數據應用處理過程的可追溯性。
數據存檔(存儲)。指非動態數據以任何數據格式進行物理存儲的階段。加強數據存儲管理,重點是通過建立數據存儲的規范化流程和安全保護措施,實現對數據的有效保護。數據的存儲可采用集中式存儲或分布式存儲,存儲方式包括在線存儲、近線存儲、離線存儲等。一般采取如下最佳安全實踐:制定存儲安全策略和數據恢復方案;制作數據副本,通過定期開展數據的復制、備份和恢復,實現對存儲數據的冗余性管理,保護數據的有效性。
數據回收(銷毀)。指通過對數據及數據存儲介質相應操作,使數據徹底無法通過任何手段恢復的過程。作為數據生命周期中的最后一環,數據銷毀或回收處理的安全同樣不容忽視,重點是加強銷毀過程的監管,確保數據回收或銷毀的徹底性。
在新的歷史條件下,我國出版業正向數字化、網絡化、智能化融合創新發展模式轉變,面對越來越龐大的出版數據,進一步加強大數據背景下的數據安全治理,是出版業又好又快發展的前提和基礎。