高校大數(shù)據(jù)安全與應(yīng)用探析

2024-04-06 12:49:51劉梅梁倩

電腦知識與技術(shù) 2024年3期

關(guān)鍵詞：大數(shù)據(jù)

劉梅　梁倩

關(guān)鍵詞：大數(shù)據(jù)；網(wǎng)絡(luò)信息安全；數(shù)據(jù)預(yù)測；安全威脅；隱私保護

中圖分類號：TP393 文獻標(biāo)識碼：A

文章編號：1009-3044（2024）03-0075-03

0 引言

隨著信息爆炸式增長，繼網(wǎng)格計算、云計算和物聯(lián)網(wǎng)之后，大數(shù)據(jù)成為一項新興熱門技術(shù)。它給人們的生活和工作帶來便利的同時，也帶來了新的安全威脅。網(wǎng)絡(luò)信息安全已經(jīng)成為一級學(xué)科網(wǎng)絡(luò)空間安全的核心[1]。黨的十八屆五中全會通過了“十三五”規(guī)劃建議，這份未來五年綱領(lǐng)性指導(dǎo)文件中6次提到了網(wǎng)絡(luò)信息安全。先前浙江烏鎮(zhèn)舉行的主題為“互聯(lián)互通·共享共治——共建網(wǎng)絡(luò)空間命運共同體”的世界互聯(lián)網(wǎng)大會，充分體現(xiàn)了信息安全問題越來越受到國家層面的高度重視以及全社會的廣泛關(guān)注。然而，現(xiàn)有網(wǎng)絡(luò)信息安全中存在的國產(chǎn)替代的自主核心技術(shù)缺失；建立的審查制度不夠嚴(yán)密；相關(guān)法律、法規(guī)、管理尚有空白等情況都是制約我國網(wǎng)絡(luò)信息安全發(fā)展的“短板”。網(wǎng)絡(luò)信息安全又是大數(shù)據(jù)應(yīng)用和安全的支撐保障，從而引發(fā)一系列的大數(shù)據(jù)安全問題，目前存在形式較為嚴(yán)峻的包括有隱私信息的保護、算法實現(xiàn)的信任和數(shù)據(jù)泛濫的處理等核心問題，針對這些問題采用現(xiàn)有的PKI/對稱密鑰機制、代碼簽名與審計機制、數(shù)據(jù)隱水印機制等傳統(tǒng)方法，卻并不能完全解決上述核心問題。例如大數(shù)據(jù)復(fù)雜環(huán)境下，采用PKI/對稱密鑰機制不能應(yīng)對合法的數(shù)據(jù)的使用者泄露數(shù)據(jù)；如何將代碼簽名與審計機制運用在分布式的云編程模式，如何實現(xiàn)非數(shù)據(jù)塊的數(shù)據(jù)流隱水印技術(shù)，這些都是值得思考與研究的問題。現(xiàn)有面向大數(shù)據(jù)安全的研究[2-3，5]大多都聚焦于以上核心問題，但并沒有從體系架構(gòu)的角度考慮。

本文在大數(shù)據(jù)的內(nèi)涵與特點基礎(chǔ)上，從體系架構(gòu)上分析了大數(shù)據(jù)面臨的完全威脅，重點從基礎(chǔ)平臺、業(yè)務(wù)處理、用戶終端和共享使用四方面總結(jié)了相應(yīng)解決方案，最后介紹了大數(shù)據(jù)在高校和網(wǎng)絡(luò)安全方面的應(yīng)用。

1 大數(shù)據(jù)內(nèi)涵與特點

大數(shù)據(jù)，或稱巨量數(shù)據(jù)集合，是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合[4]。

大數(shù)據(jù)具有6V+1C特點[5]：Volume（大量）、Veloc?ity（高速）、Variety（多樣）、Value（價值）、Variability（易變）、Veracity（真實）、Complexity（復(fù)雜）。

2 大數(shù)據(jù)安全威脅及應(yīng)對方案

基于大數(shù)據(jù)自身特性，在數(shù)據(jù)的整個生命周期中，從數(shù)據(jù)采集、存儲、分析與應(yīng)用等都面臨各式各樣的安全問題。

大數(shù)據(jù)安全從分層角度考慮，可分為應(yīng)用層的安全、數(shù)據(jù)層的安全、系統(tǒng)層的安全和設(shè)備層的安全；從體系架構(gòu)上考慮，可具體到基礎(chǔ)平臺的安全、業(yè)務(wù)處理的安全、用戶終端的安全和共享使用的安全，可再進一步細分到數(shù)據(jù)和系統(tǒng)兩方面。解決大數(shù)據(jù)安全問題須從體系架構(gòu)上規(guī)劃、設(shè)計和實施。根據(jù)圖1，下面從系統(tǒng)架構(gòu)的角度分別論述各模塊所存在的安全威脅以及相應(yīng)解決方案。

2.1 基礎(chǔ)平臺的安全

隱私數(shù)據(jù)泄密，是采用分布式編程框架的系統(tǒng)普遍存在的安全問題。大數(shù)據(jù)系統(tǒng)架構(gòu)中，Airavat模型[6]是一個基于MapReduce框架的安全模型，它利用強制訪問控制和差分隱私保護技術(shù)對分布式計算環(huán)境下的敏感數(shù)據(jù)提供較好的訪問控制和安全隱私保護。其基于SELinux安全子系統(tǒng)為安全計算模型提供強制訪問控制策略；采用的差分隱私保護技術(shù)可對來自數(shù)據(jù)源中的每組輸入數(shù)據(jù)進行差分隱私處理，使任何單個數(shù)據(jù)項都不會對總的計算輸出結(jié)果產(chǎn)生太大的影響。

常用的非關(guān)系型數(shù)據(jù)庫（NoSQL） [7]是一種分布式的且不保證遵循ACID原則（即原子性、一致性、隔離性、持久性）的輕量級關(guān)系型數(shù)據(jù)庫，它只解決了性能與擴展問題，卻并沒有考慮安全問題。針對非關(guān)系型數(shù)據(jù)庫所存在的問題，針對性地進行安全加固，可采取的途徑包括：通過為NoSQL定制高性能的原子操作來確保事務(wù)完整性；通過為NoSQL提供Cluster集群節(jié)點強制認(rèn)證等機制來完善認(rèn)證機制；通過將NoSQL與系統(tǒng)的基于角色的訪問控制相結(jié)合來完善授權(quán)機制；針對NoSQL 領(lǐng)域中存在的json-注入、array-注入、view-注入、rest-注入、gql-注入等類型的注入攻擊進行檢測；通過NoSQL內(nèi)部操作日志系統(tǒng)和日志分析系統(tǒng)來排除安全隱患。

2.2 業(yè)務(wù)處理的安全

隨著網(wǎng)絡(luò)化制造業(yè)的迅猛發(fā)展，產(chǎn)品借助互聯(lián)網(wǎng)或CD-ROM被復(fù)制、傳播和公開，盜版侵權(quán)現(xiàn)象日益猖獗，對數(shù)據(jù)版權(quán)保護的需求愈發(fā)強烈[8-9]，數(shù)字水印技術(shù)應(yīng)運而生。該技術(shù)是對數(shù)字制品的版權(quán)和完整性進行保護的有效手段，其核心思想是當(dāng)數(shù)字作品出現(xiàn)侵權(quán)時，可通過嵌入在數(shù)字作品中的隱蔽標(biāo)記來鑒別真?zhèn)巍Ｅc此同時，在數(shù)據(jù)采集、分析和推廣過程中也能加強對違法來源的追蹤。

為增強數(shù)據(jù)來源的可信度，還可采用數(shù)據(jù)標(biāo)簽技術(shù)進一步對“數(shù)據(jù)體制”進行規(guī)范，從而對于后續(xù)的數(shù)據(jù)來源、合法性、傳播渠道等環(huán)節(jié)分析帶來巨大的幫助；并可完善與升級授權(quán)使用體制，運用代碼與數(shù)據(jù)混合應(yīng)用模式和聯(lián)網(wǎng)授權(quán)管理機制來提升數(shù)據(jù)源的可信度。

2.3 用戶終端的安全

攻擊者可以通過制造惡意設(shè)備；克隆ID身份，以虛擬身份提供非法數(shù)據(jù)；修改采集端應(yīng)用軟件；對采集網(wǎng)絡(luò)進行中間人攻擊；利用采集端漏洞注入非法數(shù)據(jù)等方式向數(shù)據(jù)中心提供非法輸入，造成數(shù)據(jù)中心重要數(shù)據(jù)庫污染、DOS攻擊等安全威脅。

用戶對網(wǎng)絡(luò)服務(wù)使用可能帶來非可信數(shù)據(jù)的流入，最終導(dǎo)致用戶終端系統(tǒng)的可信性受到威脅。TPM 安全芯片[10-11]是一個基于密碼學(xué)的安全芯片，被可信計算組織倡導(dǎo)作為可信計算環(huán)境的硬件信任根，負責(zé)加密解密相關(guān)的運算和密鑰的存儲，除了能保護敏感數(shù)據(jù)之外，還具有一定的防篡改保護能力，可從終端上提高系統(tǒng)的安全性。基于TPM 芯片的采集端可實現(xiàn)用戶終端系統(tǒng)的校驗功能和防篡改功能，由于造價便宜，容易得到用戶認(rèn)可，可廣泛推廣使用。

大數(shù)據(jù)環(huán)境下的云服務(wù)多種多樣，要求系統(tǒng)提供給用戶相對清晰簡潔的服務(wù)接口，但系統(tǒng)內(nèi)部復(fù)雜的運行機制對用戶并不透明，因此當(dāng)終端系統(tǒng)出現(xiàn)異常時，難以實時掌握系統(tǒng)運行信息，亟需開發(fā)專用云服務(wù)過濾器，實現(xiàn)采集信息的異常檢測與分析。

另外，為解決程序開發(fā)與交付代碼的不可信問題，引入基于King.J.C的符合執(zhí)行方法，應(yīng)用于平臺各類組件的缺陷測試與分析中，可幫助提升程序代碼的可信度，其核心思想是利用“符號表達與計算”的方式來對程序所有可能的狀態(tài)進行窮舉搜索，并篩選出其中的缺陷狀態(tài)部分。

2.4 基礎(chǔ)平臺的安全

數(shù)據(jù)的共享使用解決了數(shù)據(jù)孤島問題，但同時也帶來了數(shù)據(jù)安全問題。如何在數(shù)據(jù)共享使用過程中保護隱私安全，是一個棘手問題。以政務(wù)管理系統(tǒng)為例，其數(shù)據(jù)分級、分類公開應(yīng)用，都需要重點關(guān)注處理敏感信息等隱私保護問題，避免因泄露而陷入不可控局面。

為應(yīng)對共享使用的隱私保護安全問題，常見采用數(shù)據(jù)匿名化[12]、安全多方和密文計算數(shù)據(jù)等技術(shù)手段。典型的數(shù)據(jù)匿名化技術(shù)有群簽名、環(huán)簽名、零知識證明和不經(jīng)意傳輸，其中零知識證明是證明者能夠在不向驗證者提供任何有用信息的情況下，使驗證者相信某個論斷是正確的，解決當(dāng)前認(rèn)證需求下的數(shù)據(jù)泄露問題；不經(jīng)意傳輸是在顧客購買商品的時候，供貨商無法獲知顧客所購買的是什么商品，進一步擴展到什么時候以及如何買。安全多方技術(shù)可通過數(shù)據(jù)可取回性證明來實現(xiàn)。密文計算數(shù)據(jù)技術(shù)分可搜索加密技術(shù)和全同態(tài)加密技術(shù)，可搜索加密技術(shù)[13]主要應(yīng)對存儲到云端的個人數(shù)據(jù)可能存在泄密的威脅，它提供的加密和密文直接檢索功能使服務(wù)器無法竊聽用戶個人數(shù)據(jù)，但可以根據(jù)查詢請求返回目標(biāo)密文文件，這樣既保證了用戶數(shù)據(jù)的安全和隱私，又不會過分降低查詢效率；全同態(tài)加密技術(shù)[14]是一種密文計算數(shù)據(jù)技術(shù)，它允許將敏感的信息存儲在遠程服務(wù)器里，既避免從當(dāng)?shù)氐闹鳈C端發(fā)送泄密，又保證了信息的使用和搜索。

以云計算環(huán)境為例，云用戶發(fā)布數(shù)據(jù)在云服務(wù)器上共享，可以采用從粗粒度訪問控制過渡到細粒度的訪問控制與審計的方式，將業(yè)務(wù)模型中的對象加以細分，依據(jù)用戶對數(shù)據(jù)訪問權(quán)限訪問數(shù)據(jù)對象，同時對數(shù)據(jù)對象進行更細化的審計工作。

3 大數(shù)據(jù)的應(yīng)用

3.1 大數(shù)據(jù)在高校中的應(yīng)用

高校中匯聚著大量的學(xué)生信息、教職工信息、教學(xué)數(shù)據(jù)、科研數(shù)據(jù)、就業(yè)數(shù)據(jù)、一卡通消費數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等各類數(shù)據(jù)，涉及教學(xué)、科研、管理等各方面。

1）人事管理方面：綜合各教職工的教學(xué)、科研等業(yè)績、歷史考核成績、評價、性情等各方面信息進行分析研判，為干部選拔、人事考核提供判斷依據(jù)。

2）學(xué)生管理方面：根據(jù)學(xué)生一卡通消費等數(shù)據(jù)提供勤工助學(xué)活動的參考依據(jù)，根據(jù)學(xué)生成績、獲獎、協(xié)會、興趣、愛好、特長各方面分析，提供就業(yè)推薦及指導(dǎo)。

3）教學(xué)科研方面：對學(xué)生專業(yè)、選課、成績、圖書館借閱、獲獎、協(xié)會等方面進行數(shù)據(jù)分析，提供研究方向選擇、導(dǎo)師選擇、畢業(yè)論文方向方面的指導(dǎo)等。

圖2展示了現(xiàn)有高校大數(shù)據(jù)體系架構(gòu)及應(yīng)用。在高校的學(xué)科規(guī)劃、心理咨詢、專家推薦、校友聯(lián)絡(luò)等各個具體應(yīng)用上，均可借助大數(shù)據(jù)分析技術(shù)挖掘數(shù)據(jù)中潛在的價值[15]。目前，不少高校都已經(jīng)意識到大數(shù)據(jù)對于高校信息化建設(shè)和校園工作的重要意義，并已經(jīng)開始著手研究大數(shù)據(jù)如何更高效地為校園工作服務(wù)。

西南交大計劃推出“大數(shù)據(jù)校園”，為學(xué)校決策提供數(shù)據(jù)支撐，通過有線網(wǎng)絡(luò)、Wi-Fi、一卡通、門禁卡等相關(guān)系統(tǒng)，繪制出學(xué)生在校園里的“行為軌跡”模型，預(yù)測學(xué)生未來的發(fā)展?fàn)顩r。華東師范大學(xué)也正在將一卡通消費數(shù)據(jù)與勤工助學(xué)結(jié)合起來。越來越多的高校都希望啟動大數(shù)據(jù)研究和建設(shè)工作，數(shù)據(jù)的安全也是其中的焦點。

3.2 大數(shù)據(jù)在網(wǎng)絡(luò)安全中的應(yīng)用

1）利用大數(shù)據(jù)平臺發(fā)現(xiàn)威脅和預(yù)測復(fù)雜攻擊：傳統(tǒng)APT攻擊[16]防護體系在應(yīng)對現(xiàn)有網(wǎng)絡(luò)信息安全中的零日攻擊、社會工程學(xué)、逃逸攻擊已逐漸顯現(xiàn)出其不足，利用大數(shù)據(jù)技術(shù)，構(gòu)建APT攻擊的數(shù)據(jù)模型，加入主動檢測技術(shù)和響應(yīng)流程，形成一套完整的APT攻擊防護體系，可解決傳統(tǒng)信息安全中邊界防御、多層防御無法避免的“被動響應(yīng)”問題。

2）利用大數(shù)據(jù)平臺分析缺陷，快速定位軟件漏洞：通過對程序變量、內(nèi)存分配和存儲方式進行分析來實現(xiàn)相應(yīng)的內(nèi)存重組織方法，用于跟蹤符號傳播過程，同時采用基于并行計算模型和相應(yīng)編程模式的Spark集群計算框架可優(yōu)化內(nèi)存集群計算中的迭代次數(shù)，從而達到快速定位軟件漏洞的目的。

3）利用大數(shù)據(jù)平臺實現(xiàn)虛擬機逃逸驗證，設(shè)計與研發(fā)基于蘋果系統(tǒng)的Hypervisor[17]防逃逸技術(shù)。

4 結(jié)束語

大數(shù)據(jù)作為新時代經(jīng)濟與社會發(fā)展的“動力源”和“驅(qū)動力”，其體系框架現(xiàn)在還存在各式各樣的安全威脅，因此我們需加大力度投入大數(shù)據(jù)安全與應(yīng)用，著重培養(yǎng)大數(shù)據(jù)安全專業(yè)人才，加快研發(fā)大數(shù)據(jù)安全技術(shù)，規(guī)范大數(shù)據(jù)平臺的建設(shè)，全面提升大數(shù)據(jù)安全響應(yīng)速度和保障能力，同時也應(yīng)注意盡力縮小理論研究與實際應(yīng)用之間的差距。

【通聯(lián)編輯：王力】