丁大勇++張琳
摘 要:隨著大數據產業(yè)的發(fā)展,大數據的跨平臺使用和調用愈加頻繁。以用戶全量為特征的大數據具有高度精準和信息量大的特點,為了確保用戶隱私、數據源提供商商業(yè)信息安全,我們需要對大數據使用的邊界進行明確定義。通過對大數據模型構建和使用目的的分類分析,我們可以定義出大數據使用的邊界并通過使用邊界構建出安全調用模型。在明確的使用邊界和安全調用模型基礎上,大數據數據源提供方和調用方可以有效確保信息安全,避免大數據調用中可能存在的各種風險。
關鍵詞:大數據 數據安全 使用邊界 調用模型 隱私保護
中圖分類號:TP393.0 文獻標識碼:A 文章編號:1674-098X(2017)10(a)-0149-03
大數據數據安全問題已經成為一把懸在大數據行業(yè)頭上的達摩克利斯之劍,對大數據調用邊界定義和安全調用規(guī)范的制定已經刻不容緩。京東微聯(lián)、華為與騰訊就微信數據分享問題爆發(fā)激烈沖突等事件已經充分證明在大數據層面如果數據源供應方和使用方等多方層面沒有協(xié)調好,對普通大眾而言容易陷入城門失火殃及池魚的境地。
1 數據分析特點和大數據來源解析
1.1 數據分析特點和分類維度
數據分析指通過呈現(xiàn)的數據進行綜合、整理和分類的研究方式并根據數據研究的目標在呈現(xiàn)的數據中進行問題的求解最終得到問題答案的過程。
數據分析可以從點、線和面三個維度來進行分類。
(1)從一個點的維度來看,數據分析指的是對特定對象而言的生命周期內的全量數據,主要展現(xiàn)的是特定對象的所有指標的全量參數值。從這個維度來看,如起居注這樣的歷史記錄則是對特定帝王以時間為軸的數據記錄。當記錄的內容夠多夠詳實則形成了對這個對象的生命周期內的數據記錄表,通過對點狀數據表的連續(xù)觀察可以得到單個對象的生命周期演進和發(fā)展圖景。
(2)從一條線的維度來看,數據分析指的是同時段內發(fā)生的多個對象的全量數據集合。對線狀數據的研究方式更多采用統(tǒng)計學理論進行交叉關聯(lián)數據的對比、相關性分析等,得到的是某個特定個體在群組中的位置、深度等分布位置性的判斷,在應用側通常采用傳統(tǒng)的數據庫方式進行字段整理、目標特征字段抽取和數據算法的編制。
(3)從一個面的維度來看,將各類線狀數據放在同一個面則會呈現(xiàn)出交集點多,關聯(lián)性弱,冗余和噪音數據量巨大并且難以用在線狀數據模型中常規(guī)的統(tǒng)計、分類和歸納等作業(yè)方式進行有效處理的數據集。
1.2 大數據數據產生原因和分類方式
(1)人類進入電子化時代以來,將多個線狀數據歸到一起難以靈活處理的問題一直存在,以往的解決方式是通過線狀數據間的可關聯(lián)點進行交集后,通過關聯(lián)點進行處理而將非關聯(lián)點數據作為無用數據和噪音數據丟棄。但隨著計算機處理能力、存儲能力和網絡交互能力的提升,尤其是進入云計算時代后,曾經困擾大數據處理的硬件瓶頸被突破,在技術和業(yè)務層獲得了對以面狀結構為代表的大數據的處理能力。
與傳統(tǒng)的數據處理目標不同,大數據模型下對數據的處理主要為相關性分析、動態(tài)最優(yōu)模型以及趨勢預判,涉及到基礎數據統(tǒng)計分析技術、機器學習和算法、人工智能建模以及預測模型等技術。
(2)大數據的數據源按不同的分類標準有多種分類的結果,最基礎的分類為自然數據源和人工數據源兩大類。自然數據源指不以人類意志為轉移的自然存在并持續(xù)產生的數據,如某個時點某個具體個體所在位置的氣溫、地勢、單位光照量等。人工數據源指由人類生產活動產生的數據,如某個具體個體在某一個時點產生的網絡瀏覽數據、位置經緯度數據等。傳統(tǒng)的數據分析偏重于數據源層面,很少將兩者結合起來進行關聯(lián)分析,而在大數據模式下,將這些看似不關聯(lián)的數據整合在一起進行全量分析可以從中找到曾經忽略的關聯(lián),而這些關聯(lián)所帶來的最優(yōu)結果模型可以進一步得到趨勢判斷等曾經無法得到的結果,從而使大數據技術的作用和價值得到呈現(xiàn)。因為對數據來源的分類標準不一,大數據來源也有線上和線下、虛擬和實景等不一樣的分類內容。
(3)在物聯(lián)網體系內,按照大數據源產生的主體大數據源可分為機器大數據和人工大數據兩塊。機器大數據主要產生于物聯(lián)網體系內由萬物互聯(lián)的各種設備產生的設備運行和狀態(tài)數據為主,而人工大數據則跟設備服務對象的行為相關。對大數據的類別、性質和屬性的定義與大數據分析的目的和建模求解結果需求相關,二者的界限比較模糊,很多場景下不具備嚴格區(qū)分的能力。如車聯(lián)網系統(tǒng)中的行車軌跡、瞬時油耗等數據,可以被看作是機器數據源對汽車自身狀態(tài)進行分析的同時也可以關聯(lián)到汽車的駕駛員的行為作為數據分析的數據源。同樣地,在對電商用戶行為的大數據分析模型中,用戶在電商平臺的瀏覽、互動和購買等線上動作一般是主要的大數據數據源,而電商平臺硬件運行數據一般不會被列入大數據模型作為相關性分析。
2 大數據使用方式和數據交換邊界
2.1 大數據應用方式
(1)傳統(tǒng)的點狀數據分析和線狀數據分析因為處理模式和處理能力的原因都存在對全量數據資源的浪費,而以全量為特點的大數據則在全量層對數據覆蓋維度和持續(xù)長度都有越大越好的要求。因為對象的屬性制約,對相對固定且可控的設備所產生的全量數據獲取難度較低而對移動性不確定性較強的個人行為大數據則難以通過一個平臺全部獲取。作為社會人,個人的行為和交互發(fā)生在社會生活的方方面面,而社會的分工導致構成社會生活的環(huán)節(jié)已經是碎片化狀態(tài),而個體的行為也與分布在各個生活環(huán)節(jié)中的平臺上。大數據作為盡可能獲得全量的屬性要求大數據模型下必須與多個數據源聯(lián)合起來才能形成一個相對全量的大數據數據源。要構建全量大數據,不同大數據源間的數據交換需求出現(xiàn)并形成了一個越來越強烈的大數據行業(yè)需求。
(2)根據大數據應用對數據源使用的深度,大數據分析主要應用于三個層面。
①第一層面為基于大數據的群組分析和發(fā)展趨勢預測,在這個層面上更多通過采集大數據中的關鍵字段和特征進行分析和預測。在這個層面的大數據分析與具體的個體全量數據關聯(lián)度不大,主要以觀察和監(jiān)測特定集群通過關鍵特征模型匹配的方式來實現(xiàn)大數據監(jiān)控的功能,公關和品牌公司對消費者的互聯(lián)網輿情監(jiān)控是一個較為典型的應用,基于大數據的口碑營銷也是眾多公關公司重點發(fā)展的目標。endprint
②第二層面為通過大數據對具體大數據個人數據源進行監(jiān)控并基于大數據預測模型對個人下一步動作進行預判和干預。在此應用層下,個人全量數據源主要來自平臺本身,而大數據決策的依據也以個人在平臺的全量數據為主對個人行為的干預也更多表現(xiàn)在平臺本身的服務、資訊或購買推薦,其他平臺數據源如果加入對個人的行為預測會更加準確但是因為這種數據源的高附加值,跨平臺的數據使用不常見。此類典型應用則以電商平臺購買推薦(猜你喜歡)、搜索引擎跳轉鏈接點擊推薦以及微信朋友圈等社交媒體廣告投放等形式為主。
③第三層面則是基于個人行為監(jiān)控和危險行為的預測及防范的大數據監(jiān)控,主要用于對特定人的風險判定和危險行為預測。在此應用下個人被作為特定的觀察對象而存在較大的信息安全隱患且單個監(jiān)控成本較高,主要用于對特定人群而采取的措施,在信訪大數據、銀行大數據征信和行政機關對特定人的監(jiān)控等情形下使用。
2.2 大數據應用目標和邊界說明
(1)在大數據的實際應用中,考慮到個人信息的隱私和使用安全,絕大部分大數據產品和平臺應用和數據交換主要用于群組分析和個人個性化管理兩個層面,而對特定人的監(jiān)控則更多在政府部門監(jiān)控違法分子等特殊情形的應用較不普遍。在這兩個層面中,根據數據安全和個人信息保護的需求,數據的交換和使用不應該是全量數據的直接對傳和交換而應具有相對的邊界。
(2)根據大數據應用場景,我們可以把大數據應用場景以及所需界定的數據邊界見表1。
3 大數據交換安全模型設想
根據大數據應用中數據交換的邊界,在大數據應用中需要對數據調用尤其是跨平臺的數據調用設定調用模型,對確保數據安全、維持使用邊界安全以及確保用戶信息安全具有重要實際作用和意義。2017年4月8日,中國信息安全標準化技術委員會大數據安全標準特別工作組發(fā)布了《大數據安全標準化白皮書(2017)》為大數據安全提供了較為全面的指導意見,確認了大數據保存、使用和交換的基礎原則,但是在具體的大數據交換規(guī)范等方面并未提供具體的標準化文件。結合本文的邊界原則,我們可以搭建出大數據交換的安全模型,模型由如下幾個方面構成。
(1)大數據交換主體的資格認證。作為可進行大數據信息存儲、處理和交換的主體(行政部門、技術研發(fā)公司、調研和市場營銷機構等)需要滿足準入門檻后方可獲得大數據交換主體資格。主體資格主要由該主體的業(yè)務構成、數據處理和安全防護能力等維度來確認主體是否具有從事大數據業(yè)務的基本技術和業(yè)務管理能力。對于許多不具備大數據業(yè)務管理能力但是自身卻是大數據產生源的公司則可通過與具備這樣資格的合作伙伴合作的方式來進行大數據業(yè)務的拓展和數據交換資格的獲取。
(2)交換的大數據內容性質認定。需對交換的大數據內容根據交換邊界原則進行分級,其中用于群組監(jiān)控類和用于個性化行為干預的大數據分析所需的數據源使用方式和調用內容應該有個人信息安全和非相關數據交換的要求。在對特定行為監(jiān)控等大數據應用場景下,對數據交換的字段順序也需要有觸發(fā)后再提供等優(yōu)先級次序差異。數據源提供方和使用方在數據性質分級的框架下可一方面充分滿足大數據應用需求,另一方面不會對個人信息安全和數據源系統(tǒng)安全造成不可控的影響。
(3)可交換的數據源對個人用戶影響評估。在邊界框架下,數據交換對個人影響的評估結果可分為無影響、有影響和有嚴重影響三個級別。對應的級別設置與交換內容的性質緊密相關,同時需服從于個人信息安全保護和系統(tǒng)安全的大前提。評估的目標在于找出一個符合大數據應用場景需求下的最小用戶影響模型,建立個人用戶影響評估模型主要從對獨立用戶的行為干預力度和干預結果兩個維度進行評估。當評估結果顯示屬于強干預的大數據應用,則需要在確認應用場景干預結果的基礎上對大數據應用的力度和數據源使用深度進行加強或減弱。反之,如果評估結果顯示無法達成大數據應用的干預結果,則需要對交換數據的需求和可行性進行再次評估。
(4)大數據應用安全邊界的評估。主要是對大數據應用對數據源提供方和使用方的安全評估。在數據交換中涉及到網絡傳輸、數據交互處理等環(huán)節(jié),而黑客、病毒和程序異常導致的信息泄露和污染等情況一旦發(fā)生將可能對雙方都造成惡劣的影響和嚴重的后果。與傳統(tǒng)的數據安全事故不一樣,如果數據交換雙方沒有完善的安全邊界評估體系,一旦發(fā)生大數據層面的信息安全事故則可能直接影響到特別大數量個人的日常生活。尤其當物聯(lián)網應用在生活中的普及,物聯(lián)網的大數據事故可能會直接導致日常生活的停擺甚至更為嚴重的后果。安全邊界的評估主要通過產品和技術兩個層面的分析、預判和防范策略的提前部署。而大數據安全的基礎保障則是數據交換協(xié)議、編碼和加密、實時備份和自毀等云計算和人工智能領域的重點研究課題。
(5)大數據應用后結果數據的脫敏能力評估則是對大數據交換主體間尤其是對數據源使用方的能力要求。大數據交換后將會產生海量的結果數據,大數據處理結果數據是大數據的一個構成部分,也是大數據應用的成果展現(xiàn)。一般來講,結果數據也會攜帶大量涉及到個人信息安全、群體特征等敏感信息而且可以通過結果數據對原始大數據源數據進行還原進而造成威脅信息安全風險。因此在大數據應用模型中對大數據源的使用方也需有對結果數據脫敏的能力,通過完善的信息安全保障機制結合大數據應用的場景和目標需求,確保整個大數據的應用始終處于安全健康的狀態(tài)。
4 結語
如今大數據應用發(fā)展已經取得了很好的效果,大數據市場數據量和交易額也增長迅猛。但因為缺乏明確的大數據交換安全邊界規(guī)范,現(xiàn)有的大數據交易存在許多不安全不穩(wěn)定和不規(guī)范的地方,這些可能為大數據行業(yè)的發(fā)展造成隱患。而通過對大數據應用的場景分析和對數據源提供方和使用方的資格規(guī)范兩個維度進行大數據交換模型的建立,可以從數據源頭和使用過程以及應用結果三個維度確保大數據數據交換和應用的安全。只有當大數據交換模型成為業(yè)內的規(guī)范,所有從業(yè)參與主體按規(guī)則進行,方可實現(xiàn)我國大數據產業(yè)的健康穩(wěn)定和快速發(fā)展,最終讓規(guī)范的大數據行業(yè)成為實現(xiàn)中國人工智能和物聯(lián)網發(fā)展規(guī)劃實現(xiàn)的重要保障。
參考文獻
[1] 顧君忠.大數據與大數據分析[J].軟件產業(yè)與工程,2013(4):17-21.
[2] 白潔.大數據應用[J].信息安全與通信保密,2013(10):12-14.
[3] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統(tǒng)仿真學報.2013(S1):142-146.endprint