(山西鐵道職業技術學院 山西 030013)
隨著社會信息化程度的加深,越來越多的信息被數據化,每時每刻都產生著海量的數據。有來自機器產生的結構性數據,包括各種信息系統的運行數據,日志數據,環境傳感器數據等;還有來自人類產生的非結構性數據,包括語音錄音數據、圖片和視頻數據、各種形式的文字數據等等;這些數據在沒有“大數據”這個概念之前就已經長期存在了,這些海量數據在被發現“有價值”的時候,越來越多的人關注到了它。很多企業和組織抓住了大數據所帶來的無限機遇,與此同時,個人或者組織的信息安全也很大程度遭受沖擊。
個人信息的數據收集無處不在,信息能夠使人們的生活更方便,但是使用這些數據的行為并不透明,導致人們的隱私受到威脅。個人作為用戶去使用商業公司或組織機構提供的服務時一般都會簽署類似免責聲明“具有法律約束力”的合同類條款,這些條款中一般會包括用戶協議、隱私政策、cookie 政策。同意這些協議后代表這些商業公司可以使用這些數據為用戶提供服務,大大小小的商業公司尤其是互聯網公司,在給人提供各種各樣的服務,每個人都是受益者,人們在生活中可以隨時隨地找到附近的共享單車;能夠隨時隨地在各個設備終端瀏覽自己的數字文檔、視頻;還能夠在雙手忙于開車的同時使用AI 語音助手得到自己想要的信息。與此同時,個人產生的信息將不可避免的上傳到這些互聯網公司。例如:提供共享單車的公司會得到個人用戶的位置信息,對應時間。提供云存儲服務的公司能夠得到所有用戶主動上傳到網絡的各種文字、圖片、視頻等數字資源。提供AI語音服務的公司會得到用戶所關注的關鍵詞、對應時間以及用戶的語音資料等。
在廣義上個人隱私數據需要符合四個要素:時間、地點、人物、事件。通過事件查看器可以查看一個操作系統中的系統日志等,在隱私保護時,只需要把其中的關鍵項屬性進行加密隱藏就可以起到保護的作用,所以對于個人隱私的保護在很多時候也是存在著這樣的思想:采取某些方式保護整體信息中的一部分屬性,那么大部分場景下就起到了保護整體隱私數據的作用。例如:去除四要素中的“地點”,屬于位置隱私保護;去除“人物”包括個人基本信息,屬于身份隱私保護;如果把“時間”“地點”“人物”的聯系進行消除操作,那么就可以起到行為隱私的保護。
在實際中還存在一個關鍵的因素,使個人隱私信息被大概率的暴露。隨著高性能智能化終端的大面積使用,商業機構和組織借助大數據,能夠同步獲取用戶的實時位置,聲音,圖像;如果一個人在進行一個“超市購物”的事件,那么所有這個事件涉及的屬性包括支付金額,超市地點,銀行賬戶,消費類型也會同步上傳。這種監控個人隱私的行為是不間斷無目的地進行的,就像視頻監控一樣,一直不斷地產生大量的持續的數據,只有發生了“事件”才會被重點保護。事實是,除了發生“事件”以外大量的連續性的數據也是屬于個人隱私的一部分,這種數據并不能受到良好的保護。這些數據有可能被上傳到服務公司,同時也容易成為網絡犯罪人員進行社會工程學的數據對象。
這些散亂的數據隨著時間的推移,可能會與其他數據聚合在一起作為一種數據資源不受控制的被第三方組織獲得并使用[1]。AI 的發展使得機器能夠對海量的大數據進行多維度精準分析。這能夠幫助機構從數據中提取有規律性,高關聯性的結構性數據。例如:如果在終端設備上使用Facebook 賬號訪問一個外部鏈接,那么所有的行為都可能被Facebook 關聯到用戶的真實身份信息上。Facebook 的8700 萬用戶數據被不正當泄露給一家政治咨詢公司Cambridge Analytica(劍橋分析),這家第三方公司使用這些數據用于2016 年總統選舉[2]。
個人和設備產生了大量的數據,但是這些數據之外還有一種數據可能會成為潛在的風險。在2016 年9 月13 日舉行的“T11 2016暨”TalkingData 智能數據峰會上,TalkingData 提出“目前僅有20%的數據放在了互聯網上,80%的數據仍然游離在互聯網之外”。在80%的互聯網外數據中,有部分數據是可能會上傳到互聯網的,但是很大機會是作為垃圾數據游離存在的。例如:設備日常的日志數據,用戶手機中被遺棄的照片、視頻、語音數據等。這類數據有可能被主動或非主動上傳到網絡。這些數據在經過機構的處理后可以挖掘出很多組織需要隱藏或保密的信息。下面的一個實例可以說明“游離”的數據可以挖掘的信息內容。
Twitter 用戶Doxsor 發布一張圖片顯示一輛軍用車輛(圖1)。一些解密愛好者使用OSINT(open source intelligence)方法對模糊照片進行分析。通過分析照片的特征位置可以找到9 個各點位的特征,第一步,通過最明顯的7 號位置的一個廣告類網址查到了一家拖車公司主要業務分布在歐洲境內;第二步,6 號位置的黃色車牌信息也可以作為一個子項圖片進行深度學習圖像識別車牌顏色,代碼格式,車牌內容結構以及模糊部位比對后,從公開的歐洲車牌信息中可以發現屬于塞浦路斯和丹麥;5 號位置的“運輸”字樣作為很多國家通用的標識不能被采納。第三步,在主要信息中通過1 號位置軍用車輛的尾部結構特征可以找到型號為瑞典產CV90 步兵車,并且公開信息中知道這種車輛出口到世界多個國家;第四步,通過三號位的編號結構,對比進口數量最多的幾個國家(挪威,丹麥)之后,確定這個車輛屬于丹麥軍方;第五步,通過Wikipedia 公開資料查找到CV90 步兵車僅僅發放給了兩個單位以及駐地;第六步,在通過2 號位置的特征可以搜索到丹麥第二旅的徽章樣式對比。這樣就可以推斷出軍用車輛所屬單位及駐地。

圖1 圖例
要想進一步挖掘出“事件”中的重要信息,還需要在其他的信息點進行支持。分析人員接下來進行第七步,通過9 號位置的路邊陰影部分在車輛右側,結合背景中樹木的茂盛程度以及歐洲區域,得出結論車輛大致詳細行駛,公路方向大致西偏東;第八步,8 號位的電線桿頂部,類似于電氣化鐵路使用電線桿,推斷所在位置為一條與鐵路平行的公路;第九步,通過4 號位置的藍色路牌“-drup”結尾的地方,結合第六第七第八步得出的推斷,可以在地圖上定位在丹麥Vemmedrup 附近E20 公路,而CV90 可能前往的最近軍營是Slagelse的Antvorskov 軍營[3]。
這個實例中通過6 號位置定位“歐洲”;1 號位置定位“CV90 步兵車”;2 號、3 號及6 號位置定位“丹麥軍隊及駐地”;9 號位置定位“車輛行駛方向及公路方向”;8 號位置定位“在鐵路左側”;4 號位置定位“Vemmedrup 附近E20 公路”;所有信息結合推斷出“CV90 可能前往的最近軍營是Slagelse 的Antvorskov 軍營”。
通過以上實例可以看出一些“游離”的數據結合現有網絡中公開的各種信息數據資源,再經過邏輯推理后是可以對機構和組織的隱私信息產生暴露威脅的。一些人可能處于好奇或者興趣偶然性的拍攝一些照片,主動或者無意間上傳到網絡中,使“游離”信息數據被一些組織機構所搜集。分析機構可以在前期使用大量測試數據通過卷積神經網絡(convolutional neural network)模型進行人工智能深度學習。得到可以使用的模型,就可以輕易的應用到實際的類似照片信息挖掘中。再結合人工識別分析就可以得到“事件”中的重要信息。所以網絡內外大量留存的“游離”信息數據可以對組織產生極大影響。
個人隱私信息范圍在實際生活中的界定是非常難的。商業公司在收集數據方面往往會超出其業務所需要的范圍,并且使用“免費提供服務”的名義去鼓勵使用者積極參與。在與用戶簽訂的數據信息授權協議中常常以“默認”、“隱藏”等方式讓其行為合法。在后續的信息數據使用方面,商業機構或組織對數據的收集過程,分析目的,存儲,轉移等行為都是在“黑盒”中進行的,這些行為對用戶是不透明的。4由于政府在公信力方面有天然的優勢,所以可以讓政府主導把用戶的數據作為公共物品管理。未來社會,數據技術突破后,商業機構及組織可以在政府監管下獲取由政府進行去敏感性的數據使用接口,數據掌握在政府主導的機構中,所有的商業組織沒有直接讀取原數據和存儲數據的權利,這樣能夠很大程度解決個人隱私數據被不正當使用的行為。
同樣的,“游離”數據也會在未來持續存在很長一段時間,在實行網絡實名制的今天,網絡審查制度能夠很大程度杜絕這些數據產生的后續影響,但是還需要在法治和宣傳教育方面著手,從源頭上杜絕掉這些有意產生敏感數據的行為。
大量數據分析技術的產生成就了大數據時代,為各個組織和個人提供了價值和方便,但是相對的缺乏監管和信息安全意識也導致了各種各樣的隱私泄露和安全威脅。針對這些問題,政府應當加強對數據存儲、轉移、使用的監管,同時要完善信息安全法律法規,加大宣傳引導公民增強信息安全意識,維護網絡信息安全。