羅東華


摘 要:在公安交通管理領域,卡口車牌識別數據包含信息量齊全、準確,受到廣泛地采用,但是該數據在使用過程中也容易造成個人隱私信息泄露。為研究研究卡口車牌識別數據中的隱私披露風險,減少卡口車牌數據在使用過車中造成的信息泄露,本文基于K匿名隱私保護模型,對卡口車牌識別數據中的隱私泄露風險進行分析和研究,提出常用脫敏手段和方法。并以廣州市卡口車牌識別數據作為實例進行分析計算,提出具體的數據脫敏措施,在分析計算中發現:時間分辨率與的隱私保護程度成正比,而與信息保存率成反比。在本文的結尾提出了該算法存在的不足,并指明未來進一步深入研究的方向。本文對相關領域人員進行數據脫敏研究具有一定的借鑒意義。
關鍵詞:交通管理數據;卡口車牌;數據脫敏;匿名隱私保護;時間分辨率
0 引言
隨著政府信息化的不斷深入,公眾的個人信息被信息化系統(如視頻卡口監測系統)廣泛采集。在公安交通管理領域,卡口車牌識別數據作為位置數據的典型組成,記錄了車輛車牌號、車牌顏色、行駛方向等信息,并標記了圖像采集的卡口位置,車輛的歷史軌跡通過一系列由卡口和經過時間的時間-空間二元元組重構。近年來,車牌識別數據因其數據采集率高、覆蓋范圍廣和數據準確率高等優勢而受到研究者們的廣泛關注。例如,GY Jiang和AD Chang等結合車牌識別數據監測交通擁擠[1],H Chen和C Yang等學者利用車牌識別數據研究個體時空交通行為等[2]。隨著第三方研究機構對卡口車牌識別數據研究需求的不斷增長,隨之而來的隱私問題則成為了人們關注的焦點。因此,研究卡口車牌識別數據中的隱私披露風險,探究車牌識別數據的脫敏技術和隱私保護方法具有重要意義。本文基于K匿名隱私保護模型,來探討卡口車牌識別數據中的隱私泄露風險和相關脫敏手段和方法。
1 K匿名隱私保護模型
經過匿名化處理發布的數據集,一般為數據表形式:表中的每一條記錄對應一個個體,包含多個屬性值,屬性值包含個體多方面的信息。這些屬性可以分為三類:
(1)標識符(Identifier):能唯一標識單一個體的屬性,如姓名、身份證號碼和車牌號等。在數據表中刪除標識符或匿名化處理在一定程度上可以達到隱私保護的目的。
(2)準標識符(Quasi-Identifier, QI):數據表中若干屬性的組合,這些組合能夠同外部信息結合鏈接,對個體重新標識,識別出主體身份。
(3)敏感屬性(Sensitive Attribute):包含隱私信息的屬性,如疾病、薪資,家庭住址等。
例如,在匿名化隱私數據表1中,通過刪除姓名屬性和社會保險代碼兩種標識符屬性,數據被初步匿名化。但表中還包含種族、生日、性別和郵政編碼等一般屬性和婚姻狀況、患病情況等敏感屬性,這些屬性能夠被鏈接到非匿名化的公開候選人情況(含姓名、地址、所在城市、婚姻狀況、性別、出生日期、郵政編碼等屬性),從而泄露個體的婚姻狀況、患病情況等敏感信息。如在候選人列表中,在San Francisco的一位離婚女性,出生日期為64/09/27,該記錄在匿名化醫療信息表中是唯一的,通過表1的鏈接,盡管在醫療信息表中并未包含標識符屬性,仍然容易推算該女性為Susan,同時也獲取到了她的敏感信息——患艾滋病。
針對此問題,2002年Sweeney L提出了K-anonymity隱私保護模型[3]。在K匿名性的約束下,數據集中的任意個體應該至少與其他K-1個個體是不可區分的。具體的,K-anonymity的定義如下:
K-anonymity:給定數據表,是與相關聯的準標識符,當且僅當在中出現的每個值序列至少要在中出現K次,則滿足K-匿名。表示表的元祖在準標識符上的投影。
在匿名化醫療信息表1中,準標識符為{種族,出生日期,性別,郵政編碼,婚姻狀況},該表滿足K匿名當且僅當K=1。通過對表1的出生日期、郵政編碼屬性進行匿名化處理,即將出生日期后3位匿名化(如64/09/27處理為64/0*/**)、將郵政編碼后兩位進行匿名化(如94139處理為941**)得到匿名化處理后發布的數據表,準標識符依然為{種族,出生日期,性別,郵政編碼,婚姻狀況},K=2。在這種情況下,Susan的隱私信息就不能通過與外部信息的鏈接而被唯一的標識,也就達到了隱私保護的效果。
相應的在車牌識別數據集中,對某輛車的出行軌跡,從中選取若干記錄組成其準標識符,根據準標識符在其他車輛軌跡集合中的出現次數確定該車的個體匿名性界定其個體隱私披露的風險。
2 測試數據集介紹
本案例基于廣州市卡口車牌識別數據集。數據集記錄了廣州市主要視頻監測卡口和各個時間段的車輛車牌識別數據。本案例從完整數據集中隨機選取10萬輛車約700萬條數據記錄。視頻卡口主要集中分布在廣州內環路附近及中心城區。卡口過車記錄包含了有關車輛行駛信息和位置信息的若干屬性,其中車牌信息已經經過MD5匿名化處理。表2列出了某原始記錄的各個字段。
從表中可以看出,原始的車牌識別數據記錄中的時間信息精確到秒,這樣的時間分辨率足以讓數據集中的每一輛車都被唯一的標識,而且對于大多數交通領域的研究比如交通流量的統計等,如此精確的時間分辨率也帶來冗余的信息。為此,本案例通過時間維度上的聚合將1天24小時轉換為若干相同時間間隔t的時間段。例如設置時間聚合度t為2 h,則意味著通過聚合2017-03-01 00:00:00至2017-03-01 02:00:00的記錄為一個統一的THROUGHTIMEID: 101,依次類推,THROUGHTIMEID: 1509就代表2017-03-15 16:00:00至2017-03-15 18:00:00時間段內數據記錄的時間戳。本案例考慮了5個級別的時間聚合度t:0.5 h、1 h、3 h、6 h、12 h。
3 結果分析
具體的,對于某車輛,從該車的出行軌跡中隨機采樣的方式得到其相應的準標識符,遍歷所有車輛的出行軌跡集合,統計軌跡中包含的個體車輛集合為該個體的匿名性集合,個體匿名性集合中所包含的車輛數則為的匿名性,遍歷發布車輛集合中的所有個體得到所有個體的匿名性列表K。具體實現如下。
基于此算法,在時間聚合度t為0.5 h,1 h,3 h,6 h和12 h,5個級別的時間分辨率下,選取不同的記錄數,組成準標識符,標識統計數據集中個體的匿名性。為了更好的體現不同時間分辨率及不同記錄數標識下個體匿名性的差異,直觀地分析時間分辨率對個體匿名性的影響,然而隨著準標識符記錄數的增加,個體匿名性呈現顯著的下降趨勢。為了更直觀的揭示準標識符長度即標識記錄數對個體匿名性的影響,本案例選定時間分辨率為12 h,選用不同數量記錄來標識個體匿名性,繪制被唯一標識的個體的占比情況,誤差線代表99%的置信區間。盡管時間分辨率已經被粗化到12 h,仍然有將近90%的車輛能夠被5個時空軌跡點唯一的標識。這意味著,車牌號碼經過脫敏處理的卡口車牌識別數據仍然隱含著巨大的隱私泄露風險,這也說明了對于卡口車牌識別數據集,通過簡單的MD5等手段對車牌號碼進行轉換來實現數據脫敏是遠遠不夠的。
4 總結
本研究針對公安交通管理領域的交通數據,研究數據脫敏方法與技術,從數據脫敏的技術現狀和政策要求來看,盡管國內對數據安全和隱私保護做出了一些規定,但在交通數據方面,這樣的規范和行業標準卻相對缺乏。本文揭露了卡口過車記錄數據集中的個體由于被重標識而導致隱私泄露的風險。探究不同時間分辨率下的個體隱私泄露風險的程度,這為個體隱私保護提供了思路。更大的時間分辨率意味著更高程度的隱私保護程度,同時也意味著更多的信息損失。為此,未來的方向將會在隱私保護算法的設計,其能夠針對不同的數據脫敏程度要求,對數據進行脫敏,以求達到個體隱私保護和數據效用的均衡。
參考文獻:
[1]Gui-Yan,Jiang,C.An-De,and N.Shi-Feng.“Traffic congestion identification method based on license plate recognition data.”Journal of Harbin Institute of Technology 43.4(2011):131-135.
[2]Chen,Huiyu,Chao Yang,and Xiangdong Xu.“ClusteringVehicle Temporal and Spatial Travel Behavior Using License Plate Recognition Data.” Journal of Advanced Transportation 2017(2017).
[3]Sweeney,Latanya.“k-ANONYMITY:.”International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems10.05(2008):557-570.