沙志仁 謝海瑩 戴秀斌


摘 要:本文基于卡口過車數據集與停車場流水數據集,探究兩者之間的數據關聯性,并建立基于交通背景知識的攻擊模型,對數據集中的個體進行鏈接攻擊進行評估分析,以試圖發現交通數據集中的鏈接攻擊的現象和規律。但是本文的案例分析中,簡化了較多因素,考慮不夠全面,分析的準確性還有待提高,建議相關部門在實際中更深入分析數據之間的關聯性,有效減少個人隱私數據的泄露。
關鍵詞:政府信息化;卡口數據;數據關聯;鏈接攻擊;撞庫;交通數據集;隱私泄露
0 引言
隨著政府信息化的不斷深入,政府部門生成、采集和保存了大量社會運行和人民生活相關的數據,成為國家主要的數據擁有者,政府數據的開放利用將帶來巨大的社會與經濟效益[1]。
在公安交通管理領域,卡口車牌識別數據作為位置數據的典型組成,記錄了車輛車牌號、車牌顏色、行駛方向等信息,個體的位置信息被動的被采集,存在一定的數據信息泄密風險。
本文基于卡口過車數據集與停車場流水數據集,探究兩者之間的數據關聯性,并建立基于交通背景知識的攻擊模型,對數據集中的個體進行鏈接攻擊,以揭露交通數據集中的鏈接攻擊現象。
1 卡口車牌識別數據集介紹
本文基于公安交通管理卡口過車數據集以及停車場流水數據集進行研究。其中,卡口過車數據集中各字段及其含義。如表1所示。
停車場流水數據由布設在停車場出入口的傳感設備采集。當車輛進出停車場時,其出入時間、車牌號等信息被記錄,個體的位置信息被停車場的地理位置所標識。
停車場流水數據記錄了個體的停車場活動,實際上是對個體活動地的記錄(居住地、購物地、工作地等)。本文探究卡口過車數據集與停車場流水數據集中的關聯現象,需要特別指明的是,本案例是對匿名化數據集進行鏈接攻擊。具體的,卡口過車數據集中的車牌號碼和停車場流水數據集中的車牌號碼均已經進行過匿名化處理,本例中我們采用MD5的方法分別對兩個數據集中的車牌號碼各自替代為唯一的標識符(注意:匿名化卡口過車記錄與匿名化停車流水記錄的車輛標識符不一致)。
本案例中鏈接攻擊的目標就在于,對于匿名化卡口過車記錄中的某個體,我們試圖在匿名化停車流水記錄中找到匹配到該個體,這樣就能夠將卡口過車記錄和停車場流水記錄準確的關聯起來,進而獲取該個體完整的活動軌跡(包括行駛軌跡和停車地點)。
出于計算量和時間簡化,本案例選取了湛江萬達廣場附近三個卡口以及一個停車場的較為簡單的場景,更為復雜的情況將在后續的研究中進一步探討。圖1展示了場景中卡口以及停車場的空間分布。圖中,黑色實線為研究場景附近的道路網絡,紅色點為本案例場景中選擇的三個卡口,紅色點為湛江萬達廣場停車場。
2 基于交通背景知識的攻擊模型
所謂鏈接攻擊,就是要對不同數據集中的個體信息進行匹配,以達到對兩個數據關聯的效果[2]。本案例中,我們從空間關聯和時間關聯兩個方面著手,對不同數據集中的個體進行關聯鏈接。空間關聯體現在本案例所選擇的場景中三個卡口和停車場的相對空間位置。時間關聯的主要思路其實很簡單,個體一天的完整的行駛軌跡由于停車活動的存在被劃分為若干的軌跡。停車活動必然發生在上一段軌跡的終止點與下一段軌跡的起始點之間,則容易知道停車流水記錄的進入時間intime,離去時間outtime,上一段軌跡的最后一條過車記錄的過車時間kkt1,下一段軌跡的第一條過車記錄的過車時間kkt2必然滿足如下關系:
因此,對于某一軌跡終止點(終止記錄)的過車時間kkt1,我們通過如下的式子匹配該個體下一段軌跡起始點(起始記錄),對匹配結果進行比對,探究鏈接攻擊的成功率。
3 結果分析
基于鏈接攻擊模型,對圖1所示的場景進行鏈接攻擊。結果表明,在所選擇的場景中,共有290輛車發生了停車活動,其中54輛車通過我們的攻擊模型被成功的鏈接攻擊,攻擊成功率為18.62%。盡管這個數值不是很大,但值得注意的是,本案例選擇的場景較為簡單,而且攻擊模型中也僅僅考慮了停車出入時間與卡口過車時間的包含關系,實際上可結合卡口與停車場之間的行程時間進一步提升攻擊成功率。這意味著,不同的交通個體數據集中存在較大的關聯性,攻擊者能夠利用其鏈接攻擊得到個體的家庭住址、工作地等敏感信息。這也提醒我們對多個數據集的發布和脫敏處理時,應該充分的考慮不同數據集之間的關聯和鏈接的可能性,謹慎的對數據發布和共享。
4 總結
本研究基于卡口過車記錄數據集和停車流水數據集,探究了不同數據集之間的數據關聯性和鏈接攻擊的存在。但在鏈接攻擊的過程中,出于簡化本研究僅考慮了簡單的時間包含關系,這導致攻擊的成功率并不算太高,未來本研究將深入考慮停車場與卡口之間的行程時間,并探究多種數據發布形式下的鏈接攻擊方式。同時,針對這種普遍存在的鏈接攻擊,建議相關部門機構及時制定相應的降低鏈接攻擊的隱私保護方法和數據脫敏方案。
參考文獻:
[1]李興國,姜紅苗.促進政府數據開放與企業利用的演化博弈分析[A].中國管理現代化研究會、復旦管理學獎勵基金會.第十三屆(2018)中國管理學年會論文集[C].中國管理現代化研究會、復旦管理學獎勵基金會:中國管理現代化研究會,2018:8.
[2]Sun,Zhanbo,et al.“Privacy protection method for fine-grained urban traffic modeling using mobile sensors.”Transportation Research Part B: Methodological 56(2013):50-69.