蘇 洋
北京瑞源文德科技有限公司,北京 100176
?
手機電子取證的大數(shù)據(jù)應(yīng)用*
蘇 洋
北京瑞源文德科技有限公司,北京 100176
大數(shù)據(jù)技術(shù)作為當(dāng)前最為熱門的技術(shù),本文將從電子取證的應(yīng)用出發(fā),針對當(dāng)前智能機數(shù)據(jù)的關(guān)聯(lián)分析方法,對當(dāng)前主要分析手段進行總結(jié),找到與大數(shù)據(jù)技術(shù)的結(jié)合點,給出大數(shù)據(jù)應(yīng)用的幾個可能的方向,并對未來的應(yīng)用進行展望。
電子取證;數(shù)據(jù)關(guān)聯(lián)分析;智能手機大數(shù)據(jù)應(yīng)用
手機數(shù)據(jù),尤其是智能手機數(shù)據(jù)伴隨著智能手機軟硬件的高速發(fā)展,目前每月智能手機但從移動運營商產(chǎn)生的上網(wǎng)流量數(shù)據(jù)量也已經(jīng)平均達(dá)到1Gb,愛立信移動報告了解到,等到2021年,智能手機普通用戶每個月將用掉8.9 GB的數(shù)據(jù)。智能手機數(shù)據(jù)本身,還將包括機身存儲,云端備份,電腦備份等,如何應(yīng)對這些數(shù)據(jù),來更好的完成數(shù)據(jù)關(guān)聯(lián)分析,相信大數(shù)據(jù)應(yīng)用技術(shù)可以給我們指明方向。[1]
(一)手機號碼聯(lián)系人數(shù)據(jù)分析
作為傳統(tǒng)手機數(shù)據(jù)分析,以往最為關(guān)心的就是嫌疑人手機中的手機號碼聯(lián)系人碰撞分析模型。即將所有相關(guān)手機中的通訊錄、通話記錄、短信息進行存儲,以電話號碼為核心數(shù)據(jù)進行分析,這種分析的模型單一,數(shù)據(jù)量小,碰撞結(jié)果有限。只能給出有或無的單一指向性數(shù)據(jù)結(jié)果,作用有限.
(二)手機相關(guān)關(guān)系型數(shù)據(jù)分析
目前手機數(shù)據(jù)分析的最主要訴求,集中在時空刻畫,也就是是與時間,位置相關(guān)的數(shù)據(jù)關(guān)聯(lián)分析。在手機數(shù)據(jù)中與位置相關(guān)的數(shù)據(jù)關(guān)聯(lián)性被更多的關(guān)注與使用,下面將針對4種主要位置相關(guān)數(shù)據(jù)的分析手段總結(jié)如下:
1.通話基站數(shù)據(jù)。利用手機通話、上網(wǎng)時使用的運營商基站進行地理位置映射的數(shù)據(jù)分析模型。根據(jù)手機運營商基站的密度不同,定位的精度也從城市中的幾百米到鄉(xiāng)村的幾公里。
2.wifi ap數(shù)據(jù)。利用手機中wifi聯(lián)接數(shù)據(jù),根據(jù)wifi公共ap定位位置信息,目前公共wifi ap的相關(guān)數(shù)據(jù)庫已經(jīng)在陸續(xù)投入使用中,個人ap的位置數(shù)據(jù)則可以根據(jù)mac唯一性進行反向印證。
3.照片GPS數(shù)據(jù)。隨著手機中GPS數(shù)據(jù)的不斷豐富,照片圖片文件的Exif數(shù)據(jù)中有可能存儲當(dāng)前照片拍攝地的準(zhǔn)確GPS數(shù)據(jù),可以作為位置數(shù)據(jù)直接使用。
4.app定位數(shù)據(jù)。隨著智能手機app的不斷豐富,如下類別的APP數(shù)據(jù)中都有可能涉及到城市,鄉(xiāng)村,區(qū)域等的大范圍位置相關(guān)信息:
(1)點評類:當(dāng)前位置LBS應(yīng)用,附近商業(yè)信息等。
(2)地圖導(dǎo)航:當(dāng)前位置,導(dǎo)航記錄。
(3)運動記錄:路書、軌跡、城市信息。
(4)天氣類:當(dāng)前城市,周邊信息。
(5)旅游類:當(dāng)前城市,目的地信息,訂單(交通工具、住宿)。
(6)交友類:當(dāng)前城市,附近數(shù)據(jù)。
(7)上網(wǎng)類:當(dāng)前城市。
(8)可穿戴設(shè)備APP:當(dāng)前位置,軌跡。
(9)拼車類:當(dāng)前位置,訂單數(shù)據(jù),軌跡等。
當(dāng)前的大數(shù)據(jù)分析,除了個人的軌跡分析模型以外,還可以利用分析結(jié)果數(shù)據(jù)再次進行關(guān)聯(lián)分析,通行分析,碰面分析等都是在這個基礎(chǔ)上建立起來的,也是當(dāng)前大數(shù)據(jù)應(yīng)用的一個重要方面[2]。
同時,基于溝通的數(shù)據(jù)分析模型也已經(jīng)從電話號碼為核心數(shù)據(jù)進化為個人app虛擬身份即ID為核心數(shù)據(jù)的分析模型,將嫌疑人的所有虛擬身份,即眾多溝通app中的虛擬身份進行和并后統(tǒng)一分析,對所有溝通形式進行量化,進行親密程度,組織結(jié)構(gòu),上下級等等多種分析上來。
(三)手機內(nèi)容自識別大數(shù)據(jù)分析
在智能手機的快速發(fā)展浪潮的背景下,智能手機存儲的快速增長,個人數(shù)據(jù)量的規(guī)模也隨之快速增長起來,如何將這些非關(guān)系型數(shù)據(jù)進行分類,匯總,查詢,關(guān)聯(lián),也就是真正意義上的大數(shù)據(jù)分析,作為手機案件中數(shù)據(jù)挖掘的重要課題已經(jīng)出現(xiàn)在我們的面前。
下面單純以溝通類個人APP數(shù)據(jù)為例,嘗試分析建模如下:
1.語音:基于語音識別引擎,快速將語音文件轉(zhuǎn)換為語義后歸檔分析。
2.視頻:基于視頻識別技術(shù),將可能的位置信息,內(nèi)容梗概進行自動分析。
3.圖片:基于圖像識別,面部識別,分析人物,位置,時間,內(nèi)容等等關(guān)鍵信息。
4.文件:基于語義匯總歸類,對文件內(nèi)容概要,關(guān)鍵詞過濾,詞頻統(tǒng)計等進行文件分類匯總。
5.文字:基于溝通文字,對內(nèi)容直接進行關(guān)聯(lián)分析。
綜上所述,在手機取證行業(yè)中,我們以往和現(xiàn)在的大數(shù)據(jù)應(yīng)用,還僅僅是在手機數(shù)據(jù)中的關(guān)系型數(shù)據(jù)為基礎(chǔ)上,進行的分析建模,關(guān)聯(lián)分析,是原有大數(shù)據(jù)行業(yè)中,商業(yè)智能類型分析的一種延伸。
同時,可以看到伴隨智能手機的發(fā)展,個人數(shù)據(jù)的快速膨脹,智能手機APP數(shù)據(jù)種類與類型還在伴隨APP的數(shù)量快速增長過程中。可以預(yù)見的將來,就會有“海量”的數(shù)據(jù)涌入,應(yīng)對此種情況,只有利用大數(shù)據(jù)的非關(guān)系型數(shù)據(jù)識別分類技術(shù)來進行自動化、半自動化的海量數(shù)據(jù)清洗解析與挖掘。為后期的數(shù)據(jù)關(guān)聯(lián)分析建立良好的基礎(chǔ)。
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1).
[2]王鋒,王恒認(rèn).手機定位技術(shù)的應(yīng)用與問題——以犯罪偵查為視角[J].安徽警官職業(yè)學(xué)院學(xué)報,2013(6).
*證據(jù)科學(xué)教育部重點實驗室(中國政法大學(xué))開放基金資助課題(2010KFKT06)。
D
A
蘇洋(1978-),男,漢族,北京人,研究生,北京瑞源文德科技有限公司,研發(fā)經(jīng)理,研究方向:手機電子取證。