韓樂慷 周鈺晗 樊昊東 郭鵬 王賢麟
摘 要:電子郵件中的手寫分析是一種非常具體的調查形式,可通過電子郵件的語言特征來識別作者。電子郵件的內容往往比較短,作者的語言風格比較明顯。所以通過電子郵件的語言特征來識別作者具有一定的科學可行性,并且通過電子郵件語言特征識別身份的研究具有重要意義。本文建立了以邏輯條件順序為基礎的BP神經網絡預測模型。
關鍵詞:語言特征規劃 作者識別 bp算法 誤差反向傳播 預測檢驗
1.電子郵件的語言特征的用途
在電子郵件中蘊藏了豐富的各類有用信息,是進行計算機分析取證的重要內容之一,它能為案件偵破提供一些有力的線索。為提高使用效率,人們經常使用各類電子郵件客戶端(如Foxmail、Outlook Express、Microsoft Office Outlook等)來處理郵件。因此,分析各類郵件客戶端所保存的郵件數據文件也是計算機分析取證的重要手段之一。
此外,由于電子郵件的作者所運用的語言特征不同,通過電子郵件識別作者是十分科學可行的。電子郵件證據在涉網案件偵辦中的作用越來越重要。通過解讀大數據時代海量電子郵件分析的挑戰與機遇,提出了通過郵件各元數據信息的分析與挖掘、郵件關系分析和郵件行為分析,從而準確研判郵件聯系人的關系、涉案人員及涉案人員生活規律的分析思路。
2.研究電子郵件的作者身份識別問題的背景
目前,國內外的研究人員主要從兩個方面來研究電子郵件的作者身份識別問題。一方面是從物理信息(如電子郵件的頭信息、IP地址等)來研究獲取作者身份,但效果不盡人意。另一方面是試圖通過研究郵件內容來識別作者身份。
3.關于電子郵件語言特征識別的分析
3.1文本處理
本文電子郵件語言特征的識別從表層上分析可以作為一類特殊的文本處理。作者識別需要利用實現作者識別。當然收集的有效文本越多,越具有典型性,就越有利于得到更準確的結果。按照一定的方法和原則排除無關因素,將作者的可能范圍縮小到個人。關于作者的語言特征,主要通過詞匯頻率、特定詞匯頻率、標點、n-Gram字符串、特定語法特征、平均句長、作者的已有文檔作為參考,由于作者的寫作風格在一定時間內相對穩定,因此只要能挖掘出作者的語言特征就可以段落長度等特征的統計分析和經驗評價來確定電子郵件的作者。
3.2 SVM算法
基于SVM的中文郵件作者識別算法研究:支持向量機(support vector machine,SVM)是一種建立在由統計學習理論導出的結構風險最小化原則基礎上的機器學習算法。其主要思想是針對兩類分類問題,在高維空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率,而且SVM的一個重要的優點是可以處理線性不可分的情況。
3.3郵件特征
格式特征:郵件的格式特征包括稱呼語、問候語、敬語、簽名、日期、電子簽名、空行、空格、縮進等內外模式,格式特征的提取是通過提前識別標注和之后的統計計算得來的,在有這些格式特征出現的地方做好標注,就可以進行自動化統計,之后將對應的格式特征出現的權值標記為1,未出現的標志為0即可。
結構特征:中文郵件結構特征選取的是平均句長度、平均段長度、空行比率、空格比率、英文比率、數字比率、7種連續點號和7種點號與9種標號的比率。所有這些結構特征都是通過字符識別與統計計算得出的,很容易通過匹配統計的方法得到各種結構特征。
4.模型建立與求解
4.1模型一的建立。為了簡化模型,我們首先考慮選取單個郵件作為樣本
4.2模型一求解
第一步:網絡初始化
給各連接權值分別賦一個區間(?1,1) 內的隨機數,設定誤差函數e ,給定計算精度值ε 和最大學習次數M 。
第二步:隨機選取
隨機選取第k 個輸入樣本以及對應的期望輸出
第三步:隱含層計算
計算隱含層各神經元的輸入和輸出
4.3模型一檢驗
判斷網絡誤差是否滿足要求。 當誤差達到預設精度或者學習次數大于設計的最大次數,則結束算法。 否則,選取下一個學習樣本以及對應的輸出期望,返回第三部,進入下一輪學習。
5.結束語
人類都有本能習慣性,總想保持某些個人的特性,每個人都有獨特的行為方式,生物統計學特點等,而且都是潛意識的。我們可以通過提取電子郵件的各種特征,包括語言特征、頭信息、結構特征和格式特征,自動地把郵件分類到預定的作者類別中,所以通過電子郵件的語言特征識別作者將成為計算機取證的科學而可靠的技術理論依據。
參考文獻
[1] 滕桂法.中文電子郵件作者身份識別技術研究[D].北京師范大學,2005.
[2] 馬建斌.中文Web信息作者同一認定技術研究[D].河北農業大學,2010.