基于SVM的公安情報自動分類系統模型設計

2012-09-17 09:43:46譚敏范強

網絡安全技術與應用 2012年7期

譚敏范強

湖南警察學院計算機系湖南 410138

0 前言

在傳統的公安情報工作中，公安業務人員每天都要面臨著大量的情報文本，它們來自不同的渠道，例如：110接處警信息，公安偵查人員搜集的信息，公安內網發布的信息，互聯網的公開信息等等。據統計一個普通市級的公安部門每天就會接到幾千條，上萬條的情報信息。對于這些情報，公安機關需要安排專門的人員進行整理，以便及時分析研判情報，發布有價值的情報給上級部門和下屬的單位。這不僅耗費了大量的警力資源，同時由于工作的繁重和工作人員自身認知的差異也會造成情報整理分析的延誤和疏漏，造成不同程度上的損失。

針對傳統的公安情報工作的不足，研究文本自動分類技術，設計公安情報自動分類模型，實現公安情報文本的快速自動分類，即將偵查部門采集到的情報文本按照一定的策略自動歸類到已經設定的類別之中?？梢允勾罅康木瘑T擺脫繁重的手工識別情報工作，降低分類成本、改善分類性能(如提高分類精度和推廣性)，并提高情報文本分類的效率，為進一步的情報加工處理提供支持。為在新形勢下，建立和完善信息化、自動化的情報體系，推動“情息主導警務”戰略的落實具有重要的現實意義。

1 相關技術

1.1 Agent 技術

Agent技術是人工智能領域中的一個重要分支，以其所具有的智能性、自主性、交互性和可移動性等優點在許多研究領域中受到了重視。軟件Agent 是能夠與環境交互的自主軟件實體，較之軟件對象概念具有更多的知識，具有更強的問題求解和自治能力。它可以分為單 Agent 系統和多Agent(Multi-Agent)系統。多Agent系統是由一組獨立但又協同工作的Agent構成。各Agent 相互協商和協作，以完成某一共同任務。

1.2 文本分類過程

一般來講，文本分類過程需要解決以下幾個問題：

(1) 文本預處理

由于文檔都是非結構化的，而且文檔的內容是人類所使用的自然語言，計算機很難處理其語義，因此要進行必要的文本預處理。文本預處理是指把文本轉化為原始特征空間中元素的序列。對于不同語言書寫的文本，預處理過程和復雜程度不同。比如對于英語，預處理主要是去掉停用詞，還原詞形為詞干，得到“干凈”的文本。而對于中文，由于中文詞語是連續書寫，采用詞語作為特征項需要先從連續的文本中分離出一個個的詞語來，所以預處理階段的主要工作是分詞和去停用詞。

(2) 特征選擇

目前，在信息處理方向上，文本的表示主要采用向量空間模型(VSM)。構成文本的詞匯，數量通常相當大，因此，表示文本的向量空間的維數也相當大，可以達到幾萬維，所以有必要對于所獲取的特征進行篩選和優化，從特征的全集中提取一個最優的特征子集。特征提取的目的就是盡量地保留有用特征，剔除無用特征，它通常會采用某種標準對特征的重要性進行評價，之后只要保留重要程度較高的特征即可，特征提取的好處為提高分類效率和提高分類精度。文本的特征提取一般是構造一個評價函數，對特征集中的每個特征進行獨立的評估，提取的方法有多種，可以使用不同的評價函數，如：詞頻DF( document frequency threshold) 、信息增益 IG ( information gain) 、互信息 M I ( mutual information) 、期望交叉熵( expected cross entropy) 、文本證據權( the weight of evidence for text) 等，其中詞頻和互信息應用較廣。

(3) 文本向量表示

文本的特征表示是指用文本的特征信息集合來代表原來的文本。文本的特征信息是關于文本的元數據，可以分為外部特征和內容特征兩種類型。其中外部特征包括文本的名稱、日期、大小、類型、文本的作者、標題、機構等信息，文本的內容特征包括主題、分類、摘要等特征。目前，文本的向量表示主要采用向量空間模型(vector Space Model，VSM)，在該模型中，每一對象模型轉化為空間中的點，兩對象間的差異由多維空間中兩點間的距離表示。它的基本思想是以向量來表示文本。目前存在多種VSM權重計算公式，其中被廣泛采用的是TF一IDF公式。

(4) 選擇分類方法

選擇分類方法實際上就是要使用某種方法，建立從文本特征(或屬性)到文本類別的映射關系，是文本分類的核心問題?，F有的分類方法主要來自兩個方面：統計和機器學習，比較著名的文本分類方法有KNN， NaiveBayes，SVM等等。

(5) 性能評測

文本分類系統的建立，需要對系統使用的分類方法或選用不同參數下的分類器的性能進行評價，性能評價對改進和完善分類系統也具有指導意義。對文本進行分類可以看作是一種機器學習的過程，機器學習中常用的評估標準有分類正確率(classification accuracy)，查準率( precision)與查全率(recall)，查準率與查全率的幾何平均數，信息估值(information score)，興趣性( interestingness)等。

2 公安情報自動分類系統模型

基于支持向量機的公安情報自動分類分為情報預處理、特征提取、核函數選擇、支持向量機構造、公安情報分類、質量評估等步驟。

在分析公安情報分類主要過程的基礎上，可以結合當前比較先進的多Agent 的思想，來構建公安情報分類系統。即建立多個具有較高智能和自治能力的 Agent，每一個 Agent都能獨立完成公安情報自動分類系統中的某項功能，而 Agent之間則通過共享資源、相互協作、相互服務，共同完成整個任務，使得整個系統能夠具有自主性、主動性、反映性、可動性、協同性和智能性，從而取得最佳的效果(圖1)。

圖1 公安情報自動分類系統模型

2.1 情報預處理Agent

情報預處理Agent的主要任務是將公安信息語料按照一定比例分為訓練文本和測試文本兩類。再分別對訓練文本和測試分類文本進行分詞、去停用詞和詞性標注等預處理工作，此時得到的語料信息作為文本特征全集構成原始的特征空間。

2.2 特征提取Agent

將中文文本進行分詞后，通常每篇文本都對應著數量龐大的詞條，若直接用這些詞條組成向量，不僅維數太高，而且其中也包含了過多的干擾信息和冗余詞條，一方面影響算法的分類準確率，另一方面也增加了計算量，降低了算法的分類效率。為此，在不影響文本分類準確率的前提下，對分詞后的詞語進行選擇，只保留那些在文檔中表現能力強、與文本主題密切相關的對分類有貢獻的詞條。

特征提取Agent 的主要任務是，在進行分類處理之前，對情報文本中出現的詞條及其權值進行選取，以便將非結構化的文本表示成計算機學習和分類算法可以識別的形式。

在文本分類中，用于特征選擇的統計量主要包括特征頻度、文檔頻度、特征熵、互信息、信息增益、X2 統計量、期望交叉熵、文本證據權等。這些方法的基本思想是給每一個特征詞統計一定規則下的度量值，并根據實際情況設定某一閥值，然后去掉那些度量值小于閥值的詞條，保留度量值大于閥值的詞條作為特征詞。對于不同的分類算法，各種特征提取方法的效率都不盡相同。根據研究，對支持向量機分類方法來說，信息增益和X2統計量的方法要優于其他幾種。

2.3 核函數選擇Agent

要構造出一個具有良好性能的 SVM，核函數的選擇是關鍵。采用適當的核函數可以在不增加計算復雜度的情況下實現某一非線性變換后的線性分類，核函數的這一特點提供了解決“維數災難”的方法。核函數的選擇包括兩部分：一是核函數類型的選擇；二是確定核函數類型后相關參數的選擇。

核函數選擇 Agent 的主要任務是選擇適當的核函數作為構造支持向量機的基礎。常用的核函數有線性核函數、多項式核函數、徑向基核函數和 Sigmoid 核函數等，它們各有不同的優點和適用場合。徑向基核函數具有良好的性能，在缺乏問題先驗知識時其適應性是最好的，它能夠處理非線性的情況，而在參數取某些特定值時，又和線性核函數或Sigmoid 核函數的性能相似。徑向基核函數的另一個優點是它只有一個核參數，比多項式核函數和 Sigmoid 核函數的參數少，在選擇參數時比較方便。

2.4 支持向量機構造Agent

支持向量機的目標是找到一個超平面，使得它能夠盡可能多的將兩類數據點正確分開，同時使分開的兩類數據點距離分類面最遠。支持向量機構造Agent 的主要任務是在經過核函數映射的高維空間內，按照模式識別、統計學習和最優化理論闡述的有關方法，針對訓練樣本集構造最優分類超平面，從而求解出符合結構風險最小化原則的最佳分類函數，構造支持向量機分類器。支持向量機的主要優點是將降維和分類兩個問題集中處理。研究表明，支持向量機的分類性能超過其它分類算法，而且訓練速度與 Rocchio 算法相當。

2.5 分類Agent

公安情報分類 Agent 的主要任務是通過由訓練樣本構造出來的支持向量機來對情報文本進行分類。標準 SVM 最基本的理論是針對二分類問題，然而，在實際應用中有許多分類問題，要解決多分類問題必須輔以一定的策略，常用的方法有：標準算法、一對一方法、k 類 SVM 方法、決策導向循環圖方法。

2.6 性能評測Agent

質量評估Agent的主要任務是對通過情報分類得到的分類結果和分類模式進行評價解釋。查準率和查全率是最為傳統、也是應用最多的兩個評價指標。查準率體現了系統分類的準確程度，查全率體現了系統分類的完備性。查準率和查全率兩個評價標準通常情況下是互補的，單純提高其中一個指標會導致另一個指標的下降。理論上講，一個優良的分類系統應該同時具備較高的查準率和查全率。但實際上，大多數系統需要在二者之間做出一些折衷，以免某個指標過高或過低。

3 總結

本文在深入研究文本自動分類技術和多Agent技術的基礎上，結合公安情報的分類需求，基于支持向量機(SVM)設計了公安情報自動分類系統模型。多Agent文本分類是對以往多種文本分類方法賦予其智能性的系統集成，盡管研究工作離實用尚有一段距離，但不失為文本分類的一條新的研究途徑。

[1]趙天昀.多分類SVM在企業競爭情報自動分類中的應用[J].現代情報.2008.

[2]吳紹忠.WEB信息挖掘與公安情報收集[J].中國人民公安大學學報.2006.

[3]閆超.基于 SVM 的中文文本自動分類系統的研究與實現

[D].太原:太原理工大學碩士學位論文.2010.

[4] 牛琳.基于 SVM 的公安情報自動分類系統的設計與實現[D].解放軍信息工程大學碩士學位論文.2007.

[5]熊浩勇.基于 SVM 的中文文本分類算法研究與實現[D].武漢理工大學碩士學位論文.2008.

[6]王賢川.基于知網的文本分類算法研究及應用[D].南京:江蘇大學碩士學位論文.2009.

[7]岑杰.面向情報領域的文本自動分類系統的設計于實現[D].西安:西安電子科技大學碩士學位論文.2008.