近年來,先進的刑事圖像處理技術給公安機關的偵查工作帶來極為顯著的成效。運用刑事圖像處理技術,能夠為偵查過程中所涉及的刑事照相、圖像增強、圖像復原、圖像測量等工作提供更加科學的技術支持和更為嚴謹的法律保證。其中,K-Means均值聚類算法在刑事圖像分析中有著較廣泛的運用。
聚類分析是分類學中的一個分支,但兩者之間存在著本質的區別。就目標而言,聚類算法處理數據的分類目標是未知的,而分類是按照預先設定的類別標準進行數據處理。聚類算法作為一種重要的數據分析方法[1],基于層次、劃分、密度、網格、模型等可分為不同的聚類算法,在實際使用中根據不同的數據量、數據類型、數據維度等應用于不同的領域。K-Means 聚類算法由Steinhaus 于1955 年首次提出,自它被提出后的60 多年中,K-Means算法一直是聚類算法中運用范圍最廣、使用頻率最高的算法,這主要得益于其簡易的算法、快速收斂的特性和處理大量數據的性能,但K-Means 聚類算法主要有兩點局限性,一是只能適用于連續型數據,二是很難處理高緯度數據。因此本文選擇K-Means聚類算法對包含背景干擾因素的圖像進行細節分析,便于后期圖像分割。
K-Means 聚類算法在n 個數據中隨機選取k 個數據作為質心(k 為目標生成的族數,k ≤n),運用歐幾里得距離、余弦相似度等比較剩余數據與質心之間的幾何相似度,并劃分到k 個族。在新劃分的族內通過算法計算新的質心,再次根據幾何相似度劃分族,不斷重復上述過程,直到重新計算后的質心趨于穩定,即達到收斂條件為止。K 值的選取與初始質心的位置會直接影響聚類效果,為了直觀評價聚類效果,可以依據畸變程度。畸變程度就是質心與族內數據幾何位置距離的平方和:

其中,Ai為第i 族,pi為Ai的質心。當k 值確定,隨著算法的運行,pi趨向于穩定,平方和數值即代表當前k 值所對應的畸變程度。平方和越小,表明畸變程度越低,族中的數據點越緊湊,聚類的效果就越好。同理,如果畸變程度的值越大,就表示類中的各個數據點越是分散。K-Means 聚類算法中各個族之間相互獨立,因此算法具有很強的獨立性,計算的結果也比較穩定,在刑事圖像處理中能夠對模糊或者有干擾的圖片進行分析處理,對案件需要的特征進行細節分析。
圖像分割是分離前景目標與背景的一種處理方法,是圖像處理中的重要環節,分割的結果是后續圖像分析的基礎。圖像分割根據分割方法的不同分為多種,其中閾值分割是灰度圖像處理中較為常用的方法。閾值分割法可以用函數表示:

其中,f(i,j)表示(i,j)位置的像素強度值,t 為閾值參數。當圖像某位置的像素強度值高于或者等于閾值t,則標記為1,反之則標記為0,以此實現圖像的分割。由此可見,閾值參數t 是閾值分割法中的核心要素,對于最終效果起著決定性作用。但在實際圖像分割中,閾值參數很難確定。而 K-Means 聚類算法可以聚類分析圖像,使得同族盡可能相似,不同族間顯現差別,從而簡化圖像,加大前景目標與背景的差異性。因此,利用K-Means聚類算法對圖像進行預處理,為后續圖像分割提供閾值參數。
運用K-Means 聚類算法時,首先要確定元素k的值。k 是算法中十分重要的元素,必須優先找到最佳聚類數。計算最佳聚類數的方法主要有兩種,一種是輪廓系數法,由于k 值往往不會太大,實際操作中可以從2 開始選取k 值,然后利用MATLAB對圖片中K 族中的向量計算輪廓系數S。對于某一族中的向量p 來說:

其中,a(p)=avg(p 向量與本族的其他向量的相似度),b(p)=min(b 向量與其他族中所有向量的平均相似度),S ∈[-1,1]。將圖片的輪廓系數進行制圖,通過輪廓系數的正負值的對比和輪廓邊界的變化的陡峭度來判定最佳的K 值選取。輪廓系數大于0,即內聚度高,聚類效果較好。如果輪廓系數變化的陡峭程度較大,即圖像出現錯誤且不易收斂,聚類效果較差。但輪廓系數法所確定的k 值不一定是最佳聚類數,這時應當利用SSE 進行輔助判斷,也就是“肘方法”。運用肘方法時,令k 從2開始取值,依次計算每個k 值所對應的SSE,并繪制k 與SSE 的變化曲線,計算曲線在每一點處的曲率,曲率最大的點即為最佳聚類數。確定k 值后,把圖像中的各個像素用相應的特征向量表示,選取圖像中族的一個均值的向量,通過圖像的迭代處理,將微觀特征劃分為不同區域,再將迭代結果進行逐個重組,進行另一次聚類,從而達到收斂的效果。
目前,以審判為中心的訴訟制度改革不斷推進[2],對案件相關證據的科學性提出了更高的要求。在刑事活動中,帶有重要證據的一些圖片或者錄像可能存在著背景及其光線或者其他的一些干擾因素,極大地削弱了圖片的證據能力和證明力,從而導致圖片無法作為定案的根據和庭審中的關鍵性證據。目前的指紋圖像通常以灰度圖像呈現,灰度圖像僅有一個通道信息,通常有2 的8 次方,也就是256 個灰度級(以8 位深度圖像為例),范圍介于0 到255。因此,閾值分割法對灰度圖像有很好的處理效果。這里運用指紋圖像的分割處理作為實例,探究K-Means 聚類算法在圖像處理中的應用。現有的指紋識別是將刑事現場的指紋圖像與數據庫中的指紋圖像進行特征點比對,而比對的關鍵在于手指表面特定性和穩定性較強的乳突花紋細節特征,例如小勾、小眼、小橋、小點等。因此,在刑事圖像處理中,細節特征的保留就顯得尤為重要。
以一張帶有干擾因素的指紋圖片K-Means 聚類算法處理為例。圖1 為一張帶有背景干擾的原始指紋圖片,部分乳突花紋的細節特征在背景的干擾下很難識別。針對這一類圖片,利用K-Means 聚類算法對圖片進行細節處理,達到排除干擾因素的效果。首先利用2.2 節中輪廓系數法和肘方法確定出最佳聚類數k,再根據隨機生成的k 個初始質心,利用相似性把圖片像素分成k 個族,將指紋特征點分配到最近的族中,再將每一族中的特征點取均值,作為新的k 個質心,進行新一輪的分族,不斷迭代處理,直到質心的位置趨于穩定為止。此時,同族中相似性較大,而不同族之間差異性較大。通過這樣的處理算法,可以在保留了指紋乳突花紋的細節特征的同時,弱化了背景,加大了乳突紋線與背景的差異性。最后從結果中選取最大的灰度值,即乳突紋線位置的灰度值作為閾值進行圖像分割,除去灰度值小于閾值的背景,得到純指紋圖像,如圖2。

圖1 原始指紋圖

圖2 處理后的純指紋圖
現代圖像處理技術更新換代異常迅速,隨著大數據和云計算時代的到來,在公安刑技方面的重要性愈來愈強,為公安工作提供了可靠的技術支撐。同時以審判為中心的訴訟制度改革將對刑事圖像處理技術提出更加嚴格的要求,K-Means 聚類算法在具體的刑事圖像處理中也將針對自身的局限性不斷優化和完善。