郭 琦,姜 紅?,吳克難,楊金頡,段 斌,劉 峰
(1.中國人民公安大學偵查學院,北京 100038;2.武漢理工大學計算機科學與技術學院,武漢 430070;3.南京簡智儀器設備有限公司,南京 210049)
根據相關規定,不同構成成分的塑料制品分為7類,并分別用數字1~7加以標示,分別為:1-PET、2-高密度聚乙烯(PE-HD)、3-聚氯乙烯(PVC)、4-低密度聚乙烯(PE-LD)、5-PP和6-PS、7-PC其他類[1]。隨著電子商務迅猛發展,以一次性包裝、一次性餐具為代表的塑料制品用量快速增加[2]。一次性塑料杯蓋類塑料物證在案件現場出現頻率明顯提升。
塑料生產廠家一般會用內標數字的三角箭頭標明塑料產品成分,但市面上存在大量“三無”塑料杯蓋產品,案件中也常見杯蓋污損、標識模糊等情況。根據用途不同,杯蓋分為冷/熱飲;根據形狀不同,杯蓋分為圓弧形、直飲式等,不同生產廠家生產制品的成分與填料含量也不同。一次性杯蓋外觀形狀差異小,對于其種類及品牌的溯源存在困難。
在法庭科學中,紅外光譜法、X射線熒光光譜法和拉曼光譜法等都是常見的塑料制品檢驗方法[3-4],差分拉曼光譜技術運用相關算法分離2個激發激光的差分信號和基線偏差,有效消除了熒光干擾,可以用于更準確的特征譜圖[5]。 Knipfer等[6]利用差分拉曼光譜技術采集離體口腔癌樣本,有效區分惡性和良性組織的光譜,為非侵入性客觀診斷口腔癌提供了新的診斷思路。
支持向量機(SVM)是一種有監督的機器學習方法,即在已知訓練數據類別的前提下,建立一個或多個分類超平面,該曲面能夠正確分類不同種類樣本,且使分類后的樣本點距離此決策平面最遠,由此將訓練數據按照類別識別,并預測未知數據對應類別[7]。李志豪等[8]以兩類易制毒化學品和易燃易爆化學品為例,采集拉曼圖譜,對比分析公安工作主流機器學習算法的預測準確度均高于70%。王梓笛等[9]利用拉曼光譜技術對乳制品進行采樣,將光譜數據數據作為表征數據輸入支持向量機模型,實現3種品牌乳制品分類準確度100%。支持向量機模型對于小樣本、非線性及高維模式識別時有很大的優勢[10]。
本實驗首先利用人工分析塑料杯蓋官能團對應峰位的區別后,對數據進行K-均值聚類,并引入Calinski-Harabasz(CH)指標優選類別數,最后提取差分拉曼光譜譜圖的方向梯度直方圖和灰度共生矩陣2個特征向量,建立支持向量機模型,輸入圖譜即可得到較為準確的分類及預測。
不同來源、不同種類的一次性塑料杯蓋樣本48個,涵蓋30個市面常見的餐飲業品牌,包括奶茶品牌“一點點”、“coco都可”,快餐品牌“肯德基”等。
便攜式差分拉曼光譜儀,SERDS Portable-standard,南京簡智儀器設備有限公司。
將樣本分別剪取成1 cm×1 cm的單層矩形,用酒精棉片擦拭,置于通風處晾干,依次放在金屬墊臺上,使用儀器進行檢驗。
差分拉曼光譜實驗條件設置為:激發光源波長分別為785、785.5 nm;激光功率為220 mW;積分時間為20 s;
穩定性性能測試:為了驗證儀器的穩定性,以確保實驗結果可靠性,隨機選取1#“嘻哈有飲”不透明直飲式杯蓋樣本,在上述實驗條件下進行10次測定檢驗(如圖1所示,1~10分別表示第1~第10次測試)。

圖1 1#樣本10次重復檢驗的差分拉曼光譜圖Fig.1 Differential Raman spectrogram of sample 1#with ten repeated tests
分析48個樣本的差分拉曼光譜譜圖,根據主要組成成分基團對應的波峰[11-12],可以將樣本分成3類,分類結果如表1所示,3類樣本的種類分別是PP、PS、PET,表2展示了3類樣本相應振動基團的對應峰位。

表1 48個樣本的分類結果Tab.1 Classification results of 51 samples

表2 振動基團對應峰位表Tab.2 Table of corresponding peaks of vibrational groups
3類譜圖中除了PP、PS、PET的特征峰,還有其他特征峰存在,這是由于在塑料的生產過程中,為了提高性能,降低成本,通常會添加增塑劑、抗氧化劑、阻燃劑等輔助化學試劑[13]。不同廠家添加助劑的種類和多少具有特異性,因此選擇特征樣本進行區分:
對于同一品牌不同系列,選取5#“便利蜂”熱飲杯蓋和17#“便利蜂”冷飲杯蓋譜圖對比,5#樣本構成成分為PS,而17#樣本構成成分為PET,譜圖容易區分。對于同一品牌不同款式,選取20#“肯德基”大杯冷飲杯蓋和23#“肯德基”中杯冷飲杯蓋譜圖對比,2個樣本組成成分均為PS,但是同一波長對應峰高不同,可根據相對峰高比進行區分。對于不同品牌同一材質選取24#“四云奶蓋貢茶”和25#“斯卡酸奶”樣本譜圖進行對比如圖2所示,2個樣本組成成分均為PP,但是可以根據1 127 cm-1處是否有峰,判斷是否有硬脂酸鈣[14]的添加,從而進行不同品牌的區分。

圖2 不同樣品的茶粉拉曼觀光普譜圖對比Fig.2 Comparison of spectra of different samples
通過分析譜圖可以人工將所有樣本區分開,但是此方法費時費力,且無法避免偶然誤差影響,因此引入多元統計學方法對一次性塑料杯蓋樣本進行區分[15]。K-均值聚類是一種根據數據變量與聚類中心的相似情況,迭代更新聚類中心位置,降低類簇的誤差平方和(SSE),直至SSE停止變化或目標函數收斂時,分類停止的一種無監督性聚類方法[16]。但是該算法受初始K值影響極大,為了優選最佳類別數,本實驗使用Calinski-Harabasz(CH)評價指標[17]以確定最優類別數,該指標是一種基于樣本的簇內距離和簇間離差矩陣的測度[18],其判斷函數如式(1)所示:

式中n——數據樣本數目
k——類別數
簇內平方誤差和(WGSS)用來度量簇內的緊密度,如式(2)所示:

nk——第k簇的樣本數量
簇間平方誤差和(BGSS)用來度量簇間的分離度如式(3)所示:

ni——第i簇的樣本數量
簇內距離越小,簇間離差距離越大,則CH指標越大,聚類效果越好,即可優選最合適的類別數,圖3為CH指標隨類別數變化的曲線。由圖3可知,CH指標先上升,在類別數為5時達到最高點后快速下降,當類別數大于8時,K值逐漸增加,但是仍然小于最高值,因此,當K值為5時,分類效果最佳,以此進行K-means聚類,優化質心初始化后,設置每次迭代的最大次數為300,用不同的質心初始值運行算法的次數為10次,得到樣品聚類結果見表3。

圖3 CH指標可視化曲線Fig.3 Visualization curve of CH index

表3 K?means聚類結果Tab.3 K-means clustering results
可以看出,PP類樣本被細化分為第Ⅰ類和第Ⅲ類,PET類樣本被細化分為第Ⅱ類和第Ⅳ類,可能由于PS類型樣本的官能團與其他類樣本差異明顯,所有PS類樣本被分至第Ⅴ類。此分類結果并未出現受初始質心隨機選取容易陷入局部最優解的顯著錯誤,從而反證優選K值為5是合理的。
圖4介紹了支持向量機模式分類識別算法的具體實施步驟,為了確保測試集數據涵蓋性廣,使用randperm函數實現在每一類樣本中隨機抽選樣本數,總和達到總樣本數的83%(40個)構建數據訓練集,以剩下的17%(8個)樣本數據作為測試集搭建支持向量機模型。

圖4 支持向量機分類識別步驟Fig.4 Classification and recognition steps of support vector machine
本實驗提取譜圖的方向梯度直方圖和灰度共生矩陣2個特征。方向梯度直方圖計算并統計局部區域特征,灰度共生矩陣提取整體紋理特征,合并特征向量后訓練構建支持向量機模型。選擇可以將樣本特征從低維輸入空間映射到高維特征空間的徑向基核函數,用于解決非線性關系[19]。
使用軟件自帶的訓練svm函數中的fitcecoc函數建立多分類支持向量機,可以用predict函數進行預測分類,然后通過圖像窗口直觀看到輸入數據的分類結果。多次訓練得到支持向量機模型后,將隨機選取的測試集樣本提取特征向量輸入支持向量機模型,得到結果如圖5所示,分類結果可直接顯示在圖下。

圖5 測試集樣本識別結果示例——分類結果:1Fig.5 Sample recognition results of test set——classification results:1
混淆矩陣是一種用于評價分類結果的方法。混淆矩陣中的行對應變量的真實類別,列對應支持向量機的識別類別。對角線上的元素表示分類器正確識別的數量,若非對角線元素不為0則表示存在錯誤分類,可以通過計算混淆矩陣對角線上的值占每行總數的比值來評價結果[20]。由表4可得,測試集樣本的識別準確率為100%。這一結果與K-均值聚類結果相互印證,同時,經過大量數據訓練出的支持向量機模型,能夠實現對未知樣品的分類。

表4 混淆矩陣及準確率Tab.4 Confusion matrix and accuracy
(1)實驗采用位移差分拉曼光譜技術對一次性塑料杯蓋做無損性檢測,根據PE、PET、PP 3類塑料官能團對應峰位不同對其人工分類,并探討了同一或不同類別的不同樣本的譜圖差異;
(2)對數據進行系統聚類后為優選最佳類別數,實驗引入CH指標為評估方法,作出CH指標隨類別變化的折線圖后得到,當類別為5時,CH指標數值最大,因此可以將K值定為5,K-means聚類結果是PP、PET等粗分類的細化,進一步證明K值較優;
(3)隨機抽取樣本數據集83%作為訓練集建立支持向量機模型,隨剩余17%作為測試集的數據做混淆矩陣判斷其準確率,結果顯示,該方法有效支持向量機運行時間長的缺點,并實現了測試集準確率100%的成果。