劉新磊,韓丹巖,肖 強,楊尚鵬
〈紅外應用〉
紅外光譜結合化學計量學檢驗直液式走珠筆墨水
劉新磊,韓丹巖,肖 強,楊尚鵬
(中國刑事警察學院,遼寧 沈陽 110035)
檢驗鑒定書寫墨水是法庭科學領域中一項重要的工作。利用傅里葉變換紅外光譜儀對市面上常見的20種直液式走珠筆墨水樣品進行檢驗,采取化學計量學實現了對直液式走珠筆墨水的快速檢驗。對傅里葉變換紅外光譜數據做標準化處理,采取自動基線矯正、峰面積歸一化、Savitzky-Golay 5點平滑3種方法對譜圖做預處理,通過誤差平方和指標(sum of the squares errors, SSE)確定分類K的最優取值,對樣品進行K-均值聚類分析并解釋聚類結果。采取主成分分析方法驗證K-均值聚類的結果,利用組均值均等檢驗考察主成分變量對Fisher判別分析(Fisher discriminant analysis, FDA)模型的貢獻程度,構建直液式走珠筆墨水的FDA判別模型。結果表明,K-均值聚類將全部墨水樣本聚類為3類,PCA-FDA(principal components analysis-fisher discriminant analysis)模型能夠對不同類別直液式走珠筆墨水達到100%的預測分類,經交叉驗證后正確率達到100%。紅外光譜與PCA-FDA模型結合可用于直液式走珠筆墨水的快速、準確檢驗鑒定。
直液式走珠筆墨水;傅里葉變換紅外光譜;化學計量學;判別分析
直液式走珠筆是一種借鑒了鋼筆結構的走珠筆,與傳統的走珠筆相比,墨水流動性更好,其墨水的性質與鋼筆相似,比中性筆的墨水更稀,目前成為了市場上主流書寫工具。因此建立直液式走珠筆的油墨種類鑒別方法對于司法鑒定工作具有重大意義。書寫墨水的種屬鑒定一直是法庭科學領域的研究重點,不僅可以為文件真偽鑒定提供依據[1],還能縮小偵查范圍[2],成為認定案件事實的證據。目前國內法庭科學領域區分直液式走珠筆這種新型筆種墨水的文獻較少[3],而傳統檢驗筆墨水成分的方法有光學檢驗法、色譜法、質譜法[4]、光譜法等方法[5]。其中質譜法[6]、色譜法、溶解法均屬于有損檢驗,不符合當今無損檢驗的主流,破壞了檢材案發時的完整性,而光譜法具有快速、無損檢驗的特點,廣泛應用于墨水檢驗中[3]。
國內外學者針對墨水檢驗展開了許多實驗研究,證實了傅里葉變換紅外光譜法結合主成分分析可以檢驗墨水[7-9],也有學者嘗試將化學計量學[10-14]等技術應用于墨水、紙張等物證的檢驗,然而這些檢驗方法較為依賴樣本標簽,大多根據人為預設標簽構建模型對樣品進行大致分類,且缺少了評估分類變量對模型的貢獻程度,難以做到客觀、準確地檢驗墨水。目前K-均值聚類與組均值均等檢驗具有較好的穩定性,已被用于藥物、細菌的檢驗,并且得到了較好的結果[15-16]。因此本文嘗試結合光譜數據與K-均值聚類預先得出分類標簽,采集市面上常見的20個直液式走珠筆樣品,利用傅里葉變換紅外光譜儀對樣品進行檢驗并獲得紅外光譜譜圖[8],采取自動基線矯正、峰面積歸一化、Savitzky-Golay5點平滑3種方法對譜圖做預處理后,通過誤差平方和指標(sum of the squares errors,SSE)確定最優取值,對樣品進行K-均值聚類得到樣品的初步聚類結果,將聚類結果作為分類標簽,采用主成分分析[10]對原始數據降維,對樣品進行分類,利用組均值均等檢驗考察主成分降維后的變量對Fisher判別模型的貢獻程度,根據考察結果選取判別函數建立Fisher判別模型,從而為直液式走珠筆油墨的快速鑒定提供一種新的方式。
傅里葉變換紅外光譜(Fourier transform infrared spectroscopy, FTIR)是一種通過數學處理將傅里葉變換,結合計算機與紅外光譜技術的分析方法。傅里葉紅外光譜法首先測量目標干涉圖,通過對該圖進行傅里葉變換獲得對應的紅外光譜數據,是一種無損、快速檢驗樣品成分的方法[17]。
組內誤差平方和代表數據誤差大小的偏差平方和。隨著聚類的類別值增加,樣品會被歸類到更加精細的簇中,SSE會隨之減少,期間SSE的下降幅度會驟減形成一個拐點,然后隨著值的繼續增大而趨于平緩,該拐點就是聚類類別值的最優取值。
K-均值聚類是一種劃分樣本為個集合的聚類算法,是無監督學習類型的算法,通過迭代找到最佳聚類個數的一種劃分方案,使得用個聚類的均值來表示相應各類樣本時所得到的總體誤差最小,所以K均值聚類是以最小誤差平方和為劃分集合依據的聚類算法。其原理是根據預先設定的值,將個樣本作為聚類的個聚類中心,計算所得其余樣品和每個聚類中心的歐幾里距離,將其余樣品分配給距離最近的聚類中心,通過多次迭代達到最優結果。
主成分分析(principal components analysis, PCA)是一種降低光譜數據特征維度的方法,通過線性變換把原始數據從原始坐標系統變換到一個新坐標系統中,從而達到降低原始數據特征維度,同時獲得對原始數據信息方差貢獻最大的特征。可通過主成分分析提取樣品光譜數據的最大主成分,進一步構建2維主成分得分圖,驗證K-均值聚類結果的準確性。
組均值均等檢驗的目的是評價分組變量對分組模型貢獻程度,將分組變量作為因子得出每個自變量的單因素ANOVA(analysis of variance)分析結果,根據分析結果得出對分組模型貢獻程度較高的變量,之后用該變量構建Fisher判別模型。
判別分析是在樣本分類確定的前提下,按照未知樣品特征所反映的信息判別其類別歸屬的一種統計分析法。按照相應的規則,構建一至多個判別函數,根據已有樣品的大量數據信息計算待定系數從而確定判別函數,計算判別指標,進而推斷未知樣品的歸屬[18]。
實驗儀器為NICOLET5700傅里葉變換紅外光譜儀,分辨率4cm-1,掃描次數16次,掃描面積為100mm×100mm,掃描范圍4000~400cm-1。
從各地收集不同品牌、不同型號樣本共20個,均為黑色墨水,其中樣品1~樣品10為白雪品牌,樣品11~樣品13為晨光品牌,樣品14~樣品20為百樂品牌。
用收集到的直液式走珠筆油墨樣品制作檢材,在上述實驗條件下進行檢測,為了保證數據的可復現性,每份檢測均檢測3次,以確保實驗結果的可靠性[19]。光譜數據中存在大量冗余信息,會影響后續化學計量學方法的使用,因此采用The Unscrambler X 10.4(挪威CAMO公司)對光譜信號進行自動基線矯正、峰面積歸一化、Savitzky-Golay5點平滑處理[20]。下面將通過化學計量學對樣品光譜數據進行分析[21]。
的取值很大程度上決定了K-均值聚類的準確性,故引入手肘法(elbow method)確定的最優取值,手肘法的核心指標是SSE,如式(1)所示:

式中:C是第個簇;是C中的樣本點;m是C的質心(C中所有樣本的均值);SSE是所有樣本的聚類誤差,SSE值越小代表聚類效果越好。
聚類數值的增大會使得樣本相應簇的劃分更加精準,SSE會逐漸變小。因此從小到大逐漸增加的過程中,SSE會逐漸變小,期間會存在一個真實聚類數的臨界點,當值從臨界點左側增加到真實聚類數時,SSE會發生迅速地下降,然后隨著逐漸增大趨于平緩。SSE和關系圖會有一個拐點,該拐點對應的值就是數據的真實聚類數。從圖1可知,從1~3時下降得很快,當取值≥3后,曲線下降逐漸趨于平緩,所以最佳聚類個數為3。

圖1 SSE與簇的數量關系圖
當=3時,對樣品進行K-均值聚類,聚類結果圖如圖2所示。
由圖2可得,當=3時,所有樣品在二維平面被顯著地分為了3類,且各類樣品在紅外譜圖中存在明顯的區別,表現為:第一類樣品(7#)中存在CS伸縮振動,CH面內彎曲振動以及C=C伸縮振動,出峰位置分別為1172cm-1,1388cm-1以及1577cm-1;第二類樣品(13#)中存在972cm-1的CH的變形振動,以及1353cm-1和1470cm-1的CH的面內彎曲振動;第三類樣品(18#)中存在1461cm-1的CH的面內彎曲振動,結果如表1和圖3所示。為了驗證K-均值聚類這一無監督學習的準確性,根據聚類結果劃分樣品的類別,采用主成分分析將各個類別的樣品投影到二維平面進行驗證。

圖2 K-均值聚類結果

表1 樣品聚類結果

圖3 三種樣品紅外譜圖比較
主成分分析是一種無監督學習的方法,通過將原始多維數據投影到新坐標系統重新組合成一組新的線性無關數據來代替原始數據,同時盡可能地反映原始數據特征信息[21]。PCA共提取了6個PC,圖4顯示了不同PC的方差貢獻率及累計貢獻率,其中PC1方差貢獻率最大,為80.466%,前6個PC的累計方差貢獻率為98.556%,包含了原始數據的絕大多數信息。以PC1、PC2和PC3繪制PCA的2維主成分得分圖,如圖5所示,樣本基于其在PC1、PC2、PC3上的得分被分為了3類,組內距離較小,組間距離較大,驗證了K-均值聚類的聚類結果。考慮到實際中需要預測未知樣本,本文采用Fisher判別分別建立3類樣品的預測模型。

圖4 各成分貢獻率分布圖
為了實現對未知樣品的預測,構建Fisher判別模型前,使用組均值均等檢驗考察分組變量對分組模型貢獻程度。組間均方與組內均方的比值為F統計量,兩個自由度分別為自由度1(df1)和自由度2(df2),分別表示殘差平方和自由度和回歸平方和自由度,自由度1為分子,自由度2為分母,兩個自由度用來得到觀測顯著性(Sig值)。顯著性(Sig)和Wilks’lambda是評價分組變量的標準。Sig值表示區分不同組別的能力,如果Sig值較小(Sig<0.10)則表明組間差異較為顯著,如果Sig值較大(Sig>0.10)則表示組間差異不顯著。PC1的Sig值為0.000,表面PC1在各組間的差異不顯著。組內平方和與總平方和的比值為Wilks’lambda,值的范圍在0~1之間,值越小表示組內有很大差異,值接近1表示沒有組內差異。根據K-均值聚類結果劃分樣品類別,用組均值均等性檢驗,結果如表2所示,PC3~PC6的Wilks’Lambda均大于0.97,表明這4個變量組內差異很小,對模型影響不顯著,且sig值均大于0.10,表明這四者不能充分解釋各樣本的分類情況。PC1和PC2的Wilks’Lambda均接近0,表明這兩個變量對判別模型影響的顯著性極高,且Sig值均為0,可表明這兩個變量可以很好地解釋各樣本的分組信息。因此選取前兩個變量構建Fisher判別模型。

圖5 PCA得分圖

表2 各組平均值的均等性檢驗
在構建Fisher判別模型中使用前兩個典則判別函數1和2,其中1=-0.028PC1-24.94PC2-10.932,2=34.764PC1-39.654PC2-48.976。表3為Fisher判別函數摘要,判別函數1(1)的方差貢獻率為81.0%,判別函數2(2)的方差貢獻率為19.0%,兩者累計方差貢獻率達到了100%,表明這兩個函數能完全反映樣品光譜特征中的信息。1和2的相關性大于0.95,表明不同樣本類別與1和2的相關性很強。觀察到1和2在函數檢驗(Function test)中的Wilks’Lambda數值分別為0.002和0.083,均接近0,表明這兩個判別函數對模型影響的顯著性很高,Sig值均為0,表明這兩個判別函數對變量的可解釋度很高,具有充分解釋樣本分類的能力,綜上選用1和2這兩個函數作為判別函數,構建Fisher判別模型進行分類,用留一法(Leave-One-Out Cross Validation)作為驗證模型的方法。選擇函數1(1)和函數2(2)繪制判別函數聯合分布圖,如圖6所示。由圖6和表4的結果可得,該判別模型對3類樣本實現了正確率100%的分類,同時經過留一法驗證后模型正確率仍為100%。如果需要區分未知樣品,只需將該樣品相應的紅外光譜數據輸入模型,判別函數聯合分布圖中就會顯示出該未知樣品位置及與其相距最近的分組質心,從而推斷出未知樣品屬于哪一類別。

表3 Fisher判別函數摘要

圖6 判別函數聯合分布圖

表4 分類結果
本文借助了傅里葉變換紅外光譜儀對20種直液式走珠筆墨水成分及含量進行了快速無損檢驗,建立了一種鑒別直液式走珠筆墨水類別的方法。首先對樣品的傅里葉變換紅外光譜數據進行自動基線矯正、峰面積歸一化、Savitzky-Golay5點平滑3種預處理方法。采取組內誤差平方和指標得出K-均值聚類的最優取值,對樣品進行K-均值聚類,實現了對直液式走珠筆墨水樣品初步分類。對各類樣品K-均值聚類結果進行主成分分析,繪制主成分二維得分圖使各類樣品之間的關系更加明確,同時驗證了K-均值聚類結果的準確性。使用組均值均等檢驗評價PCA降維后的分組變量對FDA模型的貢獻程度,得到兩個具有較高貢獻程度的判別函數,用該判別函數構建Fisher判別模型對3類樣本進行分類識別,3類樣品均被正確地分類為實際對應的3種品牌,分類正確率達到100%,交叉驗證后預測正確率為100%。可通過該模型對案件涉及的未知直液式走珠筆墨水物證進行快速分類,為司法檢驗鑒定提供幫助。
[1] 趙巍, 高樹輝. 基于超光譜技術檢驗添改文件的實驗研究[J]. 中國人民公安大學學報:自然科學版, 2019, 25(1):11-15.
ZHAO Wei, GAO Shuhui. Experimental study on inspection of added and modified documents based on hyperspectral technology[J].: Science and Technology, 2019, 25(1): 11-15.
[2] 林建成, 梁魯寧, 黃建同, 等. 顯微激光拉曼光譜技術檢驗彩色激光打印機打印文件墨跡的實驗研究[J]. 光散射學報, 2015, 27(4): 374-378(DOI:10.13883/j.issn1004-5929.201504012.).
LIN Jiancheng, LIANG Luning, HUANG Jiantong, et al. Experimental study on ink marks of documents printed by color laser printer with micro Raman spectroscopy[J]., 2015, 27(4): 374-378.
[3] 國中正, 陳維娜, 王曉賓, 等. 超光譜技術結合化學計量法區分直液式走珠筆墨跡種類[J]. 理化檢驗(化學分冊), 2020, 56(8): 878-882.
GUO Zhongzheng, CHEN Weina, WANG Xiaobin, et al. Hyperspectral technology combined with chemometrical method for distinction of ink type of straight liquid ballpoint pen[J].(Part B:Chemical Analysis), 2020, 56(8): 878-882.
[4] 王舒超, 崔嵐, 宋輝, 等. 氣相色譜-質譜法分析3種常見品牌噴墨打印機84種墨水制備的墨跡樣本中揮發性溶劑成分[J]. 理化檢驗(化學分冊), 2021, 57(9): 781-787.
WAN Shuchao, CUI Lan, SONG Hui, et al. Analysis of volatile solvent components in ink blot samples prepared by 84 inks from 3 common brands of ink-jet printers by GC-MS[J].(Part B:Chemical Analysis), 2021, 57(9): 781-787.
[5] 何海洋, 趙鵬程, 何寧, 等. 基于氣相色譜技術研究黑色中性筆字跡中3種溶劑隨書寫時間的變化規律[J]. 理化檢驗(化學分冊), 2021, 57(9): 769-775.
HE Haiyang, ZHAO Pengcheng, HE Ning, et al. Study on the variation of three solvents in black gel pen handwriting with writing time based on gas chromatography technology[J].(Part B:Chemical Analysis) , 2021, 57(9): 769-775.
[6] 趙歷, 馮偉科, 莫少芳, 等. 頂空-氣相色譜-質譜法測定記號筆油墨中揮發性有機化合物[J]. 理化檢驗(化學分冊), 2017, 53(12): 1375-1380.
ZHAO Li, FENG Weike, MO Shaofang. Determination of volatile organic compounds in mark pen ink by HS-GC-MS[J].(Part B:Chemical Analysis), 2017, 53(12): 1375-1380.
[7] 牛凡, 黃建同, 張云, 等. 基于拉曼光譜和多元統計學研究藍色中性筆油墨[J]. 光散射學報, 2017, 29(3): 234-238.
NIU Fan, HUANG Jiantong, ZHANG Yun, et al. Study on blue gel pen inks based on Raman spectroscopy and multivariate statistical[J]., 2017, 29(3): 234-238.
[8] 侯偉, 王繼芬. 基于紅外指紋光譜的快速鑒別黑色記號筆墨水[J]. 激光技術, 2020, 44(4): 436-440.
HOU Wei, WANG Jifen. Rapid identification of the black marker ink based on infrared fingerprint spectroscopy[J]., 2020, 44(4): 436-440.
[9] LukáGál, Michal Oravec, Pavol Gemeiner. Principal component analysis for the forensic discrimination of black inkjet inks based on the Vis-NIR fibre optics reflection spectra[J]., 2015, 257: 285-292.
[10] 姚付軍. 化學計量學方法對藍色圓珠筆和簽字筆油墨的分類研究[D]. 北京: 首都師范大學, 2009: 4-13.
YAO Fujun. Classification of Blue Ballpoint Pen Inks and Blue Gel Pen Inks Using Chemometrics Methods[D]. Beijing: Capital Normal University, 2009: 4-13.
[11] Mohamad Asri Muhammad Naeim, Mat Desa Wan Nur Syuhaila, Ismail Dzulkiflee. Source determination of red gel pen inks using Raman spectroscopy and attenuated total reflectance Fourier transform infrared spectroscopy combined with Pearson's product moment correlation coefficients and principal component analysis[J]., 2018, 63(1): 285-291.
[12] Senior Samir et al. Characterization and dating of blue ballpoint pen inks using principal component analysis of UV-Vis absorption spectra, IR spectroscopy, and HPTLC[J]., 2012, 57(4): 1087-93.
[13] ZHANG Jin, JIANG Hong, DUAN Bin, et al. A rapid and nondestructive approach for forensic identification of cigarette inner liner papers using shift-excitation Raman difference spectroscopy and chemometrics[J]., 2021, 66(6): 2180-2189.
[14] Michal Oravec, Anel Beganovi?, Luká? Gál, et al. Forensic classification of black inkjet prints using Fourier transform near-infrared spectroscopy and linear discriminant analysis[J]., 2019, 299: 128-134.
[15] Maione Camila, de Oliveira Souza Vanessa Cristina, Togni Loraine Rezende, et al. Using cluster analysis and ICP-MS to identify groups of ecstasy tablets in Sao Paulo State, Brazil[J]., 2017, 62(6): 1479-1486.
[16] Nurlaila Ika, Irawati Wahyu, Purwandari Kartika, et al. K-means clustering model to discriminate copper-resistant bacteria as bioremediation agents[J]., 2021, 179: 804-812.
[17] 余靜, 張云, 龐松穎, 等. 紅外光譜技術在物證鑒定中的應用[J]. 光譜學與光譜分析, 2016, 36(9): 2807-2811.
YU Jing, ZHANG Yun, PANG Songying. Application of IR in the field of evidence identification[J]., 2016, 36(9): 2807-2811.
[18] 孫家政, 姜紅, 段斌, 等. 差分拉曼光譜結合多元統計學對IC卡的分類研究[J]. 塑料工業, 2021, 49(4): 102-106.
SUN Jiazheng, JIANG Hong, DUAN Bin, et al. Classification of IC cards by differential Raman spectroscopy combined with multivariate statistics[J]., 2021, 49(4): 102-106.
[19] 何欣龍, 王繼芬, 張倩, 等. 基于多分類模型的記號筆墨水紅外光譜分析[J].化學通報, 2019, 82(2): 169-174.
HE Xinlong, WANG Jifen, ZHANG Qian, et al. Infrared spectroscopy analysis of marker ink based on multi-classification model[J]., 2019, 82(2): 169-174.
[20] 何欣龍, 王繼芬, 于佳裔, 等. 基于判別分析的車用保險杠激光拉曼光譜鑒別研究[J]. 激光雜志, 2019, 40(10): 21-25.
HE Xinlong, WANG Jifen, YU Jiayi, et al. Identification Raman spectroscopy of vehicle bumpers based on discrimination analysis[J]., 2019, 40(10): 21-25.
[21] 趙昱萱, 曾樂洋子, 李開開. 紅外光譜法結合化學計量學對可擦筆油墨檢驗的研究[J]. 光譜學與光譜分析, 2021, 41(8): 2420-2426.
ZHAO Yuxuan, ZENG Leyangzi, LI Kaikai. Identification of different brands erasable pens by infrared spectroscopy combined with chemometrics methods[J]., 2021, 41(8): 2420-2426.
Infrared Spectroscopy Combined with Chemometrics to Test Ink Type of Straight Liquid Ballpoint Pen
LIU Xinlei,HAN Danyan,XIAO Qiang,YANG Shangpeng
(,110035,)
The inspection and identification of writing ink are important in the field of forensic science. A Fourier transform infrared spectrometer was used to test 20 types of direct liquid ball pen ink samples, and chemometrics was used to rapidly test the direct liquid ball pen ink. The Fourier transform infrared spectrum data were standardized, and the spectrum was pre-processed using three methods: automatic baseline correction, peak area normalization, and Savitzky-Golay 5-point smoothing. The optimal value of classification K was determined using the sum of squares error(SSE). The samples were analyzed using K-means clustering, and the clustering results were explained. The principal component analysis method was used to verify the results of K-means clustering. The group mean equality test was used to investigate the contribution of principal component variables to the Fisher discriminant analysis (FDA) model, and the FDA discriminant model of straight liquid ball pen ink was constructed. The results show that all the ink samples were clustered into three categories using K-means clustering. The principal components analysis–Fisher discriminant analysis (PCA–FDA) model achieved 100% prediction and classification of different categories of straight-liquid ball pen inks with an accuracy of 100% after cross-validation. Infrared spectroscopy combined withthe PCA–FDA model can be used for rapid and accurate inspection and identification of direct liquid ball pen inks.
ink type of straight liquid ballpoint pen, Fourier transform infrared spectroscopy(FTIR), chemometrics, discriminant analysis
O657.33
A
1001-8891(2022)08-0882-06
2022-01-11;
2022-02-11.
劉新磊(1998-),男,碩士研究生,主要從事刑事科學技術方面的工作,E-mail:492270626@qq.com。
韓丹巖(1965-),女,教授,主要從事刑事技術方面的工作,E-mail:13066585988@163.com。
中國刑事警察學院研究生創新能力提升項目資助(2021YCYB33)。