方 圓, 何張平, 朱世超, 梁顯榮, 晉 剛
華南理工大學(xué)聚合物新型成型裝備國家工程研究中心, 廣東省高分子先進(jìn)制造技術(shù)及裝備 重點(diǎn)實(shí)驗(yàn)室, 華南理工大學(xué)聚合物加工工程教育部重點(diǎn)實(shí)驗(yàn)室, 廣東 廣州 510640
化工企業(yè)通常根據(jù)用途不同會(huì)為同種塑料開發(fā)多種牌號(hào), 不同牌號(hào)的塑料其性能和加工參數(shù)存在較大差異[1]。 在實(shí)際加工過程中, 同一生產(chǎn)線上混用不同牌號(hào)的原材料, 會(huì)影響產(chǎn)品性能, 降低產(chǎn)品合格率。 目前常用的塑料牌號(hào)識(shí)別方法是測量材料的熔融指數(shù)、 流變性能, 這些方法耗時(shí)長且具有滯后性。 因此, 尋求一種快速、 實(shí)時(shí)、 準(zhǔn)確的塑料牌號(hào)識(shí)別方法是有必要的。
近紅外光譜技術(shù)(near-infrared spectroscopy,NIR)通過測量不同基團(tuán)的吸收波長與強(qiáng)度來測量樣品組成與含量[2], 該方法測定速度快, 適用范圍廣, 操作簡便, 在物質(zhì)定性和定量分析中應(yīng)用廣泛[3-5]。 化學(xué)計(jì)量學(xué)的發(fā)展進(jìn)一步促進(jìn)了近紅外光譜技術(shù)的應(yīng)用, 解決了近紅外光譜譜峰重疊嚴(yán)重、 指紋性差的問題。 多篇文獻(xiàn)報(bào)道了利用近紅外光譜和化學(xué)計(jì)量學(xué)方法實(shí)現(xiàn)塑料分類的研究工作。 Mikio等[6]以近紅外光譜數(shù)據(jù)為基礎(chǔ), 利用決策樹中的分類與回歸樹(classification and regression trees,CART)算法實(shí)現(xiàn)了18種塑料的準(zhǔn)確分類識(shí)別。 郝勇等[7]結(jié)合近紅外光譜和偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)實(shí)現(xiàn)了對(duì)6類食品接觸塑料的精準(zhǔn)識(shí)別。 這些工作主要進(jìn)行塑料種類的識(shí)別, 目前關(guān)于塑料牌號(hào)的識(shí)別還鮮有研究。 在本課題組前期工作中[8], 利用近紅外光譜結(jié)合化學(xué)計(jì)量學(xué), 實(shí)現(xiàn)了3種聚乳酸牌號(hào)的離線識(shí)別, 但是離線測量存在延時(shí)性問題。
為了實(shí)現(xiàn)塑料牌號(hào)的實(shí)時(shí)識(shí)別, 自主開發(fā)了在線近紅外光譜測量系統(tǒng), 在擠出機(jī)狹縫模具上安裝近紅外光譜傳感器, 實(shí)現(xiàn)對(duì)通用聚苯乙烯(general purpose polystyrene,GPPS)熔體的實(shí)時(shí)測量。 通過譜圖分析和K均值聚類(K-means)算法驗(yàn)證了不同牌號(hào)在線光譜數(shù)據(jù)的可分性, 為GPPS牌號(hào)的在線識(shí)別提供了依據(jù)。 利用PLS-DA和隨機(jī)森林(random forest,RF)分別建立牌號(hào)識(shí)別模型并進(jìn)行對(duì)比, 實(shí)現(xiàn)了對(duì)GPPS牌號(hào)的準(zhǔn)確識(shí)別, 提供了一種在生產(chǎn)線上利用近紅外光譜在線識(shí)別GPPS牌號(hào)的方法。
實(shí)驗(yàn)采用的5種GPPS牌號(hào)為: 158K, 5250, 525, PG-33, GP-150。 對(duì)應(yīng)的熔融指數(shù)分別為7.3, 7.4, 8.5, 10.0, 10.2 g·(10 min)-1。
在線近紅外光譜測量系統(tǒng)的原理如圖1所示, 鹵素光源(LS-3000,廣州標(biāo)旗有限公司)通過光纖和探頭(QR400-7-VIS-NIR,Ocean Optics Inc,USA), 將入射光照射到單螺桿擠出機(jī)(RESM-20/25,普同實(shí)驗(yàn)分析儀器有限公司)狹縫模具中的熔融物料上, 攜帶樣品信息的反射光由探頭(QR400-7-VIS-NIR,Ocean Optics Inc,USA)收集, 并經(jīng)光纖傳輸至近紅外光譜儀(NIRQUEST 512,Ocean Optics Inc,USA), 通過USB接口將光譜數(shù)據(jù)傳輸至計(jì)算機(jī), 在光譜采集軟件中實(shí)時(shí)顯示。

圖1 在線近紅外光譜測量系統(tǒng)原理圖Fig.1 Schematic diagram of in-line near-infrared spectralmeasurement system
料筒各段溫度: 180, 190, 200和210 ℃, 螺桿轉(zhuǎn)速: 80 r·min-1。 按照熔融指數(shù)由低到高的順序, 連續(xù)擠出不同牌號(hào)的GPPS。 光譜波長范圍為900~1 700 nm, 分辨率為3.1 nm, 積分時(shí)間設(shè)置為500 ms, 積分次數(shù)設(shè)置為3。 共采集到1 730條在線近紅外光譜, 每種牌號(hào)選取100條光譜, 共500條光譜作為訓(xùn)練集, 在訓(xùn)練集之外, 每種牌號(hào)選取50條光譜, 共250條光譜作為驗(yàn)證集。
近紅外光譜按測量方式分為透射光譜和漫反射光譜, 由于擠出過程中的熔融GPPS料層較厚, 導(dǎo)致其透射光的強(qiáng)度較弱, 而漫反射光強(qiáng)度高、 易于分析, 因此采用近紅外漫反射光譜進(jìn)行分析。 首先采用基線校正、 最大最小歸一化、 7點(diǎn)移動(dòng)平均平滑3種光譜預(yù)處理方法對(duì)1 730條原始在線近紅外光譜進(jìn)行預(yù)處理, 以消除光譜的平移、 漂移、 無關(guān)信息和噪聲。 然后采用主成分分析(principal component analysis,PCA)對(duì)預(yù)處理后的光譜數(shù)據(jù)進(jìn)行降維, 提取光譜數(shù)據(jù)的主要特征分量, 以簡化建模過程。 利用K-means聚類算法對(duì)降維后的光譜數(shù)據(jù)進(jìn)行聚類分析, 驗(yàn)證不同牌號(hào)在線的近紅外光譜可分性, 為GPPS牌號(hào)的在線識(shí)別提供依據(jù)。 最后利用PLS-DA和RF分別對(duì)降維后的不同牌號(hào)在線近紅外光譜數(shù)據(jù)進(jìn)行分類識(shí)別, 并對(duì)比兩種模型的牌號(hào)識(shí)別準(zhǔn)確率。 上述過程均利用Python scikit-learn機(jī)器學(xué)習(xí)庫來實(shí)現(xiàn)。
圖2(a)是經(jīng)過預(yù)處理后的在線近紅外光譜圖, 每種牌號(hào)各選取了5條光譜, 共25條光譜。 可以看到, GPPS在1 143, 1 207, 1 388, 1 407和1 429 nm處存在特征峰。 其中1 143 nm屬于芳烴C—H伸縮振動(dòng)的二級(jí)倍頻, 1 207 nm屬于亞甲基C—H伸縮振動(dòng)的二級(jí)倍頻, 1 388, 1 407和1 429 nm屬于亞甲基C—H對(duì)稱和反對(duì)稱伸縮與彎曲振動(dòng)的組合頻[9]。 由圖2(a)可以發(fā)現(xiàn)1 143 nm處的特征峰峰強(qiáng)較弱, 且特征峰幾乎沒有差異, 但1 207, 1 388, 1 407和1 429 nm處的特征峰存在細(xì)微差異, 因此將后四處的特征峰峰強(qiáng)在圖2(b)中按照光譜采集順序?qū)︻A(yù)處理后的1 730條在線近紅外光譜進(jìn)行分析, 其中158K, 5250, 525, PG-33和GP-150對(duì)應(yīng)的光譜數(shù)約為0~300, 350~600, 650~900, 1 000~1 300和1 400~1 730, 其余光譜為共混過程光譜。 由圖2(b)可以發(fā)現(xiàn), 除前兩個(gè)牌號(hào)GPPS的特征峰峰強(qiáng)變化較小外, 后續(xù)特征峰峰強(qiáng)均隨著牌號(hào)的變化出現(xiàn)明顯階梯狀改變, 初步可以判定在線近紅外光譜對(duì)不同牌號(hào)GPPS具有一定的區(qū)分度。

圖2 (a) 不同牌號(hào)GPPS的在線近紅外光譜圖, (b)在線近紅外光譜特征峰的峰強(qiáng)變化Fig.2 (a) In-line NIR spectra of different grades of GPPS,(b) Changes in characteristic peaks ofin-line NIR spectra of different grades of GPPS
訓(xùn)練集經(jīng)PCA降維得到的主成分解釋變量累計(jì)貢獻(xiàn)率如圖3所示, PC3及之后的累計(jì)貢獻(xiàn)率均大于98.67%, 足以代表全部光譜特征。 對(duì)降至3維的訓(xùn)練集進(jìn)行聚類分析, K-means[10]聚類結(jié)果如圖4所示, 錯(cuò)誤聚類共60例, 參與聚類的光譜共500條, 因此, 聚類總正確率為88%, 表明不同牌號(hào)在線近紅外光譜的可分性, 這是利用近紅外光譜在線識(shí)別5種牌號(hào)GPPS的前提和基礎(chǔ)。

圖3 在線近紅外光譜主成分累計(jì)解釋變量圖Fig.3 Explained variance contribution of principalcomponents of in-line NIR spectra

圖4 不同牌號(hào)在線近紅外光譜的K-means聚類結(jié)果圖Fig.4 K-means clustering result of in-line NIRspectra of different grades of GPPS
采用預(yù)處理后的訓(xùn)練集和驗(yàn)證集進(jìn)行建模和預(yù)測。 為達(dá)到最佳識(shí)別效果, 通過5折交叉驗(yàn)證[11]對(duì)主因子數(shù)尋優(yōu)。 圖5為交叉驗(yàn)證得到的預(yù)測殘差平方和(prediction residual error sum of squares,PRESS)與主因子數(shù)的關(guān)系圖, 由圖5可以發(fā)現(xiàn), PRESS值下降到不再發(fā)生顯著變化時(shí), 對(duì)應(yīng)的主因子數(shù)為3, 此時(shí)的PRESS值為26.644, 決定系數(shù)R2為0.973。 因此采用最佳主因子數(shù)為3建立PLS-DA模型, 得到訓(xùn)練集和驗(yàn)證集的分類正確率分別為92.0%和90.4%。 驗(yàn)證集的識(shí)別結(jié)果如圖6(a)所示, 詳細(xì)結(jié)果見表1。

圖5 PRESS值與主因子數(shù)的關(guān)系圖Fig.5 Relationship between PRESS and the numberof principal components

圖6 GPPS牌號(hào)識(shí)別模型的驗(yàn)證集判別結(jié)果(a): PLS-DA模型; (b): RF模型Fig.6 Identification results for differentgrades of GPPS in validation set(a): PLS-DA model; (b): RF model

表1 基于PLS-DA判定的不同牌號(hào)GPPS識(shí)別結(jié)果Table 1 Identification results of different gradesof GPPS based on the PLS-DA algorithm
RF算法是通過在CART[12]中引入集成學(xué)習(xí)裝袋方法(Bagging)[13]進(jìn)行多次隨機(jī)抽樣而構(gòu)建的[14], 可以有效地避免模型過擬合。 采用PCA將預(yù)處理后的訓(xùn)練集和驗(yàn)證集降至5維, 在訓(xùn)練集樣本中, 每次隨機(jī)選取100個(gè)樣本作為子模型, 共建立500個(gè)子模型來訓(xùn)練RF模型, 并對(duì)RF的基學(xué)習(xí)器CART的最大深度進(jìn)行尋優(yōu), 以達(dá)到最佳的識(shí)別效果。 圖7為CART最大深度與訓(xùn)練集、 驗(yàn)證集的分類正確率關(guān)系圖, 當(dāng)CART最大深度為7時(shí), 對(duì)應(yīng)的驗(yàn)證集分類正確率最高, 此時(shí)訓(xùn)練集的分類正確率為99.8%, 驗(yàn)證集的分類正確率為95.6%。 驗(yàn)證集的識(shí)別結(jié)果如圖6(b)所示, 詳細(xì)結(jié)果見表2。

表2 基于隨機(jī)森林判定的不同牌號(hào)GPPS識(shí)別結(jié)果Table 2 Identification results of different gradesof GPPS based on the RF algorithm

圖7 CART最大深度與不同牌號(hào)GPPS的分類正確率關(guān)系圖Fig.7 Relationship between maximum depth of CART and classification accuracy of different grades of GPPS
與PLS-DA模型相比, RF模型的牌號(hào)識(shí)別正確率更高。 這是因?yàn)椋?①光譜與牌號(hào)的對(duì)應(yīng)關(guān)系并非完全線性, 而PLS-DA是一種基于線性回歸的判別算法[15], 不具備RF算法的非線性數(shù)據(jù)處理能力; ② 集成學(xué)習(xí)方法可以提高單一弱分類器的準(zhǔn)確率, 在復(fù)雜樣本中表現(xiàn)更加優(yōu)異[16]。
利用自主開發(fā)的在線近紅外光譜測量系統(tǒng)實(shí)時(shí)采集了5種不同牌號(hào)GPPS熔體的近紅外光譜數(shù)據(jù), 通過譜圖分析和K-means聚類分析方法驗(yàn)證了不同牌號(hào)GPPS在線近紅外光譜數(shù)據(jù)的可分性, 建立的PLS-DA和RF模型均實(shí)現(xiàn)了對(duì)不同牌號(hào)在線近紅外光譜的準(zhǔn)確識(shí)別, 其中RF模型的識(shí)別準(zhǔn)確率更高。 因此, 近紅外光譜是一種在線測量牌號(hào)的有效手段。