蔣一翔,張青松,高雪峰,徐 琦
(浙江中煙工業有限責任公司,浙江 杭州 315504)
隨著信息化建設的發展,企業積累了大量的工藝數據,為后期大數據分析提供了基礎。如何有效利用工藝數據并挖掘出可以提升工藝質量的關鍵信息,識別不穩定因素,已成為當前數據分析和數據挖掘的研究重點。
卷煙工藝數據是一組包含時間、當前車速、單周圓周值、通風度當前值、煙絲水分、平整器位置、煙支質量、水松紙實際溫度和煙支吸阻等綜合反映卷煙物理質量和煙支工藝質量的物測數據。在實際過程中,對于物聯采集數據,著重在于煙支吸阻的合格率。對于儀器中水松紙的溫度、ve大風機壓力(卷煙機配套,用于煙絲及煙支輸送,也可作為通風換氣用的風機壓力)、ve小風機壓力(卷煙機配套,用于煙絲及煙支輸送,也可為在常溫下一般物料輸送使用及通風換氣用的風機壓力)、平整盤的位置等關注度不高,未能建立儀器參數數據和煙支吸阻之間的科學關聯關系。質量技術人員不能一味遵循書本知識和工作經驗下結論。一味按照以往的思維方式容易產生錯誤結論,不能從根源上解決質量下降的方法;同時,由于依賴人工經驗,缺乏科學的知識機理,存在知識傳承過程時間長、工況難以解釋等問題。因此,通過對企業中積累的工藝數據運用科學的數據分析方法,找出影響卷煙煙支質量的根本因素,為提升煙支質量提供科學的指導。本文選取212 619條數據,從多個維度分析影響煙支吸阻和煙支質量的特征,探索各特征與煙支吸阻之間的關系。
文獻[1]對卷煙的煙支吸阻和單支煙質量以及卷煙硬度的相關性進行了分析。文獻[2]對卷煙的煙支吸阻和相關物理指標的統計關系進行了研究分析。文獻[3]研究了影響煙支質量的卷煙機因素,對卷煙機中的平整盤調整方式、電子齒輪的控制方法、卷煙的溫度控制和設備維護等提出了建議。文獻[4]~文獻[5]論證了穩定煙支質量控制的重要性,同時文獻[4]提出了一種運用數字信號處理(digital signal processing,DSP)技術進行煙支質量控制的有效方法。文獻[6]指出提高卷煙質量的關鍵因素是控制單支煙支的含絲量,通過設計合適的卷煙機參數來實現操作。文獻[7]則對負壓和風壓與卷煙含梗率的相關關系進行了研究,發現煙支的標準質量與煙支中所含的含梗率具有正向相關性。文獻[8]對提高煙支吸阻的穩定性進行了研究,通過對卷煙機工藝參數的優化調整,針對短支煙煙支吸阻,研究表明其與單支煙質量的相關性最大。
本文通過數據分析,不僅探究了兩兩特征的相關性,同時通過隨機森林算法的重要度測量方法,綜合考慮多特征之間的相互關系,得出特征的重要性。作為基于人工智能的控制優化的前期工作,本文不僅進行了理論分析,而且將理論應用到實際控制中,為切實提升工藝質量、實現智能控制提供指導。
在選取的212 619條數據中,有59個特征。這59個特征包含了卷煙機自身的機器狀態值,如烙鐵溫度、ve大風機、ve小風機等,還有煙支本身的狀態數據,單周圓周值、通風度、煙支吸阻當前值等。首先,對獲取的值根據工藝要求進行特征工程,對數據進行比較全面的分析與處理;然后,對處理后獲得的穩態數據進行相關性的分析。逐步減少特征數量,突出相關性強的特征。
相關特征分別為:時間、2#喂絲機第3箱批次號、2#喂絲機第3箱水分、2#喂絲機第3箱煙絲牌號代碼、當前車速、單周圓周值、長期標準偏差當前值、短期標準偏差當前值、平整器位置當前值、通風度當前值(%)、后道通風度當前值(%)、前道通風度當前值(%)、壓實端量當前值、壓實端位置當前值、煙絲水分、煙支吸阻當前值(mmH2O)、后道煙支吸阻當前值(mmH2O)、前道煙支吸阻當前值(mmH2O)、質量偏差當前值、ve大風機、搓板實際溫度、目標質量mg、水松紙實際溫度、煙支第1段質量、煙支第2段質量、煙支第3段質量、煙支第4段質量、煙支第5段質量、質量偏差平均值、圓周最小值、圓周最大值、烙鐵1實際溫度、烙鐵2實際溫度、測量值、ve小風機、ve吸絲帶壓力、se布帶張緊壓力、單周標準偏差、max大風機壓力、單周平均圓周值、過輕煙支質量極限mg、過重煙支質量極限mg、后道漏氣密度當前值(%)、后道煙支端頭密度當前值(%)、內部目標質量(mg)、前道漏氣密度當前值(%)、前道煙支端頭密度當前值(%)、生產速度(cpm)、通風度標準偏差(%)、吸阻校準系數、煙支長度(mm)、煙支漏氣密度當前值(%)、煙支直徑(mm)、圓周偏差值、圓周修正、針輥供絲補償量、針輥供絲量系數%、質量偏差校準值mg、質量校正mg,其中時間,2#喂絲機第3箱批次號,2#喂絲機第3箱煙絲牌號代碼為非數值,所以不包含在內。由于現有數據取自同一卷煙機,而當前卷煙機生產牌號固定,所以刪除特征2#喂絲機第3箱煙絲牌號代碼。同時,由于分析數據月份跨度不大,所以時間特征不予考慮。特征數據統計如表1所示。

表1 特征數據統計表Tab.1 Feature data statistics
通過對表1統計數據分析,sd=0的特征有:目標質量(mg),過輕煙支質量極限(mg),過重煙支質量極限(mg),煙支長度(mm)。煙支直徑sd=3.55e-15,其他數值均為6.37。所以可以得出,煙支直徑(mm)的值為恒定的值。同時,煙支第1段質量到煙支到煙支第5段質量,圓周最小值為0,存在異常數據。
①刪除sd=0的恒定值不變特征。
②刪除前道、后道值,只保留當前值。
③由于煙支內部目標質量和質量調整值,煙支目標質量,煙支的第1段質量到第5段質量有線性關系,刪除質量校正,煙支第1段~煙支第5段質量。
④吸阻校準系數是一個參數,影響煙支吸阻當前值。因此,刪除吸阻校準系數。
⑤質量偏差校準值為采樣參數,具體操作會通過內部目標質量進行表征。
經過初步篩選,得到以下特征值: 2#喂絲機第3箱水分、單周圓周值、長期標準偏差當前值、短期標準偏差當前值、平整器位置當前值、通風度當前值(%)、壓實端量當前值、壓實端位置當前值、煙絲水分、煙支吸阻當前值(mmH2O)、質量偏差當前值、ve大風機、搓板實際溫度、水松紙實際溫度、質量偏差平均值、圓周最小值、圓周最大值、烙鐵1實際溫度、烙鐵2實際溫度、測量值、ve小風機、ve吸絲帶壓力、se布帶張緊壓力、單周標準偏差、max大風機壓力、單周平均圓周值、內部目標質量mg、生產速度(cpm)、通風度標準偏差(%)、煙支漏氣密度當前值(%)、圓周偏差值、圓周修正、針輥供絲補償量、針輥供絲量系數%。
上節通過對數據特征統計分析,進行了初步的數據特征剪枝。通過斯皮爾曼和隨機森林對現有特征數據進行相關性分析,斯皮爾曼主要是考慮了特征兩者之間的相關關系,隨機森林的重要性度量可以綜合考慮特征間的變化。
斯皮爾曼系數是衡量兩個變量依賴性的非參數指標。它利用單調方程評價兩個統計變量的相關性。 如果數據中沒有重復值,并且當兩個變量完全單調相關時,斯皮爾曼相關系數則為+1或-1。斯皮爾曼相關系數被定義成等級變量之間的皮爾遜相關系數。對于樣本容量為n的樣本,n個原始數據Xi、Yi被轉換成等級數據xi、yi,相關系數ρ為:
(1)
線性相關程度如圖1所示。

圖1 線性相關程度圖Fig.1 Linear correlatione
圖1中列出了與煙支吸阻當前值(mmH2O)關系較強的值。通過分析關系矩陣可以看出,煙支吸阻與通風度標準偏差(%)、質量偏差平均值成正比,與單周圓周值和圓周修正值成反比。圓周修正與ve小風機有強相關關系,達到了0.9。這是一個值得觀察驗證的點。
將變量重要性評分用VIM來表示,將Gini指數用GI來表示。假設有m個特征X1,X2,…,Xc,現在要計算出每個特征Xj的Gini指數評分,亦即第j個特征在RF所有決策樹中節點分裂不純度的平均改變量。
Gini指數的計算公式為:
(2)
式中:K為k個類別;pmk為節點m中類別k所占的比例。
直觀地說,就是從節點m中隨機抽取兩個樣本,其類別標記不一致的概率。特征XiXj在節點m的重要性,即節點m分枝前后的Gini指數變化量為:
(3)
式中:GIl為分枝后兩個新節點的Gini指數;GIr為分枝后兩個新節點的Gini指數。
如果特征Xj在決策樹i中出現的節點在集合M中,那么Xj在第i顆樹的重要性為:
(4)
假設RF中共有n顆樹,則有:
(5)
最后,把所有求得的重要性評分作歸一化處理即可。
(6)
特征重要性評分如圖2所示。

圖2 特征重要性評分圖Fig.2 Importance score
分析圖2可知,單周圓周值對煙支吸阻的影響最大,其次是質量偏差平均值,與圖1的分析一致,但是內部目標質量mg對煙支吸阻的影響也很大,與圖1的分析不同。通風度當前值(%)對吸阻影響較大,這個比較容易理解。針輥供絲補償系數%和ve大風機影響卻也是很高。這個需要進行實踐驗證探討。
通過對卷煙工藝數據進行特征工程、相關性分析,可以對卷煙工藝數據的特征分布有一個比較直觀和清晰的認識,確認影響卷煙工藝質量的重要特征,掌握工藝數據中各特征之間的相關程度,為公司后續建設CPS系統進一步進行數據采集規劃的提供參考。將本文中的分析方法和模型集成到邊緣網關中,會對后期智能控制模型的輸入參數選擇產生直接影響。