陳 昱 項 薇,2 龔 川
1.寧波大學機械工程與力學學院,寧波,3152112.浙江省零件軋制成形技術研究重點實驗室,寧波,315211
注塑件生產的高廢品率一直是企業面臨的普遍問題。注塑過程包含多個子過程,且涉及流體力學、熱力學等多個學科[1],這使得最終產品的不合格率遠遠高于其他機械加工的產品,往往存在5%~10%的殘次品。傳統質檢大多為人工抽檢,該方法一方面無法檢測所有產品,可能導致大量殘次品流入后續加工;另一方面也無法事先預測產品質量,使工廠生產策略的調整具有滯后性,導致企業成本增加[2]。隨著工業4.0的導入,智能工廠利用各類傳感器采集生產過程中大量有價值的實時數據,為基于數據的智能化生產管控,尤其是產品質量的自動化檢測和預測帶來了可能性。通過數據挖掘分析,篩選出影響產品質量的關鍵因素,即可利用生產過程大數據實現人工質檢無法完成的全覆蓋式質量檢測和質量的事前預測,消除傳統質量控制的滯后性。
注塑件的質量是產品設計、模具結構、生產材料、工藝參數共同作用的結果[3]。常見的注塑件質量問題包括尺寸精度問題、表面缺陷(熔接痕、氣泡、虎皮紋、翹曲等)、內部缺陷。注塑件的冷卻收縮會影響尺寸,而尺寸穩定性是影響翹曲的重要因素,所以尺寸精度對注塑成形至關重要[4]。由于注塑過程具有循環性,因此追蹤注塑加工過程,對實現注塑件尺寸的自動化診斷具有重要意義。
已有的產品質量在線檢測研究主要利用生產數據訓練區分產品合格等級的分類器。任黎明等[5]使用深度置信網絡建立了各個階段生產的質量分類規則,并應用Catboost算法進行了在線質量分類。CHEN等[6]利用模內溫度和壓力傳感器提取的數據,開發了一個基于人工神經網絡的缺陷在線檢測系統來檢測產品的尺寸,模型最終的決定系數R2達到91.37%。ABDUL等[7]應用田口方法確定工藝參數對產品尺寸收縮率的影響,并利用人工神經網絡模型預測不同工藝參數組合下的收縮率。LI等[8]利用模內傳感器收集溫度、壓力等數據,建立基于模糊邏輯的模型來檢測尺寸,并使用田口實驗優化工藝參數以提高產品質量。
針對質量預測的研究,曹學晨等[9]通過自回歸綜合移動平均(autoregressive integrated moving average,ARIMA)模型預測下一產品的工藝特征,構建BP神經網絡來建立工藝參數與質量間的關系,用預測的工藝特征來映射質量,并驗證了該模型在短期質量預測的可行性。趙圓方[10]提出了基于長短期記憶(long short term memory,LSTM)神經網絡的質量預測方法,結合生產中的時序特征,以產品的表面粗糙度與孔徑為品質指標進行事前預測,該模型與ARIMA模型和HMM模型的預測結果比較證明了LSTM模型具有充分利用大數據的價值。LEE等[11]提出了一種基于機器學習的產品缺陷檢測方法,建立了長短期記憶神經網絡,并以前三個周期的數據為輸入來預測下一個周期的缺陷,模型在訓練后達到了98.9%的準確率和96.8%的召回率。
上述兩類研究均是針對工藝參數與質量的關聯,沒有考慮利用高頻傳感器獲取生產過程數據,無法識別注塑生產中的工況變化,且特征選擇策略較為簡單。此外,上述研究沒對兩類質量診斷任務進行集成。實際上,產品質量的在線檢測與事前預測關系緊密,質量的事前預測基于在線檢測任務的完成,兩者成遞進關系。
本文在注塑產品尺寸精度的在線檢測與預測中引入重要生產階段采集的實時數據,結合注塑機設定工藝參數數據形成特征集,對該數據集依次采用包裹法、嵌入法、關聯規則挖掘(APRIORI)進行三段式特征選擇以獲得重要特征集。然后基于重要特征構建LightGBM(light gradient boosting machine)分類器來完成產品質量等級的在線檢測任務;隨后,訓練時序預測模型卷積神經網絡-長短期記憶網絡(CNN-LSTM)來預測重要特征的未來趨勢,并結合上述分類器完成產品質量等級的事前預測任務。
要實現產品質量的診斷,首先要確定一個可以表征質量的特征集來映射產品的質量狀況。本節按生產階段將高頻特征轉化為模次級的統計值,并將其與注塑機狀態數據結合成特征集,通過多個機器學習分類模型對特征進行重要度排序,再采用最大信息系數(maximal information coefficient,MIC)衡量重要特征之間的相關性,并以此為依據衡量各特征的關聯性,最后采用APRIORI挖掘出與產品質量關系最密切的特征。
完整的注塑過程涉及注射、冷卻、保壓等多個階段,且各階段對產品的最終質量都有很大的影響。注塑機配置的傳感器按一定的頻率采集各階段的溫度、壓力等工藝參數的實時值。注塑機狀態數據集和質量標簽數據集中的數據均按模次記錄,即每一個產品對應一個樣本。為使工藝參數數據集的粒度與上述兩個數據集一致,需要提取工藝參數的統計值(峰值、均值、方差)。合并統計值與注塑機狀態數據可以獲得更全面的加工過程信息。
特征選擇是為了降低數據維度、縮短計算時間、提高算法的預測性能。特征選擇可采用過濾法、包裹法和嵌入法。大多數文獻采用包裹法中的啟發式搜索,即讓模型尋找最適合的特征,該方法簡單易執行,但結果依賴分類器自身性能,且選擇特征的過程缺乏解釋性。
本文針對工業數據高維的特點,采用以特征權重為啟發式信息的向后搜索算法,挖掘預選特征子集,實現特征降維。為增強預選特征子集的普適性,采用多個向后搜索模型(梯度提升樹、隨機森林、極度隨機樹)同時計算各個特征的重要度,并取平均值,得到第i個特征的綜合重要度
(1)
式中,m為向后搜索模型的數量;Ii,j為第j個模型計算出的第i個特征的重要度。
按綜合重要度進行特征排序,將篩選出的重要特征組成一個預選的特征子集。
將冗余度作為特征之間相關性的評價指標,刪去冗余特征,進一步減少特征、提高模型效率。本文引入MIC來判斷不同特征之間的關聯性。MIC的主要思想是將2個變量置于網格覆蓋的二維散點圖中,通過統計各個散點落在子格內的頻率來計算2個變量的相關系數。計算預選特征子集中各個特征間的最大信息系數:
(2)
(3)
式中,p(x,y)為x、y的聯合密度;p(x)、p(y)分別為x、y的邊緣密度;a、b為分格數;B一般取數據總量的6次方。
采用APRIORI確定剩余特征與產品質量之間的關聯性。生成頻繁項集和關聯規則后,對挖掘出的關聯規則進行統計,識別出與產品質量關聯最強的特征條件,并形成最終的特征集。這部分的總流程如圖1所示。

圖1 質量診斷特征工程的流程
本文將注塑件質量的診斷分為兩大任務:①在線檢測產品質量,即利用工藝特征的具體數值映射產品的質量等級;②預測產品質量,將時序模型的預測值作為上述分類器的輸入,完成對產品質量等級的事前預測。
LightGBM是一種實現GBDT(gradient boosting decision tree)算法的框架,具有兩大優勢:①算法利用單邊梯度采樣刪除小梯度樣本,采用遍歷直方圖來減少內存的占用;②模型采用互斥特征捆綁及最大化分裂增益的方式提高計算效率、減小誤差。LightGBM模型可以實現數據的并行處理。將工藝特征作為輸入,將產品質量標簽作為輸出,可以完成產品質量的在線檢測。
企業的產品質檢通常安排在生產流程的最末道工序,通過人工檢查來剔除不合格品,進而調整生產策略、工藝參數。這種方式具有滯后性,屬于事后控制。采集的數據是基于模次頻率的時間序列,預測工藝特征的趨勢以初步預判未來的生產工況,進而指導后續生產中的產品質量控制工作。ARIMA模型是常見的時間序列預測模型,但處理非線性問題的性能一般。XGBoost、LSTM常用于時間序列數據的預測,且能處理非線性問題。LSTM具有遺忘門、輸入門和輸出門,在訓練過程中會自動保留重要信息,并遺忘部分非關鍵信息,能避免序列過長造成的梯度消失。實際的注塑生產過程復雜,各類潛在因素的變化都會影響工藝特征的走向,導致預測精度下降,限制了LSTM在復雜問題中的應用。
傳統的CNN網絡由卷積層(convolutional layer)、池化層(pooling layer)、全連接層及輸出層組成,其中,卷積層與池化層交替設置。本文將CNN與LSTM集成,利用CNN提取時間序列的局部特征,并將其作為LSTM的輸入,這不但可以縮短訓練時間,還能有效提高預測的精度[12]。CNN-LSTM模型的結構如圖2所示。產品質量等級在線檢測和事前預測任務的流程如圖3所示。

圖2 CNN-LSTM的模型結構

圖3 產品質量診斷流程
本文所用數據來自第四屆工業大數據競賽,包括三類數據:①包含冷卻時間、保壓時間、水循環時間、開模中點、切換位置等特征的注塑機狀態數據(每模次記錄一組特征);②22個傳感器采集的溫度、壓力、位置的實時值;③每個注塑件的三個尺寸。
完整的注塑生產中,注射、保壓、冷卻、開模這4個階段對產品的最終質量影響最大。為保障數據集粒度的一致性,將粒度統一為模次級,將這4個階段各傳感器采集數據的統計值(均值、標準差、最大值、最小值、中位數)作為第一個數據集(傳感器模次統計數據集)。刪除注塑機狀態數據集中的單一值及存在大量缺失值的特征,構建第二個數據集(注塑機狀態數據集)。最后,根據產品的極限尺寸,將每模次產品的質量分為三類:尺寸均在公差范圍內的為合格品(0類);某個尺寸超過公差上限且沒有低于公差下限的可返修類產品為一級缺陷品(1類);存在任意尺寸小于公差下限的為二級缺陷品(2類)。按上述分類規則確定第三個數據集(缺陷級別數據集)。合并上述3個數據集并進行數據清洗,余下12 100個樣本。特征提取后,特征集中含有480個特征,其中,注塑機狀態特征數量為40,高頻數據轉化的特征有440個。數據集蘊含大量與注塑件質量不相關或冗余的信息,它們會增加計算量和成本,并影響產品質量診斷結果的準確性。為提高預測效率和準確性,需充分挖掘特征信息,從眾多特征中識別出代表質量狀況的關鍵特征,具體步驟如下:
(1)選擇梯度提升樹、隨機森林、極度隨機樹對每個特征的重要度進行評估和排序,并選出每個模型確定的20個最重要特征。將3組特征(共60個)合并,并消去其中的重復特征,形成了一個含有45個特征的預選特征集。
(2)通過特征可視化發現許多特征存在較強的相關性,采用MIC進行特征相關性分析。本文將衡量閾值設置為0.85,即2個特征的MIC值超過0.85時,刪除綜合重要度較低的特征以減少冗余,重復該操作直至余下特征間的MIC值均小于0.85。操作后選擇的特征子集如表1所示。

表1 選擇的特征子集
(3)為使選擇的特征具有更好的解釋性,采用關聯規則挖掘分析特征與產品質量的關系。為避免過擬合采樣產生大量的非真實數據,對樣本進行欠擬合采樣即刪去多數類的部分樣本,使各類樣本的數量相同。K-means算法可以將連續的特征數據離散為APRIORI能處理的布爾型變量。本研究使用K-means算法將每個特征分為4個簇,每一簇表示為一種特征條件。
本文將最小支持度設為0.15,將支持度大于0.15的事務集作為頻繁項集。然后進行規則挖掘,將最小置信度設為0.95,獲得了1904條滿足最小置信度要求的強關聯規則(2條關于合格產品的規則、528條關于一級缺陷的規則、355條關于二級缺陷的規則)。從這些規則中找出與產品質量關聯的因素(特征條件),并統計出現次數。F1、F3的特征條件出現的次數明顯小于其余特征,即它們對質量的影響不大。最后采用注射階段的模內壓力1均值、開模階段的回水溫度中位數、保壓階段的模內溫度2的中位數和峰值、注射階段的公模溫度2均值構成最終的特征集。
使用構建的數據集進行多分類模型的訓練。不同特征參數的數量級相差較大會影響模型的訓練,為此,首先對特征進行標準化:
(4)

隨機提取482個樣本組成測試集,將剩余的11 618個樣本按7∶3隨機劃分為訓練集和驗證集。由于該數據集中產品的合格率約為90%,存在嚴重的樣本不平衡問題,因此采用過擬合采樣(SMOTE)生成少數類樣本。選擇了人工神經網絡(ANN)、XGBoost、LightGBM、隨機森林(random forest)算法進行質量分類。本研究為三分類問題,選用準確率A、查準率P、召回率R、f1分數的宏平均F1來評價多分類模型,它們的計算公式如下:
(5)
(6)
(7)
(8)
式中,m為類別數;tp,i為類別i正確預測為正例的樣本數;tn,i為類別i正確預測為負例的樣本數;fp,i為類別i錯誤預測為正例的樣本數;fn,i為類別i錯誤預測為負例的樣本數。
本文將A、P、R、F1作為模型的評價指標。使用訓練集數據對各模型進行訓練,并用驗證集的數據和網格搜索的方式確定各模型中的超參數。調參的目的在于提高模型對不合格品的分類精度,防止不合格工件流入后續加工,同時不過于犧牲模型對合格品的分類精度。LightGBM模型需要確定最大葉子節點數(num_leaves)、最大深度(min_child_samples)、基學習器數(n_estimators)、學習率(learning_rate)等參數,調整后,模型參數的值如表2所示。

表2 LightGBM的調參結果
采用調參后的模型對測試集進行分類,以A和F1為評價指標。由表3可以看出,測試集的結果略好于驗證集,但相差不大,證明了LightGBM模型的魯棒性。利用驗證集對另外3個模型進行超參數調整,確定模型的最優結構。

表3 LightGBM在驗證集與測試集上的分類精度
為驗證本文特征選擇法的優越性,使用GBDT獲取另一組重要特征,將2組特征作為各分類模型的輸入進行訓練,并在驗證集上完成調參。分類器在測試集上的分類結果如表4所示,可以看出,4個分類器以本文提出的特征選擇法確定的特征集為模型輸入,產品質量分類的準確率A及f1分數的宏平均F1增大,證明了本文提出的特征選擇法的優越性。

表4 各模型在兩種情況下的分類精度
圖4所示為各個模型在測試集上分類后的混淆矩陣,可以看出,各模型對缺陷1、2的分類精度較高,對合格品(0類)的分類精度相對較低。工廠一般希望提高對不合格品的檢測能力,防止缺陷產品進入后續加工,避免產生不必要的生產成本。

(a)LightGBM (b)Random forest
4個模型的各項分類評價指標如表5所示,可以看出,LightGBM優于其他模型,在測試集上的綜合分類精都最高,其中,其召回率R達到了0.891,f1分數的宏平均F1為0.552。

表5 各模型的分類精度
在產品質量的事前預測開始前,先從數據集中剔除上述在線檢測任務中的測試集,再按8∶2的比例將剩余的數據劃分為訓練集、驗證集。采用特征的60個歷史值來預測下一模次的值。預測模型采用帶卷積的長短期記憶網絡(CNN-LSTM),并訓練LSTM和XGboost用于預測精度比較。所有模型均為單輸出,需要為每個特征建立一個預測模型。為評估時序預測模型的預測精度,將均方誤差(MSE)作為評價指標。
模型訓練完成后,采用驗證集調整模型的參數,調整后的CNN-LSTM模型結構如表6所示,其中,n為樣本數。

表6 CNN-LSTM的模型結構
然后對測試集樣本進行預測,首先根據模次號提取測試集中各個特征前60步的特征值,并將其作為CNN-LSTM模型的輸入,得到482組預測值。各時序模型的預測誤差如表7所示,可以看出,CNN-LSTM預測值的均方誤差最小,預測最準確。最終,將特征的預測值作為LightGBM分類器的輸入即可對產品質量進行事前預測。

表7 不同模型對各特征預測的均方誤差
為有足夠的時間應對可能出現的不合格品,預測未來5個模次產品的質量,首先預測每個特征未來5個模次的具體值,然后將其輸入到分類器,實現多步預測。預測結果與在線檢測結果如表8所示,可以看出,事前預測的分類精度略低于在線檢測,且預測精度隨時間的延長而下降,但精度下降不快,仍可判斷未生產注塑件的質量,因此將事后處理轉化為事前預防,給予工廠更多時間來應對不合格產品的出現。

表8 產品質量檢測與預測的分類精度
(1)將傳感器收集到的模內溫度、壓力、位移等數據轉化為按生產階段劃分的統計值,構建了一組可以表征工況變化的特征,并將其與注塑機狀態特征合并,形成總特征集。
(2)采用多個向后搜索算法預選特征子集,并利用最大信息系數評估該特征子集中各元素的相關性,減少特征集的冗余。采用APRIORI分析剩余特征與產品質量的關系,確定與產品質量關聯性最高的特征,提高質量診斷系統的效率。
(3)訓練LightGBM模型對產品質量進行在線檢測以完成質量分級;采用帶卷積的長短期記憶網絡等時序模型對重要特征的未來趨勢進行預測,并結合分類器完成了產品質量的多步事前預測。