蔣晉文+劉偉光
摘要: 關鍵詞: 中圖分類號: 文獻標志碼: A文章編號: 2095-2163(2017)06-0058-03
Abstract: Manufacturing industry is a highly integrated information and industrialization industry. Every link of the manufacturing process accumulates a lot of data. In the process of detecting the products quality, when finding poor quality products, it is usually late to fix. Realizing data mining for production information, predicting product quality by machine production parameters could master the results of the production in a timely and comprehensive way, therefore make corresponding decisions based on preknow results to effectively improve product quality. XGBoost algorithm is an efficient and accurate regression algorithm. In this paper, XGBoost algorithm is applied to the manufacturing quality prediction, so as to achieve the purpose of accurately predicting the product quality and provide an effective method for manufacturing product quality prediction.
0引言
制造業產業是一個信息化和工業化高度融合的產業。《中國制造2025》提出了用信息化和工業化兩化深度融合來引領和帶動整個制造業的發展,讓制造業向工業4.0轉變[1]。制造業的生產過程一般包含選材、加工、產品質量檢測等多個環節,在生產過程的每一個環節都會累積大量的數據。這些數據通常反映了制造業的生產過程。通過數據挖掘方法來分析生產過程的數據,有利于更好地發現生產過程的異常,增強產品的質量控制,對于優化生產,提高產能有著至關重要的研發意義。通過準確預測產品的質量可以達到生產結果即時性以及全面性。并且基于預先知道的結果做出應對決策可以有效提高產品的質量。因此,國內外學者將統計和機器學習方法用于制造業質量預測的研究中,以期提高產品的良品率。
趙旭等[2]提出了一種多變量統計質量控制方法來減小由于過程擾動引起的產品質量變化。與傳統的PID質量控制方法相比,所提出的方法能減小由過程擾動引起的質量變化。胡勝[3]等提出了基于遺傳算法和支持向量機的多元質量過程均值異常診斷方法,實現了多元制造過程異常變量的定位和分離,彌補了傳統的多元過程技術只能診斷過程的整體狀態,不能對異常變量進行分離和定位的缺陷。Zheng[4]分別采用貝葉斯網絡算法和MapReduce框架,以船體分段制造為研究對象,精準預測了船體分段的精度。朱慧明[5]提出了貝葉斯質量控制方法,應用基于Gibbs抽樣的馬爾可夫鏈蒙特卡羅方法模擬模型參數的后驗分布,構建了自相關過程的貝葉斯統計質量控制模型,使得擬合后的殘差序列具有相互獨立性質,解決了工序質量控制中自相關過程的觀測值并不滿足控制變量獨立性的基本假設問題。
XGBoost[5] 的全稱是eXtreme Gradient Boosting,是一種基于梯度Boosting的集成學習算法,XGBoost算法是梯度提升機器算法(Gradient Boosting Machine)的實現,采用CPU多線程進行并行計算,具有高準確度和可擴展性的特點,被廣泛用于商業銷售預測[6]、網絡輿情預測[7]、電子商務商品推薦[8]等方面。本文將XGBoost算法應用到制造業質量預測中,挖掘生產過程中產生的數據信息,建立回歸預測模型,從而精確地根據機器生產參數預測出產品的質量。結果表明,XGBoost與傳統的數據挖掘算法相比,具有準確度高,可擴展的優勢。
1數據描述
本文所使用的數據來自阿里巴巴眾智任務大數據競賽公開數據集。制造業的生產過程中積累了大量的數據,在選材環節記錄中包括每個批次原材料供應商、等級等屬性信息作為輸入數據;加工環節記錄中包括產品批次核心指標(如溫度、濕度)隨著時間變化的值;產品質量檢測環節記錄中包括每個產品批次的關鍵質量指標值。
1.1特征選擇
輸入數據分為工藝上可調整的參數列表(draft_data)、工藝上不可調整的參數列表(param_data)和時序狀態監控指標表(param_data_timevarying)。其中,product_no為產品批次的編號,key_index為相應產品批次的質量指標值,取值范圍為[0,1]。由于原始數據無法直接建模,需要對數據表開展性征工程設計。針對數值型和類別型數據,采用ont-hot encode編碼;對于缺失值,采用均值進行填充。時序型數據根據時間將加工進度劃分成5個階段,提取加工進度每個階段對應的溫度、線速度等的最大值、最小值、平均數、眾數、方差的統計量。另外,也要提取加工進度50%時的參數統計量。
研究中,針對特定產品批次下,產品加工到100%的過程中,溫度、轉速、流量等參數在加工的階段中值的變化情況,可得效果繪制呈現如圖1所示。參數值的變化直接影響產品批次的質量。endprint
1.2異常值處理
異常值通常會影響建模和預測的結果[9]。需要對數據中存在的異常值進行處理。在時序狀態監控表中,加工環節中張力指標隨著時間變化產生了小部分的數據,并且這些數據都是間斷產生的,可能對產品的質量造成一定的影響,此類參數對建模并無明確參考價值,因此剔除張力指標值。
2回歸建模
2.1XGBoost算法
Boosting算法是數據挖掘領域比較流行有效的集成學習算法,通過將各個弱分類器加權疊加形成強分類器,從而有效降低誤差,達到準確的分類效果。Gradient Boosting[10]是在Boosting[11]基礎上的成果改進,算法思想是不斷地降低殘差,使先前的模型的殘差在梯度方向上進一步降低,從而得到新的模型。XGboost[12]是Gradient Boosting算法的改進版本,XGBoost對損失函數生成二階泰勒展開,并在損失函數之外對正則項求得最優解,充分利用多核CPU的并行計算優勢,提高了精度和速度。算法步驟可表述如下:
參考文獻:
[1]李涵. 論德國工業4.0對中國制造2025標準化工作的啟發[C]//第十四屆中國標準化論壇論文集. 北京:中國標準化協會,2017:8.
[2] 趙旭,閻威武,邵惠鶴. 基于多變量統計方法的產品質量控制[J]. 上海交通大學學報,2007(1):126-130.
[3] ZHENG Maokuan, MING Xinguo, ZHANG Xianyu, et al. Map Reduce based parallel bayesian network for manufacturing quality control[J]. Chinese Journal of Mechanical Engineering, 2017, 30(5):1216-1226.
[4] 朱慧明,趙銳. 基于自相關過程的貝葉斯質量控制模型研究[J]. 計算機集成制造系統,2008,14(3):615-618,624.
[5] FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. Annals of statistics, 2001, 29(5): 1189-1232.
[6] 葉倩怡,饒泓,姬名書. 基于Xgboost的商業銷售預測[J]. 南昌大學學報(理科版),2017,41(3):275-281.
[7] 黃艷瑩. 基于EMD-XGBoost-AR模型的網絡輿情預測研究[D]. 廣州:廣東工業大學,2017.
[8] 張昊,紀宏超,張紅宇. XGBoost算法在電子商務商品推薦中的應用[J]. 物聯網技術,2017,7(2):102-104.
[9] 張德然. 統計數據中異常值的檢驗方法[J]. 統計研究,2003(5):53-55.
[10]王兵. AdaBoost 分類算法的數學分析[J]. 軟件,2014,35(3):96-97,100.
[11]CHEN Tianqi, HE Tong, BENESTY M, et al. xgboost: Extreme gradient Bosting[EB/OL]. [2017-01-05]. http: //github.com/dmlc/xgboost.
[12]LIAW A, WIENER M. Classification and regression by randomForest[J]. R news, 2002, 2(3): 18-22.
[13]BONNER M O, PIGNATO P A, JAHNS S E, et al. Methods and apparatus for accessing and stabilizing an area of the heart: U.S., 6837848[P]. 2005-01-04.endprint