999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KMUS-RF算法的復雜產品關鍵質量特性識別研究

2021-11-05 23:22:41柳嘉昊
中小企業管理與科技·下旬刊 2021年10期

柳嘉昊

【摘? 要】復雜產品生產數據具有高維度、不平衡的特點,為在復雜產品的生產階段有效識別關鍵質量特性,及時進行質量控制,論文提出了一種基于聚類欠采樣的改進隨機森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF),利用K-Means算法對多數樣本進行聚類,并根據聚類結果進行多次欠采樣形成多個平衡數據集,以隨機森林為基分類器進行識別,最終根據分類過程中的特征重要性輸出關鍵質量特性集。算例表明,KMUS-RF算法相比現有的多種分類器有良好的整體分類性能,并能顯著降低復雜產品分類的第二類錯誤率,滿足產品實際生產需求。

【Abstract】The production data of complex products have the characteristics of high dimension and imbalance. In order to effectively identify the critical-to-quality characteristics in the production stage of complex products and timely control the quality, this paper proposes an improved random forest algorithm base on K-Means clustering under sampling (KMUS-RF). K-Means algorithm is used to cluster the majority of samples, and multiple undersampling is performed according to the clustering results to form multiple balanced data sets. The random forest based classifier is used for recognition, and finally the critical-to-quality characteristics set is output according to the feature importance in the classification process. Numerical examples show that KMUS-RF algorithm has good overall classification performance compared with existing classifiers, and can significantly reduce the type II error rate of complex product classification, and meet the actual production needs of products.

【關鍵詞】關鍵質量特性;不平衡數據;隨機森林;K-Means;第二類錯誤

【Keywords】critical-to-quality characteristics; imbalanced data; random forest; K-Means; type II error

【中圖分類號】F273.2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)10-0134-04

1 引言

質量強則國家強,質量興則民族興,質量可靠性是產品生產最基本的要求。在復雜產品的生產制造過程中,由于復雜產品由諸多系統組成,且它們具有高度集成、系統之間相互關聯、相互制約的特點,因此需要控制的變量極多。例如,汽車發動機由五大系統和兩大機構組成。五大系統是燃料供給系統、冷卻系統、潤滑系統、點火系統和起動系統。兩大機構是曲柄連桿機構和配氣機構,其中某一系統又由活塞、連桿、搖臂等零部件組成,零部件又能進一步被分解為螺絲、軸承等,每一微小的零部件都有尺寸、重量等質量特性。在復雜產品被從部件分解成零件的過程中,產品質量特性數據集的維度會隨著產品結構的逐步分解而不斷升高。另外,在實際生產過程中,產品數據往往具有不平衡性。在制造業中,如果生產出的合格產品數量是不合格產品數量的10倍以上,就稱這樣的數據為不平衡數據(Imbalance Data Sets,IDS)。高維度、不平衡的復雜產品生產數據使質量控制成為難題。因此,質量問題成為復雜產品生產控制的關鍵問題,這不僅關系到復雜裝備的生產質量問題,更關系到經濟安全甚至生命安全。為了在較低的控制成本下有效實現質量控制,就需要從高維度、不平衡的質量特性數據集中識別出對產品質量有顯著影響的關鍵質量特性(Critical-to-Quality Characteristics,CTQ)。

2 相關研究工作概述

傳統的CTQ識別主要依賴于工程人員的專業知識或者是顧客的需求,從產品構造、產品加工、工程特性、顧客需求等角度定性或定量方法識別產品的CTQ。應用最多的就是質量功能展開法(Quality Function Deployment,QFD)。QFD法主要包括以下幾個步驟:調查顧客需求、產品規劃、產品設計方案確定、零部件規劃、零部件設計和工藝過程設計、工藝規劃、工藝質量控制。

至今,QFD仍被認為是產品設計階段CTQ識別的最有效方法。但是,在應用中發現,當QFD法應用于高維度、不平衡的數據集時會因自身的局限性而大大降低效率,QFD法的質量矩陣變得難以確定,由此便產生了通過數據挖掘、機器學習等方法識別產品CTQ的研究,這方面的研究還相對較少。閆偉等(2012)通過改進ReliefF算法、Wrapper方法及EM(Expectation Maximization)算法,有效提高了CTQ識別性能并大幅降低了第二類錯誤率,還在2014年通過調整CEM(Classification EM Algorithm)算法的K值輸出不同的聚類結果,消除冗余樣本后作為IG(Information Gain)算法的輸入,有效降低了數據高維度和不平衡帶來的負面影響,正確識別了產品CTQ集。李岸達等(2016)提出了基于NSGA-II的特征選擇算法,引入第II類錯誤率度量質量特性子集的重要性,通過理想點法在非支配解集中選擇最佳調和解,得到產品的CTQ集。

從現有研究中發現,目前的CTQ識別方法有以下幾點不足:難以應用于高維度、不平衡的復雜產品數據集;未考慮到第二類錯誤率對實際生產中的影響;基于數據挖掘、機器學習的CTQ識別算法不夠高效。針對以上不足,本文旨在提供一種算法,能高效識別產品CTQ集,可應用于高維度、不平衡的數據集,并且能夠降低第二類錯誤率,滿足實際生產中的需要。

3 研究思路和方法

3.1 構建基于改進隨機森林算法的CTQ識別方法

本文從不同于傳統CTQ識別方法的視角,構建了一套完整的高維度、不平衡復雜產品數據集CTQ識別方法,基本框架如圖1所示。

基于改進隨機森林算法的CTQ識別方法步驟如下:

①獲取復雜產品原始質量特性數據集。

②數據預處理(填補缺失值、標準化數據)。

③對多數類樣本進行K-Means聚類。

④根據聚類結果進行欠采樣生成n個多數類樣本集。

⑤將每個多數類樣本集與少數類樣本集組成n個平衡的訓練集。

⑥對每個平衡訓練集用決策樹進行分類,直至生成n棵決策樹形成隨機森林。

⑦對于測試集,經過每棵樹決策判斷,最后投票確認分到哪一類。

⑧根據分類過程中的特征重要性輸出CTQ質量特性數據集。

該方法的構建總體分為3個階段:第一階段(步驟①、②)對原始高維度、不平衡數據進行初始處理;第二階段(步驟③~⑥)基于聚類欠采樣的改進隨機森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF)對樣本數據進行分類;第三階段(步驟⑦、⑧)驗證算法的有效性,并輸出CTQ數據集。

3.2 KMUS-RF算法評價指標

為評價KMUS-RF算法的分類效果,本文構建了混淆矩陣,如表1所示。TN表示模型將反類樣本預測為反類的數量,FP表示模型將反類樣本預測為正類的數量,FN表示模型將正類樣本預測為反類的數量,TP表示模型將正類樣本預測為正類的數量。

基于表1,可以得到各種分類性能的衡量指標,包括:分類精度(Accuracy)、準確率(Precision)、召回率(Recall)、F1得分(F-score)、第二類錯誤率(Type II error)。各評價指標的計算如式(1)~(5)所示。

本文選用分類精度和第二類錯誤率2個指標對分類結果進行評價。其中,第一類錯誤的定義為錯誤地將合格產品判定為不合格產品,這類錯誤的風險承擔者為生產者,因此也被稱為“生產者風險”;第二類錯誤的定義為錯誤地將不合格產品判定為合格產品,這類錯誤的風險承擔者為消費者,因此也被稱為“消費者風險”。在復雜產品的生產過程中,第二類錯誤帶來的損失通常遠高于第一類錯誤。因此,本文選用的評價指標兼顧了分類器的性能和實際生產應用的需求。

4 實證分析

4.1 數據獲取與預處理

本文復雜產品質量特性數據集來源于UCI數據庫的SECOM數據集,該數據集為半導體生產過程控制數據。數據集共有樣本1567個,每個樣本有590個質量特性,將其標號為“Q0”“Q1”…“Q589”,樣本分為合格產品和不合格產品2類,其中合格產品數量為1463個,不合格產品數量為104個。SECOM數據集中質量特性數量多,合格產品數量超過不合格產品數量的10倍,是典型的高維度、不平衡數據集。因此,在分類器識別之前需要對數據進行預處理。

首先,填補缺失值。SECOM數據集中,部分樣本缺少某個或某幾個質量特性的數據,為便于模型進行預測,本文使用均值填充法(Mean Completer),用每一質量特性的均值填充缺失值。

接著,標準化數據。為進一步提高模型的收斂速度和預測精度,本文使用標準差標準化(StandardScaler)對數據樣本進行無量綱化處理,具體方法如式(6)所示。

(6)

式中,x'表示無量綱化樣本,x表示原始樣本,表示樣本均值,s表示樣本標準差。最后,分割數據集為訓練集和測試集,本文隨機選取26個合格產品和26個不合格產品組成測試集,剩余數據為訓練集,具體信息如表2所示。

4.2 基于K-Means聚類欠采樣

隨機森林算法基分類器的多樣性將決定最終分類效果,為此,本文通過聚類的欠采樣方法構建不同的訓練子集,以提高基分類器的多樣性。首先,對多數類樣本進行K-Means聚類,具體過程如下:①從多數類樣本中選擇k個樣本作為初始簇中心:C=η。②計算每個多數類樣本xj到k個簇中心ηi(1≤i≤k)的歐氏距離dij,確定xj的簇標記λj=arg mini∈{1,2,…,k)dij,并分配給最近的簇中心Cλj=Cλj∪{xj}。③將每個簇中心設置為所分配的所有多數類樣本的平均值。④重復步驟②、③直至簇中心不再變化,結束循環。⑤輸出多數類樣本的聚類結果。

本文取k=39,經過K-Means聚類后,訓練集中的多數類樣本被聚類成39個簇。接著,從39個簇中有放回得抽樣2次,并與少數類樣本進行合并,生成1個平衡訓練子集(其中含有78個多數類樣本和78個少數類樣本)。最后,重復進行上一步中的抽樣,得到n個平衡訓練子集。

4.3 基于隨機森林算法的產品分類實現

對上文得到的n個平衡訓練子集,構建n棵決策樹組成的隨機森林,根據每棵決策樹對單一訓練子集的訓練結果,對測試集進行分類,最終輸出n棵決策樹投票得到測試集分類結果。

本文設定n=50,為增加實驗結果的客觀性,本文通過調整采樣時的隨機數種子,進行5次實驗,分別記為E1、E2、E3、E4、E5。結果如表3所示。

此外,本文選擇RF、RUS-RF、SMOTEENN-RF、SMOTETomek-RF、ADASYNENN-RF、CEM-IG、改進ReliefF、改進Wrapper、改進EM九種算法作為本文的對照算法。

其中,RF代表不做任何處理的隨機森林算法;RUS-RF代表先采用隨機欠采樣,再用隨機森林進行分類的算法;SMOTEENN-RF代表先用SMOTE進行過采樣,再用EditedNearestNeighbours進行欠采樣,最后用隨機森林進行分類的算法;SMOTETomek-RF代表先用SMOTE進行過采樣,再用Tomek Links進行欠采樣,最后用隨機森林進行分類的算法;ADASYNENN-RF代表先用ADASYN進行過采樣,再用EditedNearestNeighbours進行欠采樣,最后用隨機森林進行分類的算法,其余為現有文獻中應用的算法。另外,在用到隨機森林進行分類的算法中,統一設定用50棵決策樹進行投票。各算法的比較結果如表4所示。

從表4可以很直觀地看出,本文提出的基于KMUS-RF算法的分類方法在分類精度和第二類錯誤率2個指標均優于現有的基于重采樣技術的隨機森林算法,證明本文的聚類欠采樣方法能夠良好保留多數類樣本的信息。

此外,與其他CTQ識別算法相比,雖然分類精度不是最優,但也表現出良好的性能。本文算法大幅降低了產品分類的第二類錯誤率,有效降低了實際生產過程中的負面影響。

4.4 基于KMUS-RF算法的CTQ識別

本文根據每次實驗中隨機森林算法的特征重要性(feature_importance)進行降序排列,即對影響復雜產品分類結果的各個質量特性的重要性從高到低進行排列,可認為,某個質量特性對分類結果影響越大,該質量特性越重要。為不失一般性,本文對5次實驗的前top_n個質量特性取交集,得到對每次實驗的產品分類都起重要作用的質量特性集,將其作為CTQ集,具體結果如表5所示。

由表5可得,通過對top_n值的改變,能夠明顯看出質量特性的重要性梯度,在實際生產應用中,企業可根據自身的質量控制能力靈活調整top_n值,對關鍵質量特性進行有效控制,便于及時發現產品缺陷,調整生產策略。

5 結論與展望

近年來,隨著制造業的不斷發展和各種測量儀器的進步,從產品加工過程中獲得各個零部件的尺寸參數等技術已較為成熟,但復雜產品組成系統眾多,客觀上造成了數據的高維度性,而合格產品數量遠大于不合格產品數量,又造成了數據的不平衡性,這2個特性給企業在生產過程中的CTQ識別控制帶來了一定困擾。本文提出的KMUS-RF算法以高維度、不平衡的復雜產品生產數據為研究對象,算例結果表明:該方法可以準確地對復雜產品進行分類,并有效識別復雜產品CTQ集,還能有效降低產品分類的第二類錯誤率。算法既給復雜產品高維度、不平衡數據的CTQ識別研究提供了理論借鑒,也給企業實際生產過程中進行質量控制、降低第二類錯誤率提供了方法參考。在后續的研究中,可將更多的數據挖掘、機器學習方法應用于復雜產品CTQ識別中,探究更精確的算法,也可根據其他復雜產品生產數據集對本文算法進行改進和創新。

【參考文獻】

【1】李伯虎.復雜產品制造信息化的重要技術——復雜產品集成制造系統[J].中國制造業信息化,2006(14):20-24.

【2】張健,方宏彬.剪枝與欠采樣相結合的不平衡數據分類方法[J].計算機應用研究,2012,29(03):847-848.

【3】何益海,唐曉青,王美清.產品設計質量數據與管理模型研究[J].計算機集成制造系統,2006,12(8):1161-1166.

【4】馬驪.隨機森林算法的優化改進研究[D].廣州:暨南大學,2016.

【5】Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.

【6】He H, Bai Y, Garcia E A, et al. ADASYN: Adaptive synthetic sampling approach for imbalanced learning[C]// Neural Networks, 2008. IJCNN 2008. (IEEE World Congress on Computational Intelligence).

IEEE International Joint Conference on. IEEE, 2008.

【7】Batista G E A P A , Prati R C, Monard M C. A study of the behavior of several methods for balancing machine learning training data[J].Acm Sigkdd Explorations Newsletter,2004,6(1):20-29.

【8】閆偉.基于數據挖掘的復雜產品關鍵質量特性識別的方法研究[D].天津:天津大學,2012.

【9】閆偉,何楨,李岸達.基于CEM—IG算法的復雜產品關鍵質量特性識別[J].系統工程理論與實踐,2014(5):1230-1236.

【10】于志忠.利用QFD方法建立基于顧客滿意的質量目標[J].中國認證認可,2010(11):35-37.

【11】李岸達,何楨,何曙光.基于NSGA-Ⅱ的非平衡制造數據關鍵質量特性識別[J].系統工程理論與實踐,2016,36(06):1472-1479.

主站蜘蛛池模板: 亚洲嫩模喷白浆| 亚洲无码精品在线播放| 直接黄91麻豆网站| 国模在线视频一区二区三区| 福利视频99| 国产亚洲精品97在线观看| 欧洲成人免费视频| 91麻豆久久久| 国产精品高清国产三级囯产AV| 国产永久在线视频| 全色黄大色大片免费久久老太| 亚洲第一视频免费在线| 婷婷在线网站| 国产成人三级| 国产成人无码Av在线播放无广告| 综合色区亚洲熟妇在线| 午夜不卡视频| 就去色综合| 九九热这里只有国产精品| 国产亚洲视频在线观看| 国产无码精品在线播放| 五月六月伊人狠狠丁香网| 欧美色视频日本| 国产精品尤物在线| 亚洲永久视频| 在线观看免费黄色网址| 日本免费新一区视频| 福利一区在线| 19国产精品麻豆免费观看| 国产成人精品日本亚洲| 久久国产黑丝袜视频| 国产男人天堂| 日韩免费毛片视频| 91娇喘视频| 无码专区国产精品一区| 国产偷倩视频| 国产在线一区视频| 18禁黄无遮挡网站| 国产99视频精品免费视频7| 国产欧美日韩精品综合在线| 国产性生交xxxxx免费| 午夜国产理论| 日本国产精品一区久久久| 国产毛片网站| 国产精品亚洲а∨天堂免下载| 欧美专区在线观看| 91视频99| 久热99这里只有精品视频6| 99精品热视频这里只有精品7| 无码中文AⅤ在线观看| 四虎永久免费在线| 欧美成人精品在线| 激情五月婷婷综合网| 久久毛片网| …亚洲 欧洲 另类 春色| 黄色网址手机国内免费在线观看| 久久国产精品电影| 九九这里只有精品视频| 97成人在线视频| 精品人妻系列无码专区久久| 在线观看热码亚洲av每日更新| 网友自拍视频精品区| 日本免费新一区视频| 亚洲综合婷婷激情| 国产欧美精品专区一区二区| 国产v精品成人免费视频71pao| 青青草原国产免费av观看| 国产精品亚洲一区二区三区在线观看| 国内精品免费| 国产农村妇女精品一二区| 在线精品视频成人网| 在线免费观看AV| 亚洲男女在线| 日本在线欧美在线| 一级一级特黄女人精品毛片| 日韩经典精品无码一区二区| 国产精品lululu在线观看| 国产精品成| 国产精品30p| 99久久婷婷国产综合精| 国产a网站| 午夜啪啪网|