999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CART算法的PVC壓延設備狀態診斷方法研究

2021-09-23 07:05:54王美林劉金剛
現代計算機 2021年23期
關鍵詞:分類設備

王美林,劉金剛

(廣東工業大學信息工程學院,廣州510006)

0 引言

近年來,隨著中國制造業的轉型升級[1],國內眾多制造型企業開始沿著制造業信息化、智能方向發展,將現代信息技術與傳統制造業向融合,提高生產效率,從而降低生產成本。在工業生產過程中,確保設備維持正常的運轉狀態是至關重要的。因此,如何準確判定設備是否處于正常運轉狀態成為了眾多企業管理者關心的問題。

現有的PVC壓延設備體型龐大、結構復雜、作業流程長,單純依靠設備操作人員實時診斷[2]設備生產狀態是非常困難的。隨著物聯網技術[3]的發展,PVC壓延設備的信息化改造已初步完成,通過各種類型的傳感器[4]實時采集PVC壓延設備生產時的設備信息并傳輸到服務器中。因此,可以通過大數據技術對設備歷史信息進行分析[5],建立PVC壓延設備運行狀態診斷模型,完成對設備實時監控。

PVC壓延設備運行狀態診斷模型屬于分類模型,常用的構建算法有邏輯回歸[6](Logistic Regression)、決策樹(Decision Trees)和支持向量機[7](Support Vec?tor Machine,SVM)。由于邏輯回歸算法容易欠擬合,精度不高,而SVM算法針對擁有大量訓練樣本的數據集時運算效率不高。相比較而言,決策樹算法決策規則直觀且運算效率高,雖然會有過擬合現象,但可以通過集成學習的方式克服。因此,本文通過使用CART算法對歷史數據進行分析建立初步設備運轉狀態診斷模型。引入提升(Boosting)方法,創建多個CART樹并進行加性組合,通過構建集體決策模型完成PVC設備運行狀態的實時診斷,最后通過的實例測試證明該方法具有較強的實用性。

1 算法描述

1.1 決策樹的構建

常見的決策樹算法包括ID3、C4.5、CART等,其中C4.5算法是對ID3算法的優化[8],解決了ID3算法在分支過程中總偏向于取值較多的屬性,通過計算信息增益比率(gain ratio)來選擇分割點,該算法可以用來做多分類決策樹。CART算法采用二元分割法,即每次把數據分割成兩份,分別進入左子樹、右子樹最終形成分類二叉樹。CART算法通過計算基尼系數增益來確定分割點,在針對大規模樣本時,CART算法相較于C4.5算法,不用進行大量的排序運算和對數運算,運算效率會更高。因此,本文使用的決策樹算法為CART算法。

CART樹具體構建方法如下:

(1)對于一個樣本數據集S,分類屬性有m個類,記第i個類別的概率為pi,pi的計算方法為屬于該類別的樣本數除以數據集總樣本數。則樣本S的概率分布基尼指數定義為:

(2)數據集S中非分類屬性K的基尼系數GiniK(S)計算公式為:

S1、S2表示集合S被特征屬性K的最佳分割點分割后的兩部分,|S1|表示S1中樣本的個數。這里的重點在于如何找到最佳分割點對集合S進行劃分。有如下3種情況:①當特征屬性K只有兩種取值類型,則不需要討論分割點,直接利用上述公式計算即可。②當特征屬性K有多種取值類型,則需要對多個取值類型進行二分類劃分,得到多種二分類劃分方式。利用公式(2)分別計算每個的二分類劃分方式的基尼系數,選取基尼系數最小的二分類劃分方式作為最佳分割點。③當個特征屬性K為數值屬性時,需要先對數據先進行排序,按照排列順序依次用相鄰兩個數的均值作為分隔點將樣本劃分為兩個部分,計算分割后對應的基尼系數,同樣取基尼系數值最小的作為最佳分割點。

(3)對于一個屬性K,它的基尼系數增益計算方法是用樣本的概率分布基尼指數減去屬性K的基尼系數,表達式為:

依次選取基尼系數增益最大的屬性作為分類節點對數據集劃分為兩個子數據集,再在子數據集中對剩余的屬性遞歸調用第二個步驟,當子數據集中的樣本全部屬于同一類時停止遞歸調用。

(4)使用CART算法建立分類二叉樹用于設備運轉狀態的診斷,不可避免的便是“過擬合”現象,因此還需要進行剪枝處理。剪枝的基本策略有“預剪枝”和“后剪枝”[9],其區別在于“預剪枝”是在決策過程中當進行結點劃分時進行的,當新結點的劃分并不能提高決策樹的性能提升,則停止劃分,并把當前結點標記為葉子結點。“后剪枝”則是先生產一棵完整的決策樹,再從下往上考察每個非葉子結點,將該結點的子樹標記為葉子結點,若能提升決策樹的泛化性能,則去掉子樹,將該子樹替換成葉子結點。相比之下“后剪枝”的欠擬合風險小,泛化性能優于“預剪枝”。常用的“后剪枝”方法有EBP(基于錯誤的剪枝法)、REP(錯誤率降低剪枝法)、PEP(悲觀錯誤剪枝法),CCP(代價復雜度剪枝法)。單棵CART樹在后剪枝之后可以緩解過擬合現象,提高分類精度,但分類精度仍然不高。因此本文引入了提升(Boosting)方法,在此也就不再討論“后剪枝”的具體做法。

1.2 提升(Boosting)方法

對某個數據集的進行分類器的訓練的過程中,構造多個精度較低的弱分類器比構造一個高分類精度的強分類器要容易的多。因此,通過使用CART算法構建完一棵CART樹之后,改變訓練樣本的權重,即增加被分類錯誤的樣本比重,降低被分類正確的樣本比重,構成新的訓練集,再次訓練新的CART樹,就此便可得到一系列的弱分類二叉樹{T1,T2,T3,…,Ti,…},將一系列分類二叉樹進行加性組合便可以得出一個強分類二叉樹。具體流程如圖1所示,其中Wij表示第i次構建弱分類器時,訓練集的第j個樣本權重。ei表示第i個弱分類器的誤差率。ɑi為分類器加性組合時的系數。

圖1 提升(Boosting)方法

誤差率ei的計算公式為:

其中,Ti(j)表示數據集S的第j個樣本經弱分類器Ti后得到的值,yj表示該樣本的真實值,I為指示函數,當Ti(j)=yj成立時I(Ti(j)=yj)=0,反之,當Ti(j)=yj不成立時I(Ti(j)=yj)=1。

系數ɑi的計算方式為:

權重計算公式為:

當i=0時,即數據集S每個樣本j的初始化權值為為樣本集S的樣本個數。Zi為規范因子,計算公式為:

將(5)式代入(6)式與(7)式進行化簡可得:

基于CART樹的強分類器構建方法如下:

(1)對訓練數據集S使用CART算法構建第一棵CART樹T1,在構建過程中與原來方法不同之處在于:在使用公式(2)計算基尼系數時需要先使用公式(1)計算基尼指數Gini(S1)、Gini(S2),公式(1)中的第i個類別的概率pi計算方法不再是用屬于該類別的樣本數除以數據集總樣本數,而是求屬于該類別的各個樣本對應的權重值之和。

(2)利用公式(4)計算第一棵CART樹的誤差率e1,利用公式(5)計算T1的系數ɑ1,利用公式(8)、(9)計算出第一次迭代后的權值W2j,替換樣本S的權值。

(3)對替換權值后的樣本S繼續使用CART算法構建之后CART樹,重復(1)、(2)兩個步驟便可得到一系列的弱分類二叉樹{T1,T2,T3,…,Ti,…}。

(4)將這一系列的弱分類器{T1,T2,T3,…,Ti,…}加性組合便可以得到一個強分類器:Fi=ɑ1T1+ɑ2T2+ɑ3T3+…ɑiTi,當強分類器對訓練集樣本的誤分類次數達到閾值或訓練集樣本被完全正確分類時,停止構建新的弱分類器。

(5)最終得到的強分類器函數表達式為:

(6)sign為符號函數,表達式為:

2 算法的實現

2.1 數據來源說明

本文所使用的PVC壓延數據來自廣州佛山某新材料股份有限公司現有的PVC壓延線設備監測控制系統,該系統通過各類底層傳感器采集生產信息,使用串口聯網服務器等設備將各類傳感器數據,上傳服務器。PVC壓延生產線示意圖如圖2所示。

圖2 PVC壓延生產線

2.2 數據預處理

現有PVC壓延線的歷史數據均按照采集的時間先后保存在日志文件中,需要通過編程對日志文件進行解析。解析后得到的原始數據集中存在重復、缺失、錯誤現象,采取如下措施:①如果相鄰的幾組數據完全一致則合并為一組;②如果數據缺失,用鄰近數據均值補全;③如果存在錯誤數據,錯誤數據是指數據格式或數據值遠遠超出取值范圍的數據,對該類數據將直接剔除。為了使訓練集數據更具有代表性,從2019-2020年的PVC生產線歷史數據中按不同的月份和日期和時間段抽取5500組PVC壓延設備正常生產時的設備歷史數據,從兩年期間設備每次發生故障時采集到的數據中等概率抽取4500組設備故障數據組成數據集。將設備正常生產時數據和設備故障時采集到的數據進行隨機混合,以其中的7000組數據作為訓練集,剩下的3000組數據作為測試集,進行模型的訓練與測試。表1為數據集的部分數據情況,運行狀態為1代表的是設備正常運行時所采集到的數據,運行狀態為-1代表的是設備故障時所采集到的數據。

表1 數據集中部分數據展示

2.3 建立模型

在表1中可以看到,數據集由設備的{電流,溫度,速度}以及PVC壓延產品的厚度四個屬性組成,均為數值屬性,因此在構建CART樹時符合公式(2)下方的第(iii)種情況,即對每個屬性確定最佳分割點時,需要先對該屬性下的數據進行排序,按照排列順序依次用相鄰兩個數的均值作為分隔點將樣本劃分為兩個部分,第一次構建CART樹時,各個樣本的權重均為1/10000。按照基于CART樹的強分類器構建方法構建強分類器Fi。由于強分類器Fi=ɑ1T1+ɑ2T2+ɑ3T3+…ɑiTi可寫成Fi=Fi-1+ɑiTi,為了防止過擬合,在強分類器構建的過程中加入正則化項v(0

2.4 模型測試

在強分類器Fi構建過程中,為了防止擬合現象,需要不停地用測試集對更新的強學習器進行準確度(Accuracy)[10],精確率的表達式為:

其中,TN表示樣本實際值為-1,判決值為-1的樣本數目。FP表示樣本實際值為-1,判決值為1的樣本數目。FN表示樣本實際值為1,判決值為-1的樣本數目。TP表示樣本實際值為1,判決值為1的樣本數目。TN+FN+FP+TP=測試集樣本總個數。

影響強分類器Fi分類精度的因素有兩個:弱分類器數目和正則化項。圖3表示的是在v=1的條件下,強分類器Fi分類精度隨弱分類器數目變化而變化的情況,圖中最小的錯誤率為0.1216,對應的弱分類器數目為第176。弱分類器迭代176次,v=1的詳細測試記錄如表2所示。

表2 v=1、迭代176次測試記錄

圖3 強分類器錯誤率與弱分類器數目關系

從圖3可以看出,當弱分類器在v=1的條件下,迭代176次之后出現了過擬合現象,導致強分類器分類精度降低。

由于正則化項v的取值也會影響強分類器Fi分類精度,但在實際測試中,除非v的取值太小,導致迭代1000次還達不到最大值,否則,正則化項v的取值變化對最終分類精度的影響是比較小的,對v采用步進為0.1的搜索方法測試v每次變化時,強分類器Fi分類精度的變化,具體變化情況如圖4所示。

圖4 精確度與學習率的關系曲線

從圖4中可以看出,強分類器分類精確度受正則化項v變化的影響不大,取值范圍均在82.5至88.5之間,從v=0.1這個點也可以看出,由于正則化項v取值過小,在迭代1000次弱分類器時仍然處于欠擬合狀態。當v=0.8時,強分類器分類精確度取值最大,為88.37%,對應迭代次數為221次,此時具體測試情況如表3所示。此時,強分類器的AUC曲線如圖5所示,取值為0.90。

表3 v=0.8、迭代221次的測試記錄

圖5 強分類器ROC曲線圖

3 結語

工業大數據在未來的制造業發展過程中將發揮越來越重要的作用,成為提升生產效率、完成產業升級的重要手段。本文通過使用基于CART算法的提升(Boosting)方法對PVC壓延設備生產歷史數據進行分析,構建設備生產狀態診斷模型,用于設備生產狀態的實時診斷。實驗測試表明,該診斷模型的分類精度可達88.37%,AUC值為0.90,判決速度為0.15 ms/條,具有較高的準確率和實用性,也對其他類似的制造型工業生產設備運行狀態的判決提供了一種可靠的解決方案。

猜你喜歡
分類設備
諧響應分析在設備減振中的應用
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
基于VB6.0+Access2010開發的設備管理信息系統
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
數據分析中的分類討論
教你一招:數的分類
500kV輸變電設備運行維護探討
工業設計(2016年12期)2016-04-16 02:52:00
給塑料分分類吧
主站蜘蛛池模板: 午夜视频日本| 91久久偷偷做嫩草影院免费看| 成人亚洲视频| 波多野结衣一区二区三区88| 日本三级欧美三级| 亚洲精品不卡午夜精品| 71pao成人国产永久免费视频| 精品超清无码视频在线观看| 亚洲制服丝袜第一页| 狠狠干综合| 伊人狠狠丁香婷婷综合色| 亚洲国产成熟视频在线多多| 在线一级毛片| 日韩无码黄色| 亚洲欧美另类久久久精品播放的| 超碰免费91| 亚洲日韩欧美在线观看| 精品三级在线| 亚洲欧洲国产成人综合不卡| 毛片免费观看视频| 中文字幕av无码不卡免费| 午夜精品久久久久久久无码软件| 色婷婷亚洲十月十月色天| 日韩欧美国产成人| 日韩欧美国产综合| 亚洲日韩精品无码专区97| 国产区成人精品视频| 97无码免费人妻超级碰碰碰| 国产午夜一级淫片| 亚洲视频四区| 日韩成人免费网站| 国产大片喷水在线在线视频| 欧美另类第一页| 国产一区二区三区在线精品专区| 免费a在线观看播放| 特级欧美视频aaaaaa| 国产一区二区精品福利| 精品夜恋影院亚洲欧洲| 伊人AV天堂| 日韩成人在线网站| 欧美a级完整在线观看| 人妻丰满熟妇AV无码区| 国内精品九九久久久精品| 在线免费不卡视频| 国产在线精品香蕉麻豆| 国产精品成人不卡在线观看| 亚洲有码在线播放| 亚洲第一精品福利| 91极品美女高潮叫床在线观看| 久久综合结合久久狠狠狠97色 | 欧美日本激情| 久久毛片基地| 国模沟沟一区二区三区| 欧美第一页在线| 色亚洲成人| 露脸真实国语乱在线观看| 成人自拍视频在线观看| 国产精品尹人在线观看| 激情六月丁香婷婷四房播| 免费看一级毛片波多结衣| 无码免费视频| 欧美69视频在线| 巨熟乳波霸若妻中文观看免费| 999精品视频在线| 制服丝袜 91视频| 精品1区2区3区| 欧美三级视频在线播放| 亚洲一区二区成人| 色窝窝免费一区二区三区| yjizz视频最新网站在线| 久久亚洲国产最新网站| 亚洲—日韩aV在线| 免费福利视频网站| 亚洲AV成人一区国产精品| 国产福利一区二区在线观看| 亚洲高清无码久久久| h视频在线播放| 91偷拍一区| 精品一区二区三区水蜜桃| 久久无码免费束人妻| 国产精品一区二区在线播放| 四虎影视国产精品|