宮瑞哲,饒 豐,任 楠,王麗麗,魏 星
(1.北京機械工業自動化研究所,北京 100120;2.北自所(北京)科技發展有限公司,北京 100120)
滌綸長絲于二十世紀五十年代在全球范圍內快速發展。二十世紀七十年代,全球滌綸長絲的產量已經超過其他種類的纖維產品。此時,中國滌綸工業開始起步。經過八十年代、九十年代的發展,中國已成為全球滌綸長絲產量最大的國家。
目前,滌綸長絲質量信息處理方式簡單:系統收集到了大量的產品質量信息,數據沒有得到有效應用,對這些數據的處理也只是簡單地統計一下降等產品的數量。先進的數據處理方式應運用到其中,從大數據中獲取有價值的信息。
針對上述問題,本文將建立一個關聯規則分析模型,通過實時地數據采集、處理、建模,來分析生產質量,及時有效反饋生產。
絲錠成型后的流程包括以下三個主要環節。
1)落絲
落絲環節是將絡筒機上加工成符合一定要求的絲錠轉至絲車,通過絲車運送至外檢環節。
在整個流程中,系統都會對絲錠的信息進行記錄。在卷繞頭開始加工絲錠時,系統記錄開始卷繞時間、生產線號以及紡位號等。絲錠加工完畢后,系統記錄滿卷時間、卷繞時長、批次號、規格信息、錠重、管色和落次等信息。轉運過程中,系統記錄絲錠的錠位信息如絲車號、絲車的位置信息。
2)外檢
外檢環節分為:剝絲、外檢、織襪和稱重。剝絲的目的是去除絲錠外層的雜絲、廢絲。外檢主要分為人工外檢、自動外檢。外檢的目的是對絲車上的絲錠判定外觀質量等級,對有問題的絲錠進行降等。織襪是將絲錠通過織襪機織成襪帶,工作人員對其進行染色處理,對不滿足染色判定標準的絲錠進行染色降等。稱重是將絲車上的絲錠稱重,對重量不在規定范圍內的絲錠進行重量降等。
系統在此環節記錄是否降等、降等原因、質量等級和絲錠重量等信息。
3)包裝
包裝環節首先將完成外檢的,符合質量等級要求的絲錠碼垛、包裝,對降等的絲錠進行剔除。
系統在此環節會記錄絲錠在托盤上的位置信息、置紗盤號等。
綜上所述,絲錠從落絲到包裝,經過的各個環節都會有詳細的信息記錄。這些數據的完善記錄也為數據挖掘、關聯分析提供數據支撐。
在大多數滌綸長絲企業,通常絲錠的質量等級有AAA、AA、A、B和C(AAA為最優等級,C為最差等級)。
絲錠質量降等原因的判定主要包括以下幾種:
1)前道降等:問題發生在落絲環節前,人工很難觀察到的問題,比如飄錯絲(飄多或飄少)、少油(含油量不足)等。此類降等信息是由其他系統通過接口傳來的。
2)外檢降等:外觀降等是人工通過對絲錠觀察來判定降等。此類降等原因有毛絲、僵點、緊點、斷頭、絆絲、碰傷、分層、凸肩、油污絲、尾巴絲、網絡、成型、色澤和紙管等。
3)染色降等:人工對織成的襪帶進行染色(分為普染、敏染和陽離子染,區別為織物與染料的配比的不同)并觀察。降等情況有:主色不均勻、個別深淺色、普遍隱條和間斷性條紋。
4)重量降等:對絲錠進行稱重,對重量不在規定范圍內的絲錠進行重量降等。
為了分析出降等原因與絲錠流程中的某些環節存在關聯關系,需要采集相關設備的數據,在轉運過程中的轉運設備數據,以及班次和生產批號等數據。
質量降等信息的采集主要在外檢環節。采集方式分為以下幾種:通過系統錄入(WMS、PDA程序進行降等數據的錄入)、機器自動外檢(自動外檢設備采集到信息,通過接口傳給上位機)、設備采集(設備記錄實時數據,通過接口傳給上位機)和其他系統(如:MES)。
采集得到的數據,特征屬性較多,通過對數據的分析,選取重要特征。
為了采集人工外檢降等時絲錠的降等信息,設計外檢信息表。主要通過手持傳入的數據,該表的信息會經過存儲過程外檢數據分析存儲過程進行過濾,將信息檢驗并添加到降等信息表中。主要字段有:產品索引號、運載設備二、運載設備二位置、降等原因、降等等級和生產日期等。
為了采集降等絲錠的詳細信息,設計絲錠降等信息表。該表主要字段有:產品索引號、降等原因、降等等級、生產線號、位置號一、位置號二和順序號等。
獲取到關于絲錠質量的數據有很多,但數據通常是不一致的、極易受到噪聲的影響,需要先對數據進行預處理。數據預處理包括數據格式變換和數據歸一化。
1)數據格式變換
獲取到的數據含有大量的非數值數據,比如班組號、生產線號和運載設備一等。這些非數值數據是有價值的,但是無法直接使用,需要對其進行規范化處理。對生產線號、運載設備二進行數值映射:{數值}{F(非數值)},其中F為映射函數。對于離群點、噪聲和重復出現的數據,使用Kmeans算法進行數據清洗。
2)數據的歸一化
地理環境各要素并不是彼此孤立的,而是作為整體的一部分,與其他要素相互聯系和相互作用,在特征上保持協調一致,并與總體特征相統一。在地理教學過程中要以知識的點、線、面為網絡,抓住知識主干,圍繞重點、難點進行學習,重在構筑一個完整的知識框架體系。但現在有種錯誤的時髦傾向,將知識樹當思維導圖,然而知識結構不等于思維導圖,在某一地理要素起變化時,會給其他要素帶來哪些影響,這才是我們所從事的地理學的整體性的具體體現。同時,知識遷移不等同于復制,教學中要有意識地教學生遷移知識,理解概念,在教學中要多次重復,讓學生耳熟能詳,在不斷的在重復中形成深刻的印記。
由于數據的取值區間不一致,比如生產線號的取值為[1,2,…,20],而運載設備一的取值為[1,2,…,1000]。進行向量運算時,運載設備一取值對結果的影響要遠大于生產線號,因此首先要對數據進行歸一化處理。這里使用線性歸一化,如式(1)所示(X為某一特征中需要進行歸一化的特征值,Xmin為該特征的最小值,Xmax為該特征的最大值)[1]:

將整理完的數據存于Data矩陣中。

為了構建絲錠質量信息關聯規則分析模型,所用到的預備知識有信息熵、Gini系數和卡方驗證。
3.1.1 信息熵
信息熵可以度量信息量,也可以表達不確定程度、混亂程度。信息熵越大時,不確定性就越強;反之,確定性就越強。當信息熵等于0時,信息即為絕對可信。熵值法是根據各特征數值的變異程度來確定特征權重,是一種客觀賦權法,避免了人為因素帶來的偏差[2]。信息熵的計算如式(3)所示。

pij表示特征j在第i條記錄中占的比例,目的是計算該特征的變異程度。

通過信息熵計算各權重指標:

計算綜合評價結果:

3.1.2 Gini系數
Gini系數最小原則是CART算法的分裂方式,是用來衡量特征屬性重要度的方式。在保持信息熵模型優點的基礎之上,對模型進行簡化,減少大量的指數運算。使用Gini系數代替信息增益率,Gini系數可以衡量模型的純潔度,Gini系數越小,其純潔度越高,特征越好[3]。Gini系數計算如式(7)所示:pk表示一個特征的第k個類別的概率。

3.1.3 卡方驗證
卡方檢驗是一種過濾式的特征選擇方法,使用統計學方法,對每個特征評分并進行選擇。其優點是,計算速度較快,不需要依賴于具體的模型。缺點是,不考慮特征之間的相互影響。
卡方驗證是一種計數資料的假設檢驗方法,用于兩個分類變量的關聯分析或用于比較兩個及兩個以上的樣本率構成比,即檢驗理論頻數和實際頻數之間的擬合程度。
卡方檢驗的基本公式為:

其中,A為實際頻數,T為理論頻數,x2為卡方值。
卡方分析先假設兩個變量是相互獨立的,在此假設成立條件下,計算每一變量的理論頻數與實際頻數。比較這兩個數值,差值越大表示差距越大,原假設不成立;兩個數值差距小,則卡方檢驗結果明顯,原假設成立。通過Pearsonx2統計量來計算數據的關聯程度。根據統計學假設檢驗理論來進行考察是否有關聯,算出統計量R2后查x2(k)分布表的分數位x1-α2(k)。若R2<x1-a2(k),則關聯的置信度為1-α,反之,獨立。
為了獲得對絲錠降等原因關聯度較高的幾個特征,需綜合考量卡方檢驗、信息熵和Gini系數三者的運算結果。
本文搭建了一種針對滌綸長絲絲錠質量信息的關聯規則分析模型。算法流程及其詳細描述如下。
3.2.1 算法流程
絲錠質量信息關聯規則分析的算法流程包括以下環節。
1)選擇需要進行關聯分析的降等原因,通過式(5)計算各特征值信息熵、通過式(7)計算各特征值Gini系數、通過式(8)計算各特征的卡方檢驗值。
2)對三個結果進行索引倒序排序。
3)排序號越小的評分最高,以次遞減。
4)結合三個結果的評分,對總分進行索引倒序排序。
5)得到總分最高的前兩個特征。
3.2.2 算法流程描述
完成數據采集及處理后,可以降等原因列表:JD_reason=[“重量降等”,”絆絲”,”夾絲”,”機械毛絲”,”機械成型”,”紙管”,”人為毛絲”,”機械碰毛”,”人為毛絲”,”其他”]。對每種降等原因進行關聯規則分析,即遍歷JD_reason,對所有元素分別使用3.2.1的方法進行運算。
在算法2、4步中,使用索引排序的目的是為了能夠方便得到排序后的結果所對應的特征。特征列表Lable=[“生產線號”,“位置號一”,“順序號”,“位置號二”,“產品批次號”,“產品規格”,“運載設備一”(運載1),“運載設備一位置”(運1位置),“Area”,“Jtime”,“運載設備二”(運載2),“運載設備二位置”(運2位置),“Itime”,“班組號”]。算法第5步需要通過Lable獲取關聯系數最高的兩個特征。
將算法第1步的卡方檢驗、信息熵、Gini系數的結果分別存到向量X_res、E_res、G_res中。
將算法第4步最終的結果存到Res中。
算法2~4步的偽代碼簡化形式如下:

使用上述模型對近一個月內的絲錠質量信息進行關聯規則分析。在全部的降等情況中,“紙管”問題最多,故選取“紙管”降等的數據作為模型的輸入數據集。輸入數據集=(紙管問題數據,未降等數據),共有739072條數據,數據集如圖1所示。

圖1 “紙管”數據
使用模型進行計算得到結果,結果如表1所示。

表1 “紙管”結果
圖2為模型計算出各特征的卡方檢驗(X_res)、Gini系數(G_res)和信息熵(E_res)結果:

圖2 各特征的三個評價指標得分情況
由以上模型的結果可得,運載設備一位置和位置號一為與“紙管”降等情況關聯度最高的兩個影響因素。分別計算各運載設備一位置和位置號一產生的“紙管”降等數量。
由圖3左可以看出,1、9、17、25這些在運載設備一上的位置容易產生紙管問題,這些位置都是邊緣位置,需要引起注意。由圖3右可以看出29號位出現紙管問題最多,需要人員針對29號位置號一進行檢查,是否該位置設備出現問題,導致紙管容易受損。

圖3 “紙管”問題的降等數量
依照以上流程對各個的降等情況進行分析,可以分析得到跟當前降等原因關聯度最高的幾個特征,然后分析該降等原因和關聯度最高特征的關系,來判斷該時間段這些特征取哪些值時最易降等。
本文對化纖行業中的產品質量數據進行了分析處理。通過卡方檢驗、信息熵和Gini系數結合進行各因素對各種降等因素的關聯分析,分析出當前一段時間某種降等情況影響最大的幾個關鍵因素。從海量的化纖行業的數據中,獲得有價值的信息,及時的數據反饋,可以了解到當前生產質量的狀況,優化生產流程的關鍵環節,提高產品質量。