劉鑫


摘 要:數(shù)據(jù)挖掘技術(shù)日趨成熟,聚類(lèi)分析是數(shù)據(jù)挖掘的重要方法。本文以國(guó)內(nèi)某產(chǎn)品制造企業(yè)產(chǎn)品生產(chǎn)線(xiàn)自動(dòng)化采集數(shù)據(jù)為例,研究在聚類(lèi)分析前,針對(duì)生產(chǎn)企業(yè)生產(chǎn)過(guò)程數(shù)據(jù)開(kāi)展基于主成分分析方法的數(shù)據(jù)預(yù)處理的過(guò)程。
【關(guān)鍵詞】數(shù)據(jù)挖掘 主成分分析 預(yù)處理 生產(chǎn)行為
當(dāng)今世界,計(jì)算機(jī)性能不斷提高,生產(chǎn)企業(yè)內(nèi)部的信息化程度越來(lái)越高,數(shù)據(jù)庫(kù)管理系統(tǒng)應(yīng)用越來(lái)越廣泛,存儲(chǔ)數(shù)據(jù)的規(guī)模也在不斷地?cái)U(kuò)大。同時(shí),企業(yè)的生產(chǎn)普遍向著工藝復(fù)雜化精細(xì)化發(fā)展,產(chǎn)品生產(chǎn)工序增加,操作技術(shù)要求提升,這對(duì)企業(yè)的生產(chǎn)過(guò)程管理、產(chǎn)品質(zhì)量控制帶來(lái)了嚴(yán)峻的考驗(yàn)。實(shí)際中,企業(yè)管理者面對(duì)的數(shù)據(jù)也越來(lái)越繁雜,如何從大量復(fù)雜的生產(chǎn)過(guò)程數(shù)據(jù)中提取出有價(jià)值的知識(shí),通過(guò)把生產(chǎn)行為數(shù)據(jù)和實(shí)際業(yè)務(wù)管理有效結(jié)合、歸納、挖掘其中的隱藏信息,發(fā)現(xiàn)這些信息之間存在的潛在聯(lián)系,成為了有針對(duì)性的產(chǎn)品質(zhì)量控制,支持企業(yè)生產(chǎn)高效率運(yùn)營(yíng)的關(guān)鍵。
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘聚類(lèi)分析前必須要做的工作,其中包括對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等一系列工作,使之達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)。處理過(guò)程涉及多種統(tǒng)計(jì)學(xué)方法,如序列分析、回歸分析、貝葉斯分析、判別分析、相關(guān)分析、主成分分析等,本文主要介紹應(yīng)用主成分分析方法處理生產(chǎn)過(guò)程數(shù)據(jù),降低維度變量的問(wèn)題。
1 主成分分析的介紹
主成分分析方法是利用數(shù)據(jù)集變量降低維度的思想,把反映一個(gè)事物特征的多個(gè)變量,用較少的具有代表性的變量描述。它的中心思想是縮減一個(gè)包括很多相互聯(lián)系著的變量的數(shù)據(jù)集,在數(shù)據(jù)集中,保留盡可能多的有用的變量。主成分分析方法用所有的初始變量來(lái)得到新變量的更小的集合,而這個(gè)集合能較好表示初始變量。初始變量的關(guān)聯(lián)性越大,結(jié)果集所需要的變量個(gè)數(shù)就越少。應(yīng)當(dāng)考慮原始數(shù)據(jù)之間的關(guān)聯(lián)性,即變量之間是否具有可提取的綜合變量的必然聯(lián)系,提取的變量在多大程度上能代表原始事物的信息。
主成分列中,第一個(gè)主要成分y1是x1,x2…xp的一切線(xiàn)性組合之中最大的;第二個(gè)主要成分y2是x1,x2…xp的一切線(xiàn)性組合之中第二大的;第n個(gè)主要成分yn是x1,x2…xp的一切線(xiàn)性組合之中第n大的,而且提取出來(lái)的各個(gè)主成分中yi與yj相互無(wú)關(guān)。可以通過(guò)公式‖S - λI = O‖計(jì)算出方差矩陣S的特征值λ。λ1 ≥λ2≥…≥λp。λ1對(duì)應(yīng)y1的方差,λ2對(duì)應(yīng)y2的方差,…,λp對(duì)應(yīng)yp的方差,因此有
由大到小累計(jì)的方差貢獻(xiàn)率達(dá)到了閾值,則表示相應(yīng)主成分覆蓋了原數(shù)據(jù)集的大部分信息,其余的都是噪聲。
2 基于產(chǎn)品制造過(guò)程數(shù)據(jù)的主成分分析應(yīng)用
首先數(shù)據(jù)挖掘?qū)ο笫钱a(chǎn)品生產(chǎn)過(guò)程中設(shè)備采集數(shù)據(jù),以生產(chǎn)單作為主關(guān)聯(lián),生產(chǎn)形式是離散線(xiàn)性多次的生產(chǎn),也就是每個(gè)生產(chǎn)單之間在生產(chǎn)過(guò)程中沒(méi)有直接的聯(lián)系,產(chǎn)品可以在一臺(tái)設(shè)備上操作多次,設(shè)備運(yùn)轉(zhuǎn)系統(tǒng)采集記錄了設(shè)備前部、中部、后部三個(gè)部件的溫度以及壓力的數(shù)值,在一個(gè)生產(chǎn)階段完成后繼續(xù)進(jìn)行下一個(gè)生產(chǎn)階段的生產(chǎn),不會(huì)有并行生產(chǎn)的情況。從過(guò)去幾年的系統(tǒng)記錄數(shù)據(jù)計(jì)算獲得這些變量,并整合在產(chǎn)品質(zhì)量上,描述生產(chǎn)行為,形成數(shù)據(jù)聚類(lèi)分析使用的主表。此次研究樣本涉及變量可以分為兩類(lèi): 聚類(lèi)變量與描述變量。聚類(lèi)變量是根據(jù)既定的業(yè)務(wù)目標(biāo)選擇的并參與聚類(lèi)的變量。描述變量主要是在利用聚類(lèi)變量對(duì)產(chǎn)品生產(chǎn)特征分類(lèi)后,為了達(dá)到更徹底地了解產(chǎn)品生產(chǎn)特征的目的而需要使用的其他變量,以及其他沒(méi)有參與聚類(lèi)的變量都算作描述變量。
其中“生產(chǎn)單號(hào)”、“設(shè)備名稱(chēng)”、“操作員”等作為描述型變量,“平均前壓力值”、“平均后壓力值”、“平均中壓力值”、“平均前溫度值”、“平均后溫度值”、“平均中溫度值”、“平均電流值”、“最小前壓力值”、“最小后壓力值”、“最小中壓力值”、“最小前溫度值”、“最小后溫度值”、“最小中溫度值”、“最小電流值”、“最大前壓力值”、“最大后壓力值”、“最大中壓力值”、“最大前溫度值”、“最大后溫度值”、“最大中溫度值”、“最大電流值”、“研磨時(shí)間”,“混合時(shí)間”、“高速混合時(shí)間”、“上下混合時(shí)間”、“重量”、“色差”、“粘度”、“細(xì)度”、“干性”等,其中壓力、溫度等值,會(huì)有多次記錄,如“第一次平均前壓力值”,“第二次平均前壓力值”、“第三次平均前壓力值”。經(jīng)過(guò)統(tǒng)計(jì)最多有90個(gè)屬性變量參與聚類(lèi)過(guò)程。
對(duì)于數(shù)據(jù)集中設(shè)備生產(chǎn)時(shí)的數(shù)據(jù)采集變量,有些變量之間存在一定的相關(guān)性,如果存在較強(qiáng)相關(guān)性,那么說(shuō)明信息存在冗余,可以進(jìn)行維度縮減。減少參與聚類(lèi)的變量的個(gè)數(shù),將提高聚類(lèi)的效果。由于生產(chǎn)工序在設(shè)備使用上相對(duì)獨(dú)立,生產(chǎn)工序之間又具有相似的特征,所以首先針對(duì)第一階段生產(chǎn)過(guò)程中的溫度、壓力生產(chǎn)特征變量進(jìn)行分析。
主成分分析依賴(lài)測(cè)量單位的度量,所以在進(jìn)行主成分分析之前,必須進(jìn)行變量標(biāo)準(zhǔn)化后再進(jìn)行簡(jiǎn)單相關(guān)分析,得到變量特征矩陣,表1顯示了溫度相關(guān)變量的相關(guān)性矩陣,可以看出變量之間存在正相關(guān)性。
進(jìn)行主成分分析計(jì)算關(guān)聯(lián)矩陣特征值,并根據(jù)特征值占有率的累計(jì)值選取主成分的個(gè)數(shù)。特征值表2如下。
由表2可以看出特征值大于1的主成分共有7個(gè),其保留了原始變量74.63%的信息。從左邊部分可以看出特征值大小與主成分個(gè)數(shù)的關(guān)系,從右邊部分可以看出主成分個(gè)數(shù)與累積信息含量的關(guān)系。
主成分分析的關(guān)鍵是要給主成分賦予新的意義,給出合理的解釋?zhuān)@個(gè)解釋?xiě)?yīng)根據(jù)主成分的計(jì)算結(jié)果結(jié)合定性。通過(guò)特征方程(1-1)分析,
Prin1=0.382922*fronttempavg+0.403264*backtempavg+0.378092*middletempavg+0.316121*fronttempmin+0.302468*backtempmin+0.28823*middletempmin+0.282235*fronttempmax+0.276663*backtempmax+0.279643*middletempmax
Prin2=0.310109*leftpressavg+0.231412*rightpressavg+0.220604*middlepressavg+0.27013*leftpressmin+0.26198*rightpressmin+0.20965*middlepressmin+0.453727*leftpressmax+0.410205*rightpressmax+0.233996*middlepressmax
Prin3=0.21342*currentvalueavg+0.61568*currentvaluemin+0.634203* currentvaluemax
Prin4= 0.573596*currentvalueavg+ 0.556702* cl (1)
設(shè)備的壓力、溫度、電流等參數(shù)的平均值與其運(yùn)行中的最大值、最小值存在高度關(guān)聯(lián)性,產(chǎn)量與電流平均值之間也存在高度關(guān)聯(lián)性,但是前、中、后部件的溫度或壓力的關(guān)聯(lián)性相對(duì)獨(dú)立,研磨時(shí)間也相對(duì)獨(dú)立。之后分別對(duì)第二、三階段的研磨數(shù)據(jù)進(jìn)行分析,也同樣出現(xiàn)了相同的結(jié)果。由此,為了降低數(shù)據(jù)集維度數(shù)量,提高聚類(lèi)的效果,針對(duì)實(shí)例企業(yè)生產(chǎn)設(shè)備采集數(shù)據(jù)可以進(jìn)行適當(dāng)?shù)淖兞靠s減,保留變量:“平均前壓力值”、“平均后壓力值”、“平均中壓力值”、“平均前溫度值”、“平均后溫度值”、“平均中溫度值”、“研磨時(shí)間”,“混合時(shí)間”、“高速混合時(shí)間”、“上下混合時(shí)間”、“重量”、“色差”、“粘度”、“細(xì)度”、“干性”,數(shù)據(jù)集總變量數(shù)也由90個(gè)縮減為33個(gè)。
3 結(jié)論
研究可以發(fā)現(xiàn)企業(yè)生產(chǎn)數(shù)據(jù)集中存在著大量冗余的變量,如果放任不管,可能會(huì)增加聚類(lèi)分析的復(fù)雜度,影響聚類(lèi)的準(zhǔn)確性。所以,通過(guò)SAS主成分分析方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以有效地發(fā)現(xiàn)生產(chǎn)過(guò)程中的關(guān)鍵變量信息,以及它們之間的關(guān)聯(lián)關(guān)系。
參考文獻(xiàn)
[1]阮靜.SAS統(tǒng)計(jì)分析從入門(mén)到精通[M].北京:人民郵電出版社,2009.
[2]何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,1998(01).
[3]唐懿芳,鐘達(dá)夫.主成分分析方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[J].廣西師范大學(xué)學(xué)報(bào),1001-6597.2002.s1.050.
作者單位
中鈔油墨有限公司 上海市 201315