陳向榮
河北白沙煙草有限責任公司保定卷煙廠
計量型數據簡要分析三步法
陳向榮
河北白沙煙草有限責任公司保定卷煙廠
當今世界設備先進,機械自動化程度越來越高,生產線數據每時每刻成千上萬條累計疊加,要將數據轉化為反映事物變化或特征的信息,則必須采取數據處理、加工、解釋等統計分析手段,進而依據“數據信息”解決難題或質量改進。本論文針對生產中數據量較大的計量型數據類型,通過均值、極差、標準差及過程能力指數等統計量的案例講解,由淺入深得闡述數據分析的三種常用方法,通過統計方法將數字轉化為有價值的準確結論。
計量型數據;均值;標準差;過程能力指數
二十一世紀是科技飛速發展的世紀,企業的自動化、機械化、信息化程度迅猛提升,面對“大量化”、“多樣化”和“快速化”的生產檢測數據,必須采取數據分析、數據處理及數據顯示等方法,將其轉化為較高價值的能明確表述生產狀況或變化的信息,進而指導生產達到精益求精的目的。
下面我們以表1中的4組計量型檢測數據為例,由淺入深,由易到難,簡要講解計量型數據的三種常用分析方法。(見表1)
中心趨勢是數據最基本的定位點,表現計量型數據中心趨勢的統計量有均值、中值和眾數。中值不受極大、極小數值的影響,眾數有時不唯一或不存在,而生產過程中現場采集或樣品檢測連續數據一般符合數據正態,考慮到受每個檢測數據的影響,我們一般采用“均值”作為中心趨勢統計量。
計算1-4組數據均值,分別為24.26mm、24.26mm、24.19mm、24.23mm。假設此產品圓周標準要求為(24.25±0.20)mm,計算均值與規格中心值24.25mm的偏差,分別為0.01mm、0.01mm、-0.06mm、-0.02mm,可以初步判定第1組、2組數據優于第4組、3組數據,證據充分嗎?我們只是定位了檢測數據的一個均值點,在不清楚各個數據總體分布狀態的情況下,其實無法判定數據的優劣,需進一步深入分析。
數據離散程度是數據分布情況的一種度量,表現計量型數據離散的統計量有全距、標準差和方差。全距又稱為極差(R),是指一組測量數據中最大值與最小值之差,是檢測值變動的最大范圍。由于它忽略了最大值與最小值之間的其他數據,一般只適用于樣本容量較小情況。標準差(S)是方差(S2)的算數平均根,是每個測量值與均值之差的平方和除以(n-1)后再開方,計算公式如下:

由計算公式可知,每個檢測值對標準差(方差)均有影響。統計分析中方差是能直接進行加減運算的,而標準差不能,但實踐應用中,我們一般將標準差做為衡量每個數據圍繞平均值上下波動的量尺。

表1 某產品圓周檢測數據匯總表(單位mm)

表2 檢測數據離散程度統計量匯總表(單位:mm)
計算案例中數據組的極差(見表2),能明顯看出檢測數據分布范圍的寬窄,第3組0.13最小,第2組0.38最大。有時我們也使用最大值(MAX)與最小值(MIN)兩個統計量,將其與產品規格上下限直接比較,如第2組最大值達到24.45,等同于規格上限,存在檢測數據超出標準上限的風險,因此必須進行調整。計算案例每組數據的標準差,將它與極差數值分別排序,大小趨勢大致接近,但也不盡相同。如第2組、第4組極差與標準差優劣判斷存在矛盾。考慮到計算標準差時要兼顧到每一個檢測數值,我們一般將它作為衡量數據離散程度的標尺。因此,第3組、第1組數據要優于第2組、第4組數據。
綜合考慮中心趨勢與離散程度的判定結論,判定結果明顯存在差異性,我們無法準確斷定那組數據狀態最佳,數據不好是均值跑偏影響大還是離散變異影響大,數據不好又將如何進行調整改進呢?因此我們需進一步深入分析,將技術標準規格納為衡量依據。
過程能力指數是依據“小概率事件”原理,將過程的自然波動范圍定義為6ó(ó為總體標準差,一般用樣本標準差s替代),計算過程輸出能力與要求容差(即標準規格范圍)的比值,它是一個能量比的概念。由于實際生產過程中均值與規格中心值多數情況不重合,因此過程能力分析時,我們多使用PPK指標進行衡量。在生產過程穩定或統計受控前提下,過程能力指數PPK能將數據均值偏移、數據離散與標準規格要求三者之間的關系表達出來,其計算公式如下:

其中Usl、Lsl分別為規格上限與規格下限,由公式可知,數據均值越接近規格中心值,且標準差S越小,則PPK值越大。
計算1-4組檢測數據的PPK值,分別為1.66、0.73、1.29、0.68,經比較,第1組、第3組數據明顯優于第2組、第4組數據,對比第一步、第二步分析結論,各組數據受離散程度的影響較大一些,而數據離散較大的真正原因則需結合實際對各影響因素進一步分析驗證。
此外,由于現場數據采集或產品檢測后,數據均值與標準差均容易直接得到,而過程能力指數則需進一步計算推導。為了實現依據數據快速指導生產的目的,我們可以建立一個均值偏移量與標準差的對應查找表(窮舉法)。首先明確PPK標準下限值,一般是PPK≥1,然后通過查找列表,找到均值偏移量或標準差對應的統計量的下限值,由檢測統計量判定產品檢測數據是否合格,不合格則依據兩個統計量的所處水平指導現場進行原因排查或設備調整,以確保產品質量的合格受控狀態。