摘 要:文章基于計量測試中異常數據的產生和剔除方法,進行了分析和研究,從而盡可能準確、高效地剔除異常數據,結合實例分析了剔除方法在應用中應該注意的事項。
關鍵詞:計量測試;異常數據剔除;精確性
計量測量工作是一項對數據精確性要求很高的工作,而在通過計量測量得到大量數據后,還應對數據進行科學的整理,對其中可能出現的異常進行有效的剔除,從而保證測得數據的有效性,供相關實踐使用。
1 計量測試工作的作用
計量測試工作主要是在日常的各類生產實踐中,出于對各種數據的使用需要而對檢測儀器的測量結果進行評估,通過評估結果來判定檢測儀器的狀態是否能夠滿足正常使用要求。檢測數據的重要性是不言而喻的,只有依靠數據,才能對生產工藝的穩定性、各環節產成品以及最終成品的各項參數是否能符合使用需要等作出科學的評判。它也是用以指導工藝改進和變革、不斷提高產品質量的最有效工具。沒有準確的計量,就不可能得到令人信服的數據,那么試圖依靠數據進行工藝過程控制、產品質量評定、產品質量的持續改善等就不可能實現。
2 計量儀器產生誤差的原因
統計學上,將在一組重復測量數據中,有個別數據與其他同組數據存在明顯差異的數據判定為可疑數據,這種數據的明顯特點是與組內其他數據存在明顯的差異,也即數據發生了變異,那么這種變異究竟屬不屬于合理的范疇,則有待于通過進一步的判斷才能確定。
計量儀器屬于一種高精密的儀器,對外界環境的要求相對較高,外界環境發生劇烈的變化也可能導致計量儀器的測試出現偏差,從而導致檢測儀器的結果出現較大的誤差。一般導致計量儀器產生誤差的原因可能有:(1)檢測儀器遭受沖擊,主要是機械沖擊和外界的震動等;(2)電網供電電壓的變化、電磁干擾的影響導致檢測儀器無法正常工作;(3)檢測人員自身工作疏忽、主觀測量失誤、工作經驗不足熟練程度不夠導致的操作不當;(4)儀器本身出故障,比如零件松動、內部電子元件損壞等。
異常值由于與正常的合理值存在較大的偏差,如果參與到計算中或是判定過程中,往往會對結果造成極大的干擾,從而影響人們作出正確的決策。因此必須要剔除異常值,但是如果采用了不正確的剔除方法,不僅難以消除異常值帶來的影響,反而會造成測量重復性較好的假象,會對數據真實性的判斷造成障礙,從而誤導人們提高了檢測儀器的等級。而如果不剔除,又會降低測量數據的重復性,從而給檢測儀器的等級帶來不利影響。以上表明,只有對異常值采用正確的剔除方法,才能確保最終的測量復合人們的使用要求。
3 異常值判斷準則
在計量實踐活動中常用的異常值判斷準則有以下幾種:(1)3Σ準則(三西格碼準則又名拉依達準則);(2)格拉布斯準則;(3)肖維勒準則;(4)t檢驗法。需要注意的是,盡管以上準則內容有所不同,但進行判斷時都不外乎地使用到了置信概率。所謂置信概率是指隨機變量落于“置信區間”的概率,將置信區間所代表的測量數據取值范圍命為X,則有以下表達式:
(1)3 Σ準則:
|Xd-X|>3?滓
將測得數據代入上式,如果符合則判定該值為異常值,應予剔除。其所代表的含義為:可疑數據與整組數據的算數平均數的差的絕對值大于3倍的標準偏差,則此數值應舍棄。
(2)肖維勒準則:|Xd-X|>wn·?滓
應用本公式時,根據相互獨立測量的數據,如果測量值滿足以上公式:|Xd-X|>wn·?滓時,則判定該數值xd為異常值,應予以剔除。
(3)格布拉斯準則表達式:|Xd-X|≥G(α,n)s
式中:xd-測量數據;x-測量數據平均值;s-貝塞爾公式計算的標準差;G(α,n)-為查表得。
(4)t檢驗法
t檢驗法主要是以可疑數值xi之外的數值當做一個數據集合總體,同時假定該數據集總體呈正態分布,(盡管這只是一個數據分布的假定,究竟是不是正態分布,尚需要進一步的判斷,但在實際應用中,人們往往傾向于不考慮樣本是否符合正態分布,而將其近似假定為樣本符合正態分布),同時將可疑數值xi當作一個樣本容量為1的特殊總體,在進行兩個總體比較時,如果兩者同屬一個總體,那么他們之間不應該存在顯著的差異,由此即可計算出統計量k:
k=■
式中:X-可疑值以外的樣本數據算術平均值;s-可疑值以外的樣本數據標準差。將k值與查t分布表所得值進行比較,大于顯著性水平a(a常取0.05)下的t檢驗值,則表明xi的出現是一個小概率事件,可以考慮為異常值,將其舍去。
4 實例判定
現結合實例對以上異常值判斷準則進行判定:
例:對某測量量進行等精度測量得到一組測量數據:10.002,10.2
04,0.218,10.220,10.228,10.230,10.312,10.320,10.342,10.346分別用以上方法判斷并剔除異常值,取置信概率95%(即是α=0.05),
首先懷疑10.346為異常值
計算得到:
X=10.2317(10個數據的平均值),X1=10.2231,σ=0.0912,s=0.0888
結論:10.346為異常值,應剔除。
結論:在以上判定案例中,應用的四種方法判定結果相對一致:10.346為異常值。其中:G(α,n)s與10.002-10.2317最接近,這也表明此種情況下應用格拉布斯準則效果相對更好。從以上判定過程中,我們不難總結出判定異常數值的基本思想:即先做出某一統計量,若該統計量在規定的一個范圍內,那么認為其服從正態分布,否則就認為數據不服從正態分布,這就表明其中數據存在著明顯的誤差。為了方便判斷,通常先將數據按照大小進行排序,最先懷疑極值。如果極值未被判定為異常值則其他也就不會發生異常。而在以上的幾種判斷準則中,除了準則(1)之外,都需要通過查表,來得出參考值并與統計得到的計算值進行比較。準則(1)|Xd-X|>3?滓,從公式分析來看,如果測量次數N足夠大,則相應的標準差σ將很小,此時準則(1)就變得非常的精確。標準差σ是通過貝塞爾公式計算出的,該公式要求測量次數N不得少于10,所以一般如果測量次數足夠大,比如大于50次以上,則應用準則(1)就相對方便許多。而由狄克遜準則計算公式不難看出,該準則可以一次剔除多個異常數值,因此如果在進行目測判斷有多個異常值出現時,則建議使用該準則進行判定。除此之外,其他方法在剔除一個異常值之后,必須進行重新計算不含異常數值后的其他數據的平均值和標準差,再重新判斷直到沒有發現異常值,t檢驗法多用于兩樣本方差顯著性判斷。
5 結束語
在實際應用中為了保證有足夠的精度,避免誤判,可以綜合以上判定準則的兩種或三種以上進行同時判斷,若結論一致認為應當剔除,那么可靠性將大大提高。而當判定結果出現不一致時,則應慎重考慮,進行再次驗證,此種情況下一般建議做數據保留處理。
參考文獻
[1]費業泰.誤差理論與數據處理[M].機械工業出版社,2005.
[2]秦樹人.機械工程測試原理及技術[M].重慶大學出版社,2002.