唐兆田 /
(上海飛機設計研究院,上海201210)
判別金屬材料疲勞試驗中異常試驗數據的一般方法
唐兆田 /
(上海飛機設計研究院,上海201210)
在金屬疲勞試驗中,有時會出現一個或多個明顯小于或大于其它數據的異常數據。查找導致這些異常數據的原因是很困難的,難以直接剔除。通常,相關文獻只簡要地提供基于統計學的識別異常數據的判據。為了幫助數據分析人員更好地理解這些統計判別方法,在處理金屬疲勞試驗數據時更好地運用統計判別方法,對分布于各文獻中的統計判別法進行了歸納整理,并給出必要的推導過程和公式,最后對所列統計判別法進行總結,介紹各方法的優勢和不足,并給出建議。
疲勞試驗;異常數據;粗大誤差;統計方法
目前,民用飛機結構中仍然廣泛采用金屬材料,通常不低于50%,甚至在將來很長時間內金屬材料都將在民用飛機結構中發揮舉足輕重的作用。隨著新材料、新設計、新工藝等應用在民用飛機結構上,基于對飛機安全性、經濟性、耐久性的考慮,需要進行大量疲勞試驗以獲得金屬材料的相關疲勞性能數據。
相對于靜力試驗,疲勞試驗數據具有較大的分散性,通常要求一組試驗中有較多的試驗件,通過對一組試驗數據的統計分析獲得所需疲勞性能數據。根據觀察,偶爾出現一組疲勞試驗數據中存在一個甚至多個與其它數據有明顯差異的數據,即異常數據。異常數據會對試驗結果產生明顯的歪曲,甚至會導致錯誤的結論[1-2]。
正常情況下,每個試驗數據中包含三個部分:真值、偶然誤差、系統誤差[1]。通常將誤差分為三類,即系統誤差、偶然誤差和粗大誤差[2-3]。系統誤差的特點是,在相同的條件下,系統誤差對測量數據的影響具有規律性,有很多文獻討論了系統誤差的識別和消除[4-7]。偶然誤差(隨機誤差)由未知或不可控的微小因素綜合作用造成的,具有隨機性和抵償性[8]。粗大誤差是由某些突發的異常因素造成的,沒有規律性,通常對測量數據影響顯著[9]。含有粗大誤差的數據為異常數據[10],對可能含有粗大誤差的數據稱為可疑數據。
對待可疑數據,若為得到較好的測量結果而無充分依據地輕率剔除,則得到虛假的測量結果;若無原則地作為正常數據而保留,則降低了測量的準確度[11]。一般采用物理判別法或統計判別法對可疑數據進行判別,以確定是否為可疑數據[6]。
物理判別法指根據對客觀規律的認識來判定異常數據,識別導致異常數據的原因,并進行剔除;統計判別法指采用統計方法判定可疑數據是否由偶然誤差造成,如果不是,即認為是由粗大誤差造成,并進行剔除。在實踐中,試驗人員通常信任物理判別法,但是試驗中有時出現異常數據而原因不明,物理判別法很難奏效,因此只能采用統計判別法來判定異常數據[12]。很多關于試驗數據處理的文獻給出了不同的統計判別法,但是都相對零散,且通常僅給出各種方法的判據和速查表、傾向于方法的運用。為了幫助試驗人員或設計人員更好地理解常用的統計判別方法,在處理金屬疲勞試驗數據時更好地運用統計判別方法,本文對分布于各文獻中的統計判別法進行了歸納整理,并針對某些方法給出必要的推導過程和公式,最后對所列統計判別法進行總結,介紹各方法的優勢和不足,并給出建議。
1.1 拉依達(Paǔta)準則法

(1)
判據如下:
只有當所有觀測值均落于X±3σ區間內時,剔除測量數據的犯錯概率隨著n的增大而減小,最后穩定于0.27%(X±3σ區間內累積概率為0.997 3,有文獻近似地取0.3%),應用拉依達準則才是零風險的。當有k個觀測數據位于X±3σ區間外,即存在k個異常數據的概率為[15]:
(2)
隨著異常數據數量的增加,在一定樣本量范圍內有用測量數據被剔除的風險也是逐漸增大的。
1.2 肖維納(Chauvenet)準則法
假設多次重復測量所得n個測量數據中,數據殘差為|vi|>ZcS,則剔除此數據。

p和Z的下標c表示用于肖維納準則:
(3)
(4)
Zc由φ(Zc)查正態概率積分表確定,而按照式(4)φ(Zc)又決定于n值,因此可得表1。
n=185時Zc=3,但實際應用中n<185即Zc<3,因此肖維納在一定程度上彌補了拉依達(Paǔta)準則的不足;但是,從理論上考慮,當n→∞時p→0,所有異常數據都無法剔除,n和Zc的關系如圖1所示。

表1 肖維納準則Zc值表
1.3 格拉布斯(Grubbs)準則法

因此有如下的判別準則[15]:
(5)
則可疑數據Xd含有粗大誤差,應予剔除;否則,應保留。
一般計算時,可以利用表2速查G(α,n)值。
表2 格拉布斯(Grubbs)準則的臨界值G(α,n)

nα0.05 0.01nα0.05 0.0131.1531.155172.4752.78541.4631.492182.5042.82151.6721.749192.5322.85461.8221.944202.5572.88471.9382.097212.5802.91282.0322.221222.6032.93992.1102.323232.6242.963102.1762.410242.6442.987112.2342.485252.6633.009122.2852.550302.7453.103132.3312.607352.8113.178142.3712.659402.8663.240152.4092.705452.9143.292162.4432.747502.9563.336
在僅有一個異常數據時,該準則剔除異常數據的效率較高。為了便于使用,本文歸納如下:
(6)
式中:
表2所列數據可用式(6)中單邊檢驗公式計算獲得。
1.4 狄克遜(Dixon)準則(Q檢驗)法
設正態測量總體的一個樣本,按大小順序排列為X1≤X2≤…≤Xn,構造檢驗高端異常數據Xn和低端異常數據X1的統計量,分為以下幾種情況:
(7)

表3 狄克遜(Dixon)準則D(α,n)值表

1.5 羅馬諾夫斯基準則(t檢驗準則)法
羅馬諾夫斯基準則是按t分布的實際誤差分布范圍來判斷粗大誤差,這對重復測量次數較少的情況比較合理。



表4 羅馬諾夫斯基準則K(α,n)值表
K(α,n)是與置信度(1-α)×100%和n有關的系數。
(8)
式中,tα(n-1)為t分布參數,可以根據α和(n-1)查t分布表。
拉依達準則法最簡單,無需查表,使用方便,測量次數較多或要求不高時比較適用,當測量次數小于或等于10時,拉依達準則法失效。肖維勒準則法是比較經典的方法,也是這五個方法中最古老的一個,它彌補了拉依達準則的不足,缺點是測量數據n無窮大時,該準則失效。肖維勒準則法和拉依達準則法的前提是測量數據和偶然誤差符合正態分布,這兩種方法都沒有固定的概率意義[18],帶有一定的經驗性。
狄克遜準則法[19-20]是在一定置信度和概率的條件下判別異常數據,該方法也是源自正態分布[21],對數據中只存在一個或多個異常數據時,效果良好[22],但缺點是當數據中異常數據的個數不止一個且出現在同側時,該方法的檢驗效果不好,尤其同側的異常數據很接近時效果更差,容易產生屏蔽效應;另一個問題是Dixon僅計算出了n≤30的D(α,n)值,D(α,n)值依賴查表,通用性不佳,如果測量數據大于30個建議按文獻[23]選值。
格拉布斯準則法與羅馬諾夫斯基準則法均以t分布為基礎。在測量數據較少時羅馬諾夫斯基準則法相對保守,但是該方法犯“棄真”錯誤的概率將
隨著樣本量的增加而增加,圖2所示。格拉布斯準則法和狄克松準則法給出了嚴格的結果,有文獻進行了比較,格拉布斯準則法效果最好[24]。可以通過重復使用格拉布斯準則法來判別多個異常數據,但同樣也存在屏蔽效應,屏蔽效應是由于存在多個異常數據影響了均值而產生的,這與狄克遜準則法不同。
基于上述分析,本文以某金屬材料DFR試驗數據為例進行異常數據判別,供參考。105循環對應的最大應力(單位ksi)為20.42,20.43,20.40,20.43,20.42,20.43,20.39,20.30,20.40,20.43,20.42,20.41,20.49,20.39,20.39,20.4,其中20.30、20.49為可疑數據。分別采用上述方法進行異常數據判別,進行兩輪判別,第二輪是在第一輪已經判別出異常數據的基礎上、并剔除了異常數據(20.30)后進行的,見表5。

表5 算例
但是在金屬疲勞試驗中,應當注意到上述方法不是總有效[25],因為上述方法均以測量數據按對稱性概率分布(正態分布、t分布)為前提的,而金屬疲勞試驗的測量數據符合非對稱的威布爾分布。以金屬疲勞壽命試驗為例,有時這兩類分布模型都可以用于測量數據的分析,但是這兩類分布模型主要差異存在于低壽命區和高壽命區,這兩個區域正是異常數據發生的區域。有文獻認為如果測量數據不符合正態分布,應采用非參數檢驗來判別異常數據,但是一般認為非參數檢驗沒有參數檢驗可靠,而且通常要求樣本量大于100甚至更多[26]。
因此本文建議在使用這些以對稱性分布為前提的判別方法時,應當選擇更嚴格的條件(如選擇更小的值)。當樣本較小且要求保守時,采用肖維納準則法,簡單快捷;拉格布斯準則法是國際上較為通用的方法,在條件允許的情況下,將拉格布斯準則法和狄克遜準則法組合使用,只要其中任何一種方法未判別為異常數據,就不能將可疑數據判別為異常數據,以降低犯“棄真”錯誤的概率。
[1] 韓承偉.科研資料的異常值及其處理[J].內蒙古農業科技,1989(5):37-40.
[2] 沙定國.實驗誤差理論與數據處理[M].第一版.北京:北京理工大學出版社,1993:10-12,56.
[3] 劉興勝,劉鷹.測量誤差的表示方法及其分類[J].計量與測試技術,2015(2):37-40.
[4] 丁振良.系統誤差的性質與評定方法[J].哈爾濱工業大學學報,1985(4):5-10.
[5] 樊士偉,易東云.系統誤差的不確定性與參數估計精度折合[J].彈道學報,2006(1):30-34.
[6] 肖明耀.誤差理論與應用[M].第一版.北京:計量出版社,1985:28-34,169-176.
[7] 熊光楚.觀測數據中系統誤差的消除問題[J].物探化探計算技術,2000(3):193-199.
[8] 肖明耀.實驗誤差估計與數據處理[M].第一版.北京:科學出版社,1980:12-14,56.
[9] 楊建潮.測量誤差及粗大誤差的判別與消除[J].計量與測試技術,2006,33(11):4-5.
[10] 李夢奇,白曉軍,匡同春,成曉玲,向雄志,黃應欽,雷淑梅.工程技術領域等精度數據異常值判定系統[J].計量技術,2006(3).
[11] 楊峰,李天柁,王哲.核物理實驗中粗大誤差的計算機處理[C]//全國第十二屆核電子學與核探測技術學術年會論文集.中國云南昆明:中國電子學會核電子學與核探測技術分會、中國核學會核電子學與核探測技術分會,2014:445.
[12] 梁晉文,陳林才,何貢.誤差理論與數據處理[M].第二版.北京:中國計量出版社,2001:51-57,58-61.
[13] 馬美娟.貝塞爾公式推導的再研究[J].佳木斯大學學報(自然科學版),2011,29(2):290-295.
[14] 張敏,袁輝.拉依達(Paǔta)準則與異常值剔除[J].鄭州工業大學學報,1997,18(1):85.
[15] 普仕凡,韓旭,李智生,李釗.一種面向最大值指標的粗大誤差處理方法[J].無線電工程,2014(5):78-79.
[16] Jerry Thomas.Monte Carlo Investigation of the Probability Distributions of Dixon's Criteria for Testing Outlying Observations[R].AD688600,Aberdeen Proving Ground,Maryland:Aberdeen Research and Development Center,1969.
[17] W.J Dixon.Processing Data for Outliers [J].Biometrics,Volume 9,No.1,1953:74-89.
[18] 林麗芬,肖化,吳先球.肖維勒準則和格拉布斯準則的比較[J].大學物理實驗,2012,25(6):87.
[19] R.B Dean,W.J Dixon.Simplified Statistics for Small Numbers of Observation [J].Analytical Chemistry,1951,Volume 23(4):636-638.
[20] Dixon WJ Ratios Involving Extreme Values [J].The Annals of Mathematical Statistics,1951,Volume 22(1):68-78.
[21] Mahendra P. Verma,Mario Cesar Suarez A..Dixon Test Critical Values:Acomputer Code to Calculate Critical Values for the Dixon Statistical Data Treatment Approach [J].Journal of Statistical Software,2014,Volume 57,Issue 2:1.
[22] 鄧勃.關于異常值的檢驗與處理[J].大學化學,1995,10(4):5-9.
[23] Surendra P. Verma,Alfredo Quiroz-Ruiz.Critical values for six Dixon tests for outliers in normal samples up to sizes 100, and applications in science and engineering [J].Revista Mexicana de Ciencias Geológicas,2006,Volume 23,núm. 2:133-161.
[24] 鄧勃.異常值的檢驗與處理方法[J].化工標準化,1995,10(4):6-22.
[25] 何平.剔除測量數據中異常值的若干方法[J].航空計測技術,1995,18(1):19.
[26] National Aeronautics and Space Administration.NASA-HDBK-8739.19-3.Measurement Uncertainty Analysis Principles and Methods [S].Washington DC:NASA,2010.
General Methods for Outlier Detection in Metal Fatigue Tests
TANG Zhaotian
(Shanghai Aircraft Design and Research Institute, Shanghai 201210, China)
In metal fatigue tests, one or more outliers are observed at some time. It is hoped that the outliers are detected and can be rejected directly, but it’s difficult. Most papers about test data analysis just provide some brief criteria which are based on statistics. For better handling metal fatigue test data, this paper collects five rejection-criteria and presents some derivation and formulas. And it’s useful to get a better understanding of these methods for test data analysts. At the end of this paper, a summary is given, some advantages and disadvantages of these methods were introduced, and suggestions are also provided.
fatigue test;outlier;gross error;statistical method
10.19416/j.cnki.1674-9804.2017.01.016
V252
A