李玉武,任立軍,閆 巖,殷惠民
國(guó)家環(huán)境分析測(cè)試中心,北京 100029
方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)中離群值的識(shí)別
李玉武,任立軍,閆 巖,殷惠民
國(guó)家環(huán)境分析測(cè)試中心,北京 100029
對(duì)方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)中測(cè)量數(shù)據(jù)進(jìn)行合格性審核,對(duì)于后續(xù)方法精密度計(jì)算是一個(gè)重要環(huán)節(jié)。文獻(xiàn)中識(shí)別離群值的Grubbs法、Dixon法等經(jīng)典方法有時(shí)不能滿足要求。探討了用穩(wěn)健統(tǒng)計(jì)法識(shí)別離群值的可行性。基于2套文獻(xiàn)數(shù)據(jù)和XRF方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)精密度測(cè)量數(shù)據(jù),對(duì)Grubbs法、Dixon法、Mandelh檢驗(yàn)法、質(zhì)控指標(biāo)法和穩(wěn)健統(tǒng)計(jì)法(四分位法、迭代法、合格數(shù)據(jù)范圍判定法)進(jìn)行了比較。結(jié)果表明:穩(wěn)健統(tǒng)計(jì)法可有效識(shí)別離群值。但四分位法存在過(guò)度“檢出”現(xiàn)象。綜合考慮多種方法識(shí)別結(jié)果有利于提高離群值判定結(jié)論的可靠性。對(duì)于個(gè)別難以判斷的情形,可借助質(zhì)控指標(biāo)、技術(shù)要求以及數(shù)據(jù)是否剔除對(duì)實(shí)驗(yàn)室間標(biāo)準(zhǔn)偏差的影響進(jìn)行取舍。
方法標(biāo)準(zhǔn)驗(yàn)證;離群值識(shí)別;穩(wěn)健統(tǒng)計(jì)法;X射線熒光光譜法
方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)中,判斷協(xié)作實(shí)驗(yàn)室精密度測(cè)量數(shù)據(jù)是否合格,對(duì)于后續(xù)方法精密度計(jì)算是一個(gè)重要環(huán)節(jié)。環(huán)境監(jiān)測(cè)方法標(biāo)準(zhǔn)制修訂技術(shù)導(dǎo)則[1]對(duì)此有明確要求,所有數(shù)據(jù)在進(jìn)行數(shù)理統(tǒng)計(jì)處理之前均應(yīng)通過(guò)合格性檢查,以排除各種非隨機(jī)因素的影響,增強(qiáng)數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果的有效性和可靠性。實(shí)際工作中,從環(huán)境保護(hù)部官方網(wǎng)站上發(fā)布的標(biāo)準(zhǔn)編制說(shuō)明附件“方法驗(yàn)證報(bào)告”中很難看到這一環(huán)節(jié)。大多數(shù)報(bào)告假定全部數(shù)據(jù)均合格,全部采用。有的報(bào)告中參與方法精密度計(jì)算的數(shù)據(jù)有缺失,但未見剔除離群值依據(jù)和說(shuō)明[2-3]。
文獻(xiàn)中常見的離群值識(shí)別方法有Grubbs法、Dixon法和Mandelh檢驗(yàn)法[4-6]。有文獻(xiàn)[7]指出,其中Grubbs法、Dixon法存在對(duì)離群值剔除不足的問(wèn)題,不能滿足標(biāo)樣協(xié)作定值對(duì)數(shù)據(jù)質(zhì)控需求。Mandelh檢驗(yàn)法是標(biāo)準(zhǔn)[4]推薦的協(xié)作實(shí)驗(yàn)室數(shù)據(jù)一致性檢驗(yàn)方法。四分位法和穩(wěn)健統(tǒng)計(jì)-迭代法在實(shí)驗(yàn)室檢測(cè)能力驗(yàn)證數(shù)據(jù)處理中已有廣泛應(yīng)用[8-12],但用于多家實(shí)驗(yàn)室方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)中離群值處理,文獻(xiàn)中鮮見報(bào)導(dǎo)。
研究基于2套文獻(xiàn)數(shù)據(jù)和10家實(shí)驗(yàn)室對(duì)環(huán)境空氣顆粒物中無(wú)機(jī)元素測(cè)定波長(zhǎng)色散(WD-XRF)和能量色散X射線熒光光譜法(ED-XRF)標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)中的精密度測(cè)量數(shù)據(jù),探討了用穩(wěn)健統(tǒng)計(jì)法識(shí)別離群值的可行性。比較了多種識(shí)別離群值的方法結(jié)果。結(jié)合分析化學(xué)專業(yè)經(jīng)驗(yàn),提出了離群值剔除原則。
1.1Mandelh檢驗(yàn)法[4]
Mandelh統(tǒng)計(jì)量,常用于方法標(biāo)準(zhǔn)驗(yàn)證多家實(shí)驗(yàn)室數(shù)據(jù)一致性檢驗(yàn)。h統(tǒng)計(jì)量計(jì)算公式為

(1)

查表[4]可得Mandelh檢驗(yàn)臨界值:當(dāng)α=0.01,實(shí)驗(yàn)室個(gè)數(shù)(L)分別為5、6、7、8、9、10時(shí),h臨界值等于1.72、1.87、1.98、2.08、2.13、2.18。當(dāng)α=0.05,L分別為5、6、7、8、9、10時(shí),h臨界值等于1.57、1.66、1.71、1.75、1.78、1.80。臨界值與重復(fù)測(cè)定次數(shù)無(wú)關(guān)。將hi與臨界值比較,如果h統(tǒng)計(jì)量大于h臨界值,95%則判為可疑值,如果h統(tǒng)計(jì)量大于h臨界值,99%則判為離群值。可疑值也可稱之為在95%置信水平下的離群值。
1.2四分位法[8]
將參與檢驗(yàn)的數(shù)據(jù)從小到大排列:x1,x2,…,xn。中位值是一組數(shù)據(jù)的中間值,即有一半的結(jié)果高于它,一半的結(jié)果低于它。四分位法的穩(wěn)健標(biāo)準(zhǔn)偏差用標(biāo)準(zhǔn)化IQR表示,它是結(jié)果變異性的量度,等于四分位間距(IQR)乘以因子0.741 3,與正態(tài)分布的標(biāo)準(zhǔn)偏差相類似。中位值和標(biāo)準(zhǔn)化IQR可以用Excel?的公式(2)方便求得:Q1=PERCENTILE(x1:xn, 0.25);Q3=PERCENTILE(x1:xn, 0.75);NIQR=0.7413×(Q3-Q1); 中位值=PERCENTILE(x1:xn, 0.50),其中(x1:xn)表示數(shù)據(jù)組,n表示數(shù)據(jù)個(gè)數(shù)。
根據(jù)中位值和標(biāo)準(zhǔn)化IQR計(jì)算統(tǒng)計(jì)量(Z):

(2)
式中:如果Z≤2為正常值,Z>2為可疑值,Z≥3則為離群值。
1.3穩(wěn)健統(tǒng)計(jì)-迭代法[9,13-14]


(3)


取得穩(wěn)健平均值和穩(wěn)健標(biāo)準(zhǔn)偏差后,數(shù)據(jù)可疑值和離群值的識(shí)別方法同四分位法。
1.4合格數(shù)據(jù)范圍評(píng)定法
1.5質(zhì)控指標(biāo)法[7]

1.6經(jīng)驗(yàn)?zāi)P头╗15]
通過(guò)經(jīng)驗(yàn)?zāi)P凸接?jì)算再現(xiàn)性標(biāo)準(zhǔn)偏差:sR=0.080×x0.85,x取各家實(shí)驗(yàn)室測(cè)定結(jié)果的中位值。然后計(jì)算Z比分?jǐn)?shù)。如果Z≤2為正常值,Z>2為可疑值,Z≥3則為離群值。此經(jīng)驗(yàn)?zāi)P瓦m用范圍是固體樣品(如土壤、沉積物等)。
XRF測(cè)量數(shù)據(jù)源于10家實(shí)驗(yàn)室對(duì)環(huán)境空氣顆粒物中無(wú)機(jī)元素用WD-XRF和ED-XRF測(cè)定進(jìn)行的方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn),符合標(biāo)準(zhǔn)制修訂技術(shù)導(dǎo)則[1]要求。
2.1顆粒物實(shí)際樣品
參與方法驗(yàn)證協(xié)作實(shí)驗(yàn)的樣品1#、5#、13#、2#、9#、14#均為環(huán)境空氣顆粒物樣品,H6#、154#為無(wú)組織排放顆粒物樣品。元素Si基于采集在聚丙烯濾膜(2#、9#、14#)的環(huán)境空氣PM2.5樣品測(cè)試數(shù)據(jù),其他元素為石英濾膜(1#、5#、13#、H6#、154#)上的TSP樣品測(cè)試數(shù)據(jù)。原始測(cè)量數(shù)據(jù)見文獻(xiàn)[3]。
2.2分析方法
取相同顆粒物樣品由協(xié)作實(shí)驗(yàn)室分別用WD-XRF或ED-XRF測(cè)量。校準(zhǔn)樣品統(tǒng)一采用美國(guó)某公司提供的薄膜標(biāo)樣[3]。各家實(shí)驗(yàn)室根據(jù)儀器廠商提供的數(shù)據(jù)庫(kù)選擇最佳工作條件。測(cè)試步驟和測(cè)量條件示例見文獻(xiàn)[3]。
2.3分析儀器
方法驗(yàn)證協(xié)作實(shí)驗(yàn)室涉及下列公司及儀器型號(hào)。WD-XRF:布魯克(北京)科技有限公司 S4、S8;帕納科公司Axios;島津公司1800;理學(xué)公司RIX 3000。ED-XRF:天瑞公司EHM X100;帕納科公司 E3、E5;島津公司8000。
3.1穩(wěn)健統(tǒng)計(jì)法與經(jīng)典方法概述及結(jié)果比較
文獻(xiàn)中常見的識(shí)別離群值的經(jīng)典方法有Grubbs法、Dixon法和Mandelh檢驗(yàn)法。其中協(xié)作實(shí)驗(yàn)室方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)的處理,文獻(xiàn)[3]推薦采用數(shù)值法(Grubbs法)和作圖法(Mandelh檢驗(yàn)法)。計(jì)算中發(fā)現(xiàn),Grubbs法和Mandelh檢驗(yàn)法的計(jì)算公式完全相同。其區(qū)別是Grubbs法僅對(duì)參與檢驗(yàn)的數(shù)據(jù)系列中最小或最大值進(jìn)行檢驗(yàn),而Mandelh檢驗(yàn)法同時(shí)對(duì)所有數(shù)據(jù)進(jìn)行h統(tǒng)計(jì)量計(jì)算,不需要對(duì)數(shù)據(jù)按大小進(jìn)行排列。比較2種方法臨界值發(fā)現(xiàn)(表1),Grubbs法與Mandelh法相比,對(duì)離群值的判斷依據(jù)更寬松。

表1 Grubbs法檢驗(yàn)[5]與Mandel h法檢驗(yàn)臨界值[4]比較Table 1 Critical values comparison betweenGrubbs and Mandel h test
四分位法和迭代法均屬于穩(wěn)健統(tǒng)計(jì)法,在實(shí)驗(yàn)室檢測(cè)能力驗(yàn)證數(shù)據(jù)處理中已有廣泛應(yīng)用。這2種方法對(duì)于實(shí)驗(yàn)室檢測(cè)能力是否合格的判斷,就是基于對(duì)統(tǒng)一發(fā)放的樣品上報(bào)結(jié)果合格值與異常值(包括可疑和離群值)的識(shí)別。由于這2種方法均屬于穩(wěn)健統(tǒng)計(jì)法,可疑值和離群值對(duì)統(tǒng)計(jì)參數(shù)(平均值和標(biāo)準(zhǔn)偏差)的計(jì)算過(guò)程沒有影響,或影響較小,不像經(jīng)典的Grubbs法和Mandelh檢驗(yàn)法,平均值和標(biāo)準(zhǔn)偏差的計(jì)算要求包括異常值在內(nèi)的所有數(shù)據(jù)。因此,四分位法和穩(wěn)健統(tǒng)計(jì)-迭代法對(duì)異常值的識(shí)別更敏感。判別標(biāo)準(zhǔn)也很簡(jiǎn)單,根據(jù)Z比分?jǐn)?shù)數(shù)值,就可將數(shù)據(jù)分為合格(Z≤2),可疑(Z>2)和離群(Z≥3)。
表2是基于標(biāo)準(zhǔn)附錄[4]離群值識(shí)別示例數(shù)據(jù),3種穩(wěn)健統(tǒng)計(jì)方法與經(jīng)典方法的比較結(jié)果。標(biāo)準(zhǔn)附錄[4]示例計(jì)算結(jié)果指出,3#樣品中17.15,4#樣品中19.23是離群值,5#樣品中24.14是可疑值。對(duì)這3個(gè)數(shù)據(jù),Mandelh檢驗(yàn)法、Grubbs法和Dixon法、四分位法和穩(wěn)健統(tǒng)計(jì)-迭代法、范圍判定法均有相同或基本相同的結(jié)論。但四分位法、穩(wěn)健統(tǒng)計(jì)-迭代法和范圍判定法還識(shí)別出1#樣品中4.42是可疑值,5#樣品中17.57是離群值。結(jié)果表明,穩(wěn)健統(tǒng)計(jì)法(四分位法、迭代法、范圍判定法)比經(jīng)典的Mandelh檢驗(yàn)法、Grubbs法和Dixon法更容易發(fā)現(xiàn)異常值。異常值的檢出率大小順序?yàn)樗姆治环ā⒌ā⒎秶卸ǚ?Mandelh檢驗(yàn)法、Dixon法>Grubbs法,檢出個(gè)數(shù)分別為5、5、5、4、4、2。

表2 木餾油熱滴定數(shù)據(jù)[4]離群值識(shí)別經(jīng)典方法與穩(wěn)健統(tǒng)計(jì)法結(jié)果比較Table 2 Comparison between classical and robust statistical method to detectoutliers based on titration data of wood distillate
注:①M(fèi)andelh檢驗(yàn)臨界值為1.78(α=0.05,L=9), 2.13(α=0.01,L=9);②Dixon檢驗(yàn)臨界值為0.512(α=0.05,L=9),0.635(α=0.01,L=9);③Grubbs檢驗(yàn)臨界值為2.110(α=0.05,L=9),2.323(α=0.01,L=9);④統(tǒng)計(jì)結(jié)果一列中“范圍判定法”給出測(cè)量數(shù)據(jù)正常值范圍;異常值字體加粗處理,可疑值右上角標(biāo)注“*”,離群值右上角標(biāo)注“**”;“—”表示無(wú)相應(yīng)值。
3.2穩(wěn)健統(tǒng)計(jì)法與質(zhì)控指標(biāo)法結(jié)果比較
標(biāo)準(zhǔn)樣品協(xié)作定值、方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)對(duì)數(shù)據(jù)質(zhì)量要求較高時(shí),經(jīng)典的Grubbs法和Dixon法識(shí)別離群值能力有時(shí)不能滿足需要。文獻(xiàn)[7]在黃金標(biāo)準(zhǔn)樣品定值實(shí)驗(yàn)數(shù)據(jù)處理中,參考日常質(zhì)控指標(biāo)提出了相對(duì)偏差允許限為依據(jù)的離群值統(tǒng)計(jì)識(shí)別方法(以下簡(jiǎn)稱質(zhì)控指標(biāo)法)。離群值剔除是否合理用剔除離群值后數(shù)據(jù)的平均值與黃金標(biāo)準(zhǔn)樣品的標(biāo)稱值之間的誤差大小來(lái)衡量。據(jù)文獻(xiàn)作者介紹,采用此方法后數(shù)據(jù)質(zhì)量分?jǐn)?shù)等級(jí)有了明顯提高,增強(qiáng)了數(shù)據(jù)統(tǒng)計(jì)分析的有效性。表3列出了文獻(xiàn)[7]全部15個(gè)樣品,每個(gè)樣品10個(gè)獨(dú)立實(shí)驗(yàn)室上報(bào)的共計(jì)150個(gè)測(cè)量數(shù)據(jù)中的離群值6種方法的識(shí)別過(guò)程統(tǒng)計(jì)量及結(jié)果(全部原始測(cè)量數(shù)據(jù)見文獻(xiàn)[7])。所有這些離群值用Grubbs法和Dixon法識(shí)別,均無(wú)檢出[7]。

表3 基于文獻(xiàn)[7]數(shù)據(jù)離群值識(shí)別多種方法結(jié)果比較Table 3 Comparison of different method to detect outliers based on literature data[7]
注:異常值字體加粗處理,可疑值右上角標(biāo)注“*”,離群值右上角標(biāo)注“**”。
從表3可見,離群值的檢出個(gè)數(shù)大小順序?yàn)樗姆治环?20)、質(zhì)控指標(biāo)法(20)>范圍判定法(14)>經(jīng)驗(yàn)?zāi)P头?12)>Mandelh檢驗(yàn)法(8)>迭代法(8)。括號(hào)內(nèi)的數(shù)字是已識(shí)別異常值的個(gè)數(shù)。除了文獻(xiàn)[7]方法識(shí)別了20個(gè)異常值外,還有8個(gè)異常值分別被其他方法識(shí)別。從異常值識(shí)別率來(lái)看,6種方法大致可以分為3類:四分位法、質(zhì)控指標(biāo)法為第1類;范圍判定法、經(jīng)驗(yàn)?zāi)P头榈?類;Mandelh檢驗(yàn)法和迭代法為第3類。全部可疑值和離群值被不同方法累計(jì)識(shí)別次數(shù)統(tǒng)計(jì)見圖1。從圖1可以看出,28個(gè)測(cè)定結(jié)果中,被2種以上方法識(shí)別的有20個(gè),3種以上方法識(shí)別的有13個(gè),4種以上方法識(shí)別的有9個(gè)。顯然,同時(shí)被幾種方法檢出的,其結(jié)果可靠性更高。

圖1 不同方法對(duì)異常值(含離群值和可疑值) 識(shí)別累計(jì)次數(shù)統(tǒng)計(jì)圖Fig.1 Cumulative count diagram of differentmethod to detect outliers
文獻(xiàn)[7]指出,根據(jù)判別依據(jù),20個(gè)異常值中,有17個(gè)被準(zhǔn)確識(shí)別,有3個(gè)屬于過(guò)度剔除。由此推斷,四分位法肯定也存在過(guò)度剔除情況。Mandelh檢驗(yàn)法和迭代法識(shí)別結(jié)果偏低。基于四分位法處理實(shí)驗(yàn)室檢測(cè)能力數(shù)據(jù)經(jīng)驗(yàn),當(dāng)各家實(shí)驗(yàn)室提交的數(shù)據(jù)離散程度較低時(shí),有可能出現(xiàn)個(gè)別實(shí)驗(yàn)室的數(shù)據(jù)從技術(shù)要求角度評(píng)判是合格的,而依據(jù)Z比分?jǐn)?shù)卻被判為離群值的情況;反之,當(dāng)數(shù)據(jù)的離散程度較大時(shí),有可能出現(xiàn)雖然某實(shí)驗(yàn)室數(shù)據(jù)從技術(shù)要求角度評(píng)判是不合格的,但依據(jù)Z比分?jǐn)?shù)卻被判為合格結(jié)果的情況。合格數(shù)據(jù)范圍判定法識(shí)別率合適,值得關(guān)注。
經(jīng)驗(yàn)?zāi)P头◤脑砩现v與質(zhì)控指標(biāo)法一樣。不同點(diǎn)是前者適用于所有固體樣品,而后者是總結(jié)黃金樣品測(cè)試結(jié)果而得,針對(duì)性更強(qiáng)。從識(shí)別離群值結(jié)果看,質(zhì)控指標(biāo)法對(duì)數(shù)據(jù)質(zhì)量的要求更嚴(yán)格。
3.3用穩(wěn)健統(tǒng)計(jì)法識(shí)別XRF方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)中的離群值
文獻(xiàn)研究結(jié)果表明,質(zhì)控指標(biāo)法是識(shí)別離群值的一條有效途徑。但對(duì)于方法標(biāo)準(zhǔn)驗(yàn)證數(shù)據(jù)處理,如果缺乏長(zhǎng)期積累的用于判斷數(shù)據(jù)質(zhì)量的質(zhì)控指標(biāo)模型,很難應(yīng)用質(zhì)控指標(biāo)法。3.2節(jié)比較結(jié)果表明,穩(wěn)健統(tǒng)計(jì)法可以有效識(shí)別離群值,得到與質(zhì)控指標(biāo)法基本相符的結(jié)果。
用3種穩(wěn)健統(tǒng)計(jì)法(四分位法、迭代法和范圍判定法)對(duì)XRF方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)精密度測(cè)量數(shù)據(jù)進(jìn)行合格性審核并與經(jīng)典的Grubbs法、Dixon法、Mandelh檢驗(yàn)法進(jìn)行了比較。精密度測(cè)量數(shù)據(jù)中選擇了大于等于定量限(4倍方法檢出限)的樣品元素測(cè)定數(shù)據(jù)(以下簡(jiǎn)稱有效測(cè)量數(shù)據(jù))。考慮到篇幅所限,表4列出了每個(gè)元素5個(gè)樣品測(cè)定數(shù)據(jù)(3個(gè)環(huán)境樣品、2個(gè)無(wú)組織排放樣品,Si僅涉及3個(gè)環(huán)境樣品)各方法識(shí)別離群值、可疑值或異常值。檢出率統(tǒng)計(jì)數(shù)據(jù)包括了可疑值和離群值(2種置信水平和Z>2、Z≥3的情況)。不同方法檢出率和數(shù)據(jù)采用率見表4最后2行。各元素測(cè)量數(shù)據(jù)采用率(保留數(shù)據(jù)與有效測(cè)量數(shù)據(jù)之比)列入表4最后1列。

表4 XRF方法精密度測(cè)量數(shù)據(jù)不同方法離群值識(shí)別結(jié)果比較Table 4 Comparison of different method to detect outliers in XRF precision measurement data
從表4可以看出,多種方法對(duì)異常值的識(shí)別率順序?yàn)樗姆治环?14.2%)>范圍判定法(11.9%)>迭代法(9.0%)>Mandelh檢驗(yàn)法(7.0%)>Dixon法(5.3%)>Grubbs法(4.0%)。此例再次證實(shí),對(duì)于標(biāo)準(zhǔn)定值和方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù),由于對(duì)數(shù)據(jù)質(zhì)量要求較高,經(jīng)典的Grubbs法、Dixon法對(duì)離群值檢出率較低,不能滿足需要。Mandelh檢驗(yàn)法檢出率雖有改善,但仍不能滿足要求。四分位法對(duì)離群值(和可疑值)很敏感,有時(shí)有“過(guò)度”檢出之嫌。其結(jié)果需要和其他方法結(jié)果一起考慮。范圍判定法結(jié)果較合理,是最終決定是否剔除離群值的主要依據(jù)。綜合判斷后得到的數(shù)據(jù)采用率(89.0%)在迭代法(91.0%)和范圍判定法(88.1%)之間。
表5是從表4數(shù)據(jù)中選出的離群值4種方法判斷示例。顯示了不同方法識(shí)別離群值過(guò)程的統(tǒng)計(jì)量。各示例簡(jiǎn)要說(shuō)明如下:

表5 4種方法識(shí)別離群值示例Table 5 Examples for detection of outliers in XRF precision measurement data based on four methods
注:Mandelh檢驗(yàn)臨界值為1.80(α=0.05,L=10), 2.18(α=0.01,L=10);1.78(α=0.05,L=9), 2.13(α=0.01,L=9);異常值字體加粗處理,可疑值右上角標(biāo)注“*”,離群值右上角標(biāo)注“** ”。
示例1:4種方法結(jié)果完全一致。其特點(diǎn)是不同方法統(tǒng)計(jì)量距離臨界值較遠(yuǎn)。不存在離群值。
示例2:存在2個(gè)異常值,與正常值距離較遠(yuǎn)。這2個(gè)數(shù)據(jù)Mandelh檢驗(yàn)法均判斷為可疑值;四分位法和迭代法判斷結(jié)果為1個(gè)可疑值,1個(gè)離群值;范圍判定法結(jié)果是這2個(gè)數(shù)據(jù)均為離群值;綜合判斷結(jié)果為2個(gè)數(shù)據(jù)均剔除。
示例3:Mandelh檢驗(yàn)法與迭代法結(jié)果基本一致,未檢出。范圍判定法檢出1個(gè),四分位法判斷有4個(gè)離群值。其原因是正常數(shù)據(jù)中中位值附近數(shù)據(jù)精密度較好。 四分位法結(jié)果為過(guò)度檢出。綜合判斷結(jié)果:采用范圍判定法結(jié)果,剔除9.61這個(gè)數(shù)據(jù)。
示例4:Mandelh檢驗(yàn)法判斷均為合格數(shù)據(jù),但其中有1個(gè)數(shù)據(jù)在臨界值附近。四分位法判斷存在有2個(gè)可疑值,迭代法與Mandelh檢驗(yàn)法一致。范圍判定法有1個(gè)異常值,另外1個(gè)值也在邊界附近。結(jié)合分析測(cè)試技術(shù)要求及實(shí)驗(yàn)室間標(biāo)準(zhǔn)偏差判斷,這2個(gè)數(shù)據(jù)均刪去。
示例5:數(shù)據(jù)0.436被Mandelh檢驗(yàn)法判斷為可疑值,略微超出了范圍判定法劃定的范圍,但其他3種方法均判斷為正常值。其原因是數(shù)據(jù)精密度較好,各家實(shí)驗(yàn)室測(cè)量數(shù)據(jù)均在中位值附近。結(jié)合技術(shù)要求及刪去此數(shù)據(jù)后對(duì)實(shí)驗(yàn)室間標(biāo)準(zhǔn)偏差結(jié)果影響,綜合結(jié)論為保留。這個(gè)例子表明,Mandelh檢驗(yàn)法識(shí)別的離群值結(jié)果不一定準(zhǔn)確,也存在偏嚴(yán)的現(xiàn)象。
示例6:Mandelh檢驗(yàn)法和迭代法判別結(jié)果基本一致,但均在臨界值附近。同樣的2個(gè)數(shù)據(jù)四分位法和范圍判定法判斷為可疑值和異常值。綜合結(jié)論為刪去這2個(gè)數(shù)據(jù)。
示例7:Mandelh檢驗(yàn)法、四分位法和迭代法對(duì)數(shù)據(jù)1.63判斷結(jié)果基本一致,均為合格,但均在臨界值附近。其原因是此系列數(shù)據(jù)離散度較大。范圍判定法結(jié)果為離群值。綜合結(jié)論:剔除。
示例8:4種方法均判斷數(shù)據(jù)0.433為離群值。0.363被四分位法和范圍判定法判為離群值。綜合判定結(jié)果:剔除0.433和0.363。
示例9:4種方法均判斷數(shù)據(jù)27.4為離群值。綜合結(jié)論為剔除。此種情況判定結(jié)論可靠性高。
示例10:4種方法均判斷數(shù)據(jù)1.13為離群值,而對(duì)于1.61,Mandelh檢驗(yàn)法判斷為正常,但位于臨界值附近。其他3種方法均判斷為離群值。綜合結(jié)論為這2個(gè)數(shù)據(jù)均剔除。
上述10個(gè)示例可歸納為3種情況:① 4種方法一致判定為合格值(如示例1); ② 4種方法一致判定為離群值(如示例2、8、9);③ 4種方法判定結(jié)果不一致,此種情況數(shù)據(jù)有3個(gè)特征:第一,可疑數(shù)據(jù)在一些判別方法的臨界值附近(如示例4、6、10);第二,數(shù)據(jù)波動(dòng)較小(如示例3、5),四分法和Mandelh檢驗(yàn)法易產(chǎn)生過(guò)度“檢出”的誤判;第三,數(shù)據(jù)波動(dòng)較大(如示例7)。
綜合上述示例可以總結(jié)出下列基本原則:①不同方法判別結(jié)論一致時(shí),其結(jié)果可靠性高;②四分位法有過(guò)度“檢出”的風(fēng)險(xiǎn);③幾種方法識(shí)別結(jié)論不一致時(shí),合格數(shù)據(jù)范圍判定法是主要參考依據(jù);④對(duì)于個(gè)別難以判斷的情形,可借助實(shí)驗(yàn)室日常質(zhì)控指標(biāo)、技術(shù)要求以及數(shù)據(jù)剔除是否對(duì)實(shí)驗(yàn)室間標(biāo)準(zhǔn)偏差產(chǎn)生影響進(jìn)行取舍。
識(shí)別離群值的經(jīng)典方法(如Grubbs法、Dixon法等)有時(shí)不能滿足方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)合格性審查要求。合格數(shù)據(jù)范圍判定法可有效識(shí)別方法精密度測(cè)量數(shù)據(jù)中的離群值。其結(jié)果可以作為綜合判斷結(jié)果的重要參考依據(jù)。四分位法也可以用于識(shí)別離群值,但有時(shí)存在“過(guò)度”識(shí)別現(xiàn)象。綜合考慮多種方法識(shí)別結(jié)果有利于提高離群值判定結(jié)論的可靠性。對(duì)于個(gè)別難以判斷的情形,可借助質(zhì)控指標(biāo)、技術(shù)要求和數(shù)據(jù)剔除是否對(duì)實(shí)驗(yàn)室間標(biāo)準(zhǔn)偏差產(chǎn)生影響進(jìn)行取舍。
致謝:XRF方法標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn)得到下列實(shí)驗(yàn)室的大力支持:湖南省環(huán)境監(jiān)測(cè)中心、北京市環(huán)境保護(hù)監(jiān)測(cè)中心、中科院地球環(huán)境研究所、上海市環(huán)境科學(xué)研究院、天津市環(huán)境監(jiān)測(cè)中心、環(huán)保部標(biāo)準(zhǔn)樣品研究所、江蘇天瑞儀器股份有限公司、布魯克(北京)科技有限公司、上海思百吉儀器系統(tǒng)有限公司(帕納科業(yè)務(wù)部)和島津企業(yè)管理(中國(guó))有限公司上海分公司,在此一并表示感謝。
[1] 環(huán)境保護(hù)部科技標(biāo)準(zhǔn)司. 環(huán)境監(jiān)測(cè)-分析方法標(biāo)準(zhǔn)制修訂技術(shù)導(dǎo)則: HJ 168—2010 [S]. 北京:中國(guó)環(huán)境科學(xué)出版社,2012.
[2] 環(huán)境保護(hù)部科技標(biāo)準(zhǔn)司. 空氣和廢氣-顆粒物中金屬元素的測(cè)定-電感耦合等離子體發(fā)射光譜法編制說(shuō)明 [EB/OL]. (2015-03-05) [2016-04-07].http://www.mep.gov.cn/gkml/hbb/bgth/201503/W020150305644878339248.pdf.
[3] 國(guó)家環(huán)境分析測(cè)試中心.《環(huán)境空氣-無(wú)機(jī)元素的測(cè)定-X射線熒光光譜法》(征求意見稿)編制說(shuō)明[EB/OL]. (2016-03-22) [2016-07-15].http://www.zhb.gov.cn/gkml/hbb/bgth/201603/W02016032237 4754088793.pdf.
[4] 全國(guó)統(tǒng)計(jì)方法應(yīng)用標(biāo)準(zhǔn)化技術(shù)委員會(huì). 測(cè)量方法與結(jié)果的準(zhǔn)確度(正確度與精密度)第2部分:確定標(biāo)準(zhǔn)測(cè)量方法重復(fù)性與再現(xiàn)性的基本方法:GB/T 6379.2—2004 [S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2009.
[5] 全國(guó)統(tǒng)計(jì)方法應(yīng)用標(biāo)準(zhǔn)化技術(shù)委員會(huì). 數(shù)據(jù)的統(tǒng)計(jì)處理和解釋-正態(tài)樣本離群值的判斷和處理:GB/T 4883—2008[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2008.
[6] 全國(guó)統(tǒng)計(jì)方法應(yīng)用標(biāo)準(zhǔn)化技術(shù)委員會(huì). 利用實(shí)驗(yàn)室間比對(duì)進(jìn)行能力驗(yàn)證的統(tǒng)計(jì)方法: GB/T 28043—2011 [S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2011.
[7] 楊理勤,穆新華,鄭振云. 常量金標(biāo)準(zhǔn)物質(zhì)定值中離群值的統(tǒng)計(jì)識(shí)別[J].巖礦測(cè)試,2013,32(3):483-486.
YANG Liqin, MU Xinhua, ZHANG Zhenyun. Statistical identification of outliers in ore gold refenrence material to determine the optimal value [J]. Rock and Mineral Analysis,2013,32(3):483-486.
[8] 中國(guó)合格評(píng)定國(guó)家認(rèn)可委員會(huì). 能力驗(yàn)證結(jié)果的統(tǒng)計(jì)處理和能力評(píng)價(jià)指南: CNAS-GL02[EB/OL].(2014-09-15)[2016-09-28].https://www.cnas.org.cn/images/rkgf/sysrk/rkzn/2015/06/04/2E558652D DEE55F50EDEE49E64499797.pdf.
[9] 中國(guó)合格評(píng)定國(guó)家認(rèn)可委員會(huì). CNAS T0476低合金鋼中化學(xué)成分分析能力驗(yàn)證計(jì)劃結(jié)果報(bào)告:附錄D[R].北京:中國(guó)合格評(píng)定國(guó)家認(rèn)可委員會(huì),2010.
[10] 邢小茹,馬小爽,田文,等. 實(shí)驗(yàn)室間比對(duì)能力驗(yàn)證中的兩種穩(wěn)健統(tǒng)計(jì)技術(shù)探討[J].中國(guó)環(huán)境監(jiān)測(cè),2011,27(4):4-8.
XING Xiaoru, MA Xiaoshuang, TIAN Wen,et al.Two robust statistic techniques in proficiency testing by interlaboratory comparisons[J].Environmental Monitoring in China,2011,27(4):4-8.
[11] 吳忠祥.實(shí)驗(yàn)室能力驗(yàn)證中的分割水平檢測(cè)樣品與穩(wěn)健統(tǒng)計(jì)技術(shù)[J].中國(guó)環(huán)境監(jiān)測(cè),2003,19(4):8-10.
WU Zhongxiang.Split-level test sample and robust statistical techniques in laboratory proficiency testing[J].Environmental Monitoring in China,2003,19(4):8-10.
[12] 滕曼,付強(qiáng),吳曉鳳,等. 環(huán)境監(jiān)測(cè)實(shí)驗(yàn)室水中砷、汞監(jiān)測(cè)能力考核結(jié)果評(píng)價(jià)[J].中國(guó)環(huán)境監(jiān)測(cè),2014,30(4):183-187.
TENG Man, FU Qiang,WU Xiaofeng, et al.Results analysis of proficiency assessment of As and Hg monitoring in ground water[J].Environmental Monitoring in China,2014,30(4):183-187.
[13] 狄一安,孫海容,李玉武,等. 用質(zhì)控圖和穩(wěn)健統(tǒng)計(jì)迭代法評(píng)估環(huán)境檢測(cè)實(shí)驗(yàn)室測(cè)量不確定度[J].巖礦測(cè)試,2014,33(1):57-66.
DI Yi’an, SUN Hairong,LI Yuwu, et al. Evaluation of measurement uncertainty in environmental test laboratory by quality assurance and control charting and robust statistics [J].Rock and Mineral Analysis, 2014,33(1):57-66.
[14] Analytical Methods Committee. Robust statistics: A method of coping with outliers[R]. London:Royal Society of Chemistry(ISSN 1757-5958),2001.
[15] 李玉武,狄一安,孫海容,等. 用經(jīng)驗(yàn)?zāi)P驮u(píng)估環(huán)境樣品測(cè)量不確定度[J].中國(guó)無(wú)機(jī)分析化學(xué),2012,2(1):1-6.
LI Yuwu, DI Yi’an, SUN Hairong,et al.Study on evaluation of measurement uncertainty of environmental sample by empirical model[J].Chinese Journal Inorganic Analytical Chemistry,2012,2(1):1-6.
StudyonDetectionofOutliersinInter-LaboratoryCollaborationExperimentalDataforValidationofAnalysisMethodStandard
LI Yuwu,REN Lijun,YAN Yan,YIN Huimin
National Research Centre for Environmental Analysis and Measurements,Beijing 100029,China
It is an important for the calculation of the analysis method precision index to check the measurement data in inter-laboratory collaboration experiment. The Grubbs method and Dixon method, which are used to identify the outliers, can not meet the requirements sometimes. It is proposed to detect outliers by robust statistical method.The results of several methods to detect outliers based on two literature data and XRF precisions experimental data from inter-laboratory collaboration are compared. It is shown that the qualified data range judgment method based on robust statistical method can effectively identify outliers.Quartile method sometimes exists “excessive” identification phenomenon.The reliability of the conclusion can be improved by considering the results of several methods at same time.For some difficult situation in judgment, it is effective ways with the help of quality control indicators, technical requirements and whether the data deleted the impact on standard deviation between the laboratories.
collaboration experiment for analysis method validation;detection of outliers;robust statistical method;X-ray Fluorescence Spectroscopy(XRF)
X830.3
A
1002-6002(2017)05- 0167- 09
10.19316/j.issn.1002-6002.2017.05.24
2016-09-28;
2016-12-05
國(guó)家重大科學(xué)儀器設(shè)備開發(fā)專項(xiàng)(2014YQ060773,2011YQ170065)
李玉武(1956-),男,湖北武漢人,博士,研究員。
殷惠民
中國(guó)環(huán)境監(jiān)測(cè)2017年5期