石則強 師穎 曹寧 朱曉軒 拓萬航
(中公高遠(北京)汽車檢測技術有限公司,北京 101103)
主題詞:假設檢驗 排放試驗 實驗室比對 置信區間 置信概率 正態分布
2020 年11 月30 日,中國合格評定國家認可委員會(China National Accreditation Service for Conformity Assessment,CNAS)發布了CNAS-CL01-A005:2020《檢測和校準實驗室能力認可準則在汽車和摩托車檢測領域的應用說明》[1],要求汽車排放實驗室“應至少每2年參加1 次能力驗證或與獲CNAS 認可的另外兩家(含)以上實驗室進行比對,且實驗室比對/能力驗證的結果不超出實驗室比對/能力驗證方案預定的評價準則”。該文件對實驗室比對的方案和評價準則未作規定。GB/T 28043—2019《利用實驗室間比對進行能力驗證的統計方法》[2]推薦了多種能力評定指定值、標準差和統計量的計算方法,但多采用經驗值進行評價,不能幫助實驗室定位技術水平,不能通過實驗室比對達到保證試驗結果準確性、提升實驗室技術水平的目的。
本文采用數理統計中的假設檢驗方法,通過分析比對數據的正態性、2 個正態總體的方差齊性和均值差,結合置信區間和標準差,實現實驗室比對的評價。
2020 年,輕型汽車排放檢測行業組織完成了排放Ⅰ型實驗室比對,共有11家實驗室參加比對,其中的一氧化碳(CO)比對數據如表1所示。由表1可以看出,按照常用的Z比分數評價方法,所有實驗室均為滿意結果,但實驗室間的測量結果存在較大波動,實驗室8 和實驗室9 的實驗室間百分差達到了-29.1%和22.2%,實驗室內的數據分散程度也存在較大差別,實驗室10 和實驗室11 的實驗室內相對標準差分別為17.1%和10.8%。顯然,Z比分數、百分差和標準差的評價結果存在很大差異。

表1 排放Ⅰ型實驗室比對CO數據
利用概率性質的反證法進行假設檢驗[3]:設某個假設H0需檢驗,先假定H0為正確,在此“假定”下,合理地構造一個事件A,在H0為正確的條件下,A 為一個小概率事件。
假設檢驗的一般步驟為:
a.根據問題提出原假設H0與備擇假設H1;
b.構造檢驗統計量,根據原假設H0與備擇假設H1確定拒絕域的形式;
c.選定適當的顯著性水平α,求出臨界值,得到對原假設H0的拒絕域;
d.計算檢驗統計量,與臨界值比較,若滿足拒絕域,則拒絕H0,否則接受H0。
使用假設檢驗進行實驗室比對分析的步驟如下:
a.進行樣本正態性檢驗;
b.利用F檢驗判斷方差齊性;
c.利用t檢驗判斷均值差;
d.計算樣本總體的置信區間;
e.制作t檢驗統計圖,進行比對分析。
假設檢驗分析方法分為正態總體和非正態總體2種類型。為了確認樣本分布的類型,采用W檢驗法進行正態性驗證[3],W檢驗統計量為:

式中,n為樣本中數據數量;xi為樣本第i個數據為樣本平均值查《夏皮羅-威爾克檢驗計算統計量W所必須的系數表》[3]得出。
對所有的實驗室樣本構造W檢驗統計量計算表,得出W=0.973,并查《夏皮羅-威爾克檢驗計算統計量W的概率分位數表》[3]得出W檢驗分位數Wa=0.931,滿足Wa<W≤1,即樣本總體服從正態分布,同樣也可驗證各實驗室的樣本均服從正態分布。
將單個實驗室和實驗室總體樣本分別記作ξ~N(μ1,σ12)和ξ~N(μ2,σ22),檢驗2個總體的方差齊性,即F檢驗[3]。
假設:

根據F檢驗法,F檢驗統計量為:

F檢驗臨界值Fc=F1-α/2(n1-1,n2-1),根據2 個樣本的數據數量n1、n2和顯著性水平α,可查《F分布分位數表》[3]得到。
當Fs<Fc時,接受H0,認為2 組試驗樣本方差相等;否則,拒絕H0。
表2 所示為F檢驗統計量計算結果。由表2 可知,各實驗室的Fs均小于Fc,即接受H0,單個實驗室樣本與實驗室總體的方差相等,認為各實驗室樣本與實驗室總體樣本之間的數據無顯著偏離。

表2 F檢驗統計量
各實驗室樣本與實驗室總體樣本均服從正態分布,且σ12=σ22,檢驗兩正態總體均值差,即t檢驗[3]。
假設:

根據t檢驗法,t檢驗統計量為:

t檢驗臨界值tc=t1-α/2(n1+n2-2),根據樣本數量n1、n2和顯著性水平α,可查《t分布分位數表》[3]得到。
當-tc<ts<tc時,接受H0,認為2 組試驗樣本差異不顯著;否則,拒絕H0。
表3所示為t檢驗統計量計算結果。由表3可知:實驗室2 和實驗室9 的ts>tc,實驗室8 的ts<-tc,均拒絕H0,與實驗室總體樣本的差異明顯;其余實驗室的ts均接受H0,與實驗室總體樣本間的差異不明顯。

表3 t檢驗統計量
由F檢驗可知,各實驗室與實驗室總體樣本的方差相等,即,在顯著性水平a=0.05 下,實驗室總體樣本估計均值差的置信區間為[3]:

本文按照寬松的要求,將|ts|最大的實驗室8樣本作為ξ~N(μ1,σ12),計算得出實驗室總體樣本的置信區間為[49.50,71.75]mg/km。
各實驗室CO、THC和NOx測量結果與t檢驗統計結果分別如圖1~圖3所示。

圖1 CO測量結果與t檢驗統計結果

圖2 THC測量結果與t檢驗統計結果

圖3 NOx測量結果與t檢驗統計結果
由圖1可以看出,t檢驗統計量與Z比分數相比:a.兩者的樣本評價結果趨勢基本一致;
b.使用Z比分數評價,所有實驗室的樣本均滿意,使用t檢驗評價,3 個實驗室的樣本超出臨界值,其樣本分布狀態明顯偏離;
c.ts最大的實驗室9,樣本全部超出置信區間上限,標準差最小,表明實驗室水平較好,但試驗存在系統性誤差;
d.ts最小的實驗室8,樣本全部超出置信區間下限,標準差適中,表明實驗室技術水平與其他實驗室相當,但試驗存在系統性誤差;
e.實驗室2 的標準差適中,但個別樣本超出置信區間上限,導致ts>tc,表明實驗室技術水平與其他實驗室相當,但試驗存在系統性誤差;
f.實驗室10的標準差最大,個別樣本低于置信區間下限,但其Z比分數和ts均未出現異常,表明實驗室運轉正常,但技術水平稍差;
g.實驗室11 的標準差偏大,樣本均在置信區間內,Z比分數和ts均無異常,表明實驗室運轉正常,但技術水平不穩定。
從圖2和圖3可以看出,t檢驗同樣適用于各實驗室THC和NOx樣本的分析。
由此可以認為,使用假設檢驗方法分析汽車排放實驗室比對的樣本,與Z比分數方法的結論趨勢相同,結合置信區間與標準偏差,可幫助實驗室定位技術水平狀態。
a.使用假設檢驗進行排放實驗室比對分析,與Z比分數的結論趨勢相同;
b.ts超出tc,可做不滿意評價;
c.假設檢驗采用了置信概率和置信區間的概念,所得結論能夠反映比對結果的真實情況;
d.假設檢驗方法與標準差相結合,可定位實驗室的技術水平狀態。