陸運清
(河北師范大學 教育學院,石家莊 050024)
兩個相關二分變量的差異顯著性檢驗在實際研究中經常涉及,最典型的是前后測實驗設計研究。例如,在醫學研究中,考查患者服用某種藥物或接受某種處理前后是否出現某種癥狀,以研究該種藥物或該種處理對此癥狀的治療效果;在營銷研究中,調查消費者在看到某產品廣告前后購買該產品的情況,以確定該產品廣告的效果;在教育研究中,測查學生在接受某教育過程前后某項素質的達標情況,以了解該教育過程的成效;等等。在前后測實驗設計中(見表1),a、d分別表示處理前后的測試結果均為“是”和均為“否”的被試數,二者所代表的被試,處理前后測試結果相同。b、c分別表示處理前后測試結果由“是”變為“否”和由“否”變為“是”的部分,二者所代表的被試,處理前后測試結果均發生變化。
對相關二分變量進行統計檢驗的常用方法是McNemar檢驗,它是由美國統計學家Quinn McNemar于1947年提出的[1]。McNemar檢驗的基本公式為

其應用條件為b+c≥10。該卡方分布的自由度為1。
計數數據資料的檢驗看似簡單,但在實際應用中經常出現誤用問題[2][3]。McNemar檢驗的問題有所不同,是理論上有些不盡如人意。從McNemar檢驗公式可以看出,只有表示前后測結果不一致的兩部分b和c包括在公式中,而處理前后測試結果不發生變化的部分a和d并未包括在其中。Cochran WG于1950年論及前后測結果一致的部分在差異檢驗中不起作用,并提出這一點不符合直觀感覺[4]。對于給定的b和c,直覺應該是前后測試結果差異在a和d為零時要比a和d很大時顯著。這一點通過實例更容易理解。例如,將未通過某次標準化考試的學生隨機分配到兩輔導班培訓,培訓一段兒時間后這些學生又參加了第二次的標準化考試,如果要考查甲、乙兩個輔導班的效果,隨機抽取學生了解考試情況,結果抽取的參加甲輔導班的10名學生全部通過考試(a1=0,b1=0,c1=10,d1=0),抽取的參加乙輔導班的30名學生中10名通過了考試(a2=0,b2=0,c2=10,d2=20)。通過McNemar檢驗考查兩個輔導班輔導的效果,二者的檢驗結果均為χ2=(b-c)2/(b+c)=10,p=0.0015。而具體分析,甲輔導班的效果應該好于乙班。可見,McNemar檢驗中只存在兩次測試不一致的部分具有一定的不合理性。表1相關四格表“前-后測實驗設計”示意表




因此,研究者得出了McNemar檢驗公式。實際上,這個推導過程對a和d的極大似然估計并沒有意義,這種估計方法a和d永遠不起作用。退一步講,即使承認該推導過程,得出的檢驗公式也只是計算卡方的公式形式上與McNemar檢驗公式相同,而實際上并不能像文中論及的一樣:該過程得出McNemar檢驗。因為McNemar檢驗的卡方分布的自由度為1,而此推導過程的分類項數為4(與McNemar的推導過程相比,差別僅是多出了關于a和d的兩項),因此,該卡方分布的自由度為3。這樣,這個推導過程并不能得出McNemar檢驗,更不可能正確解釋McNemar檢驗中不包含a和d的問題。

統計學家還就比之比、對數比、風險比等其它一些方法作過相關四格表差異顯著性檢驗的研究,但這些方法均為得出更合理的結果[7]。
通過重新組合分組的方法,研究者簡單巧妙地解決了在樣本整體基礎上考慮兩個變化項一致的問題[8]。將樣本n考慮成b和a+c+d或者c和a+b+d兩個分項,則對應兩項的理論次數分別為(b+c)/2和n-(b+c)/2,這個過程既考慮到整個樣本,又使得b和c對應的理論次數相等。在此基礎上用Pearson卡方和二項分布近似的正態分布均可以推導出相關四格表數據的檢驗公式[8]

在b+c≥10時,公式(2)和(3)的計算結果符合自由度為1的卡方分布。這個結果對McNemar檢驗進行了合理修正。
用修正公式(2)和(3)對本文開始部分的甲、乙輔導班的效果進行檢驗,則甲輔導班的效果檢驗結果χ2=10,p=0.0015;乙輔導班的檢驗結果χ2=5.36,p=0.0206。甲輔導班的效果更顯著。
修正后的McNemar檢驗不但依賴于前后測驗結果發生變化的被試數目b和c,還與總樣本容量n或前后測驗結果不變的被試的數目a和d有關。在b和c一定的情況下,修正后的卡方值隨著a和d的增大而減小,當a+d=0時,與修正前的值相等。這個結果更具有合理性。
由于McNemar檢驗僅考慮兩次測試有變化的部分b和c,因此檢驗結果擴大了具有統計學意義的可能性。在此抽取幾個采用了McNemar檢驗的研究文獻,將其研究數據用McNemar檢驗的修正公式重新進行檢驗,兩種檢驗的有關結果如表2。
從表2中的數據可以看出,修正公式檢驗結果相對于McNemar檢驗結果的顯著性在不同程度上降低了。其中數據⑵⑶⑺⑻⒀⒂⒃McNemar檢驗結果為p<0.05,修正公式的檢驗結果為p>0.05;數據⑷⑸⑹⑽⑾⑿的McNemar檢驗結果為P<0.01,修正公式的檢驗結果為p<0.05;數據⑴、⑼、⒁的McNemar檢驗結果分別為p<0.01,p<0.001,p<0.001,修正公式的檢驗結果分別為p>0.05,p<0.01,p<0.05。由于McNemar檢驗只考慮兩次測試結果的不一致部分b和c,將兩次測試結果的差異放大,因此,造成I型錯誤的顯示值比真實值小,有時使差異本不顯著的數據檢驗結果顯示為顯著。修正后的檢驗結果修正了這個誤差。例如,文獻[6]中甲、乙兩種方法檢驗細菌的結果差異未達到顯著水平,但McNemar檢驗結果差異非常顯著。文獻[9]中的McNemar檢驗結果顯示,腰圍指數和腹部肥胖診斷代謝綜合征的結果差異顯著,修正檢驗得出兩種診斷結果的差異不顯著。文獻[10]中的McNemar檢驗結果顯示,新生兒血清HBV-DNA陽性組PBMC中HBV-DNA檢出率明顯高于血清HBV-DNA陰性組,而修正檢驗結果顯示,陽性組與陰性組的檢出率差異不顯著。文獻[13]中,在對自閉癥譜系障礙分析中,被試回答有關自閉癥測試的兩種問題通過率的McNemar檢驗結果為差異顯著,而修正后的檢驗結果未達到顯著程度;對TD(typically developing)組的分析中,兩種問題測試通過率的差異檢驗結果也如此。文獻[15]中通過基本護理篩查(ADS-PC)和簡明精神量表(MMSE)對不同組別老年癡呆病人組和非癡呆病人組測試結果進行檢驗,原文表3中第5組的白人及表4中第6組的受教育年限大于12年的被試的測試結果而言,McNemar檢驗結果顯著,而修正結果顯示二者差異不顯著。文獻[16]對選修家庭暴力問題課程的同學在上課前后調查其是否遭到過家庭暴力,結果顯示,上課后回答曾經遭受家庭暴力的學生增多,McNemar檢驗差異顯著,但修正檢驗的結果差異不顯著。修正后的檢驗糾正了因僅考慮變化部分而放大了差異性的問題。

表2 幾個研究文獻中數據的兩種檢驗結果
相關二分變量的統計處理除在前后測設計中廣泛應用外,對配對研究設計中的數據分析也適合。如雙胞胎對兩種性質活動的選擇是否有相同偏好;夫妻對某項社會決策的贊成和反對意見是否一致;父子對兩種養老方式的贊成傾向是否相同;等。可見,相關二分變量在很多領域的實際研究中應用相當普遍。因此,選用合適的統計方法對相關二分變量進行分析以得出更科學的研究結果,為生活、工作實際提供更為有效的指導是非常必要的。
[1]McNemar Q.Note on the Sampling Error of the Difference between Correlated Proportions or Percentages[J].Psychometrika,1947,(12).
[2]陸運清.用Pearson’s卡方統計量進行統計檢驗時需要注意的幾個問題[J].統計與決策,2009,(15).
[3]陸運清.心理與教育研究中列聯表統計檢驗的幾種常見錯誤辨析[J].統計與決策,2010,(15).
[4]Cochran WG.The Comparison of Percentages in Matched Samples[J].Biometrika,1950,(37).
[5]羅明奎.配對資料McNemar檢驗法的適用范圍[J].中國衛生統計,1999,16(3).
[6]趙瑩.配對四格表的一致性檢驗[J].數理醫藥學,2010,23(4).
[7]Agresti A,Min Y.Effects and Non-Effects of Paired Identical Observations in Comparing Proportions with Binary Matched-pairs Data[J].Statistics in Medicine,2004,(23).
[8]Yunqing Lu.A Revised Version of McNemar’s Test for Paired Binary Data[J].Communication in Statistics-Theory and Methods,2010,39(19).