在1972年至1974年間,英國進行了一項有關甲狀腺疾病與心臟病的?題研究,20年后又進行了后續的追蹤調查,于1996年作出的某份調查報告中對被調查婦女是否抽煙與被調查婦女是否存活的數據作了統計分析,部分數據如表1(死亡率精確到0.01%),已知表中的統計數據準確并且統計方法無誤,
從表中不難看出,不抽炯者的死亡率明顯高于抽嫻者,這樣的統計結論碌然令人迷惑,難道抽炯的人比不抽炯的人還長壽?這究竟是怎么回事呢?現在就為大家揭開謎底,原來,這項調查忽略了一個重要的條件——年齡,換句話說,收集數據時沒有把被調查人群按年齡進行分類,而這一點是非常必要的,因為年齡大的人通常對自己的健康比較關注,常常能做到不抽煙,因此在這類高齡人群中就很少有抽嫻者,可上面的調查沒有注意這一點,把這類人一并納入統計數據中,就產生了問題,涮查者意識到失誤后進行糾正,把調查對象按年齡分類后得到表2,其中用“+”表示抽炯,“一”表示不抽嫻,
從表2中可以看出,當初75歲以上的老人20年后無一存活,這很容易理解,也就是說,經過20年,當初被調查的老齡人是否抽煙對存活率基本沒有影響,弄清了這一點,就可以對表2再次進行修正,考慮到65歲以上婦女的死亡更多是因為身體老化和功能衰竭,所以將表2中65歲以上的數據刪除,從而得到更為精確和合理的表3(死亡率精確到0.01%),
從表3中可以看出,在不滿65歲的婦女中,抽煙者的死亡率明顯高于不抽煙者,符合生活實際與常規判斷,
這個故事是不是挺耐人尋味?它給我們的啟發是:雖然“數據會說話”,但若選取的原始數據品質不佳,或對數據處理不當,就可能會出現錯誤,因此,我們在統計分析時,必須注意可能忽視的背景和細節,綜合考慮各種因素,這樣得到的結論才能更準確,