摘要:科研論文中統計誤用問題逐漸引起統計學界的廣泛關注。查閱了國內外相關資料,對體育科研中的各類誤用問題進行診斷,并概括出4個方面的問題,包括研究設計、收集資料、數據處理和結果分析中的統計誤用問題,以及使用統計方法時應注意的典型問題42個,希望能幫助體育工作者正確使用統計學工具,減少體育科研中統計方法誤用現象。
關鍵詞:體育統計;誤用;診斷;對策
中圖分類號:G 80—32文章編號:1009—783X(2009)05—0637—04文獻標志碼:A
近年來,在國際范圍內應用統計方法的科研論文中。統計方法誤用的現象相當嚴重,也逐漸引起統計學屆的廣泛關注,我國有統計學錯誤的論著在學術期刊中也占有較高的比例。更為嚴重的是,有些在錯誤的統計研究設計指導下收集的錯誤數據,又用錯誤的方法進行處理后得出的錯誤結論常被寫進論文,有些還刊登在優秀期刊上,其后果可想而知。
由于統計方法的誤用將會對統計結論及后續研究產生嚴重的影響,在體育領域中,許多專家和學者也呼吁在體育科研中正確使用統計方法,有些科研論文對誤用統計方法還進行了實例分析。目前,體育科研論文中應用統計方法時存在的問題比較普遍,且論文的數量在統計方法誤用的同時正以成倍的速度增長。為了使體育科學研究能夠正確、健康地發展,本文查閱了國內外相關資料,對體育科研中的各類誤用問題進行診斷,提出應注意的問題及解決對策,希望能減少體育科研中統計方法誤用現象。
1 統計誤用問題的分類
在體育科研中,學術論文是體育科研工作質量好壞和水平高低的一面鏡子,能全面映射出科研工作者科研創新的思路、統計研究設計的能力、數據處理的質量和結論的可信程度等綜合水平。然而,翻閱我國體育研究領域內各類期刊中的學術論文,不難發現誤用和濫用統計學的頻率相當高!
本文查閱了大量文獻資料,走訪了部分專家,通過綜合分析,概括出以下4個方面的問題。即研究設計方面的常見問題,收集統計資料前應注意的問題,數據處理中的誤用問題和統計結果分析時應注意的問題等。
1,1研究設計方面的常見問題
統計研究設計包括調查設計和實驗設計,調查設計要明確調查目的、對象、范圍,確定設計過程,不漏掉重要的調查項目和指標,一定要制訂全面、仔細的組織計劃。實驗設計關鍵是嚴格遵守對照、重復、隨機化等基本原則,合理選用設計類型。
研究設計方面常犯的錯誤有:①研究設計方案不完善。②對情況不明的研究工作缺乏必要的預實驗。③用單因素設計取代多因素設計。④缺乏對照組或對照不全。
正確制定研究設計方案的策略:
研究設計是體育科研的一個重要環節,設計方案不完善或無設計方案,都會直接影響研究結果的可靠性。因此,體育科研中,應重視統計研究設計。
進行科研工作,首先要將體育專業知識與統計知識有機結合,制定周密的研究設計方案,了解研究設計的內容、作用,掌握研究設計的核心內容,即對照、重復、隨機化等基本原則,并能把握這些原則的要領。實驗設計要對實驗因素進行合理的安排,最好結合專業知識進行一定的預實驗,來確定實驗所需要的因素及各因素不同水平的具體取值,使實驗設計工作做到有的放矢。
實驗設計的類型比較多,要使體育科研工作者熟練掌握,并能辨析各種實驗設計類型的確不太現實。但實際工作中有必要熟悉最常用的3種實驗設計類型,即單因素多水平設計、多因素析因設計和具有重復測量的多因素設計。
“有比較才能有鑒別”,設立對照組就是為了科學地鑒別。一些科研論文科學性不強的主要原因是對照不合理,甚至有的根本不設對照組。有的雖有對照組,但缺乏可比性。體育科學研究設立對照組尤為重要,因為不通過嚴格的對照試驗,很難作出正確判斷。
1,2收集統計資料前應注意的問題
推斷統計是用樣本推測總體的統計方法。一般情況下,統計資料僅反映樣本的情況,不能簡單地將其視為總體的真實寫照。
1)你所研究的總體是什么?
許多研究中,有意無意地在取樣的合理性問題上總會打折扣。下面2種取樣的問題在研究中就經常會出現:①樣本過小;②有偏樣本的使用。
2)抽樣不符合隨機抽樣原則或樣本量過小。
3)組間樣本不同質。
因此,無論何時,在進行研究和閱讀別人的研究報告時,都要考慮2個有關抽樣的問題:①樣本有多大?②樣本是如何被選中的?另外還要注意各組間樣本必須保證是同質的。
設計調查方案的注意事項:
統計資料的收集是根據統計研究的目的和任務,運用科學的方式和方法,有計劃、有組織地收集統計數據的過程。調查研究中,設計調查方案的主要內容包括:確定調查目的即確定為什么調查;確定在什么范圍(總體)內向誰調查;確定調查項目、調查表格和問卷;確定在什么時間段調查什么時點或時間段的數據資料;確定調查方式和方法。其中調查方式可采用普查、抽樣調查、重點調查、典型調查或統計報表制度。
任何統計分析都是建立在數據的取得是合理、正確的前提下。樣本的選擇要符合隨機化原則,這樣才能使樣本客觀地反映總體。隨機分組的數據資料,要求對照組與試驗組必須遵循均衡化的原則,也就是說對照組除了缺少實驗處理因素外,其他條件應與實驗組基本一致,從而排除非處理因素對結果的影響,且組間樣本具有相同的屬性。若為定量資料,實驗之前對照組與試驗組的數據進行統計檢驗應為“差異無顯著性意義”。
1,3數據處理時常犯的錯誤
數據處理中,對于同一個資料、同一個分析目的,由于所采用的統計分析方法不同,有時會得出不完全相同的結論,有時也會得出相反的結論。因此,正確、合理地選用統計分析方法至關重要。
1,3,1平均數的誤用問題
變量包括定類變量、定序變量、定距變量和定比變量。統計方法的選擇與變量類型有關。數據類型的誤判,必將引起統計方法的誤用。
1)誤判統計資料的性質
平均指標和變異指標在應用中的常見錯誤是不論什么資料,不管其分布情況,一律用算術平均數表示平均水平,用標準差表示變異度的大小。
2)不妥當地使用算術平均數。
當資料呈明顯的偏態分布或樣本量較小時,若用平均值加減3個標準差來判斷異常值,往往會得出錯誤的結果。
3)誤用一判斷“異常值”的準則。
1,3,2 t檢驗的誤用問題
t檢驗和方差分析時,需要考慮“正態性”和“方差齊性”2個前提條件。
t檢驗時,當樣本不符合正態分布時,應采用檢驗代替t檢驗;當兩樣本方差不等時,應采用秩和檢驗或檢驗。有人在使用t檢驗時來考慮到上述因素而盲目使用,經常將t檢驗作為處理定量資料的“萬能工具”。
1)忽視t檢驗和方差分析的前提條件。
t檢驗一般只適合2組計量數據比較,多組計量數據進行比較需用方差分析。F檢驗的結果,如差異具有顯著性,進一步作2組間的相互比較,應選用q檢驗等方法,但不宜再用t檢驗。
t檢驗和方差分析時,還有以下問題需要注意:
2)誤用t檢驗代替方差分析;不說明是單側檢驗,還是雙側檢驗;單側檢驗的根據未做說明;不考慮樣本的獨立性問題;t檢驗時,進行了無意義的分組(如:年齡、得分等);誤用t檢驗分析列聯表資料;誤用定量資料統計方法(如t檢驗)處理定性資料。
1,3,3各種方差分析方法混用
多個樣本均數比較的方差分析應用條件為:①各樣本相互獨立,均服從正態分布;②相互比較的各樣本的總體方差相等,即具有方差齊性。
由于方差分析方法較多,應用中人們常犯的錯誤是:①將多因素多水平問題簡單地看作單因素的多個水平問題,混淆了因素與水平之問的區別。②對單因素多水平問題仍采用多次£檢驗進行兩兩比較。誤用這2種方法造成的后果是,無法分析因素之間交互作用的大小。而且,由于所選用的數學模型與設計不匹配,易得出錯誤的結論。
1)誤用單因素方差分析代替多因素方差分析。
2)將不滿足正態性和方差齊性的資料,盲目選用參數檢驗法。
1,3,4將檢驗作為處理定性資料的“萬能工具”
檢驗常出現的問題是,表中所列的數據項與分析時所用的數據不一致,資料的條件不滿足公式的要求卻盲目套用,對列聯表中定性變量的性質(無序與有序)不加區分導致統計學分析方法的誤用。
1)用檢驗分析一切列聯表資料;誤用檢驗取代fisher的精確檢驗;檢驗時,對變量事先進行分組的理由不恰當;對連續性變量僅使用檢驗,往往會夸大結論。
1,3,5直線相關與回歸分析存在的錯誤
體育科研論文中,回歸與相關分析常見問題是:回歸與相關的概念不清;根據相關系數的假設檢驗結果對回歸方程的作用往往給予過高的評價等。
對相關系數的誤用多與取樣有關,如果你取到的樣本數據之間沒有足夠大的差異,就有可能產生全距限制現象;如果樣本太小,較大的相關系數也可能會無顯著性意義。
進行相關分析時,樣本量取過??;誤將明顯有曲線變化趨勢的資料進行直線回歸分析;多元的資料用一元統計分析方法處理;多因素的資料用單因素的方法進行處理。
1,3,6正確選用統計分析方法
接近對稱分布的資料,一般用平均數反映資料的集中趨勢,用標準差反映資料的離散趨勢。若有極端數據存在或嚴重偏態分布的資料,可使用中位數反映資料的集中趨勢,用四分差反映資料的離散趨勢。用作為判斷“異常值”的準則時,必須滿足2個前提,即資料服從正態分布和樣本非常大。
假設檢驗時,滿足正態性和方差齊性的資料,應采用參數檢驗法,如t檢驗、方差分析(F檢驗)等。常用的t檢驗方法有:單一樣本的t檢驗、兩獨立樣本的t檢驗和兩配對樣本的t檢驗。最常用的方差分析方法,分為單因素方差分析和雙因素方差分析,使用時應判斷資料類型,合理選用方法。若資料不滿足參數檢驗的前提條件,可選用非參數檢驗(如秩和檢驗等)進行分析。
對四格表檢驗要注意使用條件。四格表檢驗的條件為n>40,且理論頻數T>5。四格表資料如n>40,但1 對于單項有序的列聯表資料,可選用秩和檢驗,而不宜使用檢驗,因為檢驗是檢驗頻數分布是否相同,而不能得出差異是否具有統計學意義的結論。 使用相關與回歸分析方法時,首先要結合體育專業知識判斷所研究變量之間的相互關系。若兩個變量都是定量變量,應繪制散點圖,直觀判斷是否具有直線相關關系,應該進行直線回歸還是曲線回歸分析。若因變量(y變量)是定性的,如二項分類變量,自變量(z變量)是定量的,可考慮選用logistic回歸分析。進行相關分析時,對于二元定距變量,應計算Pearson簡單相關系數;對于2個有序變量之間的相關關系,可采用Spearman的秩相關分析。 1,4結果分析時應注意的問題 統計分析的結果是建立在概率論基礎上的一種推斷。只能得出兩組總體參數不相等,而不能說相差很大,統計分析得不出差別的大小,因而結論不能說“有明顯差異”或“有顯著差異”。正確的描述應當是“差異有統計學意義”或“差異有顯著意義”等。如果欲比較兩組總體參數的差別如何,要對兩組參數的可信區間進行觀察后才能得出結論。 1)顯著性水平和差異大小一樣嗎? 任何兩組數目相等的數據均可計算相關系數,但計算相關系數是有條件的,考慮到它們所屬的兩總體之間可能存在一定關系時才計算。 進行直線回歸與相關分析時,有人常把假設檢驗的P值與關系密切程度混同?;貧w系數和相關系數的絕對值能夠反映兩變量關系的密切程度,而不是假設檢驗的P值,P值越小只能說明越有理由認為變量間的直線關系存在,而不能說關系越密切或越顯著。科研論文中,許多人只關心相關系數的假設檢驗是否有顯著性,而不關心相關系數的大小有無實際意義。 2)相關顯著與相關程度一樣嗎? 有些文章對相關系數不做假設檢驗,憑數字大小下結論。如r>0.5,即認為有相關。其實,當樣本量很小時,即使r>0.7,也可能無統計學意義。 3)樣本量過小時計算直線相關系數,且直接用r值下結論。 也有人把統計學當成事先計劃好的,為預期結果提供一個“P<0.05”的工具,哪種統計方法能使得研究中“P<0.05”出現的次數多,就選用哪種方法。 4)把0.05水平絕對化,僅以P作為下結論的惟一依據。 編制統計表時,分組標志與觀測指標位置顛倒、線條過多或過少、數字的小數點位數不一致或表中數據的含義未表達清楚,令人費解。 5)編制統計表時,分組標志與觀測指標位置顛倒;數字的小數部分的位數不一致。 有些人在統計指標的選擇、統計圖表的制作、統計方法的選用上都帶有自己的個人目的,具有一定的功利性。因此。重要的是要確定差異在統計學上是否可靠,而不是挖空心思地使差異在圖中顯得足夠“大”。 6)統計圖被夸大。 繪制統計圖時,坐標軸上的刻度值標得不符合數學原則、資料與所選用的統計圖類型不匹配(如用條圖表達連續性資料)。 7)統計圖中的資料與所選用的統計圖類型不匹配。 構成比是說明事物或現象內部各構成部分的比重,率是表示某種現象發生的頻率或強度。它們都是相對數指標,用百分數表示。 8)構成比(百分比)與發生率(百分率)混淆。 結果分析時,還要防止以下問題出現: 9)分母很小時,也計算百分比或百分率;不進行統計,妄下結論;未明確交代統計分析方法,直接得出結論;觀察研究中只分析已知原因,而放棄對未知原因的探索;用樣本調查結論代替總體的調查結論;數據造假。 統計分析是以統計資料為依據,運用科學的方法,定性與定量相結合,對統計結果進行分析研究的活動。進行統計分析時,研究者要以科學的態度,客觀的標準,合理解釋統計結果,得出真實可靠的統計結論,保證體育科研事業的健康發展。 2 統計方法誤用的原因 統計方法的使用率越來越高,誤用問題也逐漸增多。分析體育統計誤用的原因可概括如下: 2,1包含概率論的基礎統計教育處境艱難。主要是:授課學時太少;學生基礎較差;社會和領導不重視基礎統計學教育等。 2,2對以前科研論文中用到的統計方法不加批評地加以使用。學術刊物數量很多,稿件數目不斷增加,某些有統計學問題的論文得以公開發表,它們無形之中起到了難以抗拒的“負面效應”。 2,3體育科研人員掌握統計方法的深度和廣度不夠;數量比質量更重要的功利主義影響;在各研究領域中,缺乏批評與自我批評等。 2,4具體應用統計方法時,實際資料往往錯綜復雜,它們被“鑲嵌”在專業背景之中,使人很難看出其在統計學上的“真面目”。 2,5各級業務主管部門對問題的嚴重程度認識不足,糾正統計誤用問題的決心不大。 3 對策與建議 統計學在體育科學研究中非常重要,一旦被誤用,就有可能造成嚴重的后果。因此,防止統計方法的誤用也就顯得尤為重要。 3,1多渠道、多種方式提高研究者自身的素養 要防止統計方法的誤用,首先要注意提高研究者自身的研究素養,真正理解統計學的邏輯性。研究者要了解每種統計方法的特點和使用的前提條件,并分析你的研究中是否具備這樣的條件,你所獲取的數據適合什么統計方法。此外,對得出的統計結果應給予合理的解釋。 3,2參加統計培訓,加強批評與自我批評 結合自己研究領域中經常涉及到的統計學問題,有的放矢地去參加一些高水平的短期統計學培訓班,帶著問題學習統計學,可以達到事半功倍的效果。 體育科研工作者在運用體育統計學解決實際問題時,還應加強批評與自我批評,對確有把握解決的問題就自己解決,沒有把握解決的問題,應當向內行請教或請統計學工作者協助解決。 3,3加強交流,積極開展課題協作 積極開展交叉學科之間的課題協作,是一個“經濟、高效、優質、科學”地完成科研課題的現代運作模式,是信息時代的必然發展趨勢。應大力提倡利用Internet網開展科研課題協作。 3,4提高教學質量,強調統計理論在體育科研中的重要性 要想使體育院校的本科生和研究生真正學好統計學,必須編寫出理論密切聯系實際的統計學教材,改革“滿堂灌”的傳統教學模式,引導學生積極參與教學活動,使他們變被動接受知識為主動獲取知識。教師應教會學生如何將實際問題轉化為統計問題,如何正確地選用統計分析方法,如何結合統計和專業知識作出正確的結論。另外,提高廣大作者和審稿者的統計學水平,對減少統計誤用問題也是至關重要的。 3,5 體育統計教材中應增加防止統計方法誤用的實例 統計學教科書上一般都只從正面講述統計學方法,因而使用者常對誤用統計方法缺乏識別能力和防范措施。因此,應加強統計教材的改革,增加防止統計方法誤用的實例,多進行統計誤用案例分析。 3,6完善監督管理機制,制訂行之有效的政策 在科研課題的評審、科研成果的鑒定、學術期刊質量的審查、研究生學位論文的評閱等學術性較強的科學研究和管理工作中,應進一步完善監督機制,制訂行之有效的政策,以便有效地防止缺乏科學性和嚴謹性的“成果”通過鑒定。 4 結束語 本文針對當前統計誤用、濫用現象嚴重的問題,尤其表現在體育期刊中統計學錯誤較多的現狀,結合在多年統計教學和咨詢中總結的經驗、體會,列舉了各類誤用統計學及應用中應注意的典型問題42個,并進行了簡要的分析和釋疑,希望科研工作者在掌握統計方法的同時,懂得如何正確使用統計學工具,防止方法誤用。