劉可 張美芬 張利峰 卜秀青
(中山大學護理學院,廣東 廣州 510089)
?
·教 與 學·
護理研究中如何檢驗測量工具的信度
劉可 張美芬 張利峰 卜秀青
(中山大學護理學院,廣東 廣州 510089)
本文作者從測量的基本理論出發,探討了護理研究中通過穩定性、等同性和內部一致性來進行測量工具的信度的檢驗方法;同時介紹了信度的評價方法;以及如何應用及提高測量工具信度的方法。通過對測量工具信度的深入理解來提高護理研究中測量的質量。
護理研究; 測量工具; 信度
Nursing research; Measuing tool; Reliability
在護理研究的過程中,對研究變量進行測量是非常關鍵和重要的一個步驟。而測量工具的質量好壞直接影響測量結果的準確性以及研究結論的科學性和推廣性。一個信度良好的測量工具是得到可信的測量結果的必要條件。筆者從測量的基本理論出發,介紹了測量工具的信度檢驗以及如何提高測量工具的信度。
1.1 經典測量理論 在傳統的測量理論中,測量所得到的觀察值(observed score) =真實值(true score) + 測量誤差(error variance),測量誤差包括隨機誤差(chance /random error)和系統誤差(systematic error)。隨機誤差難以控制,如受試者的狀態、測量的環境、工具的使用及操作過程等,系統誤差是由于受試者的特性對測量結果所造成的偏倚,如社會期望性、回應偏倚、教育程度等。由于誤差的存在,真實值不可能直接獲得,必須通過測量觀察值來估計。觀察值是通過測量工具得到的某個特定時間特定環境下某個受試者的變量特性的反映。因此每次測量得到的觀察值都不同,要想最接近真實值,可以通過無數次測量值取得平均數。
在經典理論中,信度就是真實值變異與觀察值變異的比值,信度的估計方法就是考慮了環境因素等所導致的隨機誤差,以及由此帶來的誤差變異對變量真實值的變異的貢獻程度。在經典理論指導下的信度估計,通常是采用相關分析的方法[1]。
1.2 概化理論 概化理論是對經典理論的擴展,它認為測量是否準確取決于在不同的測量條件和測量目的的情況下,測量值是否能準確反映真實值。測量的不同條件(facet)可以影響測量的結果,測量者希望在這些不同的特定條件下得到的測量值都能夠接近真實值。概化理論中,全域分數(universe score)即真實值,概化系數(generalizability coefficient) 類似于傳統的信度系數,是全域內預期的分數變異和樣本分數變異的比率。概化理論強調測試的條件和測試的目的,不僅關注測試工具本身好壞,還強調工具用在什么目的或什么條件下的好或壞?例如,在需要不同的評定者的情況下,選擇多少個評定者或哪些評定者時概化系數最大(即測量信度最高)?概化理論通過方差分析的方法,檢測不同特定條件對測量過程的影響,即測量情境對誤差的影響,從而估計誤差的來源,保證測量的等同性[1]。
目前,護理領域常用的信度計算方法主要是基于經典理論和概化理論,IRT理論以及認知判斷理論還未涉及。
信度(reliability),是指用某種測量手段所得資料的精確程度。不同的計算方法可以導致不同的對信度的概念化和操作性定義。我們可以從以下三個方面來檢驗測量工具的信度。
2.1 穩定性(stability) 是指重復測量所得結果的一致程度,反映了同一樣本,同一工具,在測量環境一致的情況下,測量工具對外界因素的敏感程度。
基于經典測量理論,如果我們希望得到一個可信的測量結果,那么這個結果首先應該是穩定的,也就是說,在不同的測量情境下,測量值應該是相似的。 但是,得到一個穩定的測量值受很多因素的影響。例如,概念本身的真實變化、現象的系統性的波動、測量方法或受試者的變化(如疲勞)、以及工具的穩定性都可以影響重測的值,這些也都反映了真實值的變化和測量的誤差所導致的測量值的不穩定。因此,通過重復測量,可以反映測量工具的穩定性。重測信度(test-retest reliability)反映的就是不同情境下測量工具的穩定性,可以通過兩次測量的相關性來計算。
2.2 等同性 (equivalence) 是指不同觀察者,或者兩個相似的工具同時應用時測量的一致性。
在不同的測量條件下,我們需要考慮測量的等同性,也就是概化理論所提出的測量的概化性。重測信度是在不同時間使用同一工具測量,如果我們把不同版本的工具在同一時間測量,就可以用復本系數 (alternate forms reliability)來反映測量的等同性。如果研究需要在測量中使用復本,就需要評價復本信度,即評價是否不同版本的工具測量的是同一概念。如果要同時考慮穩定性與等同性,我們可以在不同時間交換測量不同版本。有時,測量過程中為了避免受試者的應試技巧“test-wiseness”,而使用平行條目或平行工具(parallel or alternate form)。 平行條目必須是基于相同概念或亞概念的相同類型的條目,但用詞不同。但通常情況下,編制真正平行的兩個版本是非常困難的。
如果是通過直接觀察行為來測量,那就需要計算不同觀察者評分之間的等同性,即評定者間信度。可計算兩個人對一組受試者分別計分,或多個人同時對多個受試者評分,即組內系數(intraclass coefficient),或和諧系數(coefficient of concordance)。如果評分的等級多,可以用相關系數來計算評定者間信度;如果評定者多于2人,但評分等級少(定性資料)時可以用一致性百分比(agreement)或者Kappa系數來計算;組內相關系數ICC(intraclass correlation coefficient)適用于定量資料的一致性評價。有時,等同性的測量可反映什么人來使用某種工具更適合。如壓瘡危險因素評估,通過檢測不同觀察者之間的等同性,可以發現該工具由注冊護士使用比助理護士使用更適合。
2.3 內部一致性 (internal consistency) 指測量工具各條目的同質性或內在相關性。即是否所有的部分都是測同一變量,反映了量表形成階段選擇條目時的誤差。
基于經典理論基礎上設計的量表通常用不同的條目來測量某個現象(變量)。由于不能直接觀察條目與變量的關系,但可以通過條目之間的關系來反映。如果條目與變量相關,那么條目之間必定也是高度相關的。因為條目之間密切相關,意味著它們有一個共同的原因,即這些條目都測量的是同一變量。如果條目之間是密切相關的,那么這個量表的內部就是一致的。因此,單維度的量表或多維度量表的各個維度的所有條目之間都應該是高度相關的。內部一致性反映了條目的同質性,但不能反映不同的施測條件和施測時間的影響。內部一致性可以通過折半系數 Spearman-Brown prophecy formula、Cronbach’s alpha、Kuder-Richardson formula 20、21 ( KR 20、KR-21)來計算。
如果我們把同一測量工具拆分成兩個部分,把這兩個部分看成是“復本”,就可以得到折半信度(split-half reliability)。可以將量表的條目進行前后拆分,但這樣可能量表前、中、后的條目的不同可能會造成選擇性偏倚;或者將奇數部分的條目和偶數部分的條目拆分成兩個部分;還可以根據某一種特征或某幾種特征來平衡:如使用第一人稱語句的條目、長短句平衡等進行平衡拆分;也可以將所有條目進行隨機拆分,但如果量表的條目數少,或條目來源于幾個不同的維度時,隨機得到的兩個部分并不一定具有可比性。在這種情況下要保證拆分的兩個部分中的條目來源于所有的維度。因此,拆分的方法取決于當時的實際情況,關鍵在于拆分出基本相等的兩個部分來進行比較。可使用Spearman-Brown 公式進行計算。
Cronbach’s alpha是目前最普遍、最常用的方法,是把所有分半方法得到的信度系數的平均值,來作為整個工具的信度。KR-20 、KR-21是 alpha 的特殊類型,適用于兩分類的資料。KR-21假設所有條目的難度相等,估計的信度更加保守,更容易計算。
由于內部一致性要求工具內部條目反映的是同一概念,反映的是工具的獨一性一維性,條目之間必須相關或相互補充。因此,如果測量的概念包括了亞概念,就必須報告各維度的信度值。這也是在某些情況下,維度信度值高于總量表信度值的原因。
以上介紹了不同的信度特征及計算方法,在實際的運用過程中,每開展一個新的研究,我們都需要對測量工具的信度進行檢測,無論是已廣泛使用過的舊工具還是修訂過的舊工具,或者是根據新的研究設計的新工具。因為,新的研究針對的是,不同的研究環境下新的研究總體,也就是說,測量工具的信度不是針對工具本身,而是針對特定環境下特定樣本的研究工具。根據研究的實際情況,我們可以選擇不同的方法來檢測測量工具的信度。如果測量的變量本身具備穩定的特性,我們可以選擇穩定性來反映工具的信度,例如身高、個性、能力等概念的測量。而生理狀態、情緒等本身容易發生改變的概念就不適合運用重測信度的方法。而且,重測信度需要進行兩次測量,操作起來不太方便。因此,可以選擇內部一致性的檢測。用內部一致性檢測只需要進行一次測量,比較經濟、容易操作,也更適用于心理社會學概念的測量。如果研究中涉及不同版本工具的使用或者不同的測量者來進行測量,那就需要進行等同性的檢測。總之,要根據研究的實際情況來選擇適合的方法。如果是新設計的工具,還要考慮運用各種適合的方法從不同角度來檢測工具的信度特征。單條目量表只能用重測的方法檢驗,所以盡量不要單獨使用單條目的測量工具,除非是配合其他工具同時使用。
在相同的樣本量下,信度高的工具可以增加統計效能(statistical power),也就是說,可以更好地區分兩組測量對象的不同。信度高的測量,就如同大的樣本量,可以減少統計分析的誤差。因此,我們在研究的設計階段就要知道如何評價和選擇信度高的測量工具。
目前,信度相關系數 (reliability efficient coefficient alpha) 廣泛使用。通常,Alpha在0~1之間,如果出現負值,表明有錯,可以檢查是否有反向計分的條目或刪除某些與其他條目或維度呈負相關的條目。太低的信度說明條目之間的一致性或者測量的穩定性、等同性不高。一般情況下,信度Alpha要高于0.7。DeVellis(2003)認為,信度<0.6,為不可接受,信度0.6~0.65為不理想,信度0.65~0.7為基本可以接受,信度0.7~0.8為較理想,信度0.8 ~0.9則很好[1]。也有學者指出,已使用過的工具要求信度達到0.8,新工具0.7或0.6即可。也可以考慮測量的目的,是進行兩組的比較,還是嚴格的選拔,從而設定不同的標準[2]。Kappa系數及ICC值可參閱統計文獻[3]。
但是,信度值也不是越高越好。過高的信度值表示測量的一致性或者重復性非常高,也就是說,測量的區分程度不高,不能區分不同的對象或者不同時間下的測量變異。因此,信度高于0.9,可以考慮通過刪減條目來縮短量表[1]。
從經典的測量理論我們知道,信度alpha代表著真實值變異與觀察值變異的比值,而每個條目的變異值由變量的某一部分的真實值和誤差值構成。因此,信度決定于量表各個條目的變異度,量表的信度受條目的變異程度以及條目的數目的影響。那么,所有和單一條目有關的問題:例如偏中心的均值、低的變異、條目間的負相關、條目之間或者條目與總分的相關性低,都會降低信度,同時條目數也會影響信度[1]。當測量的得分,條目的得分,評分的等級,被評估的變量的變異較大時,測量的變異就大,信度也較高。還可以通過以下方法來提高工具的信度。
4.1 增加條目 增加條目是常用的提高信度的方法。增加測量長度,以增加測量得分的變異,可以提高信度。但所增加的條目必須與原來條目一致,測量的是同樣的內容。但如果原本信度已經較高 ,通過增加條目而增加信度的程度就較小。
4.2 刪減條目 可以考慮去除對內部一致性貢獻小的條目。可以通過統計軟件查看去除某個條目后對信度的影響。如果對信度僅有最小的負性影響或最強的正性影響,該條目是最先要去掉的。還可以看條目與總分的相關性,相關性最低的條目也可以去除。可以去掉低于平均條目間相關性的條目而保留與平均條目間相關性相等、高于或僅僅是稍低的條目,這些方法都有助于增加信度。
通常,較短的量表減少了對測試者的負擔,但長的量表信度值較高,因此要權衡二者,不能為了簡潔而犧牲信度,必須通過測量得到足夠的有信息的值。
4.3 增加測試樣本的異質性 樣本的異質性越大,個體差異的范圍越大,得分的變異也越大,信度就越高。因此,在進行信度檢測時,要盡量選擇具有不同特征的樣本,例如具有不同的人口學特征或者有可能在測量變量上有不同的樣本。
以上介紹了關于測量工具信度的基本檢驗方法以及如何評價并提高工具的信度,一些具體的計算公式或方法請參閱相關統計文獻。
[1] DeVellis RF. Scale development: Theory and applications[M].2nded.London:SAGE publications,2003:8-20.
[2] Polit DF & Hungler BP. Nursing Research: Principles and methods(6th edition) [M]. Philadelphia: Lippoincott,2004,407-436.
[3] 方積乾. 生物醫學研究的統計方法[M].北京:高等教育出版社,2007:238-255.
劉可(1972-),女,遼寧,博士,副教授,教研室主任,研究方向:護理教育,兒科護理,社區護理
R471
A
1002-6975(2015)13-1201-03
2015-01-30)