高云 趙俊峰 徐麗麗 李豪 張嘉琪 潘世杰 蔣俊玲
(1廣州醫科大學護理學院,廣東 廣州 510515;2河南省中醫院 河南中醫藥大學第二附屬醫院泌尿外科;3河南省中醫院精神心理科)
隨著互聯網及智能手機迅速普及,越來越多的人通過互聯網及APP獲取健康信息。而使用電子資源進行自我健康管理、做出正確健康決策,需要使用者具備獲取、發現、使用、理解及評價網絡信息的能力,這種能力稱為電子健康素養〔1〕。評估電子健康素養水平是引導使用者通過電子資源進行健康維護的前提。eHEALs是首個電子健康素養自我評估工具,由Norman等〔2〕于2006年研發。郭帥軍等〔3〕于2013年將該量表引入我國,進行本土化修訂,形成中文版電子健康素養量表。此后又有學者自主研發測量工具對網絡電子健康資源使用者進行電子健康素養評估〔4,5〕。然而,這些工具測量特征如何尚不明確,為電子健康素養評估工具的選擇帶來了困難。COSMIN是一個基于專家共識的健康測量工具遴選指南,其目標是促進評估健康結局評估工具的科學性、管理及保持評估工具的科學質量,使測量工具標準化〔6〕。COSMIN 對測量工具的各項心理學測量指標進行了定義,并針對各類心理測量學指標提出了完善的評價標準,指導操作者從方法學及測量指標的優劣性兩方面對量表進行評價,從而篩選出符合研究目的高質量的量表。國外已將該評價標準廣泛用于與健康相關領域的量表的評價,如健康素養量表的評價、精神衛生知識測評工具的評價、服藥依從性自評工具的評價〔7~9〕,而我國鮮見使用該標準對量表進行評價的報道。本文以中文版電子健康量表為例,采用COSMIN對該量表進行心理測量學的評價,篩選出高質量的電子健康素養評估工具,發現量表研發及驗證中存在的問題,對今后的量表研發設計、驗證及使用提供循證參考。
1.1檢索策略 以“電子健康素養”為檢索詞在“中國知網”、“萬方數據庫”,“維普中文期刊服務平臺”中檢索,以“ehealth literacy or e-health literacy or digital health literacy” and “reliability or validity or responsiveness or consistency or measurement invariance or hypothesis testing or measurement error or construct validity or cross-cultural”為檢索詞在MEDLINE、EMBASE、WEB OF SCIENCE、CINAHL 數據庫中進行檢索,檢索日期為2006年1月1日至2019年3月1日。
1.2文獻納入及排除標準
1.2.1文獻納入標準 ①測量電子健康素養;②能獲取到全文的原創研究;③呈現至少1條測量特征(包括研發、修訂及翻譯);④研究對象為網絡信息使用者,包括病人及健康人群。⑤測量工具為中文版電子健康素養量表。
1.2.2文獻排除標準 ①與健康無關的計算機能力測量研究;②非中文或英文文獻。
1.3文獻篩選過程 由2名研究者分別對文獻進行篩選,先根據文章的標題進行篩選,排除不相關的文獻;對剩余的文獻逐一閱讀摘要,按照文獻納入及排除標準進行篩選。
1.4研究工具 采用2018版的COSMIN評價手冊〔10〕對中文版電子素養健康量表進行評價。信度包括內部一致性、信度(重測信度、評價者間信度及評價者內部信度)及測量誤差。效度包括內容效度、效標效度及結構效度,其中結構效度又包括構建效度、假設檢驗及跨文化效度。
1.4.1COSMIN偏倚危險清單〔11〕該清單主要針對量表的測量方法學進行評價,包含10個模塊,分別為量表的研發、內容效度、結構效度、內部一致性、跨文化效度、信度、測量誤差、效標效度、結構效度的假設檢驗及反應性;將方法學分為非常好、充分、不確定、不充分及不適用(N/A)。以構建效度模塊為例,該模塊包括2個問題及4個條目。2個問題分別為該量表是否包含效應指標(如,是否基于反應性模型)及研究目的是評價量表的結構還是評價量表是否為線性結構。評價條目1:對于傳統測驗模型(CTT)而言,采用探索性分析還是驗證性分析;條目2:對于項目反應理論(IRT)/RASH分析而言,選取的模型是否與研究問題匹配;條目3:樣本量是否充分;條目4:是否存在其他重大研究及統計方法的缺陷?
1.4.2測量特征優劣評價標準〔11〕該標準主要評價量表的測量特征,包括構建效度、內部一致性、信度、測量誤差、結構效度的假設檢驗、跨文化效度/測量穩定性、效標效度、反應性。將測量特征評價為三個等級:+(充分)、-(不充分)、?(不確定)。
1.4.3GRADE研究證據分級〔12〕COSMIN先將每個研究看作“高質量”,然后根據偏倚風險、研究結果是否一致、樣本量、量表的適用人群給予降級。
1.5評價步驟 首先,根據COSMIN偏倚危險清單對納入研究的方法學進行評價,然后根據最新測量特征優劣評價標準對研究所報告測量特征進行評價,并合成每個研究工具的評價結果;最后參照GRADE方法對每個工具的證據進行分級〔12〕。由2名評價者根據COSMIN的數據提取表分別對測量特征逐一提取,并分別進行評價,結果不一致時請第3名評價者進行討論。
2.1文獻篩選流程及結果 共檢出文獻420篇,用NOTEXPRESS 剔除重復文獻47篇,通過閱讀文獻題目及摘要剔除與主題不相關的文獻182篇,對剩余文獻進行全文閱讀,剔除不符合納入標準的文獻178篇,最終納入文獻13篇〔3~5,13~22〕。文獻篩選過程見圖1。
2.2納入量表的特征 在13個納入的電子健康素養量表中,e-HEALs漢化量表為使用范圍最廣的量表,其應用人群包括初中生、高中生、大學生、癌癥患者、糖尿病患者及社區老人。其他的中文版電子健康素養量表還包括用于一般網絡用戶的電子健康素養量表、用于一般居民的移動電子健康素養量表、用于高校學生的高校學生電子媒介健康素養量表。

圖1 文獻篩選流程
2.3納入量表的研究方法學評價及測量特征評價 所有的13個量表沒有測量重測信度、結構效度的假設檢驗、測量誤差、測量穩定性、效標效度及反應性。就方法學質量而言,僅2個量表涉及了內容效度的評價,但內容效度的方法學均不確定。在評價結構效度的9個工具中,6個量表的研究方法學為充分或非常好,2個為不確定,1個量表為不充分。所有的13個工具評價了內部一致性,其中僅5個量表的方法學為充分或非常好,2個量表不確定,6個量表的方法學不充分。就量表的測量特征質量而言,僅2個工具的結構效度為充分,其余均為不確定;5個工具的內部一致性為充分,8個工具為不確定;僅1個量表測量了結構效度的假設檢驗,方法學質量為充分,測量特征為不確定。見表1。
2.4納入量表評價結果的合成與證據等級 通過對納入量表的分析,發現鐘苗等〔16〕使用的“電子健康素養量表中文版”實際為eHEALs 漢化版,因此將相同的量表測量特征合并,統稱為eHEALs 漢化版,合并結果后共有4個電子健康素養量表,分別是e-HEALs 漢化版、電子健康素養量表、m-eHEALS、高校學生電子媒介健康素養量表。4個電子健康素養量表的維度1~5,內部一致性系數(Cronbach α)為0.753~0.984。其中e-HEALs 漢化版的維度呈1~3不等,Cronbach α為0.753~0.984。根據“GRADE”標準〔12〕對4個量表進行證據等級評定,e-HEALs 漢化版、電子健康素養量表、m-eHEALS、高校學生電子媒介健康素養量表的測量特征及測量特征的證據等級,見表2。m-eHEALS的結構效度及內部一致性證據充分;根據GRADE標準:有多項研究質量為充分以上的研究,或僅有一項研究質量為非常好的研究視為高質量研究,證據等級為高〔12〕,m-eHEALS的結構效度及內容一致性證據等級為高。

表1 納入量表的方法學質量及測量特征質量
MQ:方法學質量;QM:測量特征評價

表2 量表測量特征的證據等級
本研究發現,納入量表的內容效度測量不足。根據COSMIN指南,在量表測量特征中,內容效度為最重要的測量特征〔23〕。因此COSMIN指南建議根據測量特征將量表分為A、B、C三類〔10〕。A類為可以推薦的量表:內容效度充分(任何證據等級)并且內部一致性證據等級不低于“低”;C類為不推薦的量表:存在一個不充分的測量特征(證據等級為高)。B類介于A類和C類之間,為有推薦潛力的量表,需要更多的研究去驗證測量特征。本研究僅2項研究(量表9和量表12)提及了內容效度的檢驗,但缺乏對內容效度檢驗的詳細描述而判定為不確定。因此,雖然電子健康素養量表、m-eHEALs及高校學生電子媒介健康素養量表均滿足了“內部一致性”的要求,但由于缺乏充分內容效度的證據而不能歸為A類予以推薦。在今后的量表研發中,應注重對量表內容效度的測量。
此外,內容效度的測量欠規范也是本研究所呈現的一個問題。內容效度指量表測量內容的適當性及與“預期”的相符性〔24〕。根據COSMIN指南〔10〕,內容效度的評價標準包括三方面:相關性、全面性和理解性。其中相關性又包括:量表條目是否與測量內容相關、條目是否與目標人群相關、條目是否與使用環境相關、條目應答選項是否合適、回憶的時間段設置是否合適5項內容;全面性主要指量表條目所涵蓋的概念是否全面,是否有缺失;理解性包括量表的說明或指令是否能被被試對象理解、條目的應答選項是否能被被試對象理解、量表條目的措辭是否合適、量表的應答選項是否與問題匹配4項內容。測量內容效度可以通過收集被試及專家對“相關性”、“理解性”、“全面性”的意見來實現。本研究中,僅2項研究提及了運用焦點小組訪談、專家咨詢對量表內容效度進行檢驗,但未展示相關的細節,因此無法判斷內容效度的質量。在今后的研究中建議給出內容效度測量詳細過程,如列出訪談提綱,讓讀者了解訪談是否涉及“相關性”、“理解性”、“全面性”幾方面;描述數據分析,尤其是質性研究數據分析的過程(由幾名訪談者完成、訪談者是否有相關經驗、訪談是否錄音、用何種方法分析數據等)。
量表的使用人群也是一個應該關注的問題。量表的使用人群應與研發量表時納入的人群特征一致〔10〕。以eHEALs漢化版為例,該量表英文版的研發是基于青少年人群,引入我國后進行本土化驗證的人群為高中生,被試特征基本一致。而此后該量表逐漸被應用于老人、患者等不同群體,這些群體是否適用于該量表,也應從相關性、理解性及全面性進行內容效度的驗證。eHEALs漢化版在青少年、老人、患者群體中呈現不同的結構,這種結構的不穩定也從側面反映了重新審視量表內容效度的必要性。同理,高校學生電子媒介健康素養量表的研發是基于高校學生,而研究將其應用于高中生群體,按照GRADE標準中對使用人群的要求〔12〕,對該量表的證據等級進行降級,因此,該量表的證據等級由高級降為中級。
本文中13個納入的量表均測量了內部一致性,而僅9個量表(量表1、4、5、7、8、9、10、12、13)評價了結構效度,在測量內部一致性之前應明確量表結構〔25〕。內部一致性是指每個單維度量表或亞量表條目之間的相互關聯性〔26〕。因此量表結構不明確使得內部一致性不明確。盡管量表2、3、6、11的 Cronbach α系數均達到了充分的標準(Cronbachα≥0.7),他們的內部一致性質量仍被評為不確定。對于結構效度的評價方法,COSMIN指南推薦的方法為驗證性因子分析〔10〕。而本研究中,僅量表5和量表7使用結構方程模型對量表結構進行驗證,其他量表由于使用探索性因子分析,因此,量表1、4、8、9、10、12、13結構效度測量特征質量評為不確定。量表的結構需基于一個理論模型之上,與探索性因子分析相比,驗證性因子分析不但可以更細致地描述測量項目與因子之間的關系,而且可以對這個關系或模型直接進行檢驗〔10,27〕。今后的研究中,可更多地嘗試使用驗證性因子分析進行結構效度的測量。在結構效度方法學評價中,量表4未給出因子數量及因子負荷,因此方法學質量被評為不確定;量表10未給出因子分析的詳細數據,如因子旋轉方法等,在今后的數據報道中應注意充分描述因子分析的以上關鍵步驟。而量表13的樣本量<100例,因此方法學質量評為不確定。按照COSMIN指南,運用傳統測驗理論(CTT)進行結構效度檢驗時,樣本量大于條目數的7倍且≥100例為非常好;樣本量為條目數的5倍以上且≥100例為充分;樣本量為條目數的5倍以上但<100例為不確定;樣本量不足條目數的5倍為不充分〔10〕。
在評價內部一致性過程中發現,本文的量表2、3、6、10、11、13僅測量了量表總的Cronbach α系數,因此方法學質量被評為不充分。COSMIN指南指出,當量表呈現多維度時,應計算每個亞量表的內部一致性〔10〕。在今后的測量及論文寫作中,應注意在明確結構效度的前提下,給出每個亞量表的內部一致性指標。
量表10進行了結構效度的假設檢驗。結構效度的假設檢驗是指在多大程度上量表分數與假設一致(如內在關系、與其他量表的對比,相關組間的差異),假設越具體,檢測的假設越多,支持結構效度的證據就越多〔10〕。量表10將電子健康素養量表與電子健康信息利用問卷各維度進行了相關分析,發現電子健康素養與電子健康信息利用問卷呈負相關關系〔16〕。COSMIN指南指出〔10〕,在測量結構效度假設檢驗中應注意:①若以測量工具為參照,應給出測量工具的結構及充分的測量特征;②應給出具體假設,如假設量表A和量表B呈中度的正相關。量表10的參照工具為電子健康信息利用問卷,研究給出了參照工具的結構及測量特征,但并未給出假設,無法判斷研究結論是否與假設一致。因此量表10的結構效度的假設檢驗質量評為不確定;而研究方法學方面,該量表僅給出了相關系數而未呈現均數及標準差,因此方法學質量由非常好降為充分〔12〕。
本文中m-eHEALS (量表7)使用了驗證性因子分析測量量表結構效度,分析過程詳細;結構效度的各項指標符合測量特征評價標準(CFI=0.965);測量了每個亞量表的內容一致性,并給出了Cronbach α系數,且每個亞量表的Cronbach α系數均≥0.7。因此為本研究中測量特征最優的量表。
本研究發現,重測信度、測量誤差、測量穩定性、效標效度及反應度幾項測量特征均未被用到。重測信度為用同一測驗對同一組被試在不同時間實測兩次所得結果的一致性〔10〕。在測量重測信度時應注意〔10〕:①報告數據時應描述被試在2次測量中是否穩定,如在2次測量間隙是否給予干預措施或其他影響被試測試結果的干預。②重復測量的間隔時間一般為2 w左右;③對于分類或等級分類量表應計算Kappa系數,而對于連續計分量表,應計算ICC,而不是僅做Pearson相關分析。
效標效度為量表分數足以反映金標準的程度,在COSMIN指南中,只有原版的量表可以作為新研發的“簡短版”量表的金標準,其余新研發量表與常用量表或其他工具的比較均按照“結構效度的假設檢驗”流程處理〔10〕。
反應度是量表檢測分值隨時間變化的能力,分為效標法,如與金標準比較和結構法,包括結構效度的假設檢驗、其他量表的結果比較、不同亞組間的比較以及干預前后的比較。因此反應度的部分評價標準與效標效度、結構效度的假設檢驗相似。而反應度與效標效度、結構效度的假設檢驗的不同之處在于反應度檢測的是不同時間點分數的差值,而效標效度、結構效度的假設檢驗檢測的是單個的分值〔10〕。
測量誤差是指測量分數的系統及隨機誤差,測量指標包括標準測量誤差(SEM)和最小可測變化值(MDC)〔10〕。例如,用量表對被試者前后兩次測量,計算SEM和MDC,若MDC大于SEM,則說明量表分值的變化是真實的,不是由系統誤差造成。
跨文化效度(測量穩定性)是指經過翻譯或文化調適的量表能足以反映原版量表結構的程度〔10〕。即經過跨文化調適的量表結構是否與原版量表的結構相符,因此,跨文化效度需要在跨文化調適的基礎上測量量表的結構效度〔10〕。理想的量表在不同群體測量時,結構應具有穩定性。例如測量中文版及英文版電子健康素養量表的跨文化效度或測量穩定性時,可選擇中文組和英文組2組人群進行測試,對比2組人群中量表的結構有無差異。2組樣本除語言的差異外,其他特征(如年齡、性別、年齡特征)應相似;分析結構效度時,建議采用驗證性因子分析,理想的樣本量應達到每組200例以上〔10〕。
綜上所述,由于缺乏充分的內容效度研究,按照COSMIN指南,目前沒有可供推薦的電子健康素養量表。而在本研究納入的電子健康素養量表中,m-eHEALS使用了驗證性因子分析測量量表結構效度,分析過程詳細;結構效度的各項指標符合測量特征評價標準,每個亞量表的Cronbach α系數均≥0.7,因此其結構效度和內部一致性均評為+(充分);綜合研究的方法學質量、研發人群與使用人群的一致性、測量特征評價結果的一致性三方面來看,m-eHEALS研究方法學質量高,研發人群與使用人群一致、評價結果一致。因此,基于目前可用的研究證據,m-eHEALS為測量特征最優的量表,而其他測量特征,如重測信度、內容效度有待進一步驗證。eHEALs漢化版是使用最廣的電子健康素養量表,但由于其缺乏內容效度研究、研究方法學質量不確定、結構效度不一致、研發人群與使用人群不一致,需要進一步相關的研究提供更充分的研究證據。今后應重視內容效度的研究,從條目的“相關性”、“理解性”、“全面性”幾方面對內容效度進行評定,給出內容效度測量的詳細過程;重視研究方法學質量,如進行內部一致性檢驗前應先明確量表的結構效度,并給出每個亞量表的內部一致性指標;對統計學方法的描述盡量詳盡。