曹月龍
(上海中醫藥大學附屬曙光醫院,上海 201203)
骨關節炎(osteoarthritis,OA)是一種復雜的多因素關節疾病,以局部軟骨退化、骨贅形成、軟骨下骨改變為主要病理特征,以關節疼痛、腫脹、僵硬及功能障礙為主要臨床表現[1-2]。相關研究表明,OA的患病率呈逐年遞增趨勢[3-4]。OA屬中醫“痹證”“痿證”范疇,是中醫骨傷科治療的優勢病種之一。隨著OA臨床研究的日益增多,OA臨床研究療效評價指標的選擇成為骨科界關注的重要問題。2020年10月,中國中醫藥研究促進會骨傷科分會發布了《膝骨關節炎中醫診療指南(2020年版)》[5](以下簡稱《指南》)。《指南》用于指導和規范臨床實踐和相關研究,其中膝骨關節炎(knee osteoarthritis,KOA)療效評價指標的推薦是亮點之一。本文結合《指南》推薦的KOA的療效評價指標,從療效評價指標的選擇、常用療效評價指標概述和療效評價指標的方法學考慮3個方面,對OA臨床研究中療效評價指標的相關問題進行了探討,以期為臨床和科研工作者開展骨關節炎臨床研究時選擇合適的療效評價指標提供指導。
OA臨床研究中的療效評價指標包括主要結局指標和次要結局指標。主要結局指標又稱主要終點指標,是與研究目的存在直接的、本質的聯系且能確切反映干預措施有效性或安全性的觀察指標。次要結局指標又稱次要終點指標,是指與研究目的相關的輔助性指標。一項臨床研究通常只有一個結局指標,但可以有多個次要結局指標。主要結局指標用于回答與研究目的直接相關的問題,次要結局指標能夠回答與研究目的間接相關的問題。在臨床研究中,主要結局指標與次要結局指標均應在設計方案中明確定義,并對這些指標在解釋研究結果時的作用及相對重要性加以說明。
目前,在臨床研究中,研究人員在療效指標的選擇、測量和報告等方面普遍存在不一致、不規范、發表偏倚等問題,導致同類研究的結果不能合并與比較[6]。《指南》推薦根據研究周期的長短,選擇設置主要療效指標、次要療效指標、次要終點指標和/或主要終點指標。近期、中期療效評價應當關注患者癥狀體征/中醫證候、關節功能評分及生活質量的改善,遠期療效評價應當關注患者影像學改變及手術干預時間。臨床研究中的療效評價指標既要體現研究性質,又要體現干預措施的直接或間接結果[7]。因此,除了根據研究周期外,還需要根據研究目的、干預措施的特點有針對性地選擇療效評價指標。
1.1 基于研究周期選擇療效評價指標OA是一種慢性疾病,在短周期臨床研究中,應重點關注患者癥狀和體征的變化,如隨訪觀察時間在3個月以內的研究,可以將疼痛視覺模擬量表(visual analogue scale,VAS)或西安大略和麥克馬斯特大學(Western Ontario and McMaster Universities,WOMAC)骨關節炎指數[8]作為主要結局指標;在長周期臨床研究中,應重點關注關節的結構改變,如隨訪觀察時間在12個月以上的研究,所選擇的結局指標應能夠體現關節功能和結構的改變。
1.2 基于研究目的選擇療效評價指標臨床研究一般可分為解釋性臨床研究和實用性臨床研究。解釋性臨床研究的目的是確定干預措施是否產生了與之有關的結果或機制,該類研究通常在理想的試驗條件下對嚴格符合受試條件的受試者進行干預,從而評價干預措施的療效(一般以安慰劑作為對照);實用性臨床研究通常用來研究一種治療方法在日常臨床實踐中的療效,該類研究多在“真實世界”的臨床環境中進行。實用性臨床研究以其獨特的優勢更適合中醫藥研究。對于實用性臨床研究,主要結局指標通常選擇具有臨床意義的指標,但這類指標可能不是干預措施的直接結果。例如,評估某種膝關節鍛煉對KOA的治療效果,在解釋性臨床研究中應選擇肌力或關節活動范圍等與治療方法直接相關的指標作為主要結局指標;但在實用性臨床研究中,主要結局指標可能是KOA患者的功能表現,如WOMAC骨關節炎指數等。
1.3 基于干預措施選擇療效評價指標辨證論治是中醫特色,目前OA證型的分類尚存在分歧[9]。針對特定證型的中藥復方研究,《指南》中的“膝骨關節炎主要癥狀體征/中醫證候分級量化評分表”是一大亮點。此表結合了癥狀和常見證型,可以說是“既對病也對證”的量表。在此表中,關節畏寒、關節發熱、腰膝酸軟、倦怠乏力則分別是寒濕痹阻證、濕熱痹阻證、肝腎虧虛證和氣血虛弱證的主癥,采用此表有助于觀察證候和證型的轉歸。而中醫復方的治療機制屬于多靶點調控,對于患者的全身狀態和生活質量均有改善作用,簡明健康狀況調查表(short form 36 health survey questionnaire,SF-36)是常用的結局指標。此外,當研究中采用藥物等干預措施控制OA發作期的癥狀時,主要結局指標可不包括影像學評價指標;而采用截骨術等針對特定關節結構進行干預時,主要結局指標應選擇影像學評價指標,如Kellgren-Lawrence影像分級[10]、MRI膝骨關節炎評分[11]、全關節核磁影像評分[12]等。目前,關于OA治療藥物研發的臨床研究,一般傾向于采用同時能夠評價關節結構和癥狀改善的結局指標。總之,療效評價指標的選擇必須以服務患者為中心,避免出現只關注指標而不注重患者實際需求的情況。
OA臨床研究的結局指標應具有實際意義,應能夠反映患者生活質量的改善。OA療效評價指標可分為基于測量的客觀類指標和基于患者報告的主觀類指標。客觀類指標是對患者特定任務的完成情況的評估,如測量患者行走的距離或行走一段距離的時間、從坐位到站位的時間、上下一段樓梯的時間等;主觀類指標是以患者的主觀感受為中心,反映了患者對自身功能、疼痛或其他身體狀態改善情況的感知。國際骨關節炎研究學會推薦在OA臨床研究中采用基于患者報告的療效評價指標[13],如WOMAC骨關節炎指數、膝關節損傷和骨關節炎結局評分(knee injury and osteoarthritis outcome score,KOOS)[14]、髖關節傷殘和骨關節炎評分[15]以及患者報告結局測量信息系統(patient-reported outcomes measurement information system,PROMIS)[16]。
KOA主要癥狀體征/中醫證候分級量化評分表、利克特量表[17]、VAS、WOMAC骨關節炎指數、KOOS及間歇性和持續性骨關節炎疼痛問卷表[18]主要用于評價疼痛改善和功能恢復。KOA主要癥狀體征/中醫證候分級量化評分表側重于評價KOA患者的關節疼痛、腫脹以及伴隨癥狀的程度。關節炎影響測量量表[19]、下肢功能量表[20]也可用于評價患者功能恢復情況。SF-36、PROMIS、生活健康評估量表、日常生活活動量表[21]等能夠從軀體疼痛、關節功能活動、日常生活活動、生理職能、社會功能、情感職能、心理健康、遠期生活質量等多方面評價患者的生活質量和健康狀況。Kellgren-Lawrence影像分級基于X線檢查對膝關節的結構改變(關節間隙、骨贅、軟骨骨化等)進行評價。該方法將KOA分為0到4級,0級為正常,級別越高表明疾病越嚴重。MRI是OA臨床研究中常用的影像學檢查方法,能夠清晰地顯示關節軟骨、滑膜、半月板、肌肉、肌腱等組織的形態結構和病理變化,相較于X線和CT具有明顯優勢[22-23]。常用OA臨床療效評價指標見表1、表2。

表1 常用主觀類骨關節炎臨床療效評價指標

表2 常用客觀類骨關節炎臨床療效評價指標
3.1 樣本量對于OA的臨床研究,樣本量需控制在一定范圍內,以避免干預措施導致的差異是偶然因素造成的。通常情況下,樣本量應基于Ⅰ型錯誤和Ⅱ型錯誤的概率進行計算。樣本量過小會導致研究的統計學權重不足而增加Ⅱ型錯誤的概率,而樣本量過大會導致資源浪費。因此,臨床研究中樣本量的確定應以主要結局指標的最小臨床有意義改善(minimum clinical important improvement,MCII)作為參考,并將次要結局指標的需求考慮進來。
3.2 MCII測量的OA結局指標主要有3類:癥狀體征變化、結構改變、生活質量改善。MCII是指測量的結局指標發生具有臨床意義的最小變化值。臨床研究中應避免只從統計學角度解讀數值結果的差異。例如,在采用VAS評價病情轉歸時,患者2次測量結果的距離差值在5 mm時,就可能在統計學上表現出差異,但這種差異并不具有臨床意義,即不能達到MCII值。KOA臨床研究中公認的常用結局指標的MCII值見表3[24]。

表3 膝骨關節炎常用結局指標的最小臨床有意義改善值
3.3 多重性分析在臨床研究中,主要結局指標和次要結局指標的選擇在一定程度上會影響研究結果。一項臨床研究可以包括一個或多個次要結局指標,但次要結局指標的測量不應干擾主要結局指標的測量。對于驗證性臨床研究,特別是Ⅲ期臨床試驗,只有主要結局指標有統計學意義,次要結局指標的統計分析結果才有參考價值;對于探索性臨床研究,主要結局指標和次要結局指標的結果均可為進一步的臨床試驗設計提供線索。一般情況下,一項臨床研究只采用一個主要結局指標。對于只有一個主要結局指標且不進行期中分析的臨床研究,一般不涉及多重性分析問題;但當臨床研究中采用了多個主要結局指標或進行期中分析或進行多組間比較時,基本都會涉及多重性分析問題。
多重性分析是較復雜的統計學問題,臨床研究的多重性分析是指多次采用假設檢驗。在進行單個假設檢驗時,我們會先確定好顯著性水平(α通常取 0.05),代表單次檢驗中可能出現假陽性的概率為5%。若同時檢驗多個假設,我們需要控制好Ⅰ型錯誤的概率。多次假設檢驗會增加Ⅰ型錯誤發生的風險,從而導致試驗結果不準確[25]。例如,4組之間進行兩兩比較,如果每次檢驗的顯著性水平均為0.05,則6次假設檢驗至少出現1次假陽性的概率會高達26.5%。因此,當需要采取合適的方法將總的Ⅰ型錯誤控制在預定的檢驗水準之下時,就會牽涉多重檢驗校正問題。例如,在包含5個亞組分析或對比5個療效評價指標的研究中,采用Bonferroni法將每項分析的檢驗水準調整為0.01(0.05/5),以保證總體Ⅰ型錯誤的概率為0.05。對于有≥2個主要結局指標的臨床研究,如果所有主要結局指標的差異有統計學意義才可以認為研究結果有效,則無需校正檢驗水準;而如果任意主要結局指標的差異有統計學意義即可認為研究結果有效,則需要校正檢驗水準。
此外,對于涉及同一療效評價指標的多亞組之間或多時間點之間差異比較的驗證性臨床研究,建議在注冊隨機對照試驗的原始資料中予以說明。在隨機對照試驗中進行亞組分析常需要較大的樣本量,而通常沒有足夠的樣本進行次要結局指標的檢測及交互效應分析。這時就需要明確相關因素的分析是否適當和可行、是否具有合適的顯著性水平,可參考臨床試驗報告統一標準進行判斷[26]。
《指南》在一定程度上和范圍內規范了KOA中醫藥臨床研究的療效評價體系,提出了適合不同分期及病證結合狀態的評價方法,對于指導中醫藥治療KOA的臨床實踐與研究具有重要意義。《指南》推薦根據研究周期選擇合適的主要結局指標和次要結局指標。此外,對于OA臨床研究中的療效評價指標,還需要根據研究目的、干預措施的特點有針對性地進行選擇;同時應該從方法學角度充分考慮樣本量、MCII及多重性分析等因素,從而能夠更加規范、合理地開展相關臨床研究。目前,國際上關于OA臨床研究中療效評價指標的研究較為細致,取得了一定的共識,但探索能夠更好地體現中醫藥療效特點且形成規范方法學依據的中醫藥治療OA臨床研究中的療效評價指標仍任重道遠。