趙淑珍,金東鎮,李慧慧,賴夢園,黃若谷,毛廣運,2
1.溫州醫科大學 公共衛生與管理學院 預防醫學系,浙江 溫州 325035;2.溫州醫科大學附屬眼視光醫院 國家眼部疾病臨床醫學研究中心,浙江 溫州 325027
新藥臨床試驗研究中,受試者由于各種原因而中途脫落的現象極為常見,由此導致的數據缺失問題不可避免地影響著研究結論的準確性和可靠性[1]。雖然缺失數據的處理一直是統計學的重要研究熱點之一,但目前尚未達成針對缺失數據處理的共識。臨床科研實踐中對缺失數據的處理方式往往較為簡單,甚至帶有個人偏好[2],其中尤以盲目刪除缺失數據的相關記錄和使用末次觀測結果進行結轉最為常見[3]。研究發現,簡單地刪除缺失記錄不僅可能會導致統計學把握度(Power)的降低,增加假陰性結論的發生風險,還可能因破壞了隨機性及降低樣本的代表性,給試驗結果帶來不可忽視的偏倚效應[4]。此外,末次結轉的前提條件是數據缺失的機制必須為完全隨機缺失,事實上很少有研究能滿足這一要求,并且由于該方法中的效應估計相對保守,甚至會較大程度影響到研究結論的準確性[5]。多年來,盡管各種缺失數據的處理方式不斷涌現[6-8],但由于均未同時充分考慮缺失模式、缺失機制及缺失比例的影響,尚無能夠完美解決臨床試驗中數據缺失問題的方法被廣泛認可。本研究旨在基于電腦模擬數據,深入分析評估不同處理策略在相關數據缺失模式、機制和比例下的性能,為科學合理地處理新藥臨床試驗的缺失數據提供依據。
1.1 數據模擬方法 根據CHRIS等[9]提供的SAS代碼生成完整雙臂優效性臨床試驗模擬數據集,數據基本情況見表1,變量包括受試者編號、年齡、性別、訪視時間和結局水平測量。其中性別及組別由伯努利分布隨機生成,總樣本量為500,其中安慰劑組262例,試驗組238例,女220例,男280例;年齡和基線指標由正態分布隨機生成,年齡分布為(48.6±15.2)歲,基線目標水平為(99.95±10.74)。訪視時間分別為基線、給藥后1、2、4、6、14 周。訪視過程中對照組后續隨訪每次目標水平的測量由均數為100、標準差為10的正態分布隨機數替代,而試驗組訪視過程中目標水平的測量由上一訪視時間點的測量結果加上新的均數為10,標準差為2的正態分布隨機數替代,完整數據集在各個時點表現見表2。將上述完整模擬數據集分別處理成完全隨機缺失和隨機缺失機制下的任意缺失模式和單調缺失模式。考慮到很少有臨床試驗的數據缺失比例會超過15%,故此分別設置了0%~10%、5%~10%和10%~15%三個等級數據缺失比例展開相關研究。

表1 模擬數據基本結構

表2 完整模擬數據的基本信息
1.2 缺失值數據處理方式 目前臨床試驗中針對缺失數據常用方法有四類:基于完整數據集、基于填補、基于極大似然和基于非隨機缺失機制。其中,由于基于完整數據的方法常將帶有缺失數據的記錄或變量直接刪除,違背了意向性分析(intentionto-treat, ITT)原則,并降低檢驗效能,最終導致結論發生偏倚,因此不推薦其作為臨床試驗中處理缺失數據的主要方法[10]。
基于填補法是利用已觀測到的數據填補未觀測數據,主要為單一填補和多重填補。其中,單一填補方法中目前最為廣泛使用的主要有基于末次觀測結轉、基線觀測結轉、最差觀測結轉,即分別用最后一次觀測數據、基線觀測數據以及隨訪過程中最差一次觀測數據分別進行填補。雖然單一填補方式操作簡單,但由于其低估了數據的變異,并且對數據缺失機制要求嚴格[11],常被作為敏感性分析內容。同時,作為敏感性分析內容之一,最差個例分析也常被納入考量,即對照組用最佳觀測結轉,試驗組用最差觀測結轉[12]。作為單一填補的延伸,多重填補則給數據集中每一個缺失值做n次填補,而后對填補好的n個完整數據集分別進行統計分析,綜合n次分析結果后得出最終結論[13]。多重填補中常用的方法包括回歸模型、預測均值匹配、全條件定義法(fully conditional specification, FCS)等?;貧w填補指建立填補變量與協變的回歸方程后,基于此方程從參數的后驗預測分布模擬出新的方程用于缺失值的填補[14]。預測均值匹配通過線性回歸填補模型為缺失值計算得填補值后,選取最接近填補值的K個已觀測數據后從中隨機挑選一個進行填補[15]。FCS則是利用單個數據的條件分布建立一系列回歸模型逐一填補并迭代[16]。不同方法適用條件不同,如當數據缺失模式為單調缺失,缺失變量為連續型變量時,建議選擇單調回歸或單調預測均值匹配方法進行填補。而當數據缺失模式為任意缺失,缺失變量為連續型變量時,建議選擇FCS回歸或FCS預測均值匹配[17]。
基于極大似然的方法不需要對缺失數據進行填補,而是基于觀測數據對模型總體參數進行估計。常用的基于極大似然的方法主要有重復測量的混合效應模型(mixed-effects model repeated measures, MMRM)[18]。由于在重復測量的數據中,重復測量因素的各水平之間往往存在一定的自相關性,因此其分析方法有別于一般統計分析。除選擇合適的固定以及隨機效應外,選擇合適的方差-協方差矩陣結構對模型進行擬合也十分重要。常用的方差-協方差矩陣結構主要有非結構化協方差、復合對稱協方差、托普利茨協方差、一階自回歸協方差等。對均衡完整資料的重復測量設計通常假定其方差-協方差矩陣結構是非結構化(即任意兩時點間的相關不等或不全相等)或復合對稱的(即任意兩時點的相關是相等的)[19]。考慮到重復測量的時間點是從大量時間點中選取出的一個隨機樣本以及缺失數據可能帶來的影響,采用不同的協方差矩陣結構進行敏感性分析也十分有必要。
此外,由于以上處理方法大多針對完全隨機缺失或隨機缺失機制,但在臨床試驗中,具體缺失機制難以確證,因此,實踐中通常建議增加非隨機缺失機制下的缺失數據處理方式作為敏感性分析[12]。由于模式混合模型(pattern-mixture models, PMM)[20]對缺失數據分布假設易于解釋并具有臨床意義,在實踐運用較為普遍[11]。
基于以上分析策略,本研究分別采用包括不同協方差矩陣結構的MMRM模型(非結構化協方差、復合對稱協方差、托普利茨協方差、一階自回歸協方差),單一填補(基于末次觀測結轉、基線觀測結轉、最差觀測結轉、最差個例分析)、多重填補(不同填補次數的預測均值匹配與回歸)及PMM的協方差分析(analysis of covariance, ANCOVA)對構造的缺失數據進行處理,具體各缺失值處理方式見表3。以治療14周較基線變化差值為主要療效指標,對單組療效以及組間療效差異進行評估,并與完整數據集估計結果進行比較。

表3 缺失值處理分析方法
2.1 完全隨機缺失機制-任意缺失模式 當缺失比例小于5%時,不同缺失數據處理方式對單組療效以及組間療效差異的估計結果均非常接近真實情況,各方式間未出現明顯差異,見圖1。隨著缺失比例的升高,各種處理方式在同組內部各時點的療效估計性能均出現了不同程度的下降。此外,單一填補及模式混合模型均會明顯低估治療組的療效,而MMRM及多重填補的結果則較為穩定。值得注意的是,不同MMRM以及基于不同填補次數和填補方式的多重填補對結果均無明顯影響。而在組間療效差異估計中,除了MMRM以及多重填補表現出較高的穩定性外,其余方式均會受到不同缺失比例的影響。

圖1 完全隨機缺失機制任意缺失模式下不同缺失數據處理方式的比較
2.2 完全隨機缺失機制-單調缺失模式 與任意缺失模式比較,單調缺失模式下各處理方式對療效估計的誤差更為明顯,見圖2。就對照組而言,缺失比例小于5%時的估計誤差較小,當缺失率超過5%時,各處理方式均會增加其評估誤差,且明顯高于任意缺失模式。不同填補方式在試驗組中的表現差異明顯,各缺失比例下的MMRM與多重填補均不會增加誤差且較為穩定,而單一填補方式和模式混合模型則會明顯低估療效,從而大幅增加組間療效的估計誤差。

圖2 完全隨機缺失機制單調缺失模式下缺失數據不同處理方式的比較
2.3 隨機缺失機制-任意缺失模式 在對照組療效較基線差異的估計中,只有當缺失比例達到10%以上時,各種缺失處理方式均會導致較大誤差,見圖3。盡管不同缺失數據處理方式在治療組中均未導致明顯的誤差,但仍以MMRM和多重填補的表現更為優秀。與此同時,各處理方式對組間療效差異的估計結果基本穩定一致,提示隨機缺失機制-任意缺失模式對缺失值的處理方式并不敏感,各種方式均可用于其缺失數據處理。

圖3 隨機缺失機制任意缺失模式下缺失數據不同處理方式的比較
2.4 隨機缺失機制-單調缺失模式 不同缺失數據處理方式在隨機單調缺失模式下的表現見圖4,與前述結果類似,隨著缺失率的升高,各種處理方式對試驗組的療效估計誤差則會越來越大。此外,在眾多的缺失數據處理方式中,MMRM對組間療效差異估計的影響最小,多重填補處理后的ANOVA次之,當缺失比例超過10%時,最差個例分析的誤差最大。

圖4 隨機缺失機制單調缺失模式下缺失數據不同處理方式的比較
通過定期隨訪的方式追蹤受試者藥物療效的變化情況而收集到的由基線特征和多個訪視點測量結果構成的縱向數據,是臨床試驗中最常見的數據類型[6]。而由于訪視過程中受試者可能會因為各種原因中途退出,缺失數據的出現成為不可避免的問題。但目前尚未在國內臨床研究中引起研究者足夠重視,實際應用中,其對缺失數據的處理仍存在盲目應用統計方法的現象,給新藥安全有效性的評價和確證帶來諸多困難[21]。因此,選擇合適的統計學方法分析含有缺失數據的臨床試驗十分重要。
本研究模擬雙臂優效性臨床試驗,根據三種缺失比例、兩種缺失機制以及兩種缺失模式設定12種缺失數據集,對每種情形分別采用15種缺失數據處理方式[不同協方差矩陣結構的MMRM模型(非結構化協方差、復合對稱協方差、托普利茨協方差、一階自回歸協方差),單一填補(基于末次觀測結轉、基線觀測結轉、最差觀測結轉、最差個例分析)、多重填補(不同填補次數的預測均值匹配與回歸)及PMM的ANCOVA]對缺失數據進行處理,并根據不同的療效估計與真實情況的差異評價各處理方式的統計性能。本研究中我們發現,各種缺失數據處理方式的性能均會受到數據缺失比例、缺失機制及缺失模式的影響,其中缺失比例及缺失模式的影響更為明顯。
3.1 不同缺失比例下缺失值處理方式的比較 當缺失比例小于5%時,不同處理方式對療效估計的結果基本穩定一致,且與真實值差距較小,這與一項國外研究結論相吻合[22]。隨著缺失比例的增加,療效估計產生的誤差也越大。當缺失比例大于5%且小于15%時,不論是完全隨機缺失機制還是隨機缺失機制,任意缺失模式還是單調缺失模式,MMRM與多重填補后進行協方差分析在處理缺失值時均有較優性能,但相比之下前者更為穩定且由于MMRM處理方法無需對缺失數據進行填補,其納入所有已觀測到的數據進行建模分析,符合意向性原則[23]等特點,其在實際研究中可能更具實用價值。多項國外研究也都表明了MMRM較多重填補及以基線觀測進行結轉的缺失數據處理方式可能更為優越[24-25]。雖然有臨床研究者認為當數據缺失超過10%時,統計分析很可能存在偏差而應采用模式混合模型[26],但本研究發現即使缺失比例大于10%,用模式混合模型依舊低估了藥物療效。這提示在不滿足非隨機缺失機制的情況下使用模式混合模型對療效的估計可能不足以反應真實情況。
3.2 不同缺失機制下缺失值處理方式的比較 數據的缺失,究其原因,可以歸為三類,即完全隨機缺失,隨機缺失和非隨機缺失[12]。但由于非隨機缺失機制中數據的缺失與未觀測到數據有關,實際中難以完成模擬,因此,本項研究中只設置了完全隨機和隨機缺失這兩種缺失機制。我們發現,即使采用相同的缺失值處理策略,完全隨機缺失機制下估計的效應值要比隨機缺失機制下的估計值更接近于真實值。這可能與不同缺失值處理方式有不同適用條件有關,如以末次觀測為結轉的前提條件之一是數據完全隨機缺失[25]。但相比之下,MMRM在完全隨機以及隨機缺失機制下,均表現最為穩定,這也與其他研究結論相一致[6]。
3.3 不同缺失模式下缺失值處理方式的比較 本研究中,各種缺失數據處理方法在任意缺失模式下與單調缺失模式相比,其療效估計結果更為穩定。但對于縱向隨訪的臨床試驗來說,受試者在某次訪視時失訪,而其在該次訪視之后又繼續隨訪的情況并不多見,因此,臨床試驗中單調缺失模式下不同缺失值處理方式帶來的影響應該更加引起研究者的重視。我們發現,在單調缺失模式下,除MMRM表現較為穩定以外,多重填補后的協方差分析也有較好表現。一項國內研究表明[27],在單調缺失模式,完全隨機缺失和隨機缺失機制下,只有線性回歸法和預測均值匹配有較好表現。這提示在缺失模式為單調缺失的實際研究中,MMRM或以回歸法和預測均值匹配為多重填補的協方差分析應當優先考慮。
雖然目前缺失值處理方法眾多,但不同缺失比例,缺失機制以及缺失模式下,采用不同處理策略仍會產生不同偏差,因此,研究者應結合試驗的自身特點預先在方案中制定合適的分析策略并進行敏感性分析。在雙臂優效性臨床試驗中,MMRM可能為首選方案。