王瑞平
(上海市皮膚病醫院臨床研究與創新轉化中心 上海 200443)
臨床試驗研究的首要環節是撰寫一份規范臨床研究 計劃方案,用于明確整個研究的目的、指導臨床試驗的規范開展。臨床研究方案的設計需滿足臨床診療需求,其規范性需遵從統計學要求,同時需要具有豐富臨床經驗的臨床醫生、流行病學家、統計師等共同參與,是一項科學、嚴謹的工作。根據隨機對照試驗報告統一標準(CONSORT)聲明、PICO原則和我國《藥物臨床研究質量管理規范》,試驗方案通常包括基本信息、研究背景資料、試驗目的、試驗設計、實施計劃等內容。本文重點介紹臨床研究方案設計中須注意的統計學要素問題。
臨床試驗設計類型的選擇至關重要,研究者應根據研究目的和研究條件的不同,選擇合適的臨床研究設計類型。最常見的研究設計包括平行設計、交叉設計、析因設計和成組序貫設計。
1)平行設計:是指根據研究目的為試驗藥設置一個或多個對照組,試驗藥也可設置多個劑量組,研究者將受試者隨機地分配到試驗的各組,各組同時進行、平行推進。
2)交叉設計:是將自身比較和組間比較設計思路綜合應用的一種設計方法,它可以較好地控制個體間的差異,以減少受試者人數。最簡單的交叉設計是2×2交叉設計,指將每個受試者隨機分配到2種不同的試驗順序組中,AB或BA兩種治療順序組。其中,AB順序組的受試者在第一階段接受A處理,在第二階段接受B處理;而BA順序組與AB順序組相反,而在2種處理之間要設置洗脫期以消除其延滯效應。
3)析因設計:是一種多因素的交叉分組試驗設計,通過不同的組合,對2個或多個處理同時進行評價。它不僅可檢驗每個因素各水平間的差異,而且可以檢驗各因素之間的交互作用。最簡單的析因設計是2×2析因設計,有因素A和因素B這2個處理因素,每個處理因素設為“有”和“無”2個水平,此時,兩因素各水平組合后即有4組:A0B0、A1B0、A0B1和A1B1。析因分析臨床研究中可將受試者隨機分配到這4組。在很多情況下,該設計主要是為了檢驗A和B的交互作用,或用于探索2種藥物不同劑量的適當組合,以評估由2種藥物組合成的復方藥的治療效果。
4)成組序貫設計:是指每一批受試者完成試驗后,及時揭盲對主要指標進行分析,一旦可以做出結論即提前有效/無效停止試驗。成組序貫設計包含成組和序貫2個要素,成組是指每個分析階段試驗組與對照組的病例數比例與總樣本中的比例相同,序貫是指把整個試驗分成若干個連貫的分析段,每個分析段病例數可以相等也可以不等。成組序貫設計常用于有期中分析的臨床研究中,適用于下列3種情況:①懷疑試驗藥物有較高的不良反應發生率,采用成組序貫設計可以較早終止試驗;②試驗藥療效較差,采用成組序貫設計可以因無效較早終止試驗;③試驗藥與對照藥的療效相差較大,但病例稀少,或臨床觀察時間過長。成組序貫設計的優點是當試驗藥與對照藥間確實存在差異時,或試驗藥與對照藥不可能達到統計學意義時,可較早地得到結論,從而縮短試驗周期。
5)主方案設計:是一類在單一方案下同時檢測多種試驗藥物和/或多個腫瘤適應證,且無需為每次試驗制定新方案的新穎試驗設計。常見的主方案設計包括3種類型:籃式設計、傘式設計和平臺試驗設計。主方案設計常用于腫瘤研究設計,不同的設計方案可參考相關文獻材料。
隨機化是指臨床研究中的每位受試者均有同等的概率被分配到試驗組或對照組,使各種已知和未知的影響因素在試驗組和對照組間的分布保持均衡,也是臨床研究進行有效性和安全性評價的前提,其過程不受研究者和受試者主觀意愿的影響。常見的隨機化方案包括:①固定區組隨機:是指在一個固定區組內保證試驗組和對照組之間的均衡。區組過大易造成組間不均衡,過小則易造成同一區組內受試者分組的可猜測性,最常見的區組數為4或6。②可變區組隨機:在單盲或開放性研究選擇固定區組隨機,研究者會根據已有分組去猜測接下來受試者的分組,因此常常采用可變區組隨機,設定2個或多個區組長度,在限制組間可能的不平衡的同時又能保證較低的可預測性。③分層隨機化:是臨床研究中最常見的隨機方法,分層因素可以根據試驗目的或影響試驗結果的因素來確定,通常由臨床研究者和統計師共同決定,常見的分層因素有中心、年齡、基礎疾病、疾病亞型等,在每層內分別進行隨機以保持層內的組間均衡性。④動態隨機:當考慮的分層因素較多時,分層隨機化可能會導致每層樣本量不足,此時可采用“動態隨機”。動態隨機化是指通過考慮分層因素的數量及權重和入組個體在這些分層因素上的分布,調整入組個體的分組,從而保證兩組間的均衡可比。⑤中央隨機化系統:在跨地域的多中心臨床研究中,各中心在受試者招募、隨機入組和藥物消耗等方面的進度不同,傳統的人工管理由于溝通不及時,很容易造成資源的浪費,因此可以采用基于信息化技術的多中心臨床研究中央隨機系統。
對照是臨床研究的基本原則之一,設置對照組的目的在于將待測試干預引起的患者結果(如癥狀、體征或其他發病率的變化)與其他因素(如疾病的自然發展、觀察者或患者的期望或其他治療)引起的結果進行區分。干預的選擇往往是設計隨機對照試驗第一優先考慮的問題,而對于對照的選擇,很多研究者卻忽略其重要性[1]。常見的對照類型包括:①安慰劑對照:在安慰劑對照試驗中,安慰劑是一種“假”治療,在顏色、重量、味道和氣味等物理特征方面與試驗藥物盡可能相同,但不含試驗藥物。例如試驗藥物以輸液的形式給藥,安慰劑對照則可以為生理鹽水。②空白對照:空白對照在概念上與安慰劑對照類似,一般用在安慰劑對照由于特定原因無法實施的情況下。比如,研究干預措施是某種手術方式,但對照組使用“假”手術作為安慰劑對照往往違背倫理,研究者要慎用。③劑量對照:是指將受試者隨機分配到兩個或多個劑量組,其中可以有或沒有安慰劑組,從而確定劑量和療效與不良反應之間的關系。比如一項三臂的藥物臨床研究,一組人群接受高劑量的藥物,一組人群接受低劑量的藥物,剩下一組人群接受零劑量的安慰劑。④陽性對照:是指將一種研究性藥物與已知的活性藥物進行比較的試驗,這種試驗通常是隨機雙盲試驗。⑤外部對照:是指對照組的患者并非屬于受試組所在的同一隨機試驗,即不存在平行隨機對照組。因此,對照組與接受治療者并不完全來自同一人群。通常,對照組是先前所觀察且有完善記錄的患者群,可以是在另一機構同期觀察的一組人群,或是同一機構研究之外的人群。
重復是臨床研究的基本原則之一,是指接受相同處理的受試對象不止一個,即每個處理組都要有一定的樣本含量。ICH指導原則E9:《臨床試驗統計原則》中指出,臨床研究的樣本量必須足夠大,以可靠地回答研究假設所提出的相關問題;同時又不至于太大而造成浪費。樣本量的計算方法請參考《上海醫藥》2022年第43卷第7期《隨機對照臨床試驗設計要點和規范》[2]中的介紹。
在臨床研究中的隨機分配階段,若研究者已知隨機化分組信息,則可能選擇性入組受試者,導致兩組之間基線不均衡。若受試者已知隨機化分組信息,則可能受到主觀因素的影響,產生療效與安全性的評價偏倚。而盲法是控制臨床研究中因“知曉隨機化分組信息”而產生偏倚的重要措施,簡單來說就是使研究者和/或受試者不清楚接受的是何種處理。根據針對的是研究者(對受試者進行篩選的人員、終點評價人員以及對方案依從性評價人員)和受試者的設盲程度,臨床研究分為雙盲、單盲和開放試驗。評價者在任何情況下都應處于盲狀態。
揭盲:雙盲臨床研究中,通常采用二次揭盲,即數據庫鎖定后進行第一次揭盲,可以獲知每個受試者對應A組或者B組,以便對數據進行統計分析;當分析結束時,在臨床研究總結會上再進行第二次揭盲,可以獲知AB兩組分別對應試驗組和對照組。
緊急揭盲:為了保證受試者的安全,在雙盲臨床研究中,申辦者須為每個受試者準備一份應急信件,其內容為該編號的受試者所分入的組別及用藥情況。非必要時不得拆閱,一旦被拆閱,該編號病例將被中止試驗,按脫落處理。若受試者出現嚴重不良事件,須知道該受試者的分組情況,以便于搶救時才拆開應急信件。
每個臨床研究通常有一個主要目的,通過試驗來回答一個科學問題,例如人體對藥物的耐受性、藥物是否延長腫瘤患者的生存時間、藥物是否可以控制疾病的復發等。這就需要用相應的指標來回答臨床研究提出的科學問題,這種與臨床研究目的相關的指標稱為終點指標。終點指標可以是臨床終點(痊愈、有效、死亡、心血管事件等)、替代終點(生物標志物、短期效應指標)、安全性指標、某個特定的不良反應。終點指標的選擇應該基于臨床實際和研究目的確切反映藥物有效性或安全性。選擇原則為易于量化、客觀性強、重復性高且為相關研究領域公認的指標。主要指標不宜太多,一般只有一個,當主要指標有多個時,樣本量估計要考慮假設檢驗的多重性問題。在定義主要指標過程中,不僅要說明指標的含義,其測量時點、測量手段以及計算方法都應注明。此外,在關注主要終點和次要終點的基礎上,研究者還應了解有效性終點、安全性終點、衛生經濟學終點等。
1)有效性終點:是反映受試藥物用于患者所表現出臨床獲益的主要觀測和評價工具。有效性指標又稱為療效指標,是反映受試藥物用于患者所表現出臨床獲益的主要觀測和評價工具,療效指標的選擇、測量和比較是藥物有效性評價中的關鍵因素。療效指標主要包括療效觀測指標和以療效觀測指標為基礎確定藥物效應大小比較與評價的方法和標準,即療效評價指標。反映疾病變化的療效指標可以是疾病臨床終點,影響疾病進程的重要臨床事件,也可以是評價社會參與能力,生活能力,臨床癥狀或體征,心理狀態等內容的相關量表或其他形式的定量、半定量或定性的指標,也可以是通過某些儀器和實驗室檢查等手段獲得的某些客觀數據或檢查結果,比如病理生化等指標。
2)安全性終點:安全性評價是藥物或醫療器械上市前臨床研究的核心問題之一,也是藥物或醫療器械上市后安全廣泛應用的最重要的保障,主要是從暴露情況(強度、時間)、臨床不良事件(疾病、體征、癥狀)、實驗室檢查數據(包括生化學和血液學指標等)、生命體征等4個方面對與產品安全性相關的信息進行描述與評價。
3)衛生經濟學終點:主要有成本-效果分析(costeffectiveness analysis, CEA)、成本-效用分析(cost-utility analysis, CUA)和成本-效益分析(cost-benefit analysis,CBA)。
4)臨床終點:是指能夠反映患者感覺、功能變化的特征性指標、與生存狀態相關的疾病臨床終點(如死亡、殘疾、功能喪失)或某些重要的臨床事件(如腦卒中、骨折發生)等指標。臨床終點能直接評價藥物真實的效應,如癥狀緩解率、疾病病死率或者嚴重臨床事件發生率等,但由于其中的疾病臨床終點指標的評價往往需要的時間長、樣本量大、研究成本高,有時還存在倫理學風險,導致疾病臨床終點指標觀測存在困難或不合理,因此臨床研究常以易于觀察和測量的指標來替代臨床終點。
5)替代終點:是指直接終點不可能得到或短期內不能直接評價臨床獲益時,用于間接反映臨床獲益的觀察指標。根據替代終點與臨床效果的相關性和證據積累,FDA將替代終點分為3類,分別為經過驗證的替代終點、可能有效的替代終點、候選的替代終點。合理應用替代終點的前提是替代指標的改善也將會相應改善疾病的終點結局,即研究者必須有足夠證據支持其與臨床終點的關系,并可預測疾病結局。針對罕見病、進展緩慢或須長期觀察臨床終點的疾病、危及生命但又無藥可治的疾病,常常使用經過驗證的替代終點,會大大縮短臨床研究時間。
6)復合終點:如果根據主要研究目的,在多個指標中很難選出其中一個作為主要變量,則可用預先確定的算法來整合或組合多個值,組合構成一個復合變量作為主要終點。復合終點一般有2種類型:一種是臨床上經常采用的量表,例如在臨床研究中常用到的漢密爾頓量表就是由若干項目組成的復合終點;另一種復合終點是將幾種事件合并定義為一個復合終點,這種情況在心血管藥物的臨床研究中最為常見。須注意的是,將多種測量結果綜合成復合變量,其計算方法應在試驗方案中制定,并解釋其臨床意義。
7)全局性終點:是指把客觀指標和研究者對患者治療后的臨床結局狀態或其改善程度總體印象結合起來制定的一種療效評價指標,用于評估某項治療總的安全性、優效性和實用性。它通常是等級指標,其判斷等級的依據和理由應在臨床研究方案中明確。全局評價指標在神經病學和精神病學治療領域用得比較好,如精神疾病治療的臨床總體印象量表。
意向性治療的原則(intention to treat principle, ITT)是指主要分析應包括所有隨機化的受試者,這種保持初始的隨機化的做法對于防止偏倚是有益的,并且為統計學檢驗提供了可靠的基礎,這一基于所有隨機化受試者的分析集通常被稱為ITT分析集。ITT分析集是對所有隨機化受試者的研究結局進行完整的隨訪,但在實際中這種理想很難實現,因而也常采用全分析集(full analysis set, FAS)來代替ITT分析集。FAS包括所有隨機化的受試者,但違反重要入組標準、受試者未接受試驗用藥物的治療、隨機化后無任何觀測數據的受試者不進入FAS。符合方案集(per protocol set, PPS)是FAS的一個子集,是對方案依從性高的受試者集合。安全集(safety set, SS)用于安全性分析,通常應包括所有隨機化后至少接受一次治療且有安全性評價的受試者。
在統計分析的過程中,可以同時采用FAS和PPS進行統計分析。若2種數據集的分析結論一致時,可以增強試驗結果的可信性,若不一致時,應對結果差異進行討論和解釋。在不同的設計類型中關注的分析集也不同。在優效性試驗中,應采用FAS作為主要分析集,因為它包含了依從性差的受試者而可能低估了療效,基于FAS的分析結果是保守的。在等效性或非劣效性試驗中,用FAS所得的結果并不一定保守,可以用PPS和FAS作為分析人群,2個分析集所得出的結論通常應一致,否則應分析并合理解釋導致不一致的原因。
期中分析是指在正式完成臨床研究前,根據事先制定的統計分析計劃,在處理組間進行分析。常見的期中分析目的包括監測藥物的安全性、確認藥物的有效性、樣本量重新估計,分別對應期中分析的4種結果:依據安全性終止試驗、依據無效性終止試驗、依據有效性終止試驗和繼續試驗。當期中分析的目的是監測藥物的安全性時,若在實施過程中安全性出現問題,則可以做出終止試驗的結論;當期中分析的目的是確認藥物的有效性時,若試驗藥物有效并達到預期設定的標準,則可以做出依據有效性終止試驗的結論,若試驗藥物無效且低于預期設定的標準,則可以做出依據無效性終止試驗的結論;當方案設計時信息不足導致對試驗藥物的有效性和安全性估計不準確,期中分析可以進行樣本量重新估計,重新估算之后決定下一步工作。方案中若有期中分析,則須說明期中分析的時點(包括日歷時點或信息時點)、次數、Ⅰ類錯誤調整方法、具體的假設檢驗或參數估計方法、提前終止臨床研究的標準。
獨立數據監查委員會(Independent Data Monitoring Committee, IDMC),或稱數據和安全監查委員會(Data and Safety Monitoring Board, DSMB)由申辦者組織相關領域的杰出專家組成,成員獨立于研究者和申辦者,通常包括所研究疾病的臨床專家、生物統計學家、臨床研究方法學專家、生物倫理學家等,主要負責對期中分析的安全性數據以及關鍵療效指標進行解讀、判斷,并向申辦者建議是否繼續、修改或停止試驗。大多數的臨床研究不要求或無需使用IDMC,而以延長生命或減少重大健康結局風險為目的的大規模多中心臨床研究則使用IDMC。
缺失數據是指按照研究方案要求收集但未能觀測到的數據。缺失機制主要分為3類:完全隨機缺失、隨機缺失和非隨機缺失。缺失數據的填補常常針對方案中的主要終點,并且填補方法應在方案中進行說明。但須要注意的是,研究者無法通過已有數據對缺失機制進行判斷,且不同的填補方法得到的結果也不一樣,因此處理缺失數據本身可能是潛在的一種偏倚。研究者可以在不同的假設下進行數據填補,然后進行敏感性分析,從而比較所得結論是否一致。常見的數據處理方法有以下幾種:①忽視缺失值。在完全隨機缺失機制下可以忽視缺失數據,但忽視缺失值會犯前文中所提到的問題,因此不建議作為確證性研究的主要療效指標分析填補方法。可以用于探索性研究或者確證性研究的次要療效指標分析。②簡單填補。是將缺失數據按某個填補方法結轉一次,常見的填補方法包括末次訪視結轉、基線訪視結轉、最差病例填補、最好病例填補、均數填補、回歸填補等。③多重填補。主要包括以下步驟:首先為每個缺失值產生一套可能的填補值,這些值反映了無響應模型的不確定性。每一個值都被用來填補數據集中的缺失值,產生若干個完整數據集。其次,每一個填補數據集都用針對完整數據集的統計方法進行統計分析。最后,對來自于各個填補數據集的結果進行綜合,產生最終的統計推斷,最終得到對目標變量的估計。常見的多重填補方法包括聯合模型法、全條件定義法、馬爾科夫鏈蒙特卡羅法、逐步回歸多變量填補法等。
統計分析方法應根據研究目的、試驗方案和觀察指標進行適當選擇。統計分析應說明統計方法、假設檢驗、單側檢驗還是雙側檢驗以及檢驗水準進行說明(傳統差異性檢驗通常為雙側檢驗,α通常不大于0.05),同時選擇國內外公認的統計軟件,包括SPSS、SAS、R、MedCalc、GraphPad等。關于統計分析涉及到的統計學描述和統計學檢驗可以參考《上海醫藥》2022年第43卷7期《隨機對照臨床試驗設計要點和規范》[2]中的詳細介紹。
亞組分析是對具有某種基線特征的亞組進行統計學分析,這些基線變量通常包括人口學特征(如年齡、性別等)、實驗室檢查指標、基因組相關標志物、疾病的嚴重程度或分型、臨床狀況(如合并癥、伴隨用藥)、地區(如國家、試驗中心)和環境因素等。亞組分析可以分為探索性亞組分析、支持性亞組分析和確證性亞組分析。①探索性亞組分析,主要用于早期臨床研究或在確證性臨床研究的事后分析中,因此可以事先確定,也可以事后定義。其目的是發現藥物在不同亞組間療效和/或安全性方面的差異,進而提出研究假設,以待在后續的臨床研究中進一步探索和驗證。②支持性亞組分析,在以考察試驗藥物在全人群中的療效為目的的確證性臨床研究中,當全人群的主要終點同時具有統計學意義和臨床意義時,通常還應進行支持性亞組分析,目的是進一步考察試驗藥物在各個亞組中療效的一致性,通常須事先定義。如果試驗藥物在各亞組間的療效一致,可為藥物適用于全人群提供進一步支持性證據;如果各亞組間的療效不一致,特別是方向相反時,則亞組分析結果的解釋可能會出現困難,須對其做進一步的分析和研究。當全人群的主要終點沒有統計學意義或臨床意義時,亞組分析結果只能為進一步研究提供線索。③確證性亞組分析,在確證性臨床研究中,按照臨床研究方案和/或統計分析計劃中預先規定的亞組和多重性調整方法,考察試驗藥物在目標亞組和/或全人群中的療效,其結果應同時具有臨床意義和統計學意義,以支持藥物說明書的撰寫,但須事先定義。確證性臨床研究也可以對目標亞組進行確證性亞組分析,而對其它(非目標)亞組進行支持性或探索性亞組分析,以支持試驗藥物在目標亞組中的有效性和安全性的結論,并為非目標亞組的進一步研究提供線索。
當亞組分析過多,可以使用森林圖將所有亞組分析結果使用圖形進行清晰的表達。如圖1所示,在一項“心血管疾病與癡呆亞型之間的性別差異:對464 616名英國生物銀行參與者的前瞻性分析”[3]的臨床研究中,研究者采用森林圖展示了不同癡呆亞型中的性別、年齡因素對癡呆與心血管疾病之間的關系,使結果的呈現更加直觀。

圖1 亞組分析森林圖示意