劉 晉 邵 鳳 王 璐 李天萍
【提 要】 目的 介紹國外新出現的貝葉斯最優區間(Bayesian optimal interval,BOIN)設計的原理、方法、統計特性及應用優勢,為提升我國Ⅰ期臨床試驗統計學設計水平提供新方法。方法 BOIN方法在貝葉斯框架下,以決策錯誤率最小為目標確定劑量增減、維持的決策界值。該方法具有長期記憶一致性以及大樣本下收斂于目標毒性對應劑量的性質。結果 BOIN方法由于決策界值可以在試驗前確定,與目前基于模型的方法相比在應用便捷性上有較大優勢,該方法提供多種評價指標,示例顯示該方法具有較好的安全性與有效性。結論 BOIN方法具有良好的統計特性和實際應用便捷性,是值得推廣的Ⅰ期臨床試驗劑量探索方法。
Ⅰ期臨床試驗的主要目的是通過觀察人體對新藥的耐受程度和藥物代謝動力學表現,快速,準確地找到藥物的最大耐受劑量(maximum tolerated dose,MTD)和藥代動力學參數[1]。Ⅰ期臨床試驗受試者雖然多為健康人,但在某些情況下,常需選擇特殊人群,如在研究具有顯著潛在毒性的藥物(如細胞毒性藥物)時,受試者大多為標準治療失敗的癌癥患者[2]。故在遵循最大限度保護受試者的倫理學原則下,對統計設計中受試者在不同劑量組的分配方法提出了更高要求。Ⅰ期臨床試驗的另一個顯著特點是樣本量較小(一般為30~40例)[3]。因此如何在小樣本情況下得到MTD的準確估計,給經典統計帶來了挑戰。
與經典統計相比,貝葉斯統計由于不僅可以利用當前觀察到的信息(以抽樣分布形式體現),還可定量使用試驗前信息(以先驗分布形式體現),自適應地進行統計推斷,使其在Ⅰ期臨床試驗設計中獲得了較頻率統計更為廣泛的應用[1,4-14]。實際上,由于貝葉斯統計不依賴大樣本理論,不存在頻率統計框架下的多重性問題,通過應用“今天的后驗是明天的先驗”的貝葉斯統計原理,不斷利用前一次已知試驗信息對下一次未知試驗結果進行適應性評估(與Ⅰ期臨床試驗操作特點一致)。因此,貝葉斯統計為Ⅰ期臨床試驗設計提供了良好的方法學平臺。Liu與Yuan于2016年提出基于貝葉斯最優區間(Bayesian optimal interval,BOIN)的設計方法,該方法基于貝葉斯后驗概率構建滿足最優化條件的決策界值,以此決定劑量的升高、降低與維持[15]。這一方法具有良好的統計學特征且設計方法簡單易用,在國外Ⅰ期臨床試驗中已有成功應用,但國內尚未見對此方法的系統介紹。本文將從設計原理與方法、參數設置、統計特征、應用及評價等方面對BOIN作一系統介紹,以期為我國引進這一新技術提供統計方法學支持。
在保護受試者安全的前提下,Ⅰ期臨床試驗設計需解決的主要問題是如何將受試者合理配置到不同劑量組,快速準確地找到MTD。出于安全性考慮,試驗將從最低劑量開始,然后根據每一劑量下觀察到的結果,采取以下三種行動中的一種分配給受試者,即維持受試者在原劑量、遞增或下降劑量。在藥物毒性隨劑量單調增加的假設下,理想的情況是:在當前劑量等于或接近MTD時,在原劑量水平上繼續試驗;在當前劑量低于MTD時,遞增劑量以避免將受試者處于劑量不足狀態;在當前劑量高于MTD時,減小劑量以避免將受試者暴露于藥物中毒狀態[16]。然而,這種理想設計在實踐中是無法做到的,因為研究者不能確切知道當前劑量是否低于、高于或等于(或接近)MTD,只能根據當前的試驗結果進行決策推斷。由于I期臨床試驗的小樣本特點和觀察數據的隨機誤差,基于觀察數據將受試者分配到某一“理想”劑量組的決策有可能是錯誤的[17]。從實際應用和倫理觀點看,非常希望將這種錯誤最小化,使實際設計盡可能與理想(無差錯)設計相近。BOIN設計的原理就是為了實現這一目標。
假定某Ⅰ期臨床試驗為探索最大耐受劑量,試驗開始前由研究者根據專業知識與既往經驗預定J個劑量水平,Φ為預定目標毒性概率。受試者按照預定的隊列長度依次入組,并根據毒性事件發生情況在預定的J個劑量范圍內進行劑量增減或維持。在貝葉斯最優區間設計下,其劑量增減或維持的判斷按照如下規則進行。
(1)第一隊列的受試者被分配到最低劑量。




(3)重復步驟(2)直到預定最大樣本量,或者試驗因為超過毒性界值而停止。
從以上步驟不難看出,BOIN方法的核心在于確定判斷界值λ1j和λ2j,在上述界值下決策錯誤率最小,這就需要定義正確與錯誤決策。令pj代表j劑量下的真實毒性概率,建立以下三個假設:
H0j:pj=φ
H1j:pj=φ1
H2j:pj=φ2


(1)
令Bin(x;n,p)代表總體參數為n,p的二項分布累計分布函數,令πij代替pr(Hij),njλ1j、njλ2j分別為達到劑量增減的毒性人數界值,公式(1)變為:
a(λ1j,λ2j)=π0j{Bin(njλ1j;nj,φ)+1-Bin(njλ2j-1;nj,φ)}+π1j{1-Bin(njλ1j;nj,φ1)}+π2j{Bin(njλ2j;nj,φ2)
(2)
為使該決策概率最小化,將二項分布的累計概率函數展開,轉化為求解滿足以下條件的λij(i=1,2):


(3)

從貝葉斯統計角度看,兩個界值λ1j、λ2j具有深層含義,即λ1j、λ2j是分別使H1或H2的后驗概率大于H0的最大值。用公式表示為:


(4)

當三個原假設的先驗概率相等,即pr(H0j)=pr(H1j)=pr(H2j)=1/3,不難得出決策區間的上下限總是滿足如下關系:φ1<λ1<φ,φ<λ2<φ2;同時第j個劑量的決策上下限λ1j、λ2j和劑量水平j下的入組病例數目nj無關。在此假設下,通過對式的簡單代數變換可得:

(5)
此時,式中λ1j、λ2j的表達式不再包括nj,因此判斷界值不僅和劑量分配結果無關,亦和劑量j無關,僅由目標毒性概率φ和判斷界值φ1、φ2決定。這樣的特性能夠在試驗設計階段就確定劑量增減的界值,從而極大降低了試驗的操作難度。
在BOIN設計階段,需要確定的參數有劑量增減的判斷界值φ1、φ2以及先驗概率π0j、π1j、π2j。φ1、φ2與φ的差值若過小,則不足以分辨毒性概率間的差別;過大會造成精度不足。一般令φ1∈[0.5φ,0.7φ] ,φ2∈[0.6φ,1.4φ]。π0j、π1j、π2j一般取無信息先驗,即π0j=π1j=π2j=1/3。 在此條件下BOIN方法具有固定的決策區間及長期一致性統計特征(詳見下文的統計學特征部分)。
為了確保試驗的安全性,如果某一劑量毒性過大應中止試驗,因此BOIN設計規定若某一劑量水平下的毒性率大于目標劑量的概率過大(通常設置為0.95)即中止試驗。即:pr(pj>φ|mj,nj)>0.95同時nj≥3 ,則大于等于j的劑量將被從試驗中剔除,如果第一個劑量水平被剔除,則整個試驗終止。
在π0j=π1j=π2j條件下,BOIN具有長期記憶一致性(long-term memory coherence)特征。所謂長期記憶一致性是指,當前劑量組的觀察累積毒性概率高于或者低于目標毒性概率時,下一組劑量水平將不會增加或減少。這一特性的證明過程如下, 由于λ1j<φ<λ2j,可得


(6)
該特性比Cheung等提出的短期一致性[18]更為合理。短期記憶一致性是指當前隊列觀察到的毒性概率大于目標概率時,則劑量不會遞增。因此,BOIN在實際應用中均采用設定。



(7)
基于公式(7),可證明BOIN具有如下特性:

(2)如果預定劑量中沒有劑量滿足條件pj∈(λ1,λ2),但目標毒性概率φ滿足φ∈(p1,pj),則最終分配劑量將在包含目標毒性概率的兩個劑量之間分配。
(3)如果有多個劑量滿足pj∈(λ1,λ2),則最終分配的劑量將收斂于這些劑量中的一個。
不難看出,無論當選擇的劑量毒性概率與目標劑量毒性概率關系如何,BOIN方法在大樣本理論下,最終選擇劑量均在MTD附近。這一特性的實際意義是使更多的受試者分配到最大耐受劑量或者附近,有利于最后選擇出接近MTD的劑量。
BOIN可在三種平臺實現:R軟件包、網頁、Windows平臺軟件。不同平臺下操作步驟一致,分為設計與分析兩個階段。在設計階段,BOIN根據預定設計參數,首先獲取劑量增減、維持的決策界值,而后通過模擬試驗獲得評價指標。在分析階段,BOIN根據試驗數據估計MTD。 BOIN的網頁和軟件操作簡單,適合非統計專業人員使用。網頁版訪問網址為http://ibl.mdanderson.org/BOIN/,軟件版下載網址為https://biostatistics.mdanderson.org/softwaredownload/SingleSoftware.aspx?Software_Id=99。R軟件包則需要輸入命令,雖然難度增加但更為靈活,適合統計專業人員使用,現以一實例說明BOIN的R軟件包使用方法。
某抗腫瘤藥治療CD20陽性B細胞非霍奇金淋巴瘤患者Ⅰ期臨床試驗,目的為探索該腫瘤藥MTD。MTD目標毒性率為0.25,擬定5個劑量水平,入組隊列長度為3,總樣本量30例。為獲得BOIN的評價指標,預期5個劑量水平下,劑量耐受毒性率為 0.05,0.1,0.25,0.45,0.6,劑量限制性毒性(DLT)定義為自給藥開始至給藥后21天內發生與治療相關的神經毒性反應和血液學反應等。
首先根據目標毒性概率、隊列長度、總樣本量,確定決策界值表,并通過模擬試驗得到此決策下的評價指標。相應代碼如下:
#1、安裝、載入BOIN軟件包
install.packages(“BOIN”)
library(BOIN)
#2、獲取劑量增減的決策界值
get.boundary(target=0.25,ncohort=10,cohortsize=3,extrasafe=TRUE)
#3、通過模擬得到評價指標
get.oc(target=0.25,p.true=c(0.05,0.1,0.25,0.45,0.6),ncohort=10,cohortsize=3,ntrial=1000)
get.boundary函數的作用是獲取決策界值。其參數含義如下:target為目標毒性概率,本例為0.25。將每次入組病例視為一個隊列,nchort為隊列個數,cohortsize為隊列的長度。本例由于預定隊列長度為3,而總樣本量為30,因此nchort為10,cohortsize為3。等效毒性概率區間(φ1,φ2)的上下限未賦值,因此使用BOIN默認值(往往也是最優的),φ1=0.6φ,φ2=1.4φ,φ=target=0.25。其余參數如安全性終止界值均取默認值。因此,本例中get.boundary的意義是:在指定目標毒性概率為0.25,入組隊列為3,總樣本量為30,等效毒性概率區間、安全性終止界值等參數取默認值下,得到劑量增減、維持的決策界值。
get.oc函數通過模擬,得到BOIN方法的評價指標。target和nchort、cohortsize參數含義和上文相同。p.true為向量參數,用于存儲各劑量水平下的“真實”毒性概率,該參數的作用是產生各劑量水平下的模擬中毒人數數據。n.trial為模擬次數,本例中為1000次。因此本例中,get.oc函數得到在目標毒性概率為0.25,預定5個劑量的毒性概率的真實值分別為0.05,0.1,0.25,0.45,0.6時,隊列長度為3,總樣本量30,等效毒性概率區間、安全性終止界值等參數取默認值條件下,BOIN的評價指標。需要注意的是,get.oc函數和get.boundary函數的對應參數取值應保持一致,只有這樣,get.oc得到的評價指標才和get.boundary指定的設計方法對應。
表1為BOIN設計的決策表,其中第一行為當前劑量累計治療病例數。第二行為劑量升高的界值,即當前劑量下累計DLT人數應小于等于該界值,下一入組隊列升高一個劑量水平。第三行為劑量減少的界值,即當前劑量下累計DLT人數大于等于該界值,下一入組隊列降低一個劑量水平。第四行為終止試驗的界值,即當前劑量下累計DLT人數大于等于該界值,則出于安全性考慮,實驗終止。在試驗過程中,研究者根據當前劑量下的累計治療病例確定表格中相應列,根據當前劑量累計發生DLT人數確定表格中相應行,做出下一劑量的增減、維持或者終止試驗的決策。值得注意的是,這里累計治療病例是指當前劑量下的累計治療病例,而非試驗總的累計治療病例。如試驗累計入組9人,當前劑量2累計治療6人,劑量2下累計DLT發生數累計為1,應選擇累計治療病例6而非9這一列的DLT決策界值進行比較,此時的決策應為升高劑量。

表1 BOIN方法劑量調整決策界值表
表2展示了本例BOIN設計的各項評價指標。MTD選擇概率、每個劑量受試者平均數目這兩個指標,反映劑量選擇的效率和準確性。平均毒性人數,過毒性風險概率則反映劑量探索方法的安全性。因此上述指標從準確性和安全性兩個側面展示了BOIN方法的性能。由表2可知,以0.25為目標毒性概率,其對應的劑量被選為MTD的概率最高,達到62.7%,且分配的受試者平均數目為10.8,在各劑量組中最高,顯示其具有較高的劑量探索效率。而平均發生毒性事件的人數為5.9,發生過毒性風險的概率也較低,超過60%的受試者被分配到大于MTD的概率為0.9%,這從另一方面反應了BOIN的安全性較好。

表2 某抗腫瘤藥在目標毒性概率為0.25時的 BOIN方法評價指標
試驗結束后,可得到各劑量水平下發生劑量限制性毒性(dose-limiting toxicities,DLTs),合計病人數和各劑量水平下分配的病人總數,從而計算出相應的DLTs發生率。采用前述保序統計變換得到單調的DLTs發生率及其95%置信區間。由于本實例尚處于設計階段,因此以下數據系人為指定。
R的代碼如下:
n<-c(3,3,15,9,0)
y<-c(0,0,4,4,0)
sel.single<-select.mtd(target=0.25,ntox=y,npts=n)
summary.boin(sel.single)
n為各劑量下的累計治療人數,y為各劑量下的DLT人數,使用select.mtd函數得到在此數據下,目標毒性概率為0.25時的MTD估計。
由表3可見,本臨床試驗前4個劑量水平DLTs發生率的點估計分別為0.02、0.02、0.27、0.45,由于沒有受試者分配到劑量5,因此該劑量的毒性概率無法估計。需要說明的是,劑量水平1和2下雖然實際發生DLT人數為0,但通過保序變換,其估計值為0.02。最終劑量3的毒性概率0.27和目標毒性概率0.25最為接近,因此選擇劑量3作為MTD。

表3 某抗腫瘤藥通過保序統計變換得到的DLTs發生率及95%可信區間
本文介紹了BOIN方法[15]的設計原理、統計特性以及評價指標。BOIN方法使用貝葉斯思想,能夠充分利用現有信息和既往信息,這一點在Ⅰ期試驗樣本量較小的條件下尤為重要。在小樣本條件下,該方法具有長期記憶一致性的特點,即當觀察到的劑量毒性概率過高時不應再繼續增加劑量,符合Ⅰ期臨床試驗劑量探索對于安全性的要求。大樣本條件下,在目標毒性概率和預定劑量毒性概率的三種關系下,劑量分配可收斂于最接近預定毒性概率的劑量,保證了劑量選擇的有效性。
研究證實,BOIN方法和經典的連續重評估方法(continuous reassesment method,CRM)的統計特性大體相當,在部分劑量-毒性關系下優于CRM,部分略差于CRM[19]。但與CRM方法相比,BOIN方法只需確定毒性等效界值φ1、φ2,這兩個參數具有明確的臨床解釋,易于被臨床研究者理解,而CRM則需要預先指定骨架概率。一方面在試驗前準確指定骨架概率難度較大,另一方面若指定不準確,則易造成MTD選擇偏倚。CRM需要根據試驗的毒性數據動態確定準則,因此計算量明顯大于BOIN方法,這些問題限制了CRM方法在實際工作中的應用。與目前Ⅰ期臨床試驗常用的3+3設計相比,BOIN方法對信息的利用更為充分,結果更為可靠。同時,在易用性上與3+3方法基本相當[20]。
我國Ⅰ期臨床試驗方法目前多延用已經使用了幾十年的3+3設計,引入更為準確、安全的新方法以提升Ⅰ期臨床試驗質量顯然十分迫切。BOIN方法具備統計特性良好、易于使用的特點,并已開發了多種平臺下的軟件包,大大降低了使用門檻,是一個值得推薦的Ⅰ期臨床試驗劑量探索方法。