姜 超 劉麗亞 邵 方 于 浩 陳 峰△
【提 要】 目的 基于生存指標(biāo)的無縫設(shè)計(jì),考查PFS在什么條件下可以用于II/III期無縫設(shè)計(jì)期中分析時(shí)的劑量組篩選。方法 采用模擬試驗(yàn)的手段,分別研究基于生存資料下Fisher合并法和加權(quán)逆正態(tài)法在利用和不利用OS的信息兩種組別篩選策略下的總I類錯(cuò)誤率和檢驗(yàn)效能。結(jié)果 加權(quán)逆正態(tài)合并法與Fisher合并法相比,兩者在控制總I類錯(cuò)誤率方面無明顯差異,隨著PFS和OS相關(guān)性增強(qiáng),加權(quán)逆正態(tài)合并法的檢驗(yàn)效能要高于Fisher合并法,并且合并PFS和OS的信息將獲得更高檢驗(yàn)效能。結(jié)論 當(dāng)PFS和OS的相關(guān)性較大,且效應(yīng)趨勢(shì)一致時(shí),建議采用加權(quán)逆正態(tài)合并法合并兩者的信息進(jìn)行II/III期無縫臨床試驗(yàn)的統(tǒng)計(jì)分析。
II/III期無縫試驗(yàn)中,有時(shí)終點(diǎn)指標(biāo)需要通過長時(shí)間的觀察才能得到,短期內(nèi)無法獲得,這與需要基于終點(diǎn)指標(biāo)快速挑選出最優(yōu)劑量組進(jìn)入后續(xù)試驗(yàn)的實(shí)際需要相矛盾。為此,人們?cè)谄谥蟹治鰰r(shí)往往采用短期替代(surrogate variable)指標(biāo)對(duì)多個(gè)劑量組進(jìn)行篩選[1],同時(shí)對(duì)第一階段和第二階段的長期指標(biāo)進(jìn)行觀察,最后基于兩個(gè)階段的長期指標(biāo)作出統(tǒng)計(jì)推斷[2]。
目前,雖然有很多學(xué)者發(fā)表了眾多有關(guān)無縫設(shè)計(jì)研究方法的論著,包括Stallard和Todd提出的成組序貫法(grouped sequential design,GSD)[3]、Bauer和Keiser提出的合并檢驗(yàn)法[4]、 Koenig等人提出的適應(yīng)性Dunnett法(adaptive Dunnett test,ADT)[5]。但是其中大部分所用到的早期指標(biāo)和終點(diǎn)指標(biāo)為定量或定性指標(biāo),對(duì)于生存類型的數(shù)據(jù),有關(guān)的研究相對(duì)較少。本研究主要探討基于生存類型的結(jié)局指標(biāo)的II/III期無縫設(shè)計(jì),為敘述方便,本文以抗腫瘤藥物臨床試驗(yàn)為例,以總生存時(shí)間(overall survival,OS)為終點(diǎn)指標(biāo),這是一個(gè)長期觀察指標(biāo);以無進(jìn)展生存期(progression-free survival,PFS)為替代指標(biāo),這是一個(gè)短期指標(biāo)。
假設(shè)一個(gè)臨床試驗(yàn)最初包括一個(gè)對(duì)照組T0以及k1個(gè)試驗(yàn)組,T1,…,Tk1,期中分析時(shí)淘汰掉劣效組,有k2個(gè)試驗(yàn)組進(jìn)入二階段的研究。令θi作為Ti超過T0程度的測(cè)量值,i=1,…,k1,用于衡量試驗(yàn)組i與對(duì)照組之間的療效差異。若θi>0,則Ti優(yōu)效于T0。按此定義,產(chǎn)生了k1個(gè)原假設(shè)Hi:θi= 0,以及對(duì)應(yīng)的單側(cè)備擇假設(shè)為Hi':θi> 0。檢驗(yàn)統(tǒng)計(jì)量Zi,j(j=1,2)分別表示根據(jù)第一階段或第二階段獨(dú)立數(shù)據(jù)計(jì)算所得第i組的檢驗(yàn)統(tǒng)計(jì)量值,Zi,1與Zi,2相互獨(dú)立。
期中分析時(shí)有兩種策略,一是只利用短期指標(biāo)篩選,不考慮長期指標(biāo)的信息;二是同時(shí)考慮短期指標(biāo)信息和長期指標(biāo)信息。我們將對(duì)這兩種策略進(jìn)行比較。
短期結(jié)局指標(biāo)與長期結(jié)局指標(biāo)可以通過下面這個(gè)過程相結(jié)合,為了選擇一個(gè)有效的劑量組進(jìn)入第二階段的研究,我們用公式(1)將搜集的PFS和OS的信息合并[6]。
utilj=wj·probj,PFS+(1-wj)·probj,OS
(1)
其中probj,Obs表示第j階段根據(jù)觀測(cè)的數(shù)據(jù)計(jì)算的相應(yīng)概率值,wj表示兩個(gè)階段信息的權(quán)重。關(guān)于權(quán)重有不同的建議[6],其中一種如下:
(2)
其中d1j,PFS和d1j,OS分別表示試驗(yàn)組j在期中分析時(shí)進(jìn)展和死亡的事件數(shù),死亡事件賦予2倍權(quán)重。
由于最終的統(tǒng)計(jì)推斷是基于兩個(gè)階段獲得的主要結(jié)局?jǐn)?shù)據(jù)進(jìn)行的。因此在這個(gè)過程中就存在了對(duì)兩個(gè)階段的統(tǒng)計(jì)信息進(jìn)行整合的問題,該問題可以通過以下兩種信息合并的方法解決。
(1)Fisher合并檢驗(yàn)法
Fisher合并檢驗(yàn)法是Fisher在1932年[7]提出的,表達(dá)式如下:
(3)

(2)加權(quán)逆正態(tài)法
該方法由Mosteller和Bush[8]在1954年提出,表達(dá)式為:
C(p1,p2)=1-Φ(w1Φ-1(1-p1)+w2Φ-1(1-p2))
(4)

上述兩種方法均為合并檢驗(yàn)法。1999年,Bauer和Kieser[9]提出將合并檢驗(yàn)應(yīng)用于無縫設(shè)計(jì)的基本思想。該方法是運(yùn)用閉合檢驗(yàn)過程及合并檢驗(yàn)過程來實(shí)現(xiàn)多重假設(shè)檢驗(yàn),其優(yōu)點(diǎn)在于適用各種合并檢驗(yàn)方法以及任意一種交集假設(shè)。

(5)

=ρ
對(duì)于生存資料仍可沿用正態(tài)分布理論,此時(shí),θ表示為logHR,信息量I則為log-rank檢驗(yàn)原假設(shè)條件下的方差[10]。
log-rank統(tǒng)計(jì)量比較的是在各個(gè)觀測(cè)事件時(shí)間點(diǎn)的兩組風(fēng)險(xiǎn)函數(shù)的估計(jì)值,該統(tǒng)計(jì)量的構(gòu)建可以通過計(jì)算各事件時(shí)間點(diǎn)每組觀察到的事件數(shù)與期望事件數(shù)的差值,然后再求和以獲得對(duì)所有事件時(shí)間點(diǎn)的總體概括。令j=1,…,J為每組觀測(cè)到事件的具體時(shí)間點(diǎn),O1j和O2j表示各組在時(shí)間點(diǎn)j觀測(cè)到的事件數(shù)并且定義Oj=O1j+O2j。考慮到在時(shí)間點(diǎn)j兩組中有Oj個(gè)事件發(fā)生,那么在H0假設(shè)下,O1j服從參數(shù)為Nj,N1j和Oj的超幾何分布,這個(gè)分布的期望為E1j,方差為Vj。因此,log-rank統(tǒng)計(jì)量比較每一個(gè)O1j和它的期望值E1j,在H0假設(shè)下可以表示為以下:
(6)

(7)


(8)

因此在進(jìn)行模擬試驗(yàn)時(shí),我們通過設(shè)置不同組的中位生存時(shí)間,通過計(jì)算各試驗(yàn)組的HR來模擬產(chǎn)生在分析時(shí)會(huì)得到的log-rank統(tǒng)計(jì)量。短期指標(biāo)與長期指標(biāo)的相關(guān)性,我們通過在上述方差協(xié)方差矩陣中設(shè)置,在考查總一類錯(cuò)誤率時(shí),我們?cè)O(shè)置各組長期指標(biāo)的中位生存時(shí)間相等,在考查檢驗(yàn)效能時(shí),我們?cè)O(shè)置其中某一組的中位生存時(shí)間不等。由于組別篩選僅根據(jù)短期指標(biāo),最終的分析時(shí)合并的統(tǒng)計(jì)量是由模擬產(chǎn)生并且與HR有關(guān),因此在模擬試驗(yàn)中并未考慮截尾問題。
(1)試驗(yàn)?zāi)康?/p>
通過模擬試驗(yàn)考察PFS、OS間相關(guān)系數(shù)的大小對(duì)總I類錯(cuò)誤的影響,并探討在Bonferroni[12]法和Hochberg[13]法兩種校正方法下,F(xiàn)isher合并檢驗(yàn)法(FCM)、加權(quán)逆正態(tài)法(WINM)對(duì)總I類錯(cuò)誤的控制情況,同時(shí)考慮使用和不使用OS的部分信息兩種策略,觀察各種方法之間的差異。
(2)試驗(yàn)步驟

圖1 模擬實(shí)驗(yàn)A步驟
(3)參數(shù)設(shè)置見表1

表1 模擬試驗(yàn)A參數(shù)設(shè)置
(4)主要結(jié)果
模擬試驗(yàn)結(jié)果見表2、表3。其中FCM(PFS)表示Fisher合并法只考慮PFS,WINM(PFS)表示加權(quán)逆正態(tài)法只考慮PFS,WINM(PFS+OS)表示加權(quán)逆正態(tài)法同時(shí)利用PFS和OS的信息。

表2 在不同相關(guān)系數(shù)時(shí),三種情景的總I類錯(cuò)誤率(θ1=θ2=θ3=θ1*=θ2*=θ3*=0)
表2給出的總I類錯(cuò)誤率表示的是錯(cuò)誤地拒絕任意一個(gè)真實(shí)原假設(shè)的概率(FWER),理論上FWER應(yīng)該接近設(shè)定的0.025。
這部分結(jié)果表明:從試驗(yàn)結(jié)果可以發(fā)現(xiàn),模擬的兩種方法的錯(cuò)誤率均控制在理論范圍內(nèi)或接近理論值。隨著相關(guān)系數(shù)的降低,總I類錯(cuò)誤率也隨之降低。這源于試驗(yàn)組的篩選基于PFS,然而多重校正原本是根據(jù)OS篩選最優(yōu)試驗(yàn)組。如果ρ=0,用于篩選的PFS和OS是相互獨(dú)立的,意味著試驗(yàn)組的選擇是隨機(jī)的。隨著ρ增大,PFS的篩選結(jié)果越有可能與根據(jù)第一階段OS篩選結(jié)果相一致,所以保守性得以改善。
在僅采用PFS信息進(jìn)行組別篩選的策略下,在Fisher合并檢驗(yàn)法和加權(quán)逆正態(tài)法中,分別用Bonferroni法和Hochberg法進(jìn)行多重比較校正,可以看出Bonferroni較Hochberg法保守。而在采用合并PFS和OS信息策略下,Bonferroni法較Hochberg法能更好地控制總I類錯(cuò)誤。所以,在后面的研究中,在策略1下,F(xiàn)isher合并檢驗(yàn)法和加權(quán)逆正態(tài)法中統(tǒng)一采用Hochberg法。在策略2下則采用Bonferroni法。
兩種方法的總I類錯(cuò)誤差異并不明顯,總體來說加權(quán)逆正態(tài)法對(duì)α的控制略為嚴(yán)格。無論是否合并OS信息,都能很好控制總I類錯(cuò)誤;合并OS信息的策略更接近檢驗(yàn)水準(zhǔn),而不合并OS信息,僅應(yīng)用PFS信息,結(jié)論將趨于保守。

表3 不同相關(guān)系數(shù)和θ1*時(shí),三種情景的總I類錯(cuò)誤率(θ1=θ2=θ3=θ2*=θ3*=0)
表3考察的是當(dāng)3組試驗(yàn)組與對(duì)照組的長期療效沒有差異的情況下,其中一組試驗(yàn)組的短期指標(biāo)提示有療效時(shí),對(duì)總I類錯(cuò)誤率的影響??傮w來說,總I類錯(cuò)誤率控制在理論水平,隨著HR值的降低,相關(guān)的作用越低,總I類錯(cuò)誤率也越來越趨于ρ=0的情形。
(1)試驗(yàn)?zāi)康?/p>
探討PFS和OS不同相關(guān)系數(shù)時(shí)三種情景下的檢驗(yàn)效能趨勢(shì)和相互間的差異。
(2)試驗(yàn)步驟
設(shè)置不同的相關(guān)系數(shù)和PFS差異,模擬其在不同組合下的檢驗(yàn)效能。觀察運(yùn)用Fisher合并檢驗(yàn)法、加權(quán)逆正態(tài)法兩種方法及兩種策略時(shí)檢驗(yàn)效能隨相關(guān)系數(shù)以及短期結(jié)局指標(biāo)變化的特征。
(3)參數(shù)設(shè)置見表4
(4)試驗(yàn)結(jié)果
模擬試驗(yàn)結(jié)果見表5。
在OS的不同HR值下,檢驗(yàn)效能的變化趨勢(shì)大致相同,我們選擇其中一種進(jìn)行展示。
這部分的模擬結(jié)果可以表明:
雖然PFS在固定的HR值下,檢驗(yàn)效能的差異不大,但總體而言,在僅采用PFS信息進(jìn)行組別篩選的策略下,無論是Fisher合并法還是加權(quán)逆正態(tài)合并法的檢驗(yàn)效能都隨PFS和OS的相關(guān)性增強(qiáng)而增加。并且,就此試驗(yàn)而言,加權(quán)逆正態(tài)法的效能要略高于Fisher合并法。而在采用合并PFS信息和部分OS信息進(jìn)行組別篩選的策略下,加權(quán)逆正態(tài)法的檢驗(yàn)效能反而隨著PFS和OS的相關(guān)性增強(qiáng)而降低。這是因?yàn)殡S著PFS和OS的相關(guān)性增加,PFS對(duì)于OS的替代性也越來越好,與此同時(shí)PFS可以在較短時(shí)間內(nèi)獲得,信息較為完全,而OS在早期所獲得的信息較少,也不完全,容易產(chǎn)生偏差,在這樣的情況下,采用合并兩者的策略將影響期中分析時(shí)組別篩選的準(zhǔn)確性,相應(yīng)地也降低了檢驗(yàn)效能。

圖2 模擬實(shí)驗(yàn)B步驟

參數(shù)意義(取值)nSims模擬次數(shù)(10000)α一類錯(cuò)誤率(單側(cè)0.025)λ0,λ1,λ2,λ3長期指標(biāo)估計(jì)各組中位生存時(shí)間(7.5,10,7.5,7.5)λ0?,λ1?,λ2?,λ3?短期指標(biāo)估計(jì)各組中位生存時(shí)間(3.5,λ1?,3.5,3.5)λ1?為(3.5,3.75,4,4.25,4.5,4.75,5)ρn1n2d1OS與PFS的相關(guān)系數(shù)(0.2(0.2)0.8)一階段每組樣本量(180)二階段每組樣本量(360)期中分析時(shí)出現(xiàn)進(jìn)展事件的比率(0.67)d2d3期中分析時(shí)出現(xiàn)死亡事件的比率(0.2)最終分析時(shí)出現(xiàn)死亡事件的比率(0.6)power實(shí)際把握度
隨著HR值的逐漸減小,各相關(guān)系數(shù)下的檢驗(yàn)效能均呈上升趨勢(shì),且差異逐漸縮小,這是由于HR值越小,則有療效的試驗(yàn)組被選出進(jìn)入II階段的概率就越大,只要HR值足夠小,那么無論在怎么樣的相關(guān)關(guān)系下,有療效的試驗(yàn)組還是會(huì)被選中,此時(shí)相關(guān)系數(shù)對(duì)檢驗(yàn)效能的影響被削弱了。
總體而言,合并部分OS信息進(jìn)行組別篩選的策略,其檢驗(yàn)效能總體要高于僅利用PFS信息的策略,尤其在PFS差異不大時(shí)。而當(dāng)PFS差異逐漸增大時(shí),合并OS信息帶來檢驗(yàn)效能增大的效應(yīng)將逐漸減弱。

表5 在不同相關(guān)系數(shù)時(shí),三種情景的檢驗(yàn)效能(HROS2=HROS3=HRPFS2=HRPFS3=1,HROS1=0.7)
抗腫瘤新藥的開發(fā)是當(dāng)今國際藥物研究力量投入最多、投資最大的領(lǐng)域。但是在過去的數(shù)十年,藥物研發(fā)方面花費(fèi)的不斷增加,而制藥臨床研究成功率并沒有相應(yīng)增加。II/III期無縫設(shè)計(jì)由于其靈活、科學(xué)且符合倫理的特點(diǎn),受到了研究者和藥企及其主管部門的重視,2006年,美國FDA頒布了《關(guān)鍵性通道機(jī)遇目錄》(critical path opportunity list,CPOL),要求進(jìn)行創(chuàng)新的試驗(yàn)設(shè)計(jì),其中一個(gè)很重要的內(nèi)容就是鼓勵(lì)適應(yīng)性設(shè)計(jì)在臨床試驗(yàn)中的應(yīng)用[14]。但是目前為止,無縫設(shè)計(jì)尚未得到廣泛應(yīng)用,其主要原因在于這種方法在設(shè)計(jì)和統(tǒng)計(jì)分析方面仍然存在一些尚未解決的問題。
本文基于腫瘤藥物研究過程中的生存資料對(duì)II/III期無縫設(shè)計(jì)組別篩選時(shí)采用的Fisher合并法與加權(quán)逆正態(tài)合并法的統(tǒng)計(jì)學(xué)特性進(jìn)行了研究。同時(shí)研究了合并與不合并OS信息的策略對(duì)試驗(yàn)結(jié)果的影響。通過模擬試驗(yàn)可以發(fā)現(xiàn),PFS與OS指標(biāo)間的相關(guān)性對(duì)試驗(yàn)結(jié)果會(huì)有影響,相關(guān)系數(shù)越大,則說明PFS對(duì)于OS的代表性越好。若組間的差異一定,相關(guān)系數(shù)越大則檢驗(yàn)效能也越大,總I類錯(cuò)誤率的控制也越理想。并且加權(quán)逆正態(tài)合并法要優(yōu)于Fisher合并法。相反,若相關(guān)系數(shù)越小,檢驗(yàn)效能將逐漸下降,試驗(yàn)也趨于保守。將PFS作為OS的替代指標(biāo),在很多腫瘤研究中已經(jīng)被成功應(yīng)用,臨床實(shí)踐中,兩者通常都保持著一定正相關(guān)關(guān)系,所以本文的模擬試驗(yàn)只考慮了相關(guān)系數(shù)為正值的情況。除了PFS和OS的相關(guān)性外,PFS的效應(yīng)也在一定程度上影響著試驗(yàn)結(jié)果。PFS的效應(yīng)值之所以會(huì)影響到試驗(yàn)結(jié)果,主要是因?yàn)槠谥蟹治鰰r(shí),以PFS作為OS的替代指標(biāo),并據(jù)此選擇最優(yōu)劑量組,短期結(jié)局指標(biāo)的大小直接決定哪一組可以進(jìn)入下一階段的試驗(yàn)。如果短期指標(biāo)與長期指標(biāo)變化趨勢(shì)不同,則會(huì)導(dǎo)致長期指標(biāo)最優(yōu)組與短期指標(biāo)最優(yōu)組不一致的情況,此時(shí),以短期指標(biāo)為基礎(chǔ)篩選試驗(yàn)組,就可能會(huì)導(dǎo)致長期指標(biāo)最優(yōu)劑量組被淘汰,選入的試驗(yàn)組有可能是實(shí)際療效最差的一組,而在最后分析時(shí),采用的又是這組的長期指標(biāo)數(shù)據(jù),則必然會(huì)導(dǎo)致試驗(yàn)結(jié)果不理想,甚至發(fā)現(xiàn)不到療效,造成損失。
本研究的模擬實(shí)驗(yàn),雖然已經(jīng)盡可能地考慮了其代表性,但也難以包含所有的復(fù)雜情況,有待進(jìn)一步研究。如短期指標(biāo)與長期指標(biāo)變化趨勢(shì)不同時(shí);不同期中分析時(shí)間點(diǎn)對(duì)于上述方法統(tǒng)計(jì)學(xué)性質(zhì)的影響;以及實(shí)際工作中可能遇到的是失訪率、入組率、截尾等對(duì)其的影響。