朱 婷, 茍洪山, 李 榮
(貴州民族大學 數據科學與信息工程學院, 貴陽 550025)
生存分析是研究生存現象和響應時間數據及其統計規律的。在實際研究中,由于各種各樣的條件限制,無法觀測出準確的數據,只知道這個數據大于、小于某個值或在兩個值之間,這樣的不完全數據在生存分析中被稱為刪失數據。常見的刪失類型有區間刪失、右刪失和左刪失,其中區間刪失是一種常見的刪失類型。
Cox[1]提出了cox比例風險模型,對于右刪失數據而言cox比例風險模型能直接適用,是生存分析中最重要的模型之一,cox比例風險模型有參數部分即參數所在的指數函數,還有非參數部分即基底風險函數。cox比例風險模型對右刪失數據進行分析時,可將非參數部分抵消掉,從而借助偏似然函數進行參數估計,但分析區間刪失數據時無法抵消非參數部分,增加了估計回歸參數的難度;Finkelstein[2]首次在區間刪失數據下對cox比例風險模型的基底風險函數和回歸參數運用牛頓-拉夫森算法(Newton-Raphson算法)進行估計;Goggins等[3]采用期望最大化算法(EM算法)對區間刪失數據下cox比例風險模型中的參數進行估計;Betendky等[4]采用局部似然的方法對區間刪失數據下cox比例風險模型進行擬合;這些都是最大似然法的思想。另一種思想是填補的思想,就是將區間刪失數據填補后轉換為右刪失數據再進行參數估計,填補分為單點填補和多重填補,Pan[5]將多重填補法運用于區間刪失數據下cox比例風險模型的參數估計中,多重填補法需要將cox比例風險模型的非參數部分估計出來,這也失去了cox比例風險模型不依賴非參數部分的優勢;Sun[6]將單點填補法運用于區間刪失數據下cox比例風險模型的參數估計中;Sun等[7]提出將左端點填補法運用于區間刪失數據下cox比例風險模型的參數估計中,并證明了可行性。
只用刪失區間的一側端點填補會喪失部分信息,導致估計結果出現較大偏差,安玉潔[8]提出了混合填補方法,在一定條件下左端點、右端點和中點都會成為部分刪失區間的填補值,效果更穩定。本文運用聚類中心的思想,在混合填補法的基礎上,提出一種概率填補方法,即利用刪失區間的信息也利用未刪失數據信息,通過迭代的方式減少填補偏差,不依賴cox比例風險模型中非參數部分的估計。
n個觀察對象,對于第i個觀察對象,Ti表示生存時間,設存在一個用Xi,i=1,2,…,n,表示的協變量向量,假設Ti滿足cox比例風險模型:
λ(t|Xi)=λ0(t)exp(Xiβ′)
(1)
其中,λ0是未知的基底風險函數,β′是回歸參數向量。
因為區間刪失,不能直接觀測到Ti,僅僅知道在一個刪失區間(Li,Ri)內,右刪失時是Ri=∞,左刪失時是Li=-∞,左刪失和右刪失都可以視為區間刪失的一種特殊類型。通常假設Ti獨立于刪失機制,為了區別左、右刪失,將有限(Li,Ri)的觀測稱為有限區間刪失。
基于n個觀測值(L1,R1,X1),…,(Ln,Rn,Xn),本文的最終目的是估計回歸參數β。
有限區間刪失可以將刪失區間中的真實生存時間視為缺失,如果用確切的時間點替換每個有限的刪失區間,如用左端點替換、右端點替換和中點替換,就可以使用常規方法來分析填補數據。混合插值考慮部分刪失區間用左端點填補、右端點填補和中點填補,用這種混合填補的方式減少信息的損失,使最終的參數估計結果更加理想,但是混合填補法填補的值雖然使用了刪失區間所含的信息,但是未挖掘其深層次信息。為了挖掘刪失區間中更深層次的信息,本文提出了概率填補方法,利用了刪失區間的深度信息和未刪失數據所含信息。
深度信息是指使用改進的K-means算法提取混合填補法填補的時間和真實時間的聚類信息。 概率填補方法是從深度信息中依概率選取刪失區間的代表元作為迭代算法前進方向,并且通過迭代的方式優化填補時間,從而使得參數估計結果更好。具體步驟如下:
(1)采用混合填補法將區間刪失數據轉換為右刪失數據;
(2)對右刪失數據集中非右刪失的數據提取多個代表元,并判斷每個刪失區間有幾個代表元;
(3)產生可能的右刪失數據{T(i+1)j,δj,Xj}。對于有限刪失區間(Lj,Rj),判斷每個有限刪失區間(Lj,Rj)中的代表元,若刪失區間中只有一個代表元V1或者刪失區間中沒有代表元,則刪失區間前一次填補的值不變,即T(i+1)j=Tij,δj=1;若刪失區間不止一個代表元,則先從一個均勻分布中隨機取出一個值α,選擇最大代表概率的代表元V2即聚類數目最多的聚類中心,將判斷點V2+α和判斷點V2-α與前一次填補值作比較,若刪失區間前一次填補的值Tij>V2+α,則再從一個均勻分布中隨機取出一個值ε,使得T(i+1)j=Ti-ε,δj=1,刪失區間前一次填補值Tij 在步驟(1)中,當協變量Xi取有限多個值時,要先對區間刪失數據分類。為了方便一個協變量取值為0和1。首先按協變量取值對區間刪失數據分兩類,分別求區間右端點均值u,標準差sd,設判斷點A1=u-sd和A2=u+sd。當協變量Xi是連續性變量時,則直接計算所有刪失區間的均值和標準差,以求得判斷點A1和A2。若對應的刪失區間落在判斷點A1的左邊,則用右端點代替真實的時間;若落在判斷點A2的右邊,則用區間的左端點來代替;若刪失區間與判斷點區間(A1,A2)有交點,則取刪失區間的中點作真實時間。 概率填補法在混合填補的基礎上進行填補,混合填補依賴于刪失區間得到的判斷點,當刪失區間很大或者數量較少時,得到的信息就不夠代表整個數據集的信息,得到的判斷點也不夠有效。而概率填補法解決了這兩個問題,提取代表元的方法是對數據集中非右刪失的數據考慮了數據集中不同類型的數據,得到的結果更能反映數據集的信息;在模擬中,設每個類中的組內方差小于0.1,選出K個聚類中心,K由組內方差決定,聚類中心就是代表元。 概率填補法沒有固定判斷點和填補值,允許這兩個值在一個有效范圍內波動,判斷點和填補值的有效范圍通常圍繞非右刪失數據的標準差和刪失區間的長度取值,希望使填補值有更多的可能性去在刪失區間內接近真實值,以求最后的估計結果更加準確。如:在模擬中根據數據集中的時間點,從均勻分布U(0.05,0.15)中隨機取出一個值α,得到判斷點V2+α和V2-α判斷如何填補,再從均勻分布U(0,0.05)中隨機取出一個值ε以調整填補值的大小,以這種方式為單點填補方法增加可變性,得到填補數據集,用填補后的右刪失數據集{T(i+1)j,δj,Xj}去擬合cox模型,得到參數估計。 通過比較概率填補法和混合填補法、左端點填補法、右端點填補法、中點填補法這5種填補方法的填補性能,證明了概率填補方法能有效提升參數估計的效果。 為了驗證概率填補方法在不同情況下所填補的數據在cox模型中都能估計出較好的參數值,分別在含有一定比例準確生存時間的數據集和不含準確生存時間的數據集中設置不同的樣本量和刪失率進行實驗。在模擬數據集中的回歸參數真值β=1,生存分布為威布爾分布,其中形狀參數α=2,尺度參數λ=1。 數據集a(含有一定比例準確生存時間的數據集)有準確生存數據、右刪失數據和區間刪失數據,通過在準確的生存時間中制造右刪失,右刪失比例N%可通過調整刪失變量F~U(0,c)中c的大小得到,c由模擬迭代計算得出,生成需要的刪失時間點Fj。設生存時間Tj和Fj相互獨立,若Tj 數據集b(不含準確生存時間的數據集)中只有右刪失數據和區間刪失數據。首先,在完整數據集中制造N%的右刪失數據,然后剩余1-N%數據制造為區間刪失數據(區間刪失數據生成過程和數據集a相同)。 所有的估計結果均由200次獨立模擬獲得,每一次模擬都計算5種填補方法在同一數據集中的估計結果,5種填補方法分別為本文所提概率填補方法(PIA),混合填補法(MIA),左端點填補法(LEPIA),右端點填補法(REPIA)和中點填補法(MPIA);其次,在偏差(Bias)、平均絕對誤差(MAE)、均方根誤差(RMSE)、標準離差(SSE)這4類定量誤差結果下比較REPIA與MPIA、LEPIA、MPIA和REPIA在不同樣本量和不同刪失率下填補后的參數估計效果,Bias是參數估計值的平均值和參數真值的差值。 平均絕對誤差(MAE),公式(2): (2) 均方根誤差(RMSE),公式(3): (3) 標準離差(SSE),公式(4): (4) 在數據集a中固定右刪失率為20%時,不同樣本量、不同區間刪失率下5種填補方法的4類誤差結果見表1和表2。由表1和表2的實驗結果可知,在數據集a中不同刪失率下時, 概率填補法填補的數據的參數估計誤差相比于混合填補法、左端點填補法、右端點填補法和中點填補法所填補的數據的參數估計誤差有所減小,而且在樣本量200,不同刪失率下,概率填補法的標準離差總是小于其他方法的標準離差,說明隨著樣本量增加概率填補法比其他填補方法效果更好、更穩定。 表1 數據集a中樣本量200時5種填補方法的4類誤差結果 表2 數據集a中樣本量100時5種填補方法的4類誤差結果 在數據集b中右刪失率為70%和50%,區間刪失率為30%和50%時,不同樣本量下5種填補方法的4類誤差結果見表3和表4。對比表3、表4的結果可知,數據集b中相同條件時概率填補法始終比混合填補法效果更好,與左端點填補、中點填補和右端點填補總體上性能相近。 表3 數據集b中樣本量200時5種填補方法的4類誤差結果 表4 數據集b中樣本量100時5種填補方法的4類誤差結果 模擬實驗結果可以說明,概率填補法的填補效果比混合填補法效果更好,并且與左端點填補、中點填補和右端點填補相比,概率填補法的填補性能總體上較好。 應用概率填補方法,在Sun(2006)的數據集Ⅱ上填補區間刪失數據,此數據集中的數據是對來自5個研究中心的368名患者進行HIV-1的感染觀察,研究目的是比較未接受因子Ⅷ濃縮物的患者和接受低劑量因子Ⅷ濃縮物的患者之間HIV-1的感染風險。在這項研究中,患者的HIV-1感染時間只有區間刪失數據,不含準確生存時間,未接受因子Ⅷ濃縮物的患者人數為236人,接受低劑量因子Ⅷ濃縮物的患者人數為132人。對于無劑量組的患者,定義協變量為0,否則為1,并假設HIV-1感染時間服從cox比例風險模型。為了進行比較還對數據采用了最大似然法(MLE)進行估計還有左端點填補法、混合填補法進行填補后估計,其結果見表5。 表5 實例數據集中4種方法的估計結果 表5中的結果表明:在不同的方法下,其β的估計值都比較接近,且標準誤差相比左端點填補法和混合填補法的標準誤差是較低的,說明概率填補方法在實際的區間刪失數據上填補的數據是有效的。 本文討論了區間刪失數據下比例風險模型的參數估計,許多學者為此提出了不同的方法,其中大多數都涉及未知基底函數的估計。單點填補法將區間刪失數據問題轉換為右刪失數據的問題,避開了未知基底函數的估計,但是一般情況下,當風險函數在很大范圍內變化或者刪失區間很寬時,使用單點填補法估計會出現偏差較大或者不穩定的情況。例如上述的左、右端點填補和中點填補。而概率填補法主要優點是只涉及回歸參數的估計,且估計總體上較為穩定。在樣本量較大,含有一定比例準確時間的區間刪失數據集下,概率填補法提取的信息更加準確,所以參數估計有更好的效果。模擬和實證分析表明,這種方法是可行和有效的。
3 模擬研究





4 實例分析

5 結束語