現時法統計模型在全人群腫瘤登記生存分析中的應用

2021-06-07 08:46:52李卓穎蔣宇飛譚玉婷項永兵

復旦學報(醫學版) 2021年3期

李卓穎蔣宇飛譚玉婷項永兵△

（1上海交通大學醫學院附屬仁濟醫院上海市腫瘤研究所癌基因及相關基因國家重點實驗室上海 200032；2上海市腫瘤研究所流行病學研究室上海 200032）

腫瘤患者的生存率是評估一個地區或國家腫瘤綜合診治措施效果的重要指標，一般可由臨床隨訪研究、醫院腫瘤登記管理數據和人群腫瘤登記資料計算而得。其中，人群腫瘤登記數據由于覆蓋一個固定人群，計算得到的腫瘤生存率代表性較好，能夠真實反映一個地區內全部人群的腫瘤生存情況［1］。

生存率計算往往要回顧和整理過去一段時間的歷史資料，關鍵問題是選擇研究的觀察時間窗。兩種傳統的生存率計算方法需要長時間的完整隨訪資料，納入觀察的對象多來源于多年前診斷的病例，無法及時反映腫瘤診治水平提高所帶來的生存率改善。隊列法（cohort method）僅納入完全隨訪的病例資料，時效性和精確度有一定局限性；完全法（complete method）在隊列法的基礎上加入了尚未完成隨訪的右截尾數據，估計的精確度有所提高，但時效性仍較差。Brenner等［2］在1996年提出現時法（period analysis），僅納入感興趣時間段內觀察到的生存資料，包括在此時間段內完成隨訪的左截尾數據和新近診斷的右截尾數據。現時法排除了多年前的隨訪資料，提高了生存率估計的時效性，但由于納入計算的有效病例數也隨之減少，故生存率估計的標準誤有所增大，精確度不如完全法。因此，實際應用中常面臨時效性和精確度的權衡，兩者往往難以兼顧。2006年，Brenner等［3］提出了現時法統計模型（model-based period analysis），在常規現時法的基礎上通過擬合廣義線性模型來考慮觀察時期對生存率的影響。該模型可在充分利用現有數據、保證精確度的前提下，提高生存率估計的時效性，還可以用于評估其他預后相關因素對生存率的影響。目前，現時法統計模型在歐美國家的腫瘤登記中已得到一定范圍的應用［4-10］，但國內至今尚無相關的研究報道。

鑒于此，本研究將系統介紹現時法統計模型的基本原理，并以上海市腫瘤登記處收集整理的胃癌歷史生存資料為例，簡述其在R軟件中如何實現。

資料和方法

基本原理人群腫瘤登記數據最常用的生存率統計指標有觀察生存率（observed survival rate，OSR）和相對生存率（relative survival rate，RSR）［11］。生存率的計算通常采用壽命表法，例如5年生存率由1～5年的一年區間生存概率累乘而得，一年區間生存概率由觀察區間內實際的觀察死亡數（d）、期望死亡數（e）和區間內的隨訪人數（l）計算而來［12］。隊列法、完全法、現時法的區別僅在于用于計算一年區間生存概率的數據在診斷時間和隨訪時間上的差異。

以估計患者的5年RSR為例，現時法統計模型［3］是在常規現時法［2］算法的基礎上，以隨訪年份i（分類變量，計算5年生存率時1≤i≤5）和觀察時期（j連續型變量，第1個觀察時期j=0，往后逐漸加1）為自變量，以每個觀察區間內的實際觀察死亡數（d i，j）為因變量，擬合一個廣義線性模型。誤差結構取Poisson分布，連接函數定義為為基于模型的估計死亡數，分別表示期望死亡數（來自當地人群壽命表）和區間內隨訪人數。模型擬合時把有效觀察人數的自然對數作為偏移項（offset），省略截距項。下述模型可以用于描述超額死亡數與隨訪年份及觀察時期的關系：

其中，αi表示第i個隨訪年份的回歸系數，β表示每增加1個觀察時期的回歸系數。則每一年的區間生存概率r i，j=exp(-exp(αi+j×β))；第j個觀察時期的5年生存率上述公式也適用于觀察生存率的計算，只需將di*，j設為0即可。

生存率標準誤（standard error，SE）的估計可使用 delta法［13］，設var(αi)、var(β)、cov(αi，αk)和cov(αi，β)分別為αi和β的方差和協方差矩陣，則第j個觀察時期5年生存率的SE為：

實例分析上海是我國最早開展城市人群腫瘤登記報告工作的地區，積累了長期、標準、規范、完整的腫瘤登記資料［14］。我們利用1972—1986年上海市區的胃癌生存資料，以兩個簡單實例說明現時法統計模型計算相對生存率的基本過程以及對協變量進行統計學檢驗的方法。實例1以1977—1981年為感興趣時期，采用隊列法、完全法、現時法和現時法統計模型分別計算上海市區男女性胃癌的5年RSR及其SE，并與之后實際觀察到的生存率進行比較（圖1）。實例2利用現時法統計模型檢驗胃癌的5年RSR在1978—1980年、1981—1983年和1984—1986年3個觀察時期間的趨勢變化是否存在統計學意義（圖1）。RSR的計算采用EdererⅡ法［11，15］，隨訪截止時間定義為1986年12月31日。所有統計分析采用R 4.0.3版本進行，計算前需預先安裝并調用Brenner等編寫的R拓展包“Period R”［16（］文獻中下載地址：https：//krebsregister.saarland.de/daten-auswertungen-veroeffentlichungen/softw are/periodr-english/）。實例1和實例2所采用的生存數據如圖1所示（完整程序見電子附加材料）。

結果

實例1傳統的隊列法、完全法和現時法均可使用“PeriodR”拓展包實現，該拓展包的核心是period函數，其基本語句如下：

period（data，k，surv.m，surv.f，perbeg，perend，method=""，agedist=NULL）

其中，data為患者隨訪資料；k為隨訪時間（年）；surv.m和surv.f分別為男女性0～99歲的條件一年生存概率，由人群壽命表計算得到；perbeg和perend是納入分析的起始年份和截止年份；method表示相對生存率的計算方法，默認使用Hakulinen法［17］，也可選擇EdererⅡ法［15］；agedist命令可進行年齡調整，可在此加上標準腫瘤患者的年齡構成［18］來計算年齡標化生存率。

以隊列法計算1977—1981年男性胃癌的5年RSR為例，納入1972—1981年的隨訪數據，并將研究對象限定在診斷時間為1972—1976年的患者。語句如下：

cohortm<-period(subset(stomach,dy>=1972&dy<=1976&sex==1),5,probm,probf,1972,1981,method="edererII")

完全法、現時法和實際觀察到的生存率計算與之類似，只需修改perbeg和perend兩個參數，并根據情況限制研究對象的診斷年份和性別即可。

基于現時法統計模型的實際操作過程主要分為以下4個步驟：

（1）采用常規現時法計算1～5年的一年區間生存概率，從中提取每個隨訪年份（1～5年）和觀察時期（本例設定1977—1981年每年各為一個觀察時期）的觀察死亡數d（obs）、期望死亡數e（exp）和區間內隨訪人數l（py）。然后計算d（*dstar）和有效觀察人數的對數并與隨訪年份（iy）和觀察時期（jcp）組成數據框“model1.df”。

（2）自定義一個連接函數“modperiod.link”，即用“glm”函數擬合Poisson模型，連接函數取剛剛自定義的"modperiod.link"，模型中包含2個自變量：隨訪年份y（分類變量，1≤y≤5）和觀察時期cp（連續型變量，0≤cp≤4），有效觀察人數的對數（at_risk）作為偏移項，模型命名為“model1.fit”。

圖1 隊列法、完全法、現時法和現時法統計模型在計算生存率和進行趨勢檢驗時應用的生存數據Fig 1 Survival data used by cohort method，complete method，period and model-based period analysis for survival estimation and trend test

（3）生存率估計：從“model1.fit”中導出隨訪年份和觀察時期的回歸系數（y1-y5和cp），計算最近的觀察時期（1981年，cp=4）的1～5年一年區間生存概率，然后累乘即得到現時法統計模型估計的最新5年RSR。

（4）使用Delta法計算5年RSR的標準誤。

計算結果如表1所示。采用隊列法、完全法、現時法和現時法統計模型計算得到的1977—1981年上海市區胃癌5年RSR分別為：男性12.77%、13.76%、14.27%和16.41%，女性11.51%、12.04%、12.35%和14.74%。由現時法統計模型估算的結果與后來實際觀察到的男女性胃癌5年RSR（16.46%和14.23%）最為接近。實際觀察值所對應的數據集為圖1的“實際觀察值”部分，即在隨訪中可以計算的生存率。從生存率估計值的精確度來看，完全法估算結果的標準誤最小。

表1 1977—1981年上海市區胃癌5年相對生存率的估計值與實際觀測值的比較Tab 1 Comparison of estimated and later observed 5-year relative survival ratesfor gastric cancer in urban Shanghai，1977-1981

實例2實例2與實例1中現時法統計模型的計算過程基本一致，區別在于除隨訪年份和觀察時期外，模型中還納入了性別和年齡組這兩個協變量。

第（1）步仍然是采用常規現時法計算1～5年的一年區間生存概率，從中提取觀察死亡數（obs）、期望死亡數（exp）和區間內隨訪人數（py），并計算模型所需變量。

第（2）步是模型擬合，用“glm”函數擬合Poisson模型，連接函數取自定義的"modperiod.link"，模型中包含4個自變量：隨訪年份y（分類變量，1≤y≤5）、觀察時期cp（0≤cp≤2，0=1978—1980年，1=1981—1983年，2=1984—1986年）、性別sex（1=男性，2=女性）以及年齡組agr（1=0～44歲、2=45～64歲，3=65～99歲）。有效觀察人數（at_risk）的對數作為偏移項，模型命名為“model2.fit”。

第（3）步使用拓展包“lmtest”對回歸系數cp進行Waldχ2檢驗。

χ2檢驗結果顯示，χ2=19.91，P<0.001。表明在調整性別和年齡組的影響之后，胃癌的5年RSR在1978—1980年、1981—1983年和1984—1986年這3個觀察時期間的趨勢變化有統計學意義。

討論

人群腫瘤登記是腫瘤防治的一項基礎性工作，通過定期收集、整理、分析和報告登記地區內惡性腫瘤的發病、現患、死亡、生存等情況，準確反映登記地區的腫瘤流行情況和變化趨勢，為腫瘤的病因學研究和防治工作提供基礎數據和決策依據［1，19］。估計腫瘤患者的生存率及進行相應的統計學檢驗，是全人群腫瘤登記工作的一項重要常規工作［1，20］。由于一般人群隨年齡增長有一定的“自然”死亡概率，不同地區、年代、性別、年齡組的死亡概率也不一樣，為合理評價惡性腫瘤造成的超額死亡危險，方便生存率在不同人群間的比較，除了一般的觀察生存率（OSR）之外，人群腫瘤登記數據的生存率計算指標通常還包括相對生存率RSR及其統計學檢驗［11，20］。RSR等于觀察生存率與期望生存率（expected survival rate，ESR）之比［11］。ESR代表該地區同時期、同性別及同年齡組一般人群的“自然”生存概率，可由當地一般人群壽命表計算得到。根據期望生存率算法上的細微差別，相對生存率的估計通常有4種方法，即EdererⅠ［21］、EdererⅡ［15］和Hakulinen的兩種方法［17］，其中EdererⅡ是目前最常用的方法［22］。RSR反映了理論上腫瘤作為唯一死因時該特定人群的凈生存率（net survival rate），可直接在不同人群間進行比較。

從上世紀五十年代到九十年代末，人們估計腫瘤生存率時通常僅納入有完整隨訪資料的病例（隊列法）。1996年Brenner等［2］提出了現時法，作為生存率傳統估計方法的有益補充，尤其是針對腫瘤長期生存資料的統計分析。常規的現時法只需稍微修改計算一年區間生存概率的時間段即可實現，目前已有基于SAS、Stata和R的宏程序或拓展包可使用［23-25］。國內對該方法的應用主要有河南省林州市1988—2004年胃癌、食管癌的5年RSR分析［26-28］；復旦大學附屬腫瘤醫院2002—2006年乳腺癌5年RSR分析［29］；以及浙江省臺州市2009—2013年多種常見腫瘤的5年RSR分析［30］。上述研究均發現現時法的生存率估計結果與之后實際的觀測值最為接近。

現時法統計模型需要結合壽命表法［12］和相對生存率［11］的基本概念來定義和擬合廣義線性模型，且標準誤的計算［13，16］也不同于常規方法，操作過程相對較為復雜。國內有學者簡要介紹過現時法統計模型的基本原理［31-32］，但目前尚無應用該方法進行腫瘤生存數據分析的研究報道。現時法統計模型相比于常規現時法的最大優勢在于可納入較長年份的生存資料，在保證時效性的同時提高生存率估計的精確度。為方便與其他方法比較，本文實例1僅納入了5年的生存資料，并以1年作為一個觀察時期，每個計算區間內的有效觀察例數較少，故估計的精確度不如完全法。在實際應用中，由于單獨一年的生存資料容易受腫瘤登記數據延遲等情況的影響而不夠穩定，通常以3或5年作為1個觀察時期區間（即假定腫瘤生存率在這3或5年內穩定不變）。國際上在應用現時法統計模型時一般以10～20年的生存資料進行建模［4-10］。本文實例2由于資料有限，僅以3年作為一個觀察時期，分析了上海市胃癌5年RSR在3個觀察時期（9年）間的趨勢變化。Brenner等［33］利用芬蘭腫瘤登記處1978—2004年的登記資料進行比較分析，發現建模時間窗為10年時可得到與實際觀測值較為接近的生存率估計值，同時標準誤相比常規現時法可減少近一半；但建模時間窗延長到15年時估計效果反而變差。考慮到現時法統計模型建立在“生存率在各個觀察時期之間均勻變化”這一假設前提之下，當納入計算的時間跨度較長時，生存率的實際變化往往并不均勻。腫瘤新診療技術的推廣應用往往會在數年后反映在患者生存率的變化上。同樣，人群腫瘤篩查項目的開展可使早期檢出率上升，患者的生存時間延長，從而表現為其生存率的快速提高。因此，建模時間窗并非越長越好，在實際應用中應根據腫瘤部位和當地腫瘤防控實際情況進行適當調整。

除了直接計算生存率之外，現時法統計模型的另一個優勢是可以納入其他與預后相關的協變量，如性別、年齡、腫瘤分期等，從而調整這些混雜因素對生存率的影響或進行統計學檢驗，以評估各個協變量對于生存率的作用。通過對模型中各個協變量的回歸系數進行假設檢驗來反映該協變量對RSR的作用是否有統計學意義。由于目前尚無公認的、適用于RSR的多因素分析方法，實際應用中通常只能對病例進行分層，在犧牲精確度的情況下分別在不同亞組人群中計算RSR并直接比較。現時法統計模型可以在不損失樣本量的基礎上調整混雜因素并進行假設檢驗，不失為常規分層比較方法的一種有益補充。

本文實例2結果顯示，調整性別和年齡組的影響之后，胃癌的5年RSR在1978—1980年、1981—1983年和1984—1986年這3個觀察時期間的趨勢變化有統計學意義。與我們的實例2類似，Pulte等［7］利用現時法統計模型分析了德國肝膽系統腫瘤在2002—2005年、2006—2009年和2010—2013年3個觀察時期間的趨勢變化，結果提示其5年RSR在這3個時期之間顯著上升。除了對觀察時期進行統計學檢驗以分析生存率的時間趨勢之外，國外也有學者利用現時法統計模型檢驗性別、地區等因素對生存率的作用。例如：Eberle等［34］利用現時法統計模型分析了2002—2010年德國肺癌人群的腫瘤登記數據，發現在調整年齡、病理學類型和TNM分期后，女性肺癌5年RSR仍顯著高于男性；Majek等［35］的研究結果顯示，2002—2006年德國男女性結直腸癌患者的5年RSR分別為61.9%和64.5%，在調整年齡、分期等因素后，女性患者的預后仍然好于男性患者；Pulte等［7］利用現時法統計模型對德國和美國的腫瘤登記資料進行分析，發現美國人群的肝細胞癌5年RSR顯著高于德國人群。另外，在分析腫瘤登記生存資料時，腫瘤的年齡組劃分通常采用以下標準：15～44歲、45～54歲、55～64歲、65～74歲和75歲及以上［18］。由于本文實例2的目的在于介紹現時法統計模型如何對觀察時期進行統計學檢驗，年齡組和性別僅作為模型中的兩個協變量進行調整，因此我們只對年齡組進行了簡單的3組劃分。在實際應用中可根據腫瘤部位和專業知識進行相應的年齡組劃分。除了將年齡組作為協變量納入模型進行調整之外，還可進行年齡的標準化處理。Period R拓展包提供了簡單易行的年齡標化方法，只需在第一步進行常規現時法計算時加上標準人口的年齡構成即可［16，25］。

綜上所述，在分析全人群腫瘤生存資料時，現時法統計模型可充分利用現有資料，在保證精確度的前提下，提高生存率估計的時效性，并且能夠考慮其他協變量對生存率的影響，可作為傳統生存率計算方法的有益補充。但由于該方法涉及到較復雜的統計模型，且需要根據實際數據對程序中多個參數進行定義和修改，因此在進行人群腫瘤登記資料的生存分析時，應根據實際情況決定是否選用此方法并謹慎解釋結果。

作者貢獻聲明李卓穎查閱文獻，課題實施，編寫程序，分析數據和結果解釋，論文撰寫和修訂。蔣宇飛，譚玉婷方法學討論，結果解釋，論文修改。項永兵課題設計，獲取資助，原始數據整理，方法學討論，結果解釋，論文修改和定稿。

利益沖突聲明所有作者均聲明不存在利益沖突。

現時法統計模型在全人群腫瘤登記生存分析中的應用

資料和方法

結 果

討 論

結果

討論