錢蘇安 王從志 王清燕 善俊



摘? 要:部分線性單指標模型是一類非常重要的半參數模型,它對于克服非參數統計中的維數災難問題具有重要的理論價值。以該模型應用于HIV血清轉換器中CD4細胞的統計推斷,研究CD4細胞和SMOKE(通過香煙包測量的吸煙狀況)、Year(自血清轉換后的時間的影響)、PreCD4(感染前CD4細胞數)、年齡(相對于給定的時間來源)的關系。研究結果表明,CD4細胞和吸煙狀況、血清轉換的時間、年齡成正相關,與感染前細胞數成負相關。
關鍵詞:部分線性單指標模型;最小二乘法;CD4細胞
中圖分類號:O212.7? ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)03-0025-03
Abstract:Partial linear single index model is a kind of very important semi parametric model,which has important theoretical value to overcome the dimension disaster in nonparametric statistics. The model is applied to the statistical inference of CD4 cells in HIV serum transducers to study the relationship between CD4 cells and SMOKE (smoking status measured by cigarette packs),Year (effect of time since serum conversion),PreCD4 (number of CD4 cells before infection) and age (relative to a given time source). The results showed that CD4 cells were positively correlated with smoking status,time of serum conversion and age,and negatively correlated with the number of pre infection cells.
Keywords:partial linear single index model;least square method;CD4 cell
0? 引? 言
艾滋病一直是全球關注的熱點話題,而艾滋病主要傳染途徑是性接觸或血液傳播,艾滋病患者的身體免疫力會越來越低下。目前艾滋病患者的數量還在不斷增加,只能通過降低艾滋病載體的數量來進行控制,無法徹底治愈,所以目前的研究對于延長艾滋病人的壽命具有積極的意義[1]。
HIV病毒是一種傳染性逆轉錄病毒,可感染人體免疫細胞,引起人體內免疫細胞水平下降。它主要攻擊人體免疫系統中最重要的CD4T淋巴細胞,使人體易于感染多種疾病,并誘發惡性腫瘤,病死率較高。所以研究CD4細胞檢測結果對艾滋病治療效果的判斷和對患者免疫功能的判斷有重要作用。艾滋病感染已經成為一個非常嚴峻的問題,因此研究艾滋病病毒感染細胞與時間的關系非常重要。本文希望通過部分線性單指標模型對艾滋病數據集的分析,找出病毒感染與所選指標之間的關系,提出相關合理的建議。
1? 模型和方法
1.1? 單指標模型
單指標模型(Single Index Model,SIM)[2]的一般表現式如下:
Y=g(X Tθ)+ε
式中,X是p維解釋變量,Y是被解釋變量,θ是未知的參數且能夠滿足條件:(范數為1),‖θ‖=1(‖·‖是歐幾里得范數),g(·)是未知的關系函數,ε是隨機誤差,且滿足E(ε)=0,Var(ε)=σ 2。
在推測數據的初始階段,一般使用線性回歸來使用函數進行模擬,一般情況下,擬合的結果并不符合期望(且會產生誤差),參考文獻[3]中后來采用非參數回歸來進行分析時在一定程度上會避免這些問題,但同時信息會大量浪費。在多變量的情況下,某些自變量對因變量的影響顯著,采用非參數回歸會使得耦合度增加。
1.2? 部分線性單指標模型
對于單指標模型,最重要的是解決關系函數和參數未知的問題,這里對于未知參數可以采用最小二乘估計和半參數最大似然估計(參數都滿足漸近有效性),對于函數可以采用核估計法和局部多項式回歸估計等非參數估計方法。
對單指標模型進行擴展得到和文獻[4]中類似的部分單指標模型的一般形式:
式中,β是未知參數,當θ=1時,模型變成部分線性模型,當模型中的線性部分不存在的時候,相應地就簡化為了單指標模型。部分線性模型是由參數部分和非參數部分組成的。
1.3? 縱向數據部分線性單指標模型及其求解
2? 三縱向數據部分線性單指標模型在HIV血清轉換器中CD4細胞統計分析中的應用
下面將縱向數據部分線性單指標模型應用于HIV血清轉換器中CD4細胞統計分析,HIV血清轉換器中CD4細胞計數的數據集詳情見參考文獻[6-8]。在該數據集中,對感染HIV病毒的283名男性的CD4細胞計數進行了1817次觀察。我們將CD4細胞計數的根源作為之前研究中的響應。參考文獻[7]和[8]中表明有幾個因素可能影響這一計數的水平,一個重要的問題是估計這些因素的影響并確定它們是否重要。具體而言,數據集包括解釋變量SMOKE(通過香煙包測量的吸煙狀況)、Year(自血清轉換后的時間的影響)、PreCD4(感染前CD4細胞數)和年齡(相對于給定的時間來源)。數據集中年齡與CD4細胞之間的關系如圖1所示,感染前CD4細胞數與CD4細胞之間的關系如圖2所示,數據集中吸煙對CD4細胞數據的影響為線性關系。
其中,β1與β2,θ1,θ2是未指定的參數,所有這些都需要估計。Z1,t表示SMOKE(通過香煙包測量的吸煙狀況),Z2,t表示Year(自血清轉換后的時間的影響),X1,t表示PreCD4(感染前CD4細胞數),X2,t表示年齡(相對于給定的時間來源)。
估計的參數系數β1與β2,θ1,θ2相應的標準差如表1所 示,從表中可以看出,所有協變量的影響都是顯著的。
從表中可以看出,β1和β2的估計是正的并且是顯著的,而θ1的估計是負的,θ2的估計是正的,并且均是顯著的。這表明在調整相同個體內的協變量后,CD4細胞計數正相關,并且隨著觀察到的時間距離增加,相關性趨于降低。鏈接函數? 的局部線性估計圖如圖3所示。
由圖3可以看出,年齡與感染艾滋病之后的CD4細胞數在隨著年齡增長,感染后CD4細胞數也越來越多,但增長的趨勢逐漸變緩,所以增長的速度也逐漸變低。
3? 結? 論
本文將該縱向數據部分線性單指標模型應用于HIV血清轉換器中CD4細胞的統計推斷,研究CD4細胞和SMOKE(通過香煙包測量的吸煙狀況)、Year(自血清轉換后的時間的影響)、PreCD4(感染前CD4細胞數)和年齡(相對于給定的時間來源)。通過分析艾滋病CD4數據集,我們發現感染前CD4細胞數與感染后成非線性的關系,在調整相同個體內的協變量后,與CD4細胞計數正相關,隨著觀察到的時間距離增加,相關性趨于降低。在幾個影響變量中我們發現,年齡與感染后CD4細胞數的相關性比較強,且與之呈正相關。所以隨著年齡的增長,感染艾滋病毒之后,CD4細胞數量的增長也會隨之提高,但是增長的速度會逐漸變緩。
參考文獻:
[1] 曹金紅.武漢市建筑工人艾滋病健康教育干預評價 [D].武漢:武漢科技大學,2009.
[2] CHEN J,GAO J,LI D. Estimation in Partially Linear Single-Index Panel Data Models With Fixed Effects [J].Journal of Business & Economic Statistics,2013,31(3):315-330.
[3] 宋濤濤.基于部分自回歸單指標模型的社交網絡分析 [D].青島:青島大學,2018.
[4] XIA Y,HARDLE W. Semi-parametric estimation of partially linear single-index models [J].Journal of Multivariate Analysis,2006,97(5):1162-1184.
[5] 劉強.縱向數據下半參數混合效應模型的估計 [J].應用概率統計,2010,26(4):411-418.
[6] ZHOU X C,LIN J G. Empirical likelihood for varying-coefficient semiparametric mixed-effectserrors-in-variables models with longitudinal data [J].Statistical Methods & Applications,2014,23(1):51-69.
[7] BOENTE G,RODRIGUEZ D. Robust estimates in generalized partially linear single-index models [J].TEST,2012,21(2):386-411.
[8] HUANG Z S,ZHAO X. Statistical estimation for a partially linear single-index model with errors in all variables [J].Communication in Statistics-Theory and Methods,2018,48(5):1136-1148.
作者簡介:錢蘇安(1999-),男,漢族,江蘇泰興人,本科在讀,研究方向:應用統計;通訊作者:燕善?。?978-),男,漢族,江蘇沛縣人,副教授,碩士,主要研究方向:數學與信息
科學。