謝雁鳴 蔡博婧 田 峰 易丹輝 虞 鯤 康 澍 李建鵬 崔慶榮
絕經后骨質疏松癥(postmenopausal osteoporosis,PMOP)是目前患病率最高的慢病之一,在40~65歲婦女中有很高的患病率。如何判別PMOP的發生風險,針對其危險因素采取有效的預防性干預措施,是防治PMOP的關鍵。由于中醫證候要素的復雜性,以及危險因素與骨密度(bone mineral density,BMD)定性診斷之間可能存在著某種非線性關系,運用logistic回歸模型等線性模型擬合效果不佳。廣義偏線性模型(generalized partial linear model,GPLM)是廣義線性模型(generalized linear model,GLM)的擴展,有機結合廣義線性模型的優點與連續數值變量的非參數特點,增加判別模型的靈活性,避免因非參數形式過多而造成的估計困難,可以清楚地展示出特定變量的非線性作用。本文運用GPLM進行40~65歲絕經后骨質疏松癥風險判別模型探索性研究。
1.資料來源 2009年3月至8月,在上海市和北京市社區進行PMOP高危人群篩選,對符合納入標準的人員進行現場問卷調查。研究人員在上海社區發放問卷1101份,返回問卷1027份,其中合格問卷1001份,占90.92%;在北京社區發放問卷800份,返回問卷763份,其中合格問卷739份,占92.38%。
2.研究方法
(1)PMOP調查問卷的設計
在課題組前期研究基礎上,根據量表學和臨床流行病學方法,結合骨質疏松癥專家的臨床經驗,制定了《40~65歲婦女骨質疏松危險因素及證候調查問卷》。整個問卷包括一般信息、生活習慣、發病相關因素、軀體狀況、臨床體征等五個領域的內容,共65個條目,為封閉式設計。在調查實施前,由獨立的中國中醫科學院中醫臨床基礎醫學研究所倫理委員會對問卷內容進行論證,認為符合醫學倫理要求。
(2)調查人群篩選標準
納入標準 ①女性;②年齡40~65歲;③意識清楚,可用言辭表達,有閱讀能力,與調查人員溝通無障礙者;④經調查人員說明研究目的后,本人愿意接受問卷調查和BMD檢測,并在“卷首頁”簽名同意者。
排除標準 ①藥物或其他疾病(如糖尿病、化膿性脊髓炎、腎炎、甲亢等)引起的繼發性骨質疏松癥;②有惡性腫瘤、痛風、類風濕性關節炎等疾病,影響中醫證候判斷者;③精神障礙、認知障礙者。
(3)PMOP診斷標準
根據《中醫內科常見病診療指南:西醫疾病部分》〔1〕中的 PMOP定性診斷標準,取腰椎 L1-L4、股骨頸、股骨全區3個部位的最小T值,T值≥M-1SD為骨量正常,M-1SD~-2.0SD為骨量減少,≤M-2.0SD以上為骨質疏松癥。
(4)統計分析方法和軟件
運用前期分析篩選出與PMOP發病相關的重要危險因素和中醫癥狀為協變量,以BMD定性診斷為結局變量(骨量正常和骨質疏松),建立基于 GPLM的PMOP判別模型。數據建模通過SAS 9.2實現。
Marlene Muller〔2〕對 GPLM 進行了較為詳細的介紹,模型公式為:

其中,G(·)為連接函數;U表示一個含有有限的p個協變量的向量,可以包含分類數值協變量和連續數值協變量,主要構成模型中的參數部分;T是一個含有q個由連續數值變量構成的協變量向量,m(T)為模型中的非線性部分。
當結局變量Y為取值0或1的二分類變量時,參數部分的協變量矩陣為U,非參數部分只有一個協變量T時,GPLM模型可以寫作:

其中,P表示在給定U和T下結局變量Y取值為1的概率。
1.GPLM模型非參數部分的選擇
多項logit模型篩選出來的西醫危險因素和支持向量機方法篩選出來的中醫癥狀變量中,肉類膳食、魚類膳食、飲用咖啡、是否變矮、是否絕經、畏寒、目睛干澀、齒搖、納呆、腹脹、胸脅苦滿、夜尿次數、下肢抽筋、下肢骨痛等是二分類變量,每天鍛煉時間、懷孕次數、生產次數、骨折次數、駝背是多分類等級變量,考慮其與BMD定性診斷呈線性關系,放入參數部分。年齡、體重指數和絕經年限是連續性數值變量,可能與BMD定性診斷之間存在非線性關系。為探索其非線性效應,運用SAS 9.2軟件PROC GAM過程步對三個變量的非參數形式分別進行檢驗,設置method=gcv,plots=components(commonaxes),epsscore=1e-6,結果見表1。

表1 GPLM模型非參數變量的檢驗
年齡和體重指數檢驗的值均接近0,且P值缺失,說明這兩個變量與BMD定性診斷沒有明顯的非線性關系,而絕經年限與BMD定性診斷間存在明顯的非線性效應,因此將絕經年限設為GPLM模型的非參數部分,年齡和體重指數則放入參數部分。
2.GPLM模型參數部分估計
按α=0.05的標準,對于參數部分變量運用“逐步后退法”剔除,直到所有的參數估計都通過假設檢驗,GPLM模型參數部分的估計結果見表2。
從表2中可知,體重指數的系數為-0.15805,與PMOP的發生風險呈負相關,體重指數每增加1,發生PMOP的風險概率是增加之前的Exp(-0.15805)=0.85381倍。是否絕經、下肢抽筋和下肢骨痛的系數分別為:1.14182,0.36149和0.32267,與 PMOP的發生風險呈正相關;已絕經婦女發生PMOP的風險概率是未絕經婦女的Exp(1.14182)=3.1325倍;有“下肢抽筋”癥狀的婦女發生骨質疏松的概率比沒有該癥狀的婦女要高,比值比(odds ratio,OR)=Exp(0.36149)=1.4355;有“下肢骨痛”癥狀的婦女發生PMOP的風險概率比沒有該癥狀的婦女要高,OR=Exp(0.32267)=1.3808。

表2 GPLM模型線性部分參數估計
3.GPLM模型非參數部分估計
經檢驗絕經年限對在模型中的非線性效應具有統計意義(χ2=13.5948,P=0.0012)。
為直觀展現“絕經年限”對PMOP發生風險概率的非線性效應,繪制smoothing component plots圖,如圖1所示。

圖1 絕經年限的非線性效應圖
4.GPLM模型的判別效果
接收者工作特征曲線(receiver operating characteristic curve,ROC)因其不受患病率和診斷截斷值的影響、且綜合了靈敏度和特異度兩個指標,成為評價診斷試驗準確度的最佳指標〔3〕。通過ROC曲線下面積(area under the ROC curve,AUC)可以直接反映診斷試驗價值的大小〔4〕。這里運用ROC曲線來評價模型的判別準確性。用“是否絕經”、“下肢抽筋”、“下肢骨痛”“體重指數”4個危險因素和中醫癥狀作為協變量,與結局變量(BMD定性診斷)擬合線性logistic回歸模型,其AUC值為0.7536。擬合GPLM模型時加入了“絕經年限”的非線性效應,其AUC值為0.7971,提高了PMOP高危人群發病風險的判別準確率,見表3。

表3 兩種模型的ROC曲線比較分析
經檢驗,帶有非線性效應的GPLM模型要優于線性 logistic回歸模型(χ2=21.9162,P <0.001),見圖2。

圖2 logistic模型和GPLM模型的ROC曲線比較圖
1.GPLM 模型的優點
在醫學研究中,GLM 模型〔5-7〕根據相關影響因素建立結局事件的判別模型,其應用前提是事先假定協變量與結局變量為直線關系,會忽略協變量與結局變量之間可能存在的非線性效應,得到不可靠的參數估計結果。GPLM是一種半參數模型,能夠準確描述協變量與結局變量之間的關系,通過納入與結局變量之間存在非線性關系的連續數值協變量,增加模型的判別準確性,又不會帶來因非參數形式過多而造成的估計困難,可以清楚地展示出特定變量的特殊效應,若以線性形式假定,則不能發現這種效應。將西醫危險因素(是否絕經和體重指數)和中醫癥狀(下肢抽筋和下肢骨痛)作為線性變量,以非參數的形式靈活地處理絕經年限這個非線性變量,建立基于GPLM的可以反映中醫病證結合特點的PMOP判別模型,從AUC值來看,在絕年限存在非線性效應的情況下,運用GPLM可以更準確地判別PMOP高危人群的發病風險。
2.GPLM 模型的不足
GPLM屬于半參數模型中的一種特殊形式,更適合處理非參數部分只有一個變量的情況,當實際問題中所需要估計的非參數部分多于1個變量時,可以考慮運用廣義可加模型〔8〕。本研究中只有“絕經年限”存在非線性效應,所以運用GPLM模型是合適的。但是,由于現有的GPLM模型擬合和檢驗只限于兩分類結局變量,尚無法實現對三分類結局變量判別模型的擬合,因此本研究只能對骨量正常和骨質疏松兩部分人群進行PMOP判別模型建構,尚未能納入骨量減少人群的數據,因此在PMOP高危人群不同骨量狀態的判別上存在一定的局限性。同時,現有的ROC曲線擬合方法也是針對兩分類結局變量數據,目前尚無成熟的針對三分類結局變量判別模型的ROC曲線擬合方法,這些問題有待今后進一步探索研究。
1.中華中醫藥學會.中醫內科常見病診療指南:西醫疾病部分.北京:中國中醫藥出版社,2008:242-245.
2.Müller M.Estimation and testing in generalized partial linear models—a comparative study.Statistics and Computing,2001,11(4):299-309.
3.宋花玲.ROC曲線的評價研究及應用.上海:第二軍醫大學,2006.
4.方積乾.醫學統計學與電腦試驗.上海:上海科學技術出版社,2001:449.
5.Nevill A M,Copas J B.Using generalized linear models(GLMs)to model errors in motor performance.J Mot Behav,1991,23(4):241-250.
6.Zheng B,Agresti A.Summarizing the predictive power of a generalized linear model.Stat Med,2000,19(13):1771-1781.
7.Pan W.Application of conditional moment tests to model checking for generalized linear models.Biostatistics,2002,3(2):267-276.
8.賈彬.廣義可加模型及其在醫學中的應用.山西醫科大學,2005.