朱高培 孫 娜 許小珊 李 娟 吳學森 王素珍△
【提 要】 目的 構建社區居民2型糖尿病風險評估模型及風險評分表。方法 利用logistic回歸模型結合決策樹的方法,針對2015蚌埠市龍子湖區慢性病調查的數據,構建2型糖尿病風險評估模型,并由正確指數制定風險評分表的切點。結果 決策樹結合logistic回歸模型預測2型糖尿病的AUC=0.828(95%CI:0.808-0.855),大于單純采用logistic回歸模型AUC=0.816(95%CI:0.793-0.838)及單純采用決策樹AUC=0.809(95%CI:0.787-0.831)。同時,決策樹結合logistic建立的風險評分表的特異度和靈敏度分別為0.840和0.778,總分值范圍為-9~56分,篩查高危人群的推薦切點為19分,篩查效果優于logistic回歸模型、《2013年糖尿病防治指南》風險評分表、芬蘭模型Lindstrom版。結論 logistic回歸結合決策樹模型比單一模型在糖尿病風險評估方面有更好的表現,制定的2型糖尿病風險評分表可以作為糖尿病篩查一線工具。
國際糖尿病聯盟資料表明,2045年全世界糖尿病平均患病率將會達到10%,全世界將擁有6.93億糖尿病患者[1],糖尿病成為損害人類健康的重要疾病之一。鑒于2型糖尿病的患者基數巨大,起病隱蔽,無明顯的早期癥狀,致使約有50%的糖尿病患者未被早期診斷或發現[2],發現時患者身體已經受到傷害,引發沉重的身體和經濟負擔。有研究表明[3],盡早篩查出糖尿病高危人群,可有效降低減緩糖尿病的發生和發展。所以,在無癥狀人群中開展2型糖尿病的篩選非常有必要。
糖尿病的篩查分為介入性篩查和非介入性篩查。介入性篩查受到患者自身條件、檢測費用、HbA1c檢測未標準化等因素的影響,不宜作為糖尿病高危人群快速篩查的一線工具[4]。非介入性的篩查方法,依據糖尿病風險評估量表確定糖尿病高危人群、篩選糖尿病可疑患者。該法具有簡便、快速、易于開展等特點[5],逐漸引起研究者關注。雖然2013 年《中國 2 型糖尿病防治指南》中給出了糖尿病風險評分表[6],但在烏魯木齊人群中篩查糖尿病的效果一般(AUC=0.770)[7],也未見在大規模人群中應用及驗證。目前,糖尿病風險評估工具的數量眾多,但由于種族特異性、國家、地區間的文化背景、生活習慣、飲食、糖尿病危險因素的多樣性等,不同糖尿病風險評估工具的適用人群也大不相同[8],所以尚需構建適應于社區的2型糖尿病快速篩查工具。
開發糖尿病風險評分模型,評估人群中糖尿病的發病風險,快速高效地篩選出患有糖尿病高危人群,增加糖尿病的檢出率,已成為當前醫學界的重要研究內容之一。本研究結合數據挖掘和logistic回歸構建2型糖尿病風險評估模型和風險評分表,通過該簡易糖尿病風險評分表盡早發現糖尿病高危人群,及時制定防控措施,有效降低糖尿病的發病率或減緩糖尿病的發生,并能一定程度降低衛生負擔。
1.研究對象
采取多階段分層隨機抽樣的方法,按照城區、農村共分兩層,每層隨機抽取3~4個社區服務中心,每個社區服務中心隨機抽取2~5個社區服務站,共調查3354個居民。由經過專業培訓的調查人員和社區服務中心(站)醫務人員對參與本研究的對象開展問卷調查和體檢,記錄空腹血糖、身高、體重、腰圍、血常規、生理生化等體檢指標。每個調查對象簽署了知情同意書。
納入、剔除標準:依據蚌埠市龍子湖區公安人口信息,滿足18歲及以上的常住居民(在蚌埠市居住5年及以上)作為抽樣人群;剔除不能理解和回答問題的對象、其他地區生活的蚌埠市戶籍調查對象。
用于本研究的2型糖尿病診斷標準為:(1)明確有糖尿病的診斷史;(2)新發糖尿病:FPG>7.1mmol/L。
2.研究方法
(1)模型構建過程
①logistic回歸構建2型糖尿病風險評估模型的原理
以是否患有2型糖尿病為因變量,以人均收入、水果攝入頻率、是否喜好甜食、婚姻狀況、糖尿病家族史和年齡等作為自變量納入模型,其中年齡等定量資料分析時進行了分類。經logistic回歸篩選出最終進入模型的變量,并依此構建2型糖尿病多因素logistic回歸模型,以P值代表發生2型糖尿病的概率。基于此模型可以給出調查對象患2型糖尿病的風險,進而確定糖尿病高危人群。
②決策樹結合logistic回歸建立2型糖尿病模型風險評估模型的過程
以是否患有2型糖尿病為因變量,人均收入、水果攝入頻率、是否喜好甜食、婚姻狀況、年齡等自變量以原始數據的形式納入決策樹模型。經決策樹分析,得到2型糖尿病決策樹圖,根據非葉子節點的分類屬性,確定用于分類的主要變量以及連續變量分割截斷值,將原有的數據的所有變量轉化成分類變量,并依此用轉換后的數據構建2型糖尿病logistic回歸模型,以P確定發生2型糖尿病的概率,進而確定糖尿病高危人群。
③糖尿病風險評分模型的構建過程
首先建立2型糖尿病篩查決策樹模型,據非葉子節點處的最佳分類對應的屬性,確定主要變量以及連續變量分割截斷值,將原有的數據的所有變量轉換成分類變量;然后用轉換后的數據構建2型糖尿病logistic回歸模型;最后將回歸系數乘以10再取整,給出風險評分表。
(2)風險評估模型及風險評分表的評價
使用ROC曲線、AUC(ROC曲線下面積)和符合率來綜合比較模型預測、篩查效果,并通過正確指數確定糖尿病風險評分表的篩查高危人群的推薦切點。
1.一般情況
總共調查3354人,其中357人患2型糖尿病,患病率為10.6%。本次研究對象的年齡在18~91歲之間,平均56.10±15.3歲。男性1468人,女性1886人,男女性別比例為1:1.28,其他基本信息詳見表1。

表1 研究對象的基本情況描述
2.logistic回歸模型構建2型糖尿病風險評估模型
經多因素logistic回歸分析,獲得2型糖尿病的影響因素:糖尿病家族史、高血壓史、水果攝入頻率、喜好甜食、年齡、腰臀比、體質指數和收縮壓和年齡。多因素logistic回歸模型預測2型糖尿病的AUC=0.816(95%CI:0.793~0.838),最佳切點處的靈敏度和特異度分別為0.684和0.792。
3.決策樹構建2型糖尿病風險評估模型
經決策樹分析獲得2型糖尿病的決策規則,詳見圖1。該決策樹的葉節點有10個,非葉子節點8個,進入該決策規則的變量為年齡、糖尿病家族史、收縮壓、水果攝入頻率、體質指數。決策樹模型預測2型糖尿病的AUC=0.809(95%CI:0.787~0.831),最佳切點處的靈敏度為0.703,特異度為0.771。

表2 2型糖尿病多因素logistic回歸分析

圖1 2型糖尿病決策樹分析圖
決策樹模型對定量資料進行了分割,比如年齡被決策樹劃分為(18~51]歲,(51~60]歲,(60~72]歲,(72~101]歲四段,其他變量分割詳見表3。

表3 決策樹模型給出了定量資料的分割點信息
4.決策樹結合logistic回歸模型構建2型糖尿病風險評估模型
根據決策樹模型中的分類變量以及定量資料的分割信息,對這些變量進行重新的分類和賦值,如年齡、收縮壓、體質指數等是根據決策樹重新截斷的分組數據。將新定義的變量統一納入logistic回歸模型。該模型即為決策樹結合logistic回歸預測模型,詳見表4。該模型預測2型糖尿病的AUC=0.828(95%CI:0.808~0.855),最佳切點處的靈敏度為0.840,特異度為0.778。

表4 基于決策樹結合logistic回歸模型的2型糖尿病風險分析結果
5.糖尿病風險評估模型的效果評價
比較logistic模型與決策樹模型、決策樹結合logistic回歸模型評估2型糖尿病風險的效果,最佳切點處的靈敏度和特異度,logistic模型與決策樹模型的特異度較高,而結合模型的靈敏度更高。糖尿病風險評估模型間的AUC擬合優度檢驗結果顯示:決策樹結合logistic回歸模型預測2型糖尿病的效果優于logistic模型(Z=3.328,P<0.001),決策樹結合logistic回歸模型的效果優于決策樹模型(Z=6.718,P<0.001),logistic回歸模型的AUC大于決策樹模型(Z=4.950,P<0.001)。詳見表5。

表5 糖尿病風險評估模型之間效果比較
6.基于決策樹結合logistic回歸模型的2型糖尿病風險評分表
將重新構建的logistic回歸模型的回歸系數乘以10并取整,如無糖尿病家族史賦值0分,有糖尿病家族史賦值17分,具體賦值詳見表6。該評分表在蚌埠市人群的范圍為-9~56分,切點在19分處,篩查2型糖尿病高危人群效果最佳。決策樹結合logistic回歸風險評分表篩查2型糖尿病的AUC=0.828(95%CI:0.808~0.855),其靈敏度、特異度分別為0.840和0.778。據此制定了糖尿病風險評估問卷,用于糖尿病的篩查工作,詳見表7。

表6 決策樹結合logistic回歸構建的2型糖尿病風險評分表

表7 2型糖尿病風險評估調查問卷(表)
*:本問卷(調查表)判斷糖尿病的最佳切點為19分,得分≥19的確定為患糖尿病高危人群;建議對總得分≥19分受試者應進行口服葡萄糖耐量試驗,以明確診斷。
7.糖尿病風險評分表之間的效果比較
比較2013年糖尿病防治指南評分表、芬蘭模型評分表以及logistic回歸模型評分表、決策樹結合logistic回歸風險評分表篩查2型糖尿病,發現ROC曲線下面積分別有差異,決策樹結合logistic評分表篩查效果最好,如與logistic評分表篩查效果之間差異有統計學意義(Z=4.111,P<0.001),且決策樹結合logistic評分表篩查符合率最高。評分表之間具體的比較詳見表8。
建立單一模型時,決策樹模型在特征變量識別方面有優勢,而logistic回歸模型在可以獲得OR值等信息和模型解釋方面優勢明顯,若分別使用logistic回歸或決策樹構建的預測模型則各有優劣[9]。本研究結果表明通過聯合建模的方式使模型預測效果和靈敏度、特異度等方面都有提升。

表8 幾種常用的風險評分表之間的效果比較
多因素logistic回歸結果提示水果攝入為保護性因素,適當增加水果攝入頻率可以降低糖尿病發病風險[10]。喜好甜食會增加患2型糖尿病的風險,在飲食上面應該控制甜食的攝入[11]。基于logistic回歸構建的預測模型具有較高的特異度和較低的靈敏度[12],發現潛在患有糖尿病(即高危人群)的性能較差,不適合糖尿病的初步篩查。本研究中CART決策樹模型預測的效果稍差于logistic回歸模型(Z=4.950,P<0.001),目前這兩種模型的效果比較結論不一致,這與決策樹模型的剪枝水平、樣本量以及協變量之間的關聯有關[13-15];由于決策樹不受分布以及線性、共線性等影響,所以在選擇特征變量方面很有優勢[16]。 logistic回歸與決策樹結合起來構建風險預測模型效果最優,且具有較高的特異度和靈敏度。該方法既可以彌補logistic回歸模型的缺點,又可以篩選出更加合理的特征變量,建議使用該方法構建糖尿病風險評估模型,并用于篩選社區糖尿病高危人群。
決策樹結合logistic回歸風險評分表、logistic回歸風險評分表和《2013年糖尿病防治指南》風險評分表篩查糖尿病的效能優于芬蘭模型,考慮為人種糖尿病危險因素及體檢指標分類標準的差異[17],比如歐美與亞洲人超重、肥胖標準不同,相應的風險評分也會不同。芬蘭模型將每日是否食用蔬菜納入模型,本研究將水果攝入頻率納入模型,這考慮了與西方飲食習慣、烹飪方式的不同,中國人飲食中普遍有蔬菜但缺乏水果,不同人群糖尿病的危險因素存在差異[18]。由于本研究充分考慮了危險因素及其分類標準的種族差異,所以制定的糖尿病風險評分表更適用于中國人 2 型糖尿病的風險評估及篩查。
糖尿病風險評估模型是從疾病的篩查角度出發,需要較高的診斷靈敏度。糖尿病風險評分表作為一個有效的、便宜的替代診斷性檢測的工具,可以在短期內對大量的人群進行糖尿病的篩查。以非實驗室數據為基礎的決策樹結合logistic回歸的評分表,診斷靈敏性、準確性均較優,是一種非侵入性的篩查 2 型糖尿病高危人群的可靠工具。在糖尿病患病率高且仍持續增長而衛生資源相對稀缺的中國,運用糖尿病風險評估工具對實現早期檢查和診斷、提高生存質量有十分重要的臨床意義。我們推薦聯合建模方法和制定風險評分表在社區居民糖尿病篩查工作中的應用。