999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Logistic回歸模型在兒童哮喘風險評分中的應用

2021-06-16 11:55:24張一梅
電子技術與軟件工程 2021年6期
關鍵詞:分類特征因素

張一梅

(山西省數字政府服務中心 山西省太原市 030031)

慢性呼吸疾病支氣管哮喘(Bronchial Asthma)簡稱哮喘,作為全球慢性病之一,是兒童常見的慢性呼吸疾病。調查研究顯示,我國現有大約一千萬例哮喘兒童[1],且近年來兒童哮喘發(fā)病率依然呈上升趨勢[2]。哮喘容易反復發(fā)作,兒童哮喘如得不到提前預防和相關有效治療,會發(fā)展為成人哮喘,嚴重影響到個人生活水平,降低生活質量。隨著醫(yī)療行業(yè)信息化建設的不斷發(fā)展,醫(yī)療信息管理系統(tǒng)、醫(yī)療健康監(jiān)測終端設備在醫(yī)院的廣泛普及和使用,醫(yī)療領域產生了海量相關哮喘的醫(yī)療健康數據,這些醫(yī)療健康數據含有巨大的潛在價值,具有數據量大(Vohrnie)、實時性強(Velocity)、種類豐富(Variety)、潛藏價值高(Value)這四個大數據的特點[3],充分挖掘利用醫(yī)療健康大數據中包含的潛在價值,對提高醫(yī)療服務質量、節(jié)約醫(yī)療成本、加強兒童健康管理具有重要作用。

本文對 2015年 1月至 2018年 1月某幾家醫(yī)院住院的3~14 歲哮喘兒童住院資料進行了調查,運用基于logistic 回歸模型分析研究了引發(fā)兒童哮喘的特征因素,并對這些特征因素進行評分,得分較高的特征因素會引發(fā)兒童嚴重哮喘,得分較低的特征因素會引發(fā)兒童輕度哮喘。

1 醫(yī)療健康數據預處理

雖然醫(yī)療健康數據中包含了大量潛在的價值,除了具有上述四個大數據的特點之外,還具有多態(tài)性、不完整性、冗余性、隱私性等特點,醫(yī)療健康數據從原始數據到實現利用價值需要信息的采集、清洗、標準化、匿名化、存儲、運算等等,首先我們需要對原始醫(yī)療健康數據集進行數據預處理,由于哮喘診斷的原始醫(yī)療健康數據集中出現一些診斷記錄項的缺失,如花粉過敏、屋塵過敏、裝修氣味、消毒水氣味等,缺失量超過原始醫(yī)療數據集的三分之二,因此我們將這些數據項進行剔除處理,然后剔除無關數據項、刪除有缺失數據項的數據,完成數據清洗后的醫(yī)療數據集包含14 項特征變量(年齡、性別、營養(yǎng)狀態(tài)、出生情況、生產方式、喂養(yǎng)方式、家族哮喘史、個人藥物過敏史、食物過敏、呼吸道感染、二手煙暴露、天氣變化、情緒、運動),共采集對本次醫(yī)療健康數據分析有用的300 條數據。

由于兒童哮喘數據集樣本容量小,我們采取留出法進行劃分訓練集和測試集,200 條記錄樣本作為訓練集,剩余的100 記錄樣本作為測試集,為了避免因數據劃分過程中引入額外的干擾因素而對結果產生影響,我們共5 次對訓練集和測試集以2:1 隨機劃分、重復評估后取平均值作為留出法的劃分結果。

2 醫(yī)療健康數據篩選

由于引發(fā)兒童哮喘的特征因素中包括連續(xù)性變量,如年齡,我們需對特征變量的的取值進行分組處理,即變量離散化。通過計算變量權重(weight of evidence)進行連續(xù)變量分段,以特征變量年齡為例,年齡變量是一個連續(xù)的數值型變量,根據兒童哮喘的年齡分布將其劃分成2 個取值區(qū)間:3-5 歲、6-14 歲。這就完成了連續(xù)特征變量的離散化。

IV(Information Value),是信息價值或者信息量的意思。我們使用二項 logistic 回歸模型構建分類模型,由于引發(fā)兒童哮喘的特征因素較多且雜亂,需要對樣本特征變量進行篩選,從14 個特征變量中篩選出對結果變量預測能力強的放入模型中進行訓練。IV值用來衡量某個特征變量預測結果變量的強弱程度,其基本思想是響應事件因素(引發(fā)兒童嚴重哮喘的因素)占所有樣本中響應事件因素的比例,和未響應事件因素(引發(fā)兒童輕度哮喘的因素)占所有樣本中未響應事件因素的比例,來對比和計算此特征變量與結果變量的關聯程度,計算公式如下[4]:

ratiobadi表示第i 個特征因素中引發(fā)兒童嚴重哮喘結果所占比例,N(badi)表示第i 個特征因素中引發(fā)兒童嚴重哮喘結果對應樣本數,N(bad)表示所有引發(fā)兒童嚴重哮喘結果對應樣本總數;同樣,ratiomildi表示第i 個特征因素中引發(fā)兒童輕度哮喘結果所占比例,N(mildi)表示第i 個特征因素中引發(fā)兒童輕度哮喘結果對應樣本數,N(mild)表示所有引發(fā)兒童輕度哮喘結果對應樣本總數。利用計算公式計算所有的特征變量對于結果變量的IV 值,假設所有特征變量所包含的IV 值是不變的,IV 值越大說明預測能力越強,IV 值越小說明預測能力越弱,IV 值的取值范圍和預測能力如表1 所示,我們選取較強預測能力的特征變量即IV 值大于0.1 的特征變量,剔除預測能力較弱和基本無預測能力的特征變量,即IV 值小于等于0.1 的特征變量。

我們以嚴重哮喘和輕度哮喘作為結果變量,其余14 個特征變量為自變量,計算得到14 個特征變量對于結果變量的IV 值,如表2 所示,綜合哮喘特征變量的實際含義,選取 IV 值大于0.1 的特征變量,即選取的特征變量為:年齡、性別、營養(yǎng)狀態(tài)、出生情況、生產方式、家族哮喘史、個人藥物過敏史、食物過敏、呼吸道感染、二手煙暴露、天氣變化。

3 基于logistic回歸模型(logistic regression model)的兒童哮喘風險評分

兒童哮喘風險評分實質上是對引發(fā)兒童哮喘的風險因素進行分類和預測,將能夠引發(fā)兒童嚴重哮喘的特征因素分到“響應”因素中,將能夠引發(fā)兒童輕度哮喘的特征因素分到“未響應”因素中,并在以后的診療中對這些因素進行預測。本文采用二項logistic 回歸模型進行模型學習。logistic 回歸模型是一種概率模型,是統(tǒng)計學習中的一種經典且重要的分類方法,在流行病學、慢性病學、臨床醫(yī)學研究中有廣泛應用。二項 logistic 回歸模型屬于二分類模型,假設我們有n 個獨立哮喘數據樣本,(xi,yi),i∈1,2,…,n, xi=(xi1,xi2,…, xim),n=300,m=11,二項logistic 回歸模型的概率分布形式如下[5]:

表1:IV 值的取值范圍及預測能力

表2:特征變量的IV 值和預測能力

表3:兒童哮喘特征變量得分表

yi是因變量,yi值為0 是輕度哮喘,yi值為1 是嚴重哮喘,其余所有特征變量xi是自變量,xi∈Rm,B=(β0,β1,β2,…,βm)是回歸系數,B∈Rm+1,則構建的二項logistic 回歸模型為

表4:邏輯回歸分類混淆舉證

使用極大似然估計(maximum likelihood estimate,MLE)方法來估計模型參數β0,β1,β2,…,βm,由于因變量yi服從,0-1 分布,故有:

求對數似然函數的極大值,即為參數β0,β1,…,βm的極大似然估計值,分別對β0,β1,…,βm求偏導并令偏導式取值為0,即可估計出系數值,由于該似然方程式非線性的,只能通過反復迭代的方法求得logistic 回歸模型的回歸系數的極大似然估計值:

兒童哮喘嚴重的概率表示為P,則兒童哮喘輕度的概率為1-P,因此優(yōu)勢比(odds ratio, RO)為兒童哮喘嚴重的概率表示為我們用引起兒童哮喘的特征變量的風險分數表示每個特征變量引起兒童嚴重哮喘的危險性,風險分數越高,引發(fā)兒童嚴重哮喘的危險性越大,否則,風險分數越低,引發(fā)兒童嚴重哮喘的危險性越小,即只會引發(fā)輕度哮喘。風險得分表示為概率比率RO 的對數對數的線性表達式[6]:

一般情況下,我們需設置兩個預期值:

(1)某個特定比率RO 對應的預期風險得分,記為Score_n

(2)比率RO 翻倍對應的預期風險得分,記為Score_2n

令RO=1:15,Score_n=60, Score_2n=10,代入上述公式可計算的A 和B,設第i 個特征變量的取值個數為Mi,則風險得分模型的計算式為:

根據上述建模方法,完成每個特征變量的風險得分,最終得到的兒童哮喘診斷風險得分表,如表3 所示,

從表3 中可以得知,兒童哮喘的特征變量中,呼吸道感染是引發(fā)兒童嚴重哮喘的重要因素,個人藥物過敏史、家族哮喘史、二手煙暴露是引發(fā)兒童嚴重哮喘的次重要因素,其他特征變量營養(yǎng)狀態(tài)、出生情況、生產方式、食物過敏、天氣變化是引發(fā)兒童嚴重哮喘的非主要因素,兒童年齡在3-5 歲期間是引發(fā)哮喘較多的年齡,男性兒比女性兒童稍容易引發(fā)哮喘,但差別不是很大。

4 模型評估

模型評估是評估模型分類的正確率,將驗證集的數據代入概率計算公式,計算出兒童哮喘嚴重的概率值,一般在平衡數據集中即是訓練數據集中正例數和負例數相等,此時分類閾值設定為0.5,但在不平衡數據集中,分類閾值取值等于正例數和負例數的比值[7],因此本文的邏輯回歸分類閾值取7/10,只要兒童哮喘概率超過7/10就是嚴重哮喘,否則,判斷為輕度哮喘,本文基于訓練集和測試集,分別進行了5 次模型訓練和計算對應的評估指標,取平均值。按上述的分類標準,將分類結果生成混淆矩陣,如表4 所示。

以假正率(false positive rate)為橫坐標,真正率(ture positive rate)為縱坐標形成的ROC(receiver operator characteristic,ROC)曲線距45 度直線距離較遠,ROC 曲線下區(qū)域形成的面積AUC(area under curve,AUC),為0.897,能夠輔助醫(yī)生診斷兒童哮喘時做出較準確的判斷。

5 總結

哮喘是全球最常見的慢性疾病之一,也是我國兒童中最常見的慢性呼吸疾病,本文使用信息量篩選特征變量,實現基于logistic回歸模型的風險評分,根據評分大小,判斷哪些特征變量能引發(fā)兒童嚴重哮喘,哪些特征變量會引發(fā)兒童輕度哮喘。最后對logistic回歸模型的分類正確率進行了評估,結果分類效果較好,性能較優(yōu)。在日常護理中,可以通過設置這些特征因素作為早期篩查指標來協助調查,達到預防和早期干預治療的作用,在醫(yī)生診療過程中,通過詢問、醫(yī)療檢測這些特征因素來輔助醫(yī)生有效快速的做出醫(yī)療決策,從而對兒童哮喘起到積極預防、治療和加強管理的作用。

猜你喜歡
分類特征因素
腹部脹氣的飲食因素
中老年保健(2022年5期)2022-08-24 02:36:04
群眾路線是百年大黨成功之內核性制度因素的外在表達
當代陜西(2021年12期)2021-08-05 07:45:46
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
短道速滑運動員非智力因素的培養(yǎng)
冰雪運動(2016年4期)2016-04-16 05:54:56
主站蜘蛛池模板: 亚洲精品无码av中文字幕| 日本黄色a视频| 日韩123欧美字幕| 免费一级毛片完整版在线看| 国内精品小视频在线| 国产精品一区在线观看你懂的| 在线va视频| 亚洲国产中文精品va在线播放| 四虎国产精品永久一区| 免费人成在线观看视频色| 国产真实乱子伦视频播放| 欧美成人区| 国产真实乱子伦视频播放| av色爱 天堂网| 玩两个丰满老熟女久久网| 青青草国产精品久久久久| 日本道综合一本久久久88| 亚欧乱色视频网站大全| 亚洲免费黄色网| 亚洲av综合网| 亚洲人成成无码网WWW| 爽爽影院十八禁在线观看| 无码啪啪精品天堂浪潮av| 成年看免费观看视频拍拍| 久久久久亚洲精品成人网 | 久久黄色一级视频| 亚洲日本中文字幕乱码中文 | 欧美日本在线观看| 免费在线a视频| 欧美笫一页| 强奷白丝美女在线观看| 蜜芽国产尤物av尤物在线看| 国产十八禁在线观看免费| 中文字幕免费视频| 精品三级在线| 久青草网站| 成人亚洲国产| 亚洲综合第一区| a色毛片免费视频| 伊人久久精品无码麻豆精品| 日韩精品免费在线视频| 国产成人精品日本亚洲77美色| 亚洲成人精品| 在线精品亚洲一区二区古装| 免费中文字幕一级毛片| 亚洲中文字幕手机在线第一页| 久久大香香蕉国产免费网站| 午夜爽爽视频| 国产精品香蕉| 亚洲国产成人无码AV在线影院L| 丁香婷婷综合激情| 亚洲欧美综合在线观看| 亚洲经典在线中文字幕| 国产a在视频线精品视频下载| 欧美亚洲日韩中文| 婷婷在线网站| 精品人妻系列无码专区久久| 欧美三级不卡在线观看视频| 欧美综合成人| 在线欧美日韩国产| 国产精品亚洲五月天高清| 午夜福利网址| 女人毛片a级大学毛片免费| 久久亚洲日本不卡一区二区| 国产第八页| 精品亚洲国产成人AV| 国产99欧美精品久久精品久久| 二级特黄绝大片免费视频大片| 91小视频在线观看| 久久精品66| 色AV色 综合网站| 五月天久久婷婷| 日韩不卡高清视频| 亚洲成人动漫在线观看| 国产精品天干天干在线观看 | 全裸无码专区| 日韩AV无码一区| 最新国产你懂的在线网址| 亚洲国产日韩欧美在线| 欧美成人综合在线| 欧美日韩在线国产| 这里只有精品在线播放|