999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫療數據挖掘場景下的數據加工處理方法研究

2024-07-09 12:32:51葉章輝
電腦知識與技術 2024年15期

葉章輝

關鍵詞:醫療數據挖掘;數據加工;缺失值;異常值;非量化數值

1醫療數據挖掘的意義和價值

隨著信息技術的高速發展,醫學領域信息化越來越受到重視。如何利用信息技術更好地為醫學實踐和醫學研究服務,受到越來越廣泛的關注。醫學信息以數據的形式存儲,如基因序列、電子病歷、臨床用藥、醫學影像以及臨床檢查檢驗等每天都產生海量的數據信息[1-2]。有人將大數據比作“原油”,而數據挖掘則是大數據應用的核心。安全合理地利用醫學大數據資源,可以為臨床提供輔助診斷,拓展科研思路,提高科研效率和強化醫院數據治理能力,甚至能夠提高人類的健康水平[3-4]。然而,醫療數據的來源多樣,從而導致對數據進行加工和處理的需求存在差異。如何基于業務需求,拆解問題,發現問題本質,選擇合適的數據加工處理方法,需要不斷積累經驗。將醫學問題轉化為數學問題,利用數據模型來解決醫療數據挖掘的需求,是一項重要的工作[5]。

2醫療數據類型的定義和常見數據質量問題

本文采用中國真實世界數據與研究聯盟(China?REAL)[6]制定的既有健康醫療數據的定義,對醫療數據進行了劃分。既有健康醫療數據是指基于醫療管理決策和醫院各科室正常運行而收集的醫療數據,與針對特定研究目標而收集的醫療數據不同。這類數據包括醫院的實驗室信息系統數據、電子病例數據、體檢中心數據和醫保理賠數據等,通常由醫療機構在日常運營過程中積累而來。而基于特定研究目的而設計的實驗數據,則遵循預先設定的方案,這些數據與既有健康醫療數據有所不同,因為這些數據的收集過程通常受到研究目標所指導,被劃分為非既有健康醫療數據。

從既有健康醫療數據的定義可以看出,該類數據在收集過程中缺乏明確的數據收集規則,因此其數據質量和可用性難以得到保證。在使用過程中會面臨諸多問題和挑戰。

1)異構性和多樣性:不同醫療機構積累的數據可能具有不同的格式、結構和標準,這使得數據的整合和分析變得復雜。醫療數據的異構性和多樣性需要采用適當的數據標準化和清洗方法進行處理。

2)非結構化的數據:一些重要的醫療數據,如醫療影像數據通常以非結構化形式保存,這增加了數據加工處理和分析的復雜性。例如,心電圖、CT掃描圖像和核磁共振圖像等需要圖像處理技術。

3)數據的缺失:原始數據在收集和存儲過程中未設定明確的收集規則,因此在既有健康數據集中容易出現數據缺失情況。例如,患者未提供個人信息、技術故障導致信息丟失、樣本的損失導致數據缺失。

4)噪聲異常數據:在數據采集和記錄過程中可能受到干擾或誤差,導致生成噪聲異常數據。例如,儀器故障導致誤差、環境干擾或人為失誤產生的異常數據。

對既有健康醫療數據進行挖掘分析存在諸多挑戰。為了有效地研究這些數據,通常需要建立專業的研究團隊,明確定研究目標,并最終以符合臨床研究需求的方式進行醫學數據挖掘[7]。數據工程師負責數據的收集和處理,合理高效的數據加工處理方法將對研究結果的可靠性和準確性產生重大影響。本文接下來主要介紹醫療數據挖掘場景下的數據加工處理方法。

3數據加工處理方法

基于既有健康醫療數據進行研究時,數據質量難以得到保證,可能存在數據缺失和錯誤等情況。因此,在進行數據分析之前,需要對原始數據進行加工處理。本文主要介紹了3種主要數據加工處理方法,包括缺失值處理、異常值識別和非量化數值處理。

3.1缺失值處理

從數據庫中提取原始數據時,由于數據為既有醫療數據,數據記錄時并沒有確切的規劃,記錄過程中可能存在數據信息缺失的情況。例如在對糖耐量異常人群進行血糖分析時,可能存在部分患者的餐后血糖數據缺失。樣本數據的缺失可能導致數據統計分析結果存在偏差,所以在對數據進行分析時,需要對缺失的數據進行處理。以下介紹常規的缺失數據加工處理方法:

1)直接剔除。在研究項目中,如果樣本所缺失的數據為該研究中極為關鍵的研究變量數據,則應該直接對該樣本進行剔除處理。例如研究糖尿病患者出現動脈粥樣硬化性心血管疾病的演變過程,若一個樣本缺少患者的降壓藥使用情況,且患者的用藥情況直接影響研究的決定性變量分析,則該樣本不能滿足研究基本要求,需要從數據集中剔除。

2)用統計學指標填補缺失值。在收集的樣本集中,每個指標可能存在一定缺失率,但臨床研究經驗表明,存在適度缺失是允許的,并且有可以容忍的缺失率閾值。如果指標數據的缺失比例在設定閾值以內,可以結合臨床研究經驗,采用統計學上的均值、中位數、極大值、極小值或者眾數中的一種取值來填補缺失值,該方案是一種被普遍采用的方法,常見于醫學研究。

3)用算法填補缺失值。通過算法實現缺失值的填充是一種相對復雜的方法,以協同過濾算法為例進行介紹。協同過濾算法[8]是一種常用于推薦領域的算法,該算法將個體的特征信息用向量形式表示,通過計算不同個體間的距離來評估相似度。定義越相似的個體,他們的指標值也越相近。在進行缺失值填充時,可以通過計算識別出與存在缺失值的個體最相似的樣本集(該樣本集的指標信息是完整的),然后通過取均值或最相似個體的相應指標值來替換缺失值。

4)直接不做處理。在臨床研究中,缺失值處理通常是必不可少的步驟,以便達到較好的分析效果。但在某些特殊情況下,即便不對缺失數據進行處理,對建模的效果也不會產生影響。例如在構建隨機森林算法的疾病預測模型時,由于隨機森林算法的原理特性,其對特征數據的缺失值并不敏感,所以在建模過程中可以不進行缺失值處理。這種情況較為特殊,僅在特定條件下可作為可選的處理方案。

3.2異常值識別

異常值是指樣本中個別數值明顯偏離其所屬樣本的其余觀測值,也稱為異常數據或離群值。在統計分析和機器學習應用中,異常值的檢測是非常重要的步驟。異常值如果不做處理,會導致該屬性的分布特性發生偏斜。同時異常值會嚴重影響數據集的均值和標準差,從而可能導致統計分析結果存在偏差或影響估計。本文主要介紹5種常用的異常值檢測方法:

1)領域經驗。基于專業人員對樣本特征數據屬性的了解來判斷數據是否為異常值。例如分析正常人群的餐后血糖變化趨勢信息時,正常人的餐后兩小時血糖在3.9~7.8mmol/L范圍內,如果出現餐后兩小時血糖為22mmol/L,則可以通過經驗判斷該患者屬于糖尿病患者的血糖數據,不屬于正常人群,可認定該數據為異常數據。

2)3σ(三西格瑪)準則。3σ準則又稱拉伊達準則,在統計學中,標準差是衡量一組值變化量或離散度的度量,低標準差表示數據趨向于接近集合的平均值。在分析過程中,假設實驗數據總體服從正態分布,設μ表示該數據集的平均值,σ表示該數據集的標準差。

數值分布在(μ-σ,μ+σ)中的概率為0.6827;

數值分布在(μ-2σ,μ+2σ)中的概率為0.9545;

數值分布在(μ-3σ,μ+3σ)中的概率為0.9973。

在實際數據中出現大于μ+3σ或小于μ-3σ的數據概率是很小的,所以3σ準則將超出該范圍的數據定義為異常值。

3)Z-Score(標準化數值法)。Z-Score是通過實測值與平均值的差再除以標準差的計算方式,如式(1)。

其中x為實測值,μ為平均值,σ為標準差。

Z值代表實測值與總體平均值之間的距離。該方法可以將兩組或多組數據轉化為無量綱的Z-score分值,提高數據的可比性,避免量綱差異對數據可比性的影響。例如在分析人群血糖數據時,既有空腹血糖數據,也有餐后兩小時血糖數據,要判斷某患者的空腹血糖和餐后兩小時血糖是否異常,由于兩個指標的參考范圍不一致,無法直接對比,可通過計算兩個指標對應的Z-score數據來判斷這兩個樣本的異常程度。

4)三分之一極值判別法。文獻[9]中提到,異常值判斷基于樣本點之間的距離。參考公式(2),其中X(n)為數據集中最大值,X(n-1)為第二大值,X(1)為最小值。X(n)-X(1)表示數據集的最大間隔,如果最大值與其最近節點的間隔大于最大間隔的三分之一,則認為這個最大值為異常值。

5)箱型圖異常值。箱型圖可展示樣本數據分布情況,包含數據集的四分位數,基于四分位數可計算出異常取值的閾值信息。

計算方法:獲取數據集的四分位數,得到Q1(25%分位數),Median(中位數),Q3(75%)分位數。跨度取值為QD=Q3-Q1。

lower則表示閾值下限,upper表示閾值上限。在異常值識別中,數據集中大于upper的和小于lower的數據被判定為異常值,如圖2所示。圖中最上方和最下方兩個節點為異常值節點,正T和倒T的橫線取值對應閾值上限和下限,中間方框上中下三條橫線取值分別為Q3、Median和Q1。

3.3非量化數值處理

在基于既有健康醫療數據進行數據分析時,除了文本類型和圖像類型的數據外,大部分數據都是數值型的,例如年齡、身高、體重等。這些量化數值可以方便直接進行統計分析和建模。而對于性別、尿蛋白、尿潛血、尿液顏色等指標,則采用非數值型的格式進行存儲。針對這類非數值型數據,在進行處理時可以將其劃分為有量級區別和無量級區別兩種情況:

1)無量級區別的非量化數據。例如性別、尿液顏色、糞便顏色等,不同取值間只有類別的區別,沒有量級屬性。對于此類非量化數據,可以采用獨熱碼(One-HotEncoding)的方式進行數值化處理。如在性別收集的數據中只有一個維度,可能在數據集中用1表示男性,2表示女性。如果不做處理直接進行均值計算,所得到的均值并無實際統計意義。所以在統計分析和建模時應避免因賦值而對模型系數產生影響,通過獨熱碼處理,可以將性別數據轉化為兩個維度,如圖3所示。這樣可以避免特征標簽數值對分析和建模產生影響。

2)有量級區別的非量化數據。以尿液檢查報告中的尿蛋白為例,在報告中以符號形式進行表征[-、±、+、++、+++],無法直接進行數值型分析和建模。此時可以依據臨床經驗,對不同標志進行相應的數值轉化。尿蛋白的不同表征符號存在量級區別,[-]表示正常,未檢查到尿蛋白,后面依次表示所檢查的尿蛋白含量逐級增加。因此,可以通過設定合適的數值來替換對應的符號信息。

4結束語

隨著數據挖掘技術在醫療研究領域中的應用越來越普及,醫療數據加工處理在醫療研究中扮演著愈發重要的角色。通過數據加工處理和分析,可以幫助研究人員合理利用既往患者的大量醫療數據,建立疾病預測模型,從而為臨床醫生提供更準確的診斷支持。此外,結合患者檢查檢驗結果數據,還可為臨床治療決策提供依據,為醫生制定更適合患者的治療方案提供幫助,并為促進醫學科研創新提供支持。

最重要的是,在醫療資源管理層面,充分利用醫療數據加工處理技術,可為醫院管理者提供更加細致、全面和有價值的信息,有助于合理分配醫療資源,提高醫療效率和質量。總之,醫療數據加工處理在提高醫療質量、推動醫學研究,以及優化醫療資源管理等方面發揮著重要作用。

主站蜘蛛池模板: 亚洲色图欧美| 亚洲精品无码成人片在线观看 | 真实国产精品vr专区| 中文字幕啪啪| 被公侵犯人妻少妇一区二区三区| 午夜一区二区三区| 婷婷午夜天| 中文字幕无码电影| 99一级毛片| 亚洲综合网在线观看| 国产在线日本| 国产成人高清亚洲一区久久| 国产精品lululu在线观看 | 五月婷婷综合网| 亚洲热线99精品视频| 91久久偷偷做嫩草影院精品| 欧美三级自拍| 99青青青精品视频在线| 亚洲AV电影不卡在线观看| 亚洲中文字幕在线精品一区| 亚洲精品欧美日本中文字幕| 亚洲综合久久成人AV| 亚洲第一区精品日韩在线播放| 国产成人a在线观看视频| 1769国产精品视频免费观看| 中文字幕人妻无码系列第三区| 国产人成网线在线播放va| 一区二区在线视频免费观看| 中日无码在线观看| 午夜国产小视频| 久久免费视频6| 毛片基地视频| 视频二区欧美| 国产主播喷水| 国产成人精品一区二区三在线观看| 亚洲无码高清视频在线观看| 亚洲视频二| 91福利片| 欧美成人综合在线| 国产不卡网| 亚洲床戏一区| 国产粉嫩粉嫩的18在线播放91| 69综合网| 少妇精品网站| 日本午夜三级| 2021无码专区人妻系列日韩| 亚洲精品爱草草视频在线| 99热在线只有精品| 怡春院欧美一区二区三区免费| 欧美视频在线观看第一页| 欧美亚洲日韩中文| 91蝌蚪视频在线观看| 色综合中文| 亚洲一区二区三区香蕉| 国产在线高清一级毛片| 一区二区三区在线不卡免费| 91破解版在线亚洲| 青青草91视频| 亚洲精品无码av中文字幕| 亚洲精品动漫在线观看| 99视频在线免费看| 亚洲国产成人综合精品2020 | AV片亚洲国产男人的天堂| 伊人蕉久影院| 久久精品人妻中文系列| 国产爽爽视频| 亚洲成人精品| 亚洲成人网在线观看| 国产超薄肉色丝袜网站| 久久久久青草大香线综合精品| 亚洲成aⅴ人片在线影院八| 精品伊人久久久香线蕉| 四虎成人精品在永久免费| 日本在线国产| 97在线观看视频免费| 911亚洲精品| 欧美色图第一页| 精品国产一二三区| 久久无码高潮喷水| 在线色国产| 狼友视频一区二区三区| 人妻少妇乱子伦精品无码专区毛片|