999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電子病歷數(shù)據(jù)處理方法研究

2018-12-08 09:29:34余艷霞王燕聞誼
數(shù)字技術(shù)與應用 2018年8期
關(guān)鍵詞:電子病歷數(shù)據(jù)挖掘信息技術(shù)

余艷霞 王燕 聞誼

摘要:本文針對電子病歷數(shù)據(jù)中存在的數(shù)據(jù)結(jié)構(gòu)復雜、數(shù)據(jù)冗余性、數(shù)據(jù)不完整性、數(shù)據(jù)不一致性等特點,采取數(shù)據(jù)抽取、數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)轉(zhuǎn)換等方法對這些數(shù)據(jù)進行了處理,旨在提取電子病歷數(shù)據(jù)庫中有價值的信息并挖掘隱含在其中的醫(yī)學診斷規(guī)則和模式,從而為疾病的診斷和治療提供科學的、準確的輔助決策。

關(guān)鍵詞:電子病歷;數(shù)據(jù)挖掘;信息技術(shù)

中圖分類號:R197.324 文獻標識碼:A 文章編號:1007-9416(2018)08-0035-04

1 前言

近年來,隨著醫(yī)療信息系統(tǒng)在我國的不斷普及信息技術(shù)在醫(yī)學領(lǐng)域不斷發(fā)展,很多大中型醫(yī)療機構(gòu)已經(jīng)構(gòu)建了相當完善的數(shù)據(jù)信息系統(tǒng),積累了大量的電子病歷數(shù)據(jù)。但是,國內(nèi)大多數(shù)醫(yī)院并沒有對數(shù)據(jù)進行進一步的分析和研究,只是運用傳統(tǒng)的數(shù)據(jù)檢索和統(tǒng)計方法來對數(shù)據(jù)進行處理,更多的還是停留在對電子病歷數(shù)據(jù)的增加、刪除、修改和查詢上,比如說,醫(yī)院會根據(jù)病人的多次住院情況記錄來進行比較,總體上了解病人的病情發(fā)展情況,并未對這些記錄做進一步的分析,來發(fā)現(xiàn)其中的規(guī)律。這就產(chǎn)生了“數(shù)據(jù)豐富,但信息貧乏”的現(xiàn)象。電子病歷數(shù)據(jù)形式含有文字、圖像、影像和切片等,主要還是以文本為主,這些文本包括了病人的基本信息以及患者在醫(yī)院就診的相關(guān)信息。這些數(shù)據(jù)中存在大量復雜的、重復的、不完整的數(shù)據(jù)。如果直接在這些數(shù)據(jù)進行研究,效果肯定不會很好,甚至會出現(xiàn)結(jié)果的嚴重偏差,而醫(yī)學研究關(guān)系到人的生命和身體健康,因此,需要對這些數(shù)據(jù)進行處理。只有這樣,才能改進數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)的利用率,保證結(jié)果的正確性和合理性。

在進行數(shù)據(jù)處理之前,需要對電子病歷系統(tǒng)的結(jié)構(gòu)和電子病歷數(shù)據(jù)的特點有一定的了解,知道電子病歷系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu),如出院記錄、病名名稱和手術(shù)記錄等在數(shù)據(jù)庫中對應的表名等,它屬于哪個表空間,含有哪些字段屬性,還有就是每個字段的類型和長度分別是什么。電子病歷數(shù)據(jù)的特點如下:

(1)數(shù)據(jù)不完整性、不一致性。電子病歷中的數(shù)據(jù)一般會由醫(yī)院的醫(yī)務人員進行操作,目前國內(nèi)還沒一套很標準的規(guī)范,以至于不同的人會對同一種病描述的不一樣,從而會產(chǎn)生數(shù)據(jù)的不一致性。其次,電子病歷只是對患者病情的概括性描述,并不能完全表達患者的病情,可能還會產(chǎn)生遺漏,這種情況會造成數(shù)據(jù)的不完整。

(2)數(shù)據(jù)結(jié)構(gòu)復雜。電子病歷數(shù)據(jù)表現(xiàn)的形式很多,有文本類型的,有圖像類型的,還有數(shù)字類型。這些形式的使得我們無法以統(tǒng)一的格式對它們進行挖掘,需要采取不同的方法。

(3)數(shù)據(jù)冗余性。隨著醫(yī)療技術(shù)的快速發(fā)展,每天都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)中會存在一些重復的數(shù)據(jù)。比如說,有些疾病,比如說流行性感冒,患者表現(xiàn)的癥狀還有醫(yī)生給出的治療方案一般都很相似,這樣就會造成數(shù)據(jù)庫中數(shù)據(jù)的重復,還有就是患者在不同醫(yī)院進行就診也會產(chǎn)生重復的數(shù)據(jù)。這些情況都會造成數(shù)據(jù)的冗余。

(4)數(shù)據(jù)隱私性。電子病歷數(shù)據(jù)包含了患者的所有在醫(yī)院進行治療的信息。其中有些信息就屬于病人的隱私,如姓名、年齡、聯(lián)系方式、婚姻情況和所患疾病等,在數(shù)據(jù)處理過程中需要對這些信息進行保護。

下面分別對數(shù)據(jù)處理常用的方法包括數(shù)據(jù)抽取、數(shù)據(jù)清理、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等進行研究。

2 數(shù)據(jù)抽取方法

數(shù)據(jù)抽取方法的主要目標在從電子病歷數(shù)據(jù)中找出符合我們要求的特征屬性。考慮到電子病歷數(shù)據(jù)的數(shù)據(jù)格式多樣,本文從兩方面對數(shù)據(jù)進行抽取,具體描述如下:

(1)結(jié)構(gòu)化的數(shù)據(jù)。對于已經(jīng)結(jié)構(gòu)化的數(shù)據(jù),根據(jù)研究的目標從數(shù)據(jù)庫中找到相應的數(shù)據(jù),取出我們所需的屬性的值即可。圖1所示的是從Oracle數(shù)據(jù)庫中截取的關(guān)于病人出院診斷記錄表中的部分截圖,里面包括了患者的ID號,診斷編碼和診斷病名名稱等屬性。

我們可以使用SQL語句從中選出病人的ID號和對應的診斷病名名稱,并對數(shù)據(jù)格式進行轉(zhuǎn)換,然后利用算法尋找不同疾病之間的關(guān)系。

(2)非結(jié)構(gòu)化的數(shù)據(jù)。電子病歷中含有大量非結(jié)構(gòu)化的數(shù)據(jù),要想在這些數(shù)據(jù)中挖掘出有效的信息,我們需要將它們轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)來進行處理。我國的電子病歷共享文檔很多都是以XML文檔的形式存在,這種非結(jié)構(gòu)化的數(shù)據(jù)形式并不利于我們進行處理和分析。我們需要將XML文檔映射到關(guān)系數(shù)據(jù)庫中。在研讀了一些資料發(fā)現(xiàn),將XML文檔直接映射到關(guān)系數(shù)據(jù)庫并沒有很好的方法。因此,本文所用的科研數(shù)據(jù)庫采用將XML文檔與對象之間、對象與關(guān)系數(shù)據(jù)庫之間進行映射的方法來解決這個問題。首先,通過對象的序列化和反序列化來實現(xiàn)XML文檔和對象之間的相互轉(zhuǎn)換,然后,通過對象關(guān)系映射(ORM)來實現(xiàn)對象與關(guān)系數(shù)據(jù)庫之間的相互轉(zhuǎn)化。映射流程如圖2所示。

電子病歷共享文檔結(jié)構(gòu)化需要經(jīng)過兩個步驟。(1)電子數(shù)據(jù)抽?。和ㄟ^XSLT技術(shù),將CDA文檔中的電子病歷數(shù)據(jù)抽取出來放在一個簡化的XML文檔中。醫(yī)療數(shù)據(jù)包含在文檔中的元素或者屬性當中,這些數(shù)的類型和意義已經(jīng)在關(guān)系數(shù)據(jù)庫表中定義了,因此,只需提取電子病歷共享文檔中的數(shù)據(jù),和關(guān)系數(shù)據(jù)庫中表中的字段對應。(2)XML數(shù)據(jù)映射到關(guān)系數(shù)據(jù)庫:運用Java中對象的發(fā)序列技術(shù),將抽取數(shù)據(jù)后的XML文檔反序列化為Java對象,并且處理好對象之間的關(guān)系,然后通過ORM將這些java對象存儲到關(guān)系數(shù)據(jù)庫中。

對于非結(jié)構(gòu)化的文本數(shù)據(jù),需要利用自然語言處理技術(shù)(NLP)對其進行處理。對文本數(shù)據(jù)進行處理需要經(jīng)歷以下幾個步驟:

(1)文本分詞。文本分詞是文本預處理過程中不可缺少的部分,與英文文本中單詞中有空格不同,漢語文本字之間是連續(xù)的,所以要想獲取特征詞,就必須對這些文本數(shù)據(jù)進行分詞是,常用得中文分詞工具有ICTCLAS2015漢語分詞系統(tǒng)、IKAnalyer分詞、庖丁解牛分詞等。本文中運用的是ICTCLAS分詞工具對電子病歷系統(tǒng)中的文本文件進行處理,ICTCLAS由中科院研發(fā),是最早的中文分詞工具,采用C/C++進行編寫。選擇其作為分詞工具主要考慮到以下幾個方面原因:首先,自2000年誕生以來,目前全球用戶已經(jīng)突破30萬人,得到很高認可;其次,該分詞工具支持許多操作系統(tǒng),如Linux、Windows。另外,還支持不同的語言進行開發(fā),如C/C++、java等主流語言開發(fā);最后,它可以同時支持中英文分詞。

圖3表示的是電子病歷數(shù)據(jù)中部分片段截圖。

上述病歷片段在經(jīng)過ICTCLAS分詞工具分詞后的結(jié)果如圖4所示。

(2)去停用詞。文本數(shù)據(jù)中并不是所有的詞都能代表數(shù)據(jù)的特征,如“你”、“我”、“他”、“的”、“地”等,這些詞需要從文本中去掉。ICTCLAS分詞工具中會有這些詞的文檔,用戶自己還可以加入自己的一些無關(guān)的停用詞。

(3)詞頻統(tǒng)計。這一步非常關(guān)鍵。在去除掉停用詞后,剩下的詞就是文本的精華所在,此時,判斷一個詞的重要性就要統(tǒng)計它們在文檔中出現(xiàn)的次數(shù),即詞頻。一個詞在文本中出現(xiàn)的次數(shù)越多,則說明這個詞語越能表征這個文本。比如說,在糖尿病的診斷病例中,臨床癥狀會多次出現(xiàn)“多飲”、“多尿”等詞語。這些詞語就可以代表對糖尿病進行診斷的特征。

(4)特征轉(zhuǎn)換。就是把提取出來的特征轉(zhuǎn)換為適合算法運行的形式。

3 數(shù)據(jù)清理方法

電子病歷數(shù)據(jù)會含有一些不完整的、有噪聲的和不一致的數(shù)據(jù),我們需要對這些數(shù)據(jù)進行數(shù)據(jù)清理。如在本文研究的電子病歷數(shù)據(jù)中的出院診斷記錄中在疾病診斷一欄就有許多缺失的數(shù)據(jù)。這些數(shù)據(jù)如果直接被用來進行數(shù)據(jù)處理的話,會很大程度上影響結(jié)果,給人產(chǎn)生誤導,所以說對其進行數(shù)據(jù)清理是十分必要的。

(1)缺省值處理。由于電子病歷系統(tǒng)中數(shù)據(jù)量特別的大,更新的數(shù)據(jù)快的特點,會產(chǎn)生很多缺失的數(shù)據(jù)。如XXX醫(yī)院的電子病歷系統(tǒng)中出院診斷記錄中有許多缺省的診斷數(shù)據(jù)。常用解決缺省值的辦法有忽略元組,這種方法在缺失數(shù)據(jù)特別少的時候特別有效;在醫(yī)學專家的指導下,人工填寫缺失值,該方法效率比較低,很花費時間。本文為了避免缺省數(shù)據(jù)對算法挖掘效果的影響,采用的辦法就是直接刪除掉缺省的數(shù)據(jù)。

(2)重復數(shù)據(jù)處理。在仔細分析了電子病歷數(shù)據(jù)庫中的表中的數(shù)據(jù)后,發(fā)現(xiàn)這些數(shù)據(jù)中含有許多重復的或者相似的記錄,比如說,患者中診斷結(jié)果中有“高血壓”、還有“高血壓3級”,按照醫(yī)學原理,它們屬于同一種病。所以在關(guān)聯(lián)規(guī)則的挖掘中的實驗中,我們把他們都按照“高血壓”來處理,所以刪除“高血壓3級”的記錄,類似的還有“糖尿病”與“2型糖尿病”等等。

4 數(shù)據(jù)集成方法

電子病歷數(shù)據(jù)來源十分廣泛,可以來源于某些電子儀器,可以來源醫(yī)生對病情的記錄等等,我們需要把這些數(shù)據(jù)進行整合且進行統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。本文的數(shù)據(jù)源統(tǒng)一來自O(shè)RACLE11G數(shù)據(jù)庫,數(shù)據(jù)進行抽取后同樣存于ORACLE11G數(shù)據(jù)庫。

5 數(shù)據(jù)轉(zhuǎn)換方法

電子病歷系統(tǒng)中的許多數(shù)據(jù)不能直接拿來就能進行關(guān)聯(lián)處理的,必須在進行挖掘工作前對數(shù)據(jù)進行變換,所以需要把電子病歷數(shù)據(jù)轉(zhuǎn)化為包含項的事務數(shù)據(jù)格式。電子病歷數(shù)據(jù)包括數(shù)值屬性、類別屬性等。數(shù)值屬性如患者的年齡、醫(yī)院檢測數(shù)據(jù)等,我們不可能把每個數(shù)值都當作一個項進行處理,這樣會導致數(shù)據(jù)維度太高,不利于關(guān)聯(lián)處理,我們需要根據(jù)某種標準數(shù)據(jù)進行區(qū)間劃分,不同區(qū)間分別對應一個標識。比如對患者的年齡,可以分為3個區(qū)間,A1:age<30,A2:3060。對于類別屬性,如出院診斷記錄中病名名稱,它們的值是分類的,比如說診斷結(jié)果為心臟病、高血壓等,每一種診斷結(jié)果都對應關(guān)聯(lián)處理的一個項,這樣就可以發(fā)現(xiàn)不同疾病間隱藏的關(guān)系。

以糖尿病數(shù)據(jù)為例,在進行數(shù)據(jù)變換之前,首先通過閱讀適當醫(yī)學資料和咨詢醫(yī)院專家來確定劃分的標準。本文對9個屬性進行數(shù)據(jù)轉(zhuǎn)換如下所示。

(1)年齡:A1:小于30歲;A2:30歲到60歲;A3:大于60歲。

(2)性別:M:男;F:女。

(3)臨床表現(xiàn):Z1:多飲、多尿、多食和消瘦;Z2:疲乏無力、身體肥胖;Z3:其它。

(4)是否嗜煙:S1:是;S2:否。

(5)是否嗜酒:D1:是;D2:否。

(6)是否空腹:L1:是;L2:否。

(7)血糖含量:B1:血糖含量小于7毫摩爾/升;B2:血糖含量在7毫摩爾/升和10毫摩爾/升之間;B3:血糖含量在10毫摩爾/升和15毫摩爾/升之間;B4:血糖含量大于15毫摩爾/升之間。

(8)視力情況:E1:不正常;E2:正常。

(9)糖尿病類型:I1:1型糖尿??;I2:2型糖尿病。

數(shù)據(jù)經(jīng)過這些變換后,就可應用關(guān)聯(lián)規(guī)則算法進行規(guī)則挖掘了,來發(fā)現(xiàn)這些屬性之間的關(guān)系了。圖5表現(xiàn)數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換后的部分結(jié)果展示。

6 結(jié)語

本文針對電子病歷數(shù)據(jù)中存在的數(shù)據(jù)結(jié)構(gòu)復雜、數(shù)據(jù)冗余性、數(shù)據(jù)不完整性、數(shù)據(jù)不一致性等特點,采取數(shù)據(jù)抽取、數(shù)據(jù)清理、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等方法對這些數(shù)據(jù)進行了處理,旨在提取電子病歷數(shù)據(jù)庫中有價值的信息并挖掘隱含在其中的醫(yī)學診斷規(guī)則和模式,從而為疾病的診斷和治療提供科學的、準確的輔助決策。也就是說,醫(yī)院中關(guān)于患者的病歷數(shù)據(jù)中蘊含著豐富的信息和知識,比如說疾病的主要特征、疾病之間隱含的關(guān)系以及疾病的發(fā)展規(guī)律等,這些信息的提取可以在一定程度上幫助科研人員進行醫(yī)學研究、輔助醫(yī)生臨床診斷,從而促進醫(yī)學發(fā)展。來發(fā)現(xiàn)數(shù)據(jù)中有用的規(guī)則和知識。并且可以利用這些規(guī)律去輔助醫(yī)生診斷、改善醫(yī)院管理、豐富研究內(nèi)容??焖?、有效地從這些的數(shù)據(jù)中發(fā)現(xiàn)隱藏其中的、有用的信息和知識,從而提高醫(yī)療水平,因此,對電子病歷數(shù)據(jù)進行研究無論在科研方面還是在應用方面都很有意義。

參考文獻

[1]郭煜.電子病歷與手寫病歷缺陷比較及對策分析[J].基層醫(yī)學論壇,2012,(z1):91-92.

[2]Ravindranath K R. Clinical Decision Support System for heart diseases using Extended sub tree[C]//Pervasive Computing (ICPC), 2015 International Conference on. IEEE, 2015:1-5.

[3]丁衛(wèi)平,祁恒,董建成,等.基于關(guān)聯(lián)規(guī)則的電子病歷挖掘算法研究與應用[J].微電子學與計算機,2007,24(3):69-73.

[4]胡光闊,王天朝,江曉云,等.基于粗糙集理論的數(shù)據(jù)挖掘技術(shù)臨床應用研究[J].中國數(shù)字醫(yī)學,2011,06(1):26-27.

[5]王欣萍,李燕.數(shù)據(jù)挖掘技術(shù)于醫(yī)學電子病歷系統(tǒng)的應用[J].現(xiàn)代預防醫(yī)學,2008,35(13):2450-2451.

[6]Hoogendoorn M, Moons L M G, Numans M E, et al. Utilizing data mining for predictive modeling of colorectal cancer using electronic medical records[M]//Brain Informatics and Health. Springer International Publishing, 2014: 132-141.

[7]Zhongguang Q, Zong-yuan M, Zhao-zhi D. The application of rough set in the Chinese medicine rheumatic arthritis diagnosis[J]. Chinese Journal of Biomedical Engineering,2001,20(4):357-363.

[8]莊軍,郭平,周楊,等.電子病歷數(shù)據(jù)預處理技術(shù)[J].計算機科學,2007,34(3):141-144.

[9]Utama P A, Distiawan B. Spark-gram: Mining frequent N-grams using parallel processing in Spark[C]//2015 International Conference on Advanced Computer Science and Information Systems (ICACSIS). IEEE, 2015: 129-136.

[10]Gui F, Ma Y, Zhang F, et al. A distributed frequent itemset mining algorithm based on Spark[C]//Computer Supported Cooperative Work in Design (CSCWD), 2015 IEEE 19th International Conference on. IEEE, 2015: 271-275.

猜你喜歡
電子病歷數(shù)據(jù)挖掘信息技術(shù)
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
信息技術(shù)在幼兒教育中的有效應用
甘肅教育(2020年2期)2020-09-11 08:00:44
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電子病歷保全與認證研究
法制博覽(2016年12期)2016-12-28 13:05:51
基于病種的全結(jié)構(gòu)化病歷模板研發(fā)與應用
現(xiàn)階段電子病歷問題的探討及改革
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
主站蜘蛛池模板: 中国毛片网| 99一级毛片| 多人乱p欧美在线观看| 国内精自线i品一区202| 91麻豆精品视频| 久久精品国产91久久综合麻豆自制| 亚洲六月丁香六月婷婷蜜芽| 69视频国产| 欧美日韩在线成人| 国产成人亚洲无码淙合青草| 成年A级毛片| 久久久久免费精品国产| 国产极品嫩模在线观看91| 中文字幕免费在线视频| 日韩天堂视频| 国产经典免费播放视频| 精品伊人久久久大香线蕉欧美| 2020久久国产综合精品swag| 国产精品男人的天堂| 国产精品丝袜视频| www亚洲天堂| 免费观看精品视频999| 欧美高清日韩| 天天综合色网| 免费国产不卡午夜福在线观看| 91 九色视频丝袜| 久久久久国产精品嫩草影院| 午夜福利在线观看入口| 亚洲成人高清在线观看| 色国产视频| 久热这里只有精品6| 欧美日韩午夜| 亚洲精品桃花岛av在线| 午夜老司机永久免费看片| 中文无码伦av中文字幕| 国内丰满少妇猛烈精品播| 91免费国产在线观看尤物| 欧美日韩91| 国产欧美日韩在线在线不卡视频| 国产一级视频在线观看网站| 免费xxxxx在线观看网站| 国产激情无码一区二区免费| 亚洲人视频在线观看| 一级不卡毛片| 直接黄91麻豆网站| 一区二区午夜| 在线免费亚洲无码视频| 亚洲国产日韩在线观看| 第一区免费在线观看| 免费欧美一级| 日本国产精品一区久久久| 国产成人综合久久| 亚洲V日韩V无码一区二区| 色婷婷成人网| 国产精品七七在线播放| 国产在线观看精品| 波多野结衣一区二区三区四区视频| 日韩A∨精品日韩精品无码| 午夜精品福利影院| 在线观看91香蕉国产免费| 亚欧乱色视频网站大全| 国产簧片免费在线播放| 99视频精品全国免费品| 六月婷婷精品视频在线观看| 成人综合久久综合| 无码免费视频| 欧美亚洲一区二区三区导航| 久久一本精品久久久ー99| swag国产精品| 午夜福利在线观看入口| 狠狠干综合| 99伊人精品| 国产精品成人AⅤ在线一二三四| 国产视频 第一页| 国产网站在线看| 色综合综合网| 成人国产小视频| 久久女人网| 国产女人在线| 国产日韩丝袜一二三区| 久久96热在精品国产高清| 毛片久久网站小视频|