999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)聯(lián)關(guān)系的電子病歷聚類研究

2018-03-22 01:05:36
關(guān)鍵詞:關(guān)聯(lián)語義模型

電子病歷是基于特定系統(tǒng)的電子化患者記錄,電子病歷系統(tǒng)提供用戶訪問完整準(zhǔn)確的數(shù)據(jù)、警示、提示和臨床決策支持系統(tǒng)的能力[1]。電子病歷數(shù)據(jù)是患者在醫(yī)療機(jī)構(gòu)歷次就診過程中產(chǎn)生和被記錄的完整的、詳細(xì)的非結(jié)構(gòu)化數(shù)據(jù),具有數(shù)量多、復(fù)雜性、內(nèi)容豐富的特點(diǎn)[2-4]。如何對電子病歷的非結(jié)構(gòu)化文本信息進(jìn)行標(biāo)注和分析、索引、查詢,進(jìn)而挖掘并獲取有效信息,成為醫(yī)療健康領(lǐng)域中一個亟待解決的問題。

聚類(clustering)是文本挖掘的主要手段之一,是指將數(shù)據(jù)集劃分為若干組(class)或類(cluster),并使同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度[5]。電子病歷聚類是將工程中非監(jiān)督模式識別運(yùn)用于電子病歷的數(shù)據(jù)挖掘中,將沒有標(biāo)記的電子病歷劃分為多個子集,使同一個子集中電子病歷的相似度盡可能的大,不同子集中的電子病歷相似度盡可能的小。電子病歷聚類對疾病歸類、疾病的發(fā)展過程、臨床治療措施的選擇以及研究等均具有重要的意義[6]。

1 電子病歷聚類模型

現(xiàn)有的電子病歷聚類主要采用非隱語義模型,其核心思想是通過隱含特征,聯(lián)系患者的病狀、病程,從而找到電子病歷潛在的主題和分類。其方法主要有詞袋模型和向量空間模型。

1.1 詞袋模型

詞袋模型是最簡單的文本處理方法之一,其基本原理是將文檔看作一個裝滿了詞語的袋子,認(rèn)為每個詞都是獨(dú)立的不依賴其他詞。詞袋模型將電子病歷定義為由電子病歷文檔中的詞組成的詞袋,在電子病歷的聚類中得到部分應(yīng)用,但由于電子病歷文本的特殊性,詞袋模型在其聚類中也出現(xiàn)了很多問題[7-8]:特征詞詞頻減少,如不同患者的對同一個意思的不同表述,會造成表述同一意思的詞頻減少,進(jìn)而造成對電子病歷的聚類效果不理想;停用詞影響結(jié)果相關(guān)性,如在電子病歷詞袋中“你、我、他”等停用詞出現(xiàn)頻率較高,不但對電子病歷聚類毫無意義,還導(dǎo)致產(chǎn)生聚類的結(jié)果相關(guān)性低等問題;通過詞頻度量相關(guān)性有缺陷,如在疾病分類中用“發(fā)燒”這個詞在電子病歷描述中出現(xiàn)的頻次衡量其相關(guān)性,會導(dǎo)致所有的發(fā)熱癥狀都具有相關(guān)性,顯然僅通過詞頻度量相關(guān)性是不夠準(zhǔn)確的。

1.2 向量空間模型

向量空間模型將文本表示成特征項和特征項權(quán)重組成的向量,使用余弦函數(shù)進(jìn)行距離度量[7],以空間上的相似度表達(dá)語義的相似度。

向量空間模型在電子病歷聚類中的應(yīng)用為:將一條電子病歷表達(dá)為一個向量,每個詞為向量的一個維度,用余弦定理對電子病歷間的相似度進(jìn)行計算,通過比較權(quán)重度量電子病歷的相關(guān)性。這種模型主要存在以下問題:一是語義相關(guān)缺陷。向量空間模型不能夠表達(dá)文檔中詞條之間豐富的語義關(guān)系[9]。其對電子病歷的聚類默認(rèn)了每個詞語之間的完全獨(dú)立,忽略了電子病歷中詞語的語義關(guān)系,如“發(fā)燒”和“發(fā)熱”表述是同一意思,然而向量空間模型無法較好聚類語義相近的電子病歷。二是度量衡表達(dá)問題。電子病歷中存在大量的詞語,用向量空間模型計算后的電子病歷特征詞是一個多維稀疏矩陣[10],兩個相似對象之間的距離與兩個不相似對象之間的距離差別不大,這種聚類方式區(qū)分力不強(qiáng),效果不理想。

2 關(guān)聯(lián)關(guān)系聚類實現(xiàn)

針對詞袋模型和傳統(tǒng)的向量空間模型應(yīng)用于電子病歷聚類的不足,本文將自然語言處理技術(shù)同面向?qū)傩缘臍w納聯(lián)系起來,提出一種基于關(guān)聯(lián)關(guān)系的電子病歷聚類方法,目的是挖掘電子病歷中存在關(guān)聯(lián)關(guān)系特征詞的隱含語義。

2.1 電子病歷特征詞的抽取

由于醫(yī)學(xué)的特殊性,特征詞的完整性顯得尤為重要[11]。本文采用詞袋模型加上人工干預(yù)提取每條電子病歷的特征詞。詞袋模型的優(yōu)點(diǎn)在于保證了特征詞的完全提取,缺點(diǎn)是將很多停用詞也提取出來。人工剔除停用詞,人工干預(yù)語義一致性,既保證了特征詞的完整性又解決了停用詞影響特征詞相關(guān)性以及特征詞與病歷的語義一致性問題[12-15]。

如某電子病歷影像學(xué)診斷結(jié)果為“經(jīng)腹部彩色多普勒超聲檢查(胃腸道)無異常”,用詞袋模型提取的特征詞為“經(jīng)”“腹部”“彩色”“多普勒”“超聲”“檢查”“胃腸道”“無”“異常”,去掉停用詞“經(jīng)”,為保證語義一致性將特征詞“無”和“異常”合并為“無異常”。

2.2 電子病歷關(guān)聯(lián)關(guān)系聚類實現(xiàn)

2.2.1 電子病歷的空間向量定義

根據(jù)向量空間模型的權(quán)重衡概念,假設(shè)電子病歷集文檔為D,可以計算其特征詞的權(quán)重,計算定義為如下:

(1)

其中tft,d代表電子病歷中特征詞語t在電子病歷集D中出現(xiàn)的頻次,dft代表包含特征詞t的文檔數(shù)目,N代表全部電子病歷的數(shù)目。

在空間向量模型中,可由電子病歷的特征詞權(quán)重組成的特征詞向量表示電子病歷。假設(shè)D中包含有dn條電子病歷,每條電子病歷的特征詞經(jīng)過公式(1)計算均可得到其權(quán)重,用矩陣表示如下:

(2)

其中M為i×j的矩陣,矩陣的每一行表示一條電子病歷,每一個元素表示某個詞的權(quán)重。

2.2.2 特征詞關(guān)聯(lián)關(guān)系定義

向量空間模型的目的是使特征詞在電子病歷中的權(quán)重衡更加合理,但不足之處是不能表達(dá)特征詞之間隱含的語義關(guān)系。如果能在權(quán)重衡的基礎(chǔ)上輔以關(guān)系量來表達(dá)特征詞的權(quán)重將更準(zhǔn)確地表達(dá)特征詞的語義。

假設(shè)特征詞mi,mj同時出現(xiàn)在電子病歷文檔dk中,記做(mi,mj)∈dk;特征詞mi,mx同時出現(xiàn)在電子病歷文檔dl中,記做(mi,mx)∈dl;據(jù)數(shù)理定理得mi∈(dk∩dl)。據(jù)此,我們認(rèn)為電子病歷dk和dl有關(guān)系。進(jìn)一步,我們可以用特征詞在不同電子病歷出現(xiàn)的頻次衡量不同電子病歷之間的關(guān)系。根據(jù)廣義Jaccard系數(shù)計算不同電子病歷相似性,定義如下:

(3)

由前述假設(shè),在電子病歷集合D中,如果特征詞mi,mx同時出現(xiàn)在兩條不同的電子病歷中,則說明這兩條電子病歷具有關(guān)聯(lián)關(guān)系,結(jié)合定義(1)與(3),定義電子病歷dk,dl的關(guān)聯(lián)關(guān)系度如下:

(4)

其中,Wxk,Wxl分別為特征詞mi,mx在電子病歷dk和dl中的權(quán)重。

2.2.3 特征詞關(guān)聯(lián)關(guān)系完整性語義度定義

前述(1)(2)(3)(4)定義了電子病歷特征詞的關(guān)聯(lián)關(guān)系度,但忽略了特征詞之間的完整性。利用主成分分析法對關(guān)聯(lián)關(guān)系度進(jìn)行加權(quán),因此電子病歷特征詞關(guān)系完整性語義度定義如下:

Ccontact(dk,dl)=λCcontact(dk,dl)

(5)

其中λ為主成分系數(shù),是電子病歷特征詞權(quán)重向量方差除以方差和,λ介于0到1之間。λ值越大,關(guān)聯(lián)關(guān)系度越緊密,從而保證了結(jié)果的一致性。

2.2.4 電子病歷相似度計算

經(jīng)過關(guān)聯(lián)關(guān)系語義分析之后,電子病歷可以表示成一個包含隱含語義的一個向量d。通過向量空間模型的余弦定理可以計算電子病歷的相似度定義為:

(6)

公式(6)考慮了特征詞的隱含語義和特征詞的完整性,因此對電子病歷的區(qū)分度更好。

3 驗證

本驗證基于重慶醫(yī)科大學(xué)附屬兒童醫(yī)院2 294條川崎病電子病歷數(shù)據(jù),構(gòu)建3個數(shù)據(jù)集D1,D2,

D3,分別代表門診病歷數(shù)據(jù)集。此數(shù)據(jù)集包括了門診的病歷,如患者口述、既往病史等;檢查病歷數(shù)據(jù)集,包括了患者各項門診檢查和住院檢查的相關(guān)記錄;住院病歷數(shù)據(jù)集,包括了患者住院的各項記錄。采用K-平均聚類算法與本文改進(jìn)的關(guān)聯(lián)關(guān)系聚類從時間效率與準(zhǔn)確率兩方面進(jìn)行比較。

3.1 K-平均聚類算法聚類實現(xiàn)

K-平均聚類算法的思想是將特征詞集分成N個簇,并將相似的特征詞放入相應(yīng)的簇中,從而實現(xiàn)特征詞的聚類。K-平均聚類算法本文采用歐式距離公式計算,其算法如下:

(7)

依據(jù)K-平均聚類算法思想,其實現(xiàn)步驟如下:將初始質(zhì)心盡可能的均勻分布(表1),依據(jù)公式(7)計算質(zhì)心點(diǎn)與數(shù)據(jù)點(diǎn)的距離,計算其簇內(nèi)均值并將其作為新的質(zhì)心點(diǎn),重復(fù)以上3步直至不再有新的質(zhì)心出現(xiàn)。

3.2 基于關(guān)聯(lián)關(guān)系電子病歷算法聚類實現(xiàn)

依前討論的結(jié)果,基于關(guān)聯(lián)關(guān)系的聚類算法實現(xiàn)步驟如下:利用詞袋模型分別對3個主題集分詞依據(jù)公式(1)(2)計算特征詞的權(quán)重,并形成特征向量矩陣,依據(jù)公式(3)和(4)計算電子病歷的關(guān)系度,利用公式(5)對關(guān)聯(lián)關(guān)系加權(quán)計算得到特征詞之間的完整語義,利用公式(6)計算電子病歷相似度。

3.3 實驗結(jié)果及一致性評價

根據(jù)3.1和3.2,得出3個主題的聚類描述及結(jié)果(表1)。

表1 不同主題聚類結(jié)果對比

筆者請重慶醫(yī)科大學(xué)附屬兒童醫(yī)院相關(guān)專家對3個數(shù)據(jù)集樣本內(nèi)的特征詞進(jìn)行標(biāo)注,其聚類的準(zhǔn)確率是100%。表2是根據(jù)K-平均聚類算法和關(guān)聯(lián)關(guān)系聚類算法對同一數(shù)據(jù)集進(jìn)行實驗結(jié)果準(zhǔn)確率對比的數(shù)據(jù)。

表2 K-平均聚類算法準(zhǔn)確率與關(guān)聯(lián)關(guān)系聚類算法

實驗結(jié)果顯示,采用關(guān)聯(lián)關(guān)系聚類模型得到的結(jié)果準(zhǔn)確率比采用簡單向量空間模型得到的結(jié)果準(zhǔn)確率平均提高了2.16%,說明通過關(guān)聯(lián)關(guān)系挖掘出電子病歷特征詞隱含語義得到的聚類效果更準(zhǔn)確。

從3.1和3.2的算法實現(xiàn)中我們可以發(fā)現(xiàn),采用K-平均聚類需要多次循環(huán),如果初始質(zhì)心選擇不當(dāng),循環(huán)的次數(shù)將會很大;采用本文的關(guān)聯(lián)關(guān)系聚類無須多次循環(huán)迭代,用時較少,效率更高。

4 討論

基于關(guān)聯(lián)關(guān)系的電子病歷聚類算法的原理是利用經(jīng)典的詞袋模型對電子病歷進(jìn)行分詞,在廣義的向量空間模型基礎(chǔ)上,通過找出電子病歷間相同特征詞的頻次,并進(jìn)一步分析其潛在的隱含語義。關(guān)聯(lián)關(guān)系聚類既利用了向量空間模型的度量衡優(yōu)勢,又考慮了詞語之間隱含的語義關(guān)系,使電子病歷的特征詞更加全面地表達(dá)電子病歷向量,增加同類電子病歷之間的相似度,降低不同類電子病歷之間相似度,提高了電子病歷的聚類效果。引入主成分系數(shù)保證了結(jié)果的一致性。實驗表明,該算法比傳統(tǒng)的聚類方法更優(yōu)。本文采用的構(gòu)建模型方法簡單、實用、效率高,擺脫了傳統(tǒng)的“一病一法”粗糙聚類方法;軟件的實現(xiàn)相對簡單,開發(fā)成本低,亦可用于其他病種。關(guān)聯(lián)關(guān)系聚類為推動電子病歷數(shù)據(jù)挖掘、疾病的分類管理、分級診療、計算機(jī)輔助決策、精準(zhǔn)醫(yī)療的全面實施提供有力知識保證。

實驗中筆者也發(fā)現(xiàn)一些問題,如利用詞袋模型分詞時工作量較大,空間向量降維計算較復(fù)雜。因此下一步的工作首先是優(yōu)化詞袋模型,從而減少分詞的工作量;其次采用關(guān)聯(lián)規(guī)則的空間向量進(jìn)行有效特征降維處理,提高文檔表示模型的質(zhì)量,簡化相關(guān)計算,提高聚類效率。

猜你喜歡
關(guān)聯(lián)語義模型
一半模型
“苦”的關(guān)聯(lián)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
語言與語義
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 国产视频一区二区在线观看| 久久久久青草线综合超碰| 无遮挡国产高潮视频免费观看| 久久亚洲日本不卡一区二区| 色综合激情网| 91色爱欧美精品www| 国产久操视频| 欧美三级视频在线播放| 免费黄色国产视频| 日本妇乱子伦视频| 浮力影院国产第一页| 国产SUV精品一区二区| 亚洲成人动漫在线观看| 欧美色伊人| 亚洲黄色视频在线观看一区| 久久综合九色综合97婷婷| 在线播放真实国产乱子伦| 国产日韩丝袜一二三区| 一边摸一边做爽的视频17国产| 国产激情在线视频| 国产黄网永久免费| 久久永久视频| 国产精品三级av及在线观看| 天天做天天爱天天爽综合区| 久久伊伊香蕉综合精品| 亚洲色图在线观看| 欧美色亚洲| 欧美中日韩在线| 国产精品久久久久久影院| 免费av一区二区三区在线| 久久国产精品娇妻素人| 日韩无码一二三区| 97se综合| 欧美.成人.综合在线| 国产精品三区四区| 久草网视频在线| 天天综合色网| 国产在线八区| 深爱婷婷激情网| 欧美一区二区精品久久久| 国产高清在线丝袜精品一区| 欧美国产日韩一区二区三区精品影视| 久久婷婷六月| 在线免费看黄的网站| 无码有码中文字幕| 国产福利影院在线观看| 国产香蕉一区二区在线网站| 2021国产在线视频| 国产精品视频a| 美女无遮挡免费网站| 国产手机在线ΑⅤ片无码观看| 九色在线观看视频| 午夜精品久久久久久久99热下载| 久久久国产精品无码专区| 综合人妻久久一区二区精品| 久久一色本道亚洲| 成人精品午夜福利在线播放| 中文字幕在线观| 全部免费毛片免费播放| 亚洲人成网址| 成人国内精品久久久久影院| 91丝袜美腿高跟国产极品老师| 亚洲人免费视频| 久青草国产高清在线视频| 精品天海翼一区二区| 国产一级毛片yw| 精品国产aⅴ一区二区三区| 在线看片免费人成视久网下载| 激情在线网| 国产精品手机视频一区二区| 玩两个丰满老熟女久久网| 国产精品99一区不卡| 欧美天堂久久| 欧美色亚洲| 国产迷奸在线看| 亚洲色图欧美在线| 国产永久免费视频m3u8| 无码中字出轨中文人妻中文中| 欧美黄网在线| 激情六月丁香婷婷四房播| 中文字幕自拍偷拍| 伊人91视频|