劉玉文,張 鈺,楊 樞
蚌埠醫(yī)學(xué)院衛(wèi)生管理系,蚌埠,233030
?
基于LDA模型和電子病歷的疾病輔助診斷方法
劉玉文,張 鈺,楊 樞
蚌埠醫(yī)學(xué)院衛(wèi)生管理系,蚌埠,233030
采用分詞軟件對電子病歷進行分詞,然后用LDA模型對分詞后的電子病歷進行建模。通過建立病歷、疾病、特征三者之間的依賴關(guān)系,生成病歷-疾病和疾病-特征兩個分布矩陣。并基于歐氏距離的相似度計算方法,利用標(biāo)準(zhǔn)化歐氏距離公式,計算測試樣本病歷與疾病-特征分布的相似度,推斷出測試樣本病歷中不同疾病的出現(xiàn)概率。結(jié)果表明:運用該方法,疾病診斷準(zhǔn)確率達81.99%,高于C4.5算法的79.61%和ID3算法的77.19%,取得了良好的疾病輔助診斷效果。
LDA模型;電子病歷;疾病特征;輔助診斷;歐氏距離
隨著醫(yī)院病歷管理系統(tǒng)的廣泛應(yīng)用,我國各級醫(yī)院中保存著大量的電子病歷。這些病歷完整地記錄了病人從入院到出院間接受治療的全過程,病歷中蘊含著大量潛在的有價值信息[1],這些信息對疾病的診斷和治療具有十分重要的意義。因此,高效地對病歷進行分析,從中識別出疾病的特征是醫(yī)療數(shù)據(jù)分析領(lǐng)域的研究重點內(nèi)容之一。
計算機疾病輔助診斷就是運用隱含在醫(yī)療大數(shù)據(jù)里的知識和規(guī)律對疾病進行推斷的過程,其中,基于電子病歷的疾病診斷研究是一個重要研究方向。如文獻[2]提出了一種基于關(guān)聯(lián)規(guī)則的疾病診斷方法,該方法通過計算電子病歷中特征項集與疾病之間的關(guān)聯(lián)程度,找出疾病的關(guān)聯(lián)特征,建立疾病與特征的關(guān)聯(lián)規(guī)則集,最后依據(jù)關(guān)聯(lián)規(guī)則集進行疾病診斷。……