李奕霏
(濟(jì)寧市第一人民醫(yī)院,山東 濟(jì)寧 272000)
隨著計(jì)算機(jī)信息技術(shù)的快速發(fā)展,醫(yī)院信息化建設(shè)日趨成熟,健康檔案系統(tǒng)也已逐步升級(jí)為智能化的管理平臺(tái)。然而這類(lèi)系統(tǒng)的廣泛使用會(huì)產(chǎn)生大量數(shù)據(jù),對(duì)采集到的數(shù)據(jù)進(jìn)一步展開(kāi)智能化分析才能為醫(yī)療服務(wù)、疾病預(yù)測(cè)以及降低成本等提供有效的支撐。因此如何智能挖掘復(fù)雜的醫(yī)療健康檔案數(shù)據(jù),并根據(jù)相關(guān)記錄來(lái)預(yù)測(cè)出對(duì)應(yīng)的健康狀況是一個(gè)亟待解決的問(wèn)題[1-2]。研究表明,深度學(xué)習(xí)(Deep Learning,DL)[3-4]技術(shù)可被廣泛應(yīng)用于醫(yī)療健康領(lǐng)域的數(shù)據(jù)分析之中,并取得了良好的效果,故文中提出了一種基于深度學(xué)習(xí)與模糊C 均值聚類(lèi)(Fuzzy CMeans,F(xiàn)CM)的數(shù)據(jù)分析算法。該算法可對(duì)具備復(fù)雜屬性的醫(yī)療檔案數(shù)據(jù)進(jìn)行分析與研究,以獲得更為準(zhǔn)確的數(shù)據(jù)挖掘結(jié)果。在對(duì)復(fù)雜屬性的數(shù)據(jù)進(jìn)行特征提取的基礎(chǔ)上,通過(guò)聚類(lèi)處理提高算法性能,并根據(jù)不同屬性對(duì)數(shù)據(jù)加以分類(lèi),進(jìn)而實(shí)現(xiàn)對(duì)患者健康狀況的預(yù)測(cè)。
醫(yī)療健康檔案數(shù)據(jù)是一種多模式的復(fù)雜數(shù)據(jù),其數(shù)據(jù)量會(huì)持續(xù)、快速地增長(zhǎng),且其中還包含著豐富的信息。因此針對(duì)這種復(fù)雜的海量數(shù)據(jù),深度學(xué)習(xí)可以從中提取出更具表達(dá)能力的特征信息,從而實(shí)現(xiàn)更加精準(zhǔn)地判斷及識(shí)別。
文中所采用的深度學(xué)習(xí)理論是一種利用深度人工神經(jīng)網(wǎng)絡(luò)(Deep Artificial Neural Network,DANN)的機(jī)器學(xué)習(xí)算法(Machine Learning,ML)。基本的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[5]具有分別對(duì)應(yīng)于神經(jīng)細(xì)胞體和神經(jīng)突起的節(jié)點(diǎn)與邊緣,如圖1 所示。其中,輸入層的節(jié)點(diǎn)通過(guò)邊連接到下一層中的其他節(jié)點(diǎn),且邊的權(quán)重為w,該權(quán)重參數(shù)可反映兩個(gè)節(jié)點(diǎn)之間關(guān)聯(lián)的強(qiáng)度。典型的神經(jīng)網(wǎng)絡(luò)由一個(gè)輸入層、一個(gè)輸出層及介于兩者之間可變數(shù)量的隱藏層組成。

圖1 人工神經(jīng)網(wǎng)絡(luò)的基本組成
若神經(jīng)網(wǎng)絡(luò)具有多個(gè)隱藏層,則稱其為深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),基本結(jié)構(gòu)如圖2所示[6-7]。首先將輸入層每個(gè)節(jié)點(diǎn)中的值乘以權(quán)重,而權(quán)重則被添加到下一層的節(jié)點(diǎn)中。因此,第一隱藏層中每個(gè)節(jié)點(diǎn)均包含具有不同權(quán)重的輸入節(jié)點(diǎn)中的所有信息,進(jìn)而生成各種可能的簡(jiǎn)化表示以區(qū)分?jǐn)?shù)據(jù)集中的差異。隨后再將第一隱藏層節(jié)點(diǎn)中的信息集成到下一隱藏層節(jié)點(diǎn)中,即第一隱藏層所有節(jié)點(diǎn)中的值再次乘以不同的權(quán)重,且在第二隱藏層每個(gè)節(jié)點(diǎn)中產(chǎn)生不同的值。此過(guò)程在多個(gè)層中重復(fù),使得節(jié)點(diǎn)差異組合的數(shù)量大幅增加,因此需要建立能夠分離數(shù)據(jù)集中差異的更高級(jí)標(biāo)準(zhǔn)。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練旨在確定產(chǎn)生最小誤差函數(shù)的權(quán)重值,該函數(shù)表示解釋數(shù)據(jù)集的最優(yōu)模型。在訓(xùn)練期間進(jìn)行權(quán)重優(yōu)化,將初始輸入變量轉(zhuǎn)換為更有用的特征。然后選擇初始特征的子集并在更深層中構(gòu)建抽象的特征,這些特征即為原始特征的差異組合。此外,由于所選要素中包含來(lái)自輸入數(shù)據(jù)的相關(guān)信息,故可以使用上述降維表示來(lái)執(zhí)行所需的任務(wù)。上述方法即為深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和選擇的過(guò)程。

圖2 深度神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)
該文設(shè)計(jì)的基于深度學(xué)習(xí)與模糊C 均值聚類(lèi)的檔案數(shù)據(jù)分析算法整體框架如圖3 所示。首先對(duì)醫(yī)院健康管理平臺(tái)獲取到的檔案信息進(jìn)行數(shù)據(jù)預(yù)處理,以便后續(xù)算法的分析計(jì)算;然后利用深度學(xué)習(xí)模型雙向門(mén)控循環(huán)單元(BiGRU)學(xué)習(xí)數(shù)據(jù)集中的特征信息,并獲得不同屬性間的關(guān)聯(lián)性;最終引入模糊聚類(lèi)方法對(duì)模型所學(xué)習(xí)到的特征信息進(jìn)行聚類(lèi),從而實(shí)現(xiàn)患者健康狀況的預(yù)測(cè)。

圖3 檔案數(shù)據(jù)分析算法框架
深度學(xué)習(xí)方法可以從數(shù)據(jù)中提取深層及抽象的特征,并以有效的方式捕獲數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系,進(jìn)而實(shí)現(xiàn)對(duì)圖像和文本數(shù)據(jù)的有效分析。由于診斷技術(shù)的發(fā)展,使得醫(yī)學(xué)圖像與轉(zhuǎn)錄數(shù)據(jù)的數(shù)量大幅增長(zhǎng)。而在大數(shù)據(jù)分析中,深度學(xué)習(xí)方法具有比傳統(tǒng)方法更為理想的性能,故該文選擇了深度學(xué)習(xí)模型BiGRU 來(lái)進(jìn)行數(shù)據(jù)的分析。該模型可以分別從正反兩個(gè)方向讀取數(shù)據(jù),并提取健康檔案數(shù)據(jù)中的上下文特征和語(yǔ)義特征等信息[8-11]。因此,根據(jù)健康檔案數(shù)據(jù)的特點(diǎn),該文基于深度學(xué)習(xí)模型BiGRU 設(shè)計(jì)了健康檔案的分析算法。
BiGRU 模型的基本單元由一個(gè)向前傳播與一個(gè)向后傳播的GRU 單元組成。GRU 是一種遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)[12-13],其將輸入門(mén)和遺忘門(mén)合并至同一個(gè)更新門(mén)中,形成了更為精簡(jiǎn)的結(jié)構(gòu)。而上一時(shí)刻隱藏層的輸出對(duì)當(dāng)前隱藏層的影響由更新門(mén)控制,更新門(mén)值越大,其影響就越大。前一時(shí)刻隱藏層信息的忽略程度則由復(fù)位門(mén)決定,復(fù)位門(mén)值越小,說(shuō)明被忽略的信息越多。GRU 結(jié)構(gòu)如圖4 所示。

圖4 GRU結(jié)構(gòu)
圖4 中,x表示輸入數(shù)據(jù),h表 示GRU 單元的輸出。r是復(fù)位門(mén),z是更新門(mén)。GRU 在上一時(shí)刻通過(guò)復(fù)位門(mén)選擇需要放棄的信息,則有:
式中,Wr是復(fù)位門(mén)的權(quán)重信息,ht-1是前一時(shí)刻的輸入,br是該門(mén)的偏置,σ是激活函數(shù)。
GRU 通過(guò)更新門(mén)選擇并更新當(dāng)前時(shí)刻的信息,計(jì)算公式如下:
式中,Wz是更新門(mén)的權(quán)重信息,bz是更新門(mén)偏置。
其中,tanh 為激活函數(shù),Wh、bh為權(quán)重信息和偏置,rt為復(fù)位門(mén)的輸出,xt為輸入的數(shù)據(jù)。
最終GRU 便可根據(jù)上述結(jié)果得到輸出,計(jì)算公式如下:
深度學(xué)習(xí)算法雖具有良好的泛化與數(shù)值逼近能力,但其在執(zhí)行過(guò)程中通常會(huì)產(chǎn)生確定值。而健康狀況有時(shí)較為模糊,因此直接采用深度學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)會(huì)存在較多的冗余信息,不但增大了計(jì)算量而且容易誘導(dǎo)算法難以收斂。相比于深度學(xué)習(xí),模糊神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生更詳細(xì)的結(jié)果,也能過(guò)濾掉冗余信息,從而提高算法的泛化能力。模糊理論是一種具有模糊不確定性的重疊數(shù)據(jù)聚類(lèi)算法,其能夠從海量數(shù)據(jù)中挖掘出關(guān)鍵信息并進(jìn)行聚類(lèi)識(shí)別[14-16]。為了提升檔案數(shù)據(jù)分析算法的性能,文中采用深度學(xué)習(xí)網(wǎng)絡(luò)模型和模糊C 均值聚類(lèi)技術(shù)來(lái)構(gòu)建新方法。
模糊C 均值聚類(lèi)[17-19]根據(jù)距離與隸屬度值來(lái)最小化平方誤差目標(biāo)函數(shù)J,然后將有限頂點(diǎn)集合V=(v1,v2,v3,…,vN)劃分為模糊子集C=(c1,c2,c3,…,ck)。
式中,m為大于1 的模糊度指數(shù),Uij為vi在第j個(gè)聚類(lèi)中的隸屬度。通過(guò)更新隸屬度矩陣U和聚類(lèi)中心cj,迭代優(yōu)化式(5)中的目標(biāo)函數(shù),以獲得模糊聚類(lèi)。當(dāng)邊緣切口小于閾值ε時(shí),就會(huì)達(dá)到收斂。
首先初始化隸屬度矩陣U,令Uij=,然后利用式(6)計(jì)算所有頂點(diǎn)的模糊隸屬度:
再計(jì)算所有聚類(lèi)的模糊聚類(lèi)中心cj:
重復(fù)上述步驟,直至平方誤差目標(biāo)函數(shù)J值達(dá)到最小化或小于閾值ε。
為驗(yàn)證文中所提檔案數(shù)據(jù)分析算法的有效性,文中實(shí)驗(yàn)將UK BioBank 的電子醫(yī)療記錄數(shù)據(jù)作為數(shù)據(jù)集。其中包含了319 650 名患者的入院診斷信息、處方、病理及影像報(bào)告等與健康有關(guān)的數(shù)據(jù)。而數(shù)據(jù)中的患者健康狀況類(lèi)型可分為三種:健康、亞健康和疾病。同時(shí),此次實(shí)驗(yàn)還將該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集與測(cè)試集。
文中使用Python 進(jìn)行仿真,通過(guò)實(shí)驗(yàn)結(jié)果來(lái)驗(yàn)證所提檔案數(shù)據(jù)分析算法的可行性。具體實(shí)驗(yàn)環(huán)境如表1 所示。

表1 實(shí)驗(yàn)仿真環(huán)境
將準(zhǔn)確率、精確率、召回率與F1 值作為性能評(píng)價(jià)指標(biāo)。計(jì)算公式如下:
式中,Pn為預(yù)測(cè)正確的樣本數(shù)量;N為所有樣本的總數(shù)量;TP 表示正確預(yù)測(cè)的樣本數(shù),F(xiàn)P 表示其他分類(lèi)被錯(cuò)誤預(yù)測(cè)為此分類(lèi)的樣本數(shù),TN 表示作為其他分類(lèi)被錯(cuò)誤預(yù)測(cè)的樣本數(shù)。
3.3.1 參數(shù)調(diào)整
文中還通過(guò)多組實(shí)驗(yàn)對(duì)比來(lái)確定算法的最優(yōu)參數(shù),具體實(shí)驗(yàn)結(jié)果如表2 所示。由表可知,當(dāng)算法的最優(yōu)參數(shù)設(shè)置為迭代次數(shù)300 次、最佳優(yōu)化器選擇Adam、學(xué)習(xí)率為0.001 以及批大小為64 個(gè)時(shí),深度學(xué)習(xí)模型在數(shù)據(jù)集上的準(zhǔn)確率可高達(dá)98.76%。

表2 參數(shù)調(diào)整實(shí)驗(yàn)結(jié)果對(duì)比
3.3.2 算法對(duì)比
為了驗(yàn)證該文算法的優(yōu)越性,還將其與多種深度學(xué)習(xí)算法進(jìn)行了實(shí)驗(yàn)對(duì)比。表3 為不同算法的準(zhǔn)確率、精確率、召回率和F1 值的對(duì)比結(jié)果。

表3 實(shí)驗(yàn)對(duì)比結(jié)果
從表3 中可以看出,LSTM 在數(shù)據(jù)集中的表現(xiàn)最差,所有指標(biāo)在對(duì)比算法中均為最低;而具有膨脹卷積和殘差模塊等結(jié)構(gòu)的TCN 比LSTM 和GRU 這兩種RNN 的變體效果更優(yōu),且TCN 在測(cè)試集上的精確率為93.95%,召回率為94.18%,F(xiàn)1 值為94.06%。此外,該文算法的準(zhǔn)確率、精確率、召回率與F1 值分別為98.76%、98.81%、98.56%以及98.68%,均優(yōu)于其他深度學(xué)習(xí)模型,由此證明了該文算法的優(yōu)越性,同時(shí)還驗(yàn)證了加入模糊聚類(lèi)的有效性。
為了對(duì)健康信息平臺(tái)采集的海量健康檔案數(shù)據(jù)進(jìn)行智能化分析,文中提出了一種基于深度學(xué)習(xí)與模糊C 均值聚類(lèi)的檔案數(shù)據(jù)分析處理算法,以實(shí)現(xiàn)對(duì)被測(cè)者健康狀況的精準(zhǔn)預(yù)測(cè)。該算法采用深度學(xué)習(xí)模型BiGRU 對(duì)數(shù)據(jù)特征進(jìn)行學(xué)習(xí)并提取關(guān)鍵信息,再通過(guò)模糊C 均值聚類(lèi)算法進(jìn)行處理,從而精準(zhǔn)預(yù)測(cè)出相關(guān)人員未來(lái)的健康狀況。在UK BioBank公開(kāi)電子醫(yī)療記錄數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果證明了所提算法的綜合性能優(yōu)越。此外,通過(guò)實(shí)驗(yàn)對(duì)比還驗(yàn)證了模糊C 均值聚類(lèi)與BiGRU 聯(lián)合應(yīng)用的可行性和有效性。