張小凡,李濤
(河北北方學(xué)院附屬第一醫(yī)院,河北張家口 075000)
隨著我國(guó)醫(yī)療衛(wèi)生信息化的快速發(fā)展,大數(shù)據(jù)、人工智能等新興技術(shù)被廣泛應(yīng)用于醫(yī)療領(lǐng)域,這使得對(duì)相關(guān)活動(dòng)中設(shè)備、藥品、耗材等物資以及人員的消耗進(jìn)行實(shí)時(shí)監(jiān)管成為可能。然而從海量醫(yī)療數(shù)據(jù)中挖掘出異常信息并進(jìn)行校核的工作,在現(xiàn)階段仍具有較大的挑戰(zhàn)性[1-4]。
目前,國(guó)內(nèi)外學(xué)者對(duì)醫(yī)療數(shù)據(jù)的挖掘也進(jìn)行了諸多研究。文獻(xiàn)[5]為了能夠解決傳統(tǒng)單病種醫(yī)療費(fèi)用分析方法處理數(shù)據(jù)時(shí)效率偏低的問(wèn)題,使用模糊聚類(Fuzzy Clustering,F(xiàn)C)和BP 神經(jīng)網(wǎng)絡(luò)對(duì)醫(yī)療費(fèi)用數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并獲得了較高的準(zhǔn)確度。文獻(xiàn)[6]為了對(duì)醫(yī)療質(zhì)量進(jìn)行管控,建立了基于Hadoop的醫(yī)療數(shù)據(jù)監(jiān)控系統(tǒng)。文獻(xiàn)[7]詳細(xì)介紹了基于物聯(lián)網(wǎng)的醫(yī)療數(shù)據(jù)挖掘模型,并對(duì)傳統(tǒng)算法加以改進(jìn)。而文獻(xiàn)[8]則使用命名實(shí)體識(shí)別模型來(lái)對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行癥狀名識(shí)別以及嚴(yán)重程度的估計(jì)。為了能夠更有針對(duì)性且準(zhǔn)確地對(duì)醫(yī)療設(shè)備、耗材及藥品的采購(gòu)進(jìn)行監(jiān)控與數(shù)據(jù)核對(duì),文中提出了基于多維注意力機(jī)制(Multi-dimensional Attention)的動(dòng)態(tài)尺度數(shù)據(jù)校驗(yàn)算法模型,從而幫助醫(yī)療機(jī)構(gòu)和主管部門進(jìn)行決策分析。
傳統(tǒng)機(jī)器學(xué)習(xí)(Machine Learning,ML)在對(duì)海量數(shù)據(jù)進(jìn)行處理時(shí),通常使用支持向量機(jī)(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression,LR)、決策樹(shù)(Decision Tree,DT)等模型[9-11]。這些模型對(duì)于醫(yī)療活動(dòng)所產(chǎn)生的數(shù)據(jù)已經(jīng)具備了一定的分析校核能力,但準(zhǔn)確度偏低且仍有大量異常數(shù)據(jù)被遺漏。2017 年谷歌團(tuán)隊(duì)提出了基于自注意力機(jī)制(Self-Attention)的模型Transformer[12],并受到了廣泛的關(guān)注和認(rèn)可。其在自然語(yǔ)言的處理上顯示出了強(qiáng)大的表征與信息融合的能力,因此該文以該模型作為算法的主要架構(gòu)。
Transformer 模型[13-14]通常由編碼器和解碼器兩部分組成,前者負(fù)責(zé)對(duì)輸入數(shù)據(jù)執(zhí)行編碼轉(zhuǎn)換,后者則將內(nèi)部表示進(jìn)行重新轉(zhuǎn)換并輸出數(shù)據(jù)。編碼器與解碼器的總體結(jié)構(gòu)基本相似,主要由位置編碼、多頭注意力機(jī)制、歸一化、殘差連接(Skip-Connect)及前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)組成,區(qū)別僅在于是否帶掩膜。值得注意的是,在Transformer 中也采用了類似殘差神經(jīng)網(wǎng)絡(luò)ResNet 的殘差塊結(jié)構(gòu)。通過(guò)向網(wǎng)絡(luò)添加一個(gè)直接連接通道,并保留前一個(gè)網(wǎng)絡(luò)層的輸出百分比,從而解決了傳統(tǒng)卷積網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)或全連接網(wǎng)絡(luò)(Fully Connected Netural Network,F(xiàn)CN)在傳輸時(shí)因梯度消失或爆炸而造成深度較深的網(wǎng)絡(luò)無(wú)法訓(xùn)練的問(wèn)題。同時(shí),還在解碼部分之后加入了線性映射和Softmax 函數(shù)實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的發(fā)現(xiàn)。Transformer 的模型架構(gòu),如圖1 所示。

圖1 Transformer模型架構(gòu)
該文所設(shè)計(jì)算法模型以Transformer 為主干網(wǎng)絡(luò),提出了基于多維注意力機(jī)制的動(dòng)態(tài)尺度數(shù)據(jù)校核算法。利用該機(jī)制可以有針對(duì)性地對(duì)醫(yī)療設(shè)備、藥品與耗材的各類相關(guān)信息進(jìn)行特征提取,從而完成數(shù)據(jù)校核。算法的總體模型架構(gòu)如圖2 所示。

圖2 算法模型總體架構(gòu)
首先,對(duì)獲得的數(shù)據(jù)進(jìn)行預(yù)處理;然后,采用通道和空間注意力機(jī)制對(duì)數(shù)據(jù)的時(shí)空信息進(jìn)行加權(quán)融合,并將融合后的信息輸入至主干網(wǎng)絡(luò)Transformer模型中加以訓(xùn)練,最終將完成訓(xùn)練后的信息輸入到線性變換層及Softmax 層內(nèi),以實(shí)現(xiàn)數(shù)據(jù)的校核。該文所提算法模型的創(chuàng)新點(diǎn)為:1)將通道與空間注意力機(jī)制相融合,利用多維注意力機(jī)制對(duì)數(shù)據(jù)特征進(jìn)行準(zhǔn)確提取,同時(shí)還考慮了數(shù)據(jù)隨時(shí)間變化的因素;2)將Transformer 網(wǎng)絡(luò)應(yīng)用于數(shù)據(jù)校驗(yàn)?zāi)P椭校岣吡诵r?yàn)的準(zhǔn)確率;3)采用動(dòng)態(tài)尺度,可以實(shí)現(xiàn)對(duì)全局特征的動(dòng)態(tài)考慮,且進(jìn)一步提升算法準(zhǔn)確度。
在Transformer 網(wǎng)絡(luò)中,最關(guān)鍵的部分就是自注意力機(jī)制。對(duì)于輸入的任意數(shù)據(jù)向量xi(i=1,2,…,n),將其編碼嵌入映射至中間向量ai(i=1,2,…,n)上,并乘以一組矩陣Wq、Wk、Wv,得到向量qi、ki、vi,再對(duì)其進(jìn)行點(diǎn)積,則有:
在實(shí)際數(shù)據(jù)處理過(guò)程中為了防止點(diǎn)積的結(jié)果過(guò)大,通常還需進(jìn)行壓縮,即:
然而僅利用這一組矩陣得到的注意力相對(duì)較為單一,無(wú)法滿足對(duì)復(fù)雜醫(yī)療數(shù)據(jù)核對(duì)的要求。所以,文中設(shè)置了多組矩陣來(lái)實(shí)現(xiàn)對(duì)不同數(shù)據(jù)向量間關(guān)聯(lián)性的表達(dá)。此時(shí),多頭注意力機(jī)制(Multi-Head Attention)就發(fā)揮了較大作用。該機(jī)制在參數(shù)總量保持不變的情況下,將Q,K,V映射至高維空間的不同子空間中進(jìn)行計(jì)算,最后再將獲得的信息進(jìn)行合并,由此既可以防止過(guò)擬合,也能將不同數(shù)據(jù)序列間的關(guān)系進(jìn)行綜合。其計(jì)算方式如下:
式中,Z為多頭注意力的輸出矩陣,該矩陣包含了所有醫(yī)療數(shù)據(jù)向量相互之間的關(guān)聯(lián)信息,便于之后流程的使用。同時(shí),為了能夠保持與輸入矩陣相同的維度,還需要乘以矩陣Wz。
此外,為了預(yù)防梯度消失的問(wèn)題,在每個(gè)Transformer 網(wǎng)絡(luò)的基本模塊中均加入了殘差連接。目的是增加更多的網(wǎng)絡(luò)層數(shù),進(jìn)而獲得更深層次的特征信息。
注意力機(jī)制(Attention Mechanism)源于對(duì)人腦視覺(jué)的研究,人們?cè)谔幚硇畔r(shí)會(huì)選擇性地關(guān)注部分內(nèi)容而忽略若干次要信息[15-16]。其核心思想是將注意力集中在重要的信息上,從而提高處理信息的靈敏度和準(zhǔn)確度。為了能夠更好地識(shí)別并校驗(yàn)不同類型的數(shù)據(jù),該次引入了通道及空間注意力機(jī)制,利用多維注意力機(jī)制來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的準(zhǔn)確識(shí)別。
通道注意力機(jī)制主要由壓縮和激勵(lì)兩部分組成,在學(xué)習(xí)各個(gè)通道的信息時(shí),需要先壓縮特征圖空間,然后在通道維度中進(jìn)行學(xué)習(xí),具體結(jié)構(gòu)如圖3所示。

圖3 通道注意力機(jī)制的結(jié)構(gòu)
在壓縮部分對(duì)輸入的特征F進(jìn)行平均池化與最大池化,得到兩個(gè)具有不同空間的描述符和,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)空間特征信息的聚合;之后將這些信息傳遞給由多層感知器MLP 組成的共享網(wǎng)絡(luò),以獲得通道注意力Mc=?C×1×1。該文設(shè)置的隱藏激活空間的大小為?C/r×1×1,其可減少網(wǎng)絡(luò)參數(shù)的開(kāi)銷,r表示縮減率。激勵(lì)部分會(huì)對(duì)各通道分配不同的權(quán)重,并進(jìn)行加權(quán)求和,最終融入全連接層。計(jì)算通道注意力的公式為:
式中,W0∈?C/r×C,W1∈?C×C/r,而MLP 的權(quán)重和則是對(duì)兩個(gè)輸入共享的。
與通道注意力機(jī)制不同,空間注意力機(jī)制注重?cái)?shù)據(jù)的位置信息,并與前者相互補(bǔ)充,其結(jié)構(gòu)如圖4所示。首先該機(jī)制在通道方向上開(kāi)展平均池化和最大池化,且將得到的結(jié)果相連接從而形成一個(gè)高效的特征描述符;然后通過(guò)卷積層生成空間注意力圖Ms(F)∈?H×W;之后利用兩個(gè)池化操作聚合特征圖的通道信息,進(jìn)而形成兩個(gè)圖:和,每個(gè)圖均表示了跨通道的平均及最大池化特征;最后將這些特征全部連接,并利用卷積層生成空間注意力圖。空間注意力圖的計(jì)算方法為:

圖4 空間注意力機(jī)制的結(jié)構(gòu)
在對(duì)數(shù)據(jù)的每次訓(xùn)練迭代中,文中將獲取異常數(shù)據(jù)所造成的損失比例作為反饋,并在模型訓(xùn)練期間的每次前向傳播后進(jìn)行計(jì)算。若在當(dāng)前迭代t次時(shí)統(tǒng)計(jì)的損失比例低于某個(gè)閾值,則可認(rèn)為此時(shí)能夠通過(guò)潛補(bǔ)償來(lái)緩解網(wǎng)絡(luò)的不平衡,進(jìn)而在t+1 次迭代中,使用下一個(gè)時(shí)間段的數(shù)據(jù)作為輸入;若統(tǒng)計(jì)量高于閾值,則以當(dāng)前時(shí)間段的數(shù)據(jù)作為下一次迭代的輸入。上述二元確定性范式可以總結(jié)為:
式中,It+1表示在迭代t+1 次時(shí)輸入網(wǎng)絡(luò)的小批量數(shù)據(jù);Ic和I表示在未來(lái)迭代中當(dāng)前時(shí)間段和下一個(gè)時(shí)間段的數(shù)據(jù);為迭代t次時(shí)占小尺度對(duì)象的損失比例;τ為控制數(shù)據(jù)準(zhǔn)備的決策閾值。通過(guò)上述過(guò)程,便實(shí)現(xiàn)了數(shù)據(jù)的動(dòng)態(tài)尺度調(diào)整。
該文使用的數(shù)據(jù)集來(lái)源于某省的醫(yī)療數(shù)據(jù)總庫(kù)信息,這些數(shù)據(jù)包含了醫(yī)療設(shè)備的價(jià)格、型號(hào)和參數(shù),藥品招采的信息,器材損耗使用的信息以及部分電子病歷的疾病、診斷與用藥信息。數(shù)據(jù)類型則包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)及圖片數(shù)據(jù)。考慮到疫情影響,數(shù)據(jù)選取的時(shí)間段為2018 年1 月1 日-2020 年12 月30 日,在每月的數(shù)據(jù)中隨機(jī)選取80%的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),剩余20%則為測(cè)試數(shù)據(jù)。
實(shí)驗(yàn)選擇了Windows 10 操作系統(tǒng),該系統(tǒng)配備i7-7700k 處理器、64 GB 內(nèi)存和GTX2080Ti 顯卡;編程語(yǔ)言為Python3.7;整個(gè)實(shí)驗(yàn)基于Anaconda3 中的開(kāi)源深度學(xué)習(xí)框架PyTorch 1.0。
該預(yù)測(cè)模型的相關(guān)參數(shù)設(shè)置如下:批量大小為32,采用AdamW 作為優(yōu)化器,并使用余弦學(xué)習(xí)率衰減。通過(guò)對(duì)模型進(jìn)行了100 次和5 次的訓(xùn)練-測(cè)試交叉實(shí)驗(yàn)來(lái)評(píng)估算法的分類性能。
數(shù)據(jù)校核是對(duì)海量數(shù)據(jù)進(jìn)行檢查,發(fā)現(xiàn)存在的錯(cuò)誤數(shù)據(jù),從而實(shí)現(xiàn)對(duì)相關(guān)行為與運(yùn)轉(zhuǎn)的監(jiān)管。實(shí)驗(yàn)選用了精確率(Precision)、召回率(Recall)和F-分?jǐn)?shù)(F-score)作為評(píng)價(jià)指標(biāo)。
其中,精確率表示判斷正確的正例數(shù)據(jù)占判斷為正例數(shù)據(jù)的比例;召回率表示判斷正確的正例數(shù)據(jù)占實(shí)際為正例數(shù)據(jù)的比例;F-分?jǐn)?shù)為調(diào)和平均數(shù)。
圖5 顯示了訓(xùn)練和測(cè)試的精確率與迭代次數(shù)的關(guān)系,圖6 則為訓(xùn)練及測(cè)試中損失函數(shù)的損失值與迭代次數(shù)之間的關(guān)系。

圖5 精確率與迭代次數(shù)的關(guān)系

圖6 損失與迭代次數(shù)的關(guān)系
從圖5 和圖6 中可以看出,模型在迭代至80次后趨于收斂,測(cè)試及訓(xùn)練結(jié)果逐漸穩(wěn)定,即獲得了最佳的預(yù)測(cè)效果。此時(shí)模型的精確率達(dá)到了96%,損耗也為最小。
為進(jìn)一步驗(yàn)證所提模型的性能,實(shí)驗(yàn)時(shí)將數(shù)據(jù)集應(yīng)用于常見(jiàn)的主流模型中,并對(duì)比了預(yù)測(cè)結(jié)果的指標(biāo),具體如表1 所示。

表1 不同模型評(píng)價(jià)指標(biāo)
由表1 可知,所提模型的精確率分別比卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer 模型高21%與6%。同時(shí)召回率及F-分?jǐn)?shù)也均優(yōu)于其他模型,由此表明該模型對(duì)醫(yī)療數(shù)據(jù)的校核是有效的。
文中提出了基于多維注意力機(jī)制的動(dòng)態(tài)尺度數(shù)據(jù)校核算法,該算法引入了通道注意力機(jī)制和空間注意力機(jī)制來(lái)更好地獲取數(shù)據(jù)的特征信息,使用前者能夠得到多維的特征向量,利用后者則可準(zhǔn)確定位數(shù)據(jù)。同時(shí)還采用Transformer 模型完成對(duì)數(shù)據(jù)的校驗(yàn),而動(dòng)態(tài)尺度可以通過(guò)潛補(bǔ)償來(lái)緩解不平衡網(wǎng)絡(luò),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的精準(zhǔn)判斷。將該算法應(yīng)用于醫(yī)療大數(shù)據(jù)領(lǐng)域,實(shí)現(xiàn)了對(duì)臨床設(shè)備、藥品、耗材及病案等醫(yī)療數(shù)據(jù)的校核,并為相關(guān)機(jī)構(gòu)的監(jiān)管工作提供了一定的輔助手段。但該模型也存在一定的缺陷,其對(duì)于不同類型的數(shù)據(jù)并未進(jìn)行嚴(yán)格區(qū)分,導(dǎo)致數(shù)據(jù)校核時(shí)仍有一定偏差。因此,下一步可以通過(guò)數(shù)據(jù)預(yù)處理技術(shù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的分流建模,以獲得更為理想的校核效果。