王惠清,李忠玉,袁紅
(1.西南醫(yī)科大學醫(yī)學信息與工程學院,瀘州646000;2.成都師范學院計算機科學學院,成都611130)
隨著人們生活水平的提高,健康成為人們關注的熱點,由于不健康的飲食習慣和生活方式導致的慢性病患者的數(shù)量正在增加,慢性病需要持續(xù)治療并可能導致其他疾病。人們應該認識到慢性疾病帶來的風險,需要終生通過醫(yī)療保健和疾病預防進行護理。作為智能社會的核心要素,人工智能(AI)的發(fā)展對于醫(yī)療事業(yè)起到促進作用,近年來,人們對人工智能的興趣日益濃厚,對深度學習的研究也在積極進行中,深度學習可以根據(jù)訓練得到的數(shù)據(jù)分析預測未知數(shù)據(jù)的類別,CNN 是一種被廣泛應用的深度學習技術,不僅用于圖像分析和語音識別,還可用于比較復雜的非線性模型,深度學習是近來備受關注的一種AI 技術,其在實際中可以用于通過學習數(shù)據(jù)集并對相似數(shù)據(jù)進行聚類或分類,此外,深度學習技術可以從各種非結構化數(shù)據(jù)中獲取知識從而建立模型。例如,可以通過基于CNN的相關對象來分析非結構化數(shù)據(jù),病歷數(shù)據(jù)就是非結構化數(shù)據(jù)。CNN 由單層、多層、集成層以及完全連接的層組成,可用于實現(xiàn)非線性圖像識別的模型、語音識別等。Swapna 等人[2]利用CNN 實現(xiàn)糖尿病自動檢測,其使用心率變異性數(shù)據(jù)獲取心率信號,使用CNN-LSTM組合網(wǎng)絡進行自動異常檢測和完全連接的結構,可實現(xiàn)自動檢測和準確診斷糖尿病。
圖1 顯示了基于深度學習的健康信息系統(tǒng)。該系統(tǒng)是基于CNN 的腦腫瘤分類系統(tǒng),該系統(tǒng)從MR 圖像中提取的腫瘤區(qū)域進而分類,這樣可以有效的訓練系統(tǒng),同時解決MRI 對腦腫瘤分類時數(shù)據(jù)不足的問題,此外,CNN 模型使用了增強的數(shù)據(jù),這些數(shù)據(jù)可以進行微調,從而有效地對腦瘤狀態(tài)進行分類。LIU 等人[6]開發(fā)了一種多視圖多尺度CNN 對肺結節(jié)類型進行分類的系統(tǒng),通過采集肺結節(jié)歸一化數(shù)據(jù)樣本,估計每個結節(jié)的估計半徑數(shù)據(jù),對結節(jié)采集圖像進行預處理,如基于采樣的強度分析等。在對CNN 模型進行學習后,利用最大池的方法對多視圖神經網(wǎng)絡模型進行了分析。因此即使是復雜的陰影和非結節(jié)型也可以進行分類。這使得治療肺部疾病成為可能,在未來,必須能夠對較細的結核進行分類,這需要先進的技術來自動標識結核的類型、位置和大小,以便于識別信息。

圖1 基于CNN的健康信息系統(tǒng)
基于CNN 的健康知識模型利用隱含層中影響因素的相關系數(shù)結果來分析風險因子,影響因素的相關關系可分為積極因素和消極因素,使用CNN 模型對危險因素進行細分,通過提取影響因子與模型的相關性,可以發(fā)現(xiàn)未被發(fā)現(xiàn)的有意義的規(guī)則。模型結構采用全連通網(wǎng)絡和包含CNN 的雙層結構隱含層,單層對僅由與和或運算組成的數(shù)據(jù)進行分類。相比之下,多層分類有更多的優(yōu)勢。因為多層分類可以執(zhí)行與、或和異或操作。這使得通過將影響因子細分為肥胖、高血壓和糖尿病來獲得有關保健和預防的知識成為可能。圖2 中,通過對多變量因素分析,可以提取20 個影響因素作為輸入,在第一個隱層中,根據(jù)顯著性水平0.1 對影響因素進行分離,結果剔除了12 個滿足顯著性水平的因子。在第二個隱層中,通過皮爾遜相關系數(shù)發(fā)現(xiàn)相關關系,提取影響因素的特征和相關系數(shù),發(fā)現(xiàn)未被發(fā)現(xiàn)的隱藏規(guī)則,這些規(guī)則是為了利用影響因素尋找健康知識。這些影響因素分為積極和消極因素,最后將其細分為肥胖、高血壓和糖尿病等,從而確定其影響因素,并對其標識,從而獲得適當?shù)慕】当=≈R。通過對具有相似特征的影響因素進行分類,提高了對影響因素和非影響因素的分析效率。圖3 為影響因素的知識挖掘算法,通過知識發(fā)現(xiàn)得出隱藏規(guī)則。輸入層是影響因素,輸出層是發(fā)掘的潛在規(guī)則。IfactorCK表示k個大小的影響因素的候選集合,IfactorLK表示一組頻繁的影響因素。此外,IfactorT 構成了影響因素組合效益。

圖2 CNN模型的相關影響因素
在眾多影響因素中找到滿足最小支持度的隱藏規(guī)則,發(fā)現(xiàn)影響人體健康的主要因素及其規(guī)律,最后建立健康知識模型,其代碼如下:
Input:Influencing-factors
Output:Hidden rules
IfactorCk=Candidates Influencing-factors of size k
IfactorLk=Frequent Influencing-factors of size k
min_supp←0.5(tentative)
IfactorL1={Frequent items}
for k ←l to infinite do begin if
(IfactorLk=?)
break;
IfactorCk+1=candidates generated from IfactorLk
for each transaction IfactorTin database do begin
increment the count of all candidates in IfactorCk+1, that are
contain in IfactorT
IfactorLk+1=candidates in IfactorCk+1with min_supp
end
end
return UkIfactorLk
基于CNN 的健康知識發(fā)現(xiàn)模型的建立,可以較科學地發(fā)現(xiàn)影響人們身體健康的危險影響因素,尤其是對于慢性病的影響因素,為后期的醫(yī)療保健提供了有利的醫(yī)學依據(jù)。模型的性能及知識發(fā)現(xiàn)的精確度需要通過相應的評價體系來評估。可以通過對模型中隱藏層的數(shù)量評估,評估單層、多層的模型性能的優(yōu)劣,根據(jù)影響因素的知識挖掘是否被應用,可以對錯誤率進行評估。因此用戶可以通過識別健康的積極因素和消極的因素來發(fā)現(xiàn)關于健康和預防的知識,同時可以根據(jù)影響因素的狀態(tài)衍生出健康知識,提供個性化的醫(yī)療服務。在醫(yī)療大數(shù)據(jù)領域,需要謹慎地將相關性得出的結果運用到實際的決策中。本文提出的一種基于影響因素的知識發(fā)現(xiàn)的CNN 健康模型,提出的方法通過IoT 設備收集健康狀況和生活方式模式的記錄,以及關于慢性病的信息。對于健康狀況和生活方式的數(shù)據(jù),使用了韓國國民健康與營養(yǎng)調查提供的原始數(shù)據(jù)。對于CNN 結構,使用完全連通的網(wǎng)絡結構和兩個隱藏層結構。全連通網(wǎng)絡結構計算量大,占用內存大,隨著層數(shù)的增加,復雜性增加,容易出現(xiàn)過擬合,在第一層的隱層中,對輸入的多元數(shù)據(jù)分析,提取出必要的影響因素。通過提取滿足0.1 顯著性水平的影響因素,提高了分析的準確性,減少了計算量和內存使用量,可以發(fā)現(xiàn)共同的影響因素。在第二隱含層中,識別個體影響因素與共同影響因素之間的相關關系,通過這個過程,發(fā)現(xiàn)了影響因素之間的正、負相關關系。此外,還可以根據(jù)影響因素的相關性,發(fā)現(xiàn)未通過分類發(fā)現(xiàn)的隱藏的關聯(lián)規(guī)則,這為進一步細分肥胖、高血壓和糖尿病的影響因素提供了知識。隨著層數(shù)的增加、精度提高,內存的容量和計算速度也需要提高。因此,應根據(jù)數(shù)據(jù)分析的目的使用一些高性能的層。