陳嬌花
(上海中醫藥大學附屬第七人民醫院,上海 200137)
近年來,隨著人口老齡化水平的提高,處于亞健康水平的人數逐漸增多,各種慢性病發病人數也在不斷激增。針對特殊人群研究的智能在線診斷平臺成為了熱點需求[1],而云平臺技術的飛速發展也為智能健康數據監控提供了技術基礎[2]。
醫療領域中的大數據技術與云服務,在近年來得到了廣泛關注。文獻[3]提出基于物聯網云計算大數據的智能健康生活成長系統。文獻[4]提出基于云計算的移動醫療監控系統。在智能養老方面,大數據和數據挖掘技術也得到了進一步的廣泛應用[5-6]。為實現對用戶健康數據的智能監測,文獻[7]提出基于健康云平臺利用大數據技術提供智能服務。文獻[8]提出利用數據挖掘技術分析網絡健康狀態,實現對網絡情況的智能監控。
利用大數據技術實現人體健康狀態的智能監控,可以進一步結合學習類算法進行更優的診斷。文獻[9-10]提出利用邏輯回歸和AdaBoost 方法對數據進行分析。文獻[11]提出利用隨機森林方法進行訓練,可以對人體健康數據進行有效監測。文獻[12]提出醫療SVM(Support Vector Machines)算法利用采集的健康數據進行學習與訓練,完成健康狀態的分類。此外,深度學習算法可以有效地利用數據訓練模型,從而應用于口腔診斷及新冠病毒篩查[13-16]。但算法模型更針對于特定疾病,不具有普適性。
結合智能健康云數據監控與應用的實際需求,文中提出了一種基于深度學習的健康數據挖掘算法。該算法在數據預處理的基礎上,對挖掘出的數據建立了數據集。然后結合疾病的多特征屬性,再建立深度學習網絡模型,并通過反向傳播算法進行網絡模型訓練。利用梯度下降法不斷迭代最小化期望殘差,最終完成對深度學習網絡的訓練。與同類算法的數據分析對比結果表明,文中所提算法可以有效診斷各類疾病且具有較強的適用性。
為了滿足大數據背景下對于健康云數據的精準分析處理需求,該文所設計的處理系統總體架構如圖1 所示。

圖1 健康云數據處理系統架構圖
感知層是健康云系統架構的最底層,通過化學傳感器、生物傳感器、光敏傳感器和溫敏傳感器實現對人體指標數據的采集。
傳輸層主要負責將感知層采集的人體數據通過移動通信終端設備,并利用藍牙、無線等技術上傳至健康云數據庫。
服務層指健康云數據存儲層,將傳輸層的數據傳輸在分布式數據庫并通過門戶網站等提供服務。
云應用層是最外層,直接為用戶提供健康云數據監控和分析服務,服務對象包括個人、家庭、醫療機構和養老院等。
健康云數據挖掘與深度學習數據分析架構如圖2 所示,分為數據準備、數據預處理、模型訓練及健康監控。

圖2 健康云數據挖掘與分析架構
該文使用深度學習網絡進行數據挖掘,模型設計如圖3 所示。
使用深度學習網絡進行數據挖掘,首先需要對測試數據集完成數據挖掘預處理,將所收集到的數據依次采用篩選、清洗、轉換、修正和歸一化等方法進行處理。
深度學習網絡模型如圖4 所示,主要包括輸入層、隱藏層和輸出層三部分。其中隱藏層可以不止一層,深度學習網絡模型的層數即為整個網絡的深度,該網絡由多個神經元連接而成。

圖4 深度學習網絡模型
設輸入值集合為{xm},m為集合中數據的個數,神經元的個數與數據特征數量有關,則神經元的輸入可表示為:
式中,Wi表示第i個輸入值的權值,b表示偏置項。f(·)表示激活函數,該文使用Sigmoid 函數,其表達方式為:
則第l層的第i個神經元的輸入值加權和可表示為:
式中,n表示神經元數量;l表示層數;表示第l-1 層第j個神經元到第l層第i個神經元之間的輸出權值;表示第l-1 層的第j個神經元的輸出值;表示第l-1 層的第i個神經元的偏置項。
對于該文所采用的深度網絡模型,其計算過程可以表示為:
因此在前向傳播計算中,l+1 層的輸出值計算方式為:
在深度學習模型建立完成之后,該文采用反向傳播的方法對模型進行訓練。反向訓練的具體步驟如圖5 所示。

圖5 深度學習反向訓練流程
反向傳播訓練實際是根據輸出殘差進行負反饋,殘差的計算方法會影響訓練的精度。在該文的設計中,對于輸出層,可以直接計算輸出與期望之間的誤差;而對于隱藏層,則可根據神經元殘差的加權平均值進行計算。
該文所使用深度學習網絡的各層輸出值可具體表示為:
則可根據式(7)計算各層神經元的殘差:
式中,x表示輸入集合,y表示最后一層輸出數據集合。
對于神經網絡隱藏層,殘差計算方法可表示為:
該文所使用的深度學習網絡的代價函數可表示為:
其中,λ表示代價函數矢量的特征值。
對深度學習網絡進行訓練,使整個網絡代價函數最小。該文使用梯度下降迭代方法計算代價函數的偏導函數,并進行迭代。代價函數的整體偏導函數的向量表示方法為:
式中,?WJ(W,b;x,y)與?bJ(W,b;x,y)分別表示代價函數對于網絡權值和偏置項的偏導數,其可定義為:
則可根據偏導數進行迭代更新網絡權重和偏置項,如下:
式中,α表示調節系數,*表示迭代更新值。
通過多次迭代,更新網絡連接權重和偏置項可以實現偏導數最小化,也即實現了訓練值與期望值之間的最小化,從而完成深度學習網絡模型的訓練。
為了驗證該文所提基于數據挖掘與深度學習的健康云數據監控分析算法的有效性,對比了所提算法與現有四種算法對于同一種疾病的數據分析正確率。另外,為了進一步驗證所提算法的魯棒性,針對多類型的健康疾病進行分析對比。
表1 是該文算法與四種現有算法對于同一組數據針對骨質疏松問題進行的分析診斷結果。其中,邏輯回歸算法和AdaBoost 算法的誤診率及漏診率均較高,這與算法的訓練精度有關。而隨機森林算法和SVM 算法的診斷率有一定的提升,其訓練復雜度與所提算法相當。但漏診率遠高于該文算法,說明所提算法的性能更加優越。

表1 不同算法健康疾病診斷率對比
如表2 所示,根據不同的疾病,該文所提基于數據挖掘與深度學習的數據分析算法診斷率均大于94%,說明所提算法具有較高的魯棒性。同時還可以發現,對于感冒發燒、鼻炎和骨質疏松等癥狀和指標比較明顯的疾病,該文算法的診斷率更高;而對于腫瘤等特征不明顯的疾病,算法性能則會有一定的下降。

表2 不同類型疾病的診斷率對比
針對在線智能健康診斷的需求,該文提出了一種基于數據挖掘和深度學習的健康云數據監控分析算法。將深度學習網絡與數據挖掘技術相結合,對健康云數據進行數據挖掘預處理,建立深度學習網絡模型,并利用處理后的數據進行反向傳播算法訓練。通過采用梯度下降法實現深度學習網絡訓練,從而完成智能診斷。數據分析結果說明,該文所提算法相對于現有算法具有更高的診斷率,且對于不同類型疾病的適用性良好。對于部分疾病特征不明顯導致的算法性能下降問題,則有待于后續的進一步研究。