李曉峰,焦洪雙,王妍瑋
(1.黑龍江外國語學院 信息工程系,黑龍江 哈爾濱 150025;2.普度大學 機械工程系,印第安納州 西拉法葉市 IN47906)
利用大數據分析和處理方法對醫療信息進行管控、建立醫療大數據的融合調度和敏感度表征模型,有利于提高對醫療大數據的信息檢測和統計分析能力。通常來說,對醫療大數據進行處理的方法是建立在對醫療數據的統計分析和大數據融合采樣基礎上的[1],建立醫療數據的量化分析模型,結合模糊信息調度方法,有利于提高醫療信息的表征能力[2]。由于很多醫療應用程序都包含敏感信息的輸入過程,為確保敏感信息的安全性,使患者的個人權益不受侵害,研究敏感信息的安全保護機制尤為重要,而這一過程,需建立在對醫療數據敏感度進行度量的基礎上。因此,相關的醫療數據敏感度度量和特征分析方法研究,在醫療數據的信息診斷和檢索等領域中具有很好的應用價值。
目前,已有很多專家學者在該領域進行了研究,所得到的醫療數據的敏感度度量方法主要有統計特征分析方法、三維特征重構方法、C均值重構度量方法等。總的來說,對醫療數據敏感度進行度量的方法是建立在醫療數據的譜特征分析和特征提取結果的基礎上的,從中提取醫療數據的敏感度特征分量,再結合高階統計信息融合方法對醫療數據進行三維重構。在此基礎上,根據醫療數據的融合聚類分析結果結合醫療數據的表面重建,實現醫療數據的三維重構和特征分析,完成對敏感度的度量[3]。文獻[4]中提出了一種基于改進全卷積神經網絡的大數據表面重建和敏感度度量方法,在該方法中,采用無線射頻識別技術進行大數據采樣和敏感度特征分析,結合卷積神經網絡分析方法,實現對數據的敏感度度量。但該方法進行醫療數據敏感度度量的自適應性不好,統計分析能力不強。文獻[5]中提出了一種基于關聯規則特征檢測的醫療數據敏感度度量方法,在該方法中,首先對醫療信息管理系統中的醫療數據的存儲結構進行分析,采用支持向量機算法區分醫療數據的屬性類別,再在同類屬性數據中篩選出敏感度數據并對其敏感度進行計算。然而在利用該方法進行醫療數據敏感度度量的時間開銷較大,度量過程過于繁瑣。文獻[6]中提出了一種基于秩約束密度敏感距離的自適應聚類方法,該方法首先引入密度敏感距離相似度度量方法擴大不同類數據間的距離,并將秩約束施加于拉普拉斯矩陣,使相似矩陣的連通區域數量等于聚類數量,將數據劃分至相應的類別中,在聚類的基礎上實現對數據敏感度的度量。然而該方法對敏感數據的查準率較低,對敏感數據的采集和獲取結果不理想。
量子算法是指利用量子計算的并行性和糾纏性等特征、將量子理論與計算機技術相結合的新型計算模式。由于量子的獨特性質,使得量子算法能夠適應大數據量的處理,計算成本也大大減少。為此,針對當前方法中存在的度量過程自適應性差、度量開銷大、對敏感數據查準率較低的問題,該文提出一種基于量子計算的醫療數據敏感度度量方法。整體思路如下:首先采用分布式樣本重構方法對醫療數據的分布式結構進行重組,然后采用量化回歸分析方法對醫療數據進行模糊融合和聚類分析,根據融合分析結果建立定量遞歸分析模型,在此基礎上,結合量子計算對度量過程進行尋優約束,并采用動態全局規劃方法實現對醫療數據敏感度的度量。最后通過仿真實驗結果證明了該方法在提高醫療數據敏感度度量性能方面的優越性能。
為了實現對醫療數據敏感度的準確度量,首先構建醫療數據的分布式結構重組模型,采用高階統計特征分析方法,進行醫療數據的分布式結構重組過程中的特征提取和分布式特征檢測[7],繼而建立醫療數據度量的模糊關聯規則特征檢測模型,采用一條NURBS曲線進行醫療數據的分布式結構重組[8-9],這一過程表述如下:
(1)
其中,N表示采集到的用于進行敏感度度量的醫療數據;P表示重組結果;Ci(i=0,1,…,n)表示醫療數據的分布式度量的控制頂點;Wi(i=0,1,…,n)表示自適應學習的權因。在此基礎上,對醫療數據的分布式結構重組的權因子進行量化尋優,當分布式權值滿足W0>0,Wn>0時,采用模糊加權學習方法,假設Ni,k表示第k次尋優規范的樣條函數,則由遞推公式計算醫療數據的分布式結構重組模型為:
(2)
其中,U=(u0,u1,…,ui+k+1)表示醫療數據敏感度度量節點矢量,u表示NURBS曲線的自變量。根據上述重組結果,結合關聯規則挖掘方法進行醫療數據敏感度度量的自適應尋優,從中提取出醫療數據的關聯維特征量,再采用關聯特征檢測方法進行醫療數據敏感度度量過程中的模糊加權學習。在這一過程中,得到的統計特征量為:
X=xi(P-Ni,k×α)
(3)
其中,xi表示醫療數據敏感度度量的狀態矢量,α表示模糊加權系數。對于所得的統計特征量,結合自適應學習方法對醫療數據進行三維特征重建。設置r個不同的聚類中心中醫療數據結構重組的狀態因子,得到醫療數據敏感度度量的動態增量函數h1,h2,…,hi,…,hr,每一個函數滿足hi:{0,1}*→[1,m]。采用線性映射方法,建立醫療數據敏感度度量的模糊度檢測模型,結合結構重組方法進行醫療數據敏感度度量和統計特征分析,所得的模糊度檢測結果為:

(4)
其中,m表示醫療數據三維特征動態重構的模糊度分布特征集,Aj表示不同模糊度下醫療數據敏感度度量的聚類中心,其中j(j=1,2,…,n)表示模糊度。
在上述研究的基礎上,根據模糊度檢測結果建立醫療數據敏感度度量的統計分析模型,采用量化回歸分析方法進行醫療數據敏感度度量的模糊融合和聚類分析[10]。首先,采用樣本回歸分析方法進行醫療數據度量的統計特征分析,得到的統計特征量表示如下:
(5)
其中,di,j(i,j=0,1,…,n)表示醫療數據敏感度度量的控制頂點。采用插補算法進行醫療數據敏感度度量過程中的二維插值運算,以等弧長為度量尺度,進行醫療數據敏感度度量曲線分割[11-12]。使用f表示醫療數據敏感度度量的樣條曲線,根據時間t的變化,利用一階泰勒級數展開上述統計特征量,得到醫療數據統計特征量的時間尺度分解式為:
(6)
其中,H.O.T表示高階微量。對于式(6)中的ti,采用i次插補方法,進行醫療數據敏感度度量的量化回歸分析,建立統計分析模型,對應的插補時刻,得到醫療數據的敏感度度量的量子計算微量[13],可定義為:
(7)
忽略醫療數據量子計算的高階微量H.O.T,根據量子計算方法[14]可得到醫療數據統計分析的參數增量ΔV如下:
ΔV=Ts×(V(t)-V')
(8)
其中,Ts為曲線插補周期。在此基礎上,采用支持向量機模型,進行醫療數據敏感度度量的動態增量控制,得到控制誤差性能曲線為:
l=ΔV(M+c)e
(9)
其中,M表示醫療數據敏感度特征分布的正定值;e表示醫療數據統計分析的模糊度函數;c表示為聚類誤差。則根據誤差控制結果對醫療數據進行統計分析,結果如下:
G=l(ΔV×M-c×Z)
(10)
通過得到的醫療數據的統計分析模型,建立醫療數據敏感度度量的定量遞歸分析模型,采用量子計算方法進行醫療數據敏感度度量過程中的自適應尋優控制。
在上述采用分布式樣本重構方法進行醫療數據的分布式結構重組,并建立醫療數據敏感度度量的統計分析模型的基礎上,進行醫療數據敏感度度量模型的設計。該文提出了基于量子計算的醫療數據敏感度度量方法。采用量子計算方法進行醫療數據敏感度度量過程中的自適應尋優控制,采用模網格分區域聚類分析方法,建立醫療數據敏感度度量的關聯規則特征分布集,結合分簇融合方法進行醫療數據的敏感度度量。分布集的簇模型描述為:
(11)
其中,ρ1,…,ρn為一組醫療數據敏感度特征分布的關聯特征量。根據量子隱形傳態原理可得到共享的量子糾纏特征值O。對醫療數據的敏感度的關聯進行映射,根據映射結果,得到在鄰域空間q內,醫療數據敏感度度量的量子計算統計分布集為:
F=O×(G×q+E)
(12)
采用量子計算方法,得到醫療數據敏感度度量的模糊關聯度,輸出為s,得到量子尋優進化模型為:

(13)

(14)
綜上所述,該文結合量子計算方法實現了對醫療數據敏感度度量。首先初始化醫療數據,在建立統計分析模型的基礎上,采用樣本重構方法重組醫療數據的分布式結構,然后采用量化回歸分析方法對醫療數據進行模糊融合和聚類分析,建立其定量遞歸分析模型,繼而采用量子計算進行醫療數據敏感度度量過程中的自適應尋優控制,通過全局動態規劃方法實現對醫療數據敏感度的度量。其實現過程如圖1所示。
為了測試所提的基于量子計算的醫療數據敏感度度量方法的實際應用性能,設計如下仿真實驗進行驗證。
實驗環境設置情況如下:實驗所有醫療數據來自于ADNI數據庫(adni.loni.usc.edu),醫療數據敏感度特征分布樣本長度為1 200,對醫療數據的敏感度屬性分布的維數為12,對醫療數據網格聚類的大小40*40,對醫療數據的統計特征分析的樣本訓練集為60,關聯度特征分布系數為0.12。硬件環境為:Windows7系統,Visual Studio2010操作平臺。

圖1 基于量子計算的醫療數據敏感度度量實現
為使實驗結果具有說明性,將所提的基于量子計算的醫療數據敏感度度量方法與文獻[4]中的基于改進全卷積神經網絡的大數據表面重建和敏感度度量方法、文獻[5]中的基于關聯規則特征檢測的醫療數據敏感度度量方法、文獻[6]中的基于秩約束密度敏感距離的自適應聚類方法作對比。
(1)數據查準率。
查準率是一種衡量檢索過程的準確度的指標,通過查準率的對比,可以判斷不同方法對敏感醫療數據的檢索能力,其計算過程如下:
(15)
(2)度量時間開銷。
負載開銷指在數據敏感度度量過程中所花費的時間,可以判斷不同方法的時間消耗情況。度量開銷結果由Visual Studio2010操作平臺自動統計。
(3)查全率。
查全率是指由度量過程檢索出的相關數據量與數據總量的比率,由數據內容、數量和運行環境的平穩性來決定,是衡量度量成功度和自適應性的一項指標,其計算過程如下:

(16)
根據上述實驗條件和指標的設定情況,進行醫療數據的敏感度度量實驗。首先對醫療數據進行采集,在此基礎上,建立醫療數據敏感度度量的定量遞歸分析模型,采用量子計算方法進行醫療數據敏感度度量過程中的自適應尋優控制,實現敏感度表征。得到的醫療數據敏感度表征結果如圖2所示。

圖2 醫療數據敏感度表征結果
分析圖2可知,采用基于量子計算的醫療數據敏感度度量方法后,醫療數據敏感度的波動幅值始終保持在[-1,1]之間,波動情況較為穩定,證明利用基于量子計算的醫療數據敏感度度量方法進行醫療數據敏感度度量過程的敏感特征辨識能力較好,信息反饋能力較強、自適應優勢明顯。
測試不同數據敏感度度量方法的數據查準率,對比結果如表1所示。

表1 不同醫療數據敏感度度量方法的
分析表1可知,隨著實驗迭代次數的不斷增加,不同方法的度量查準率也在不斷發生變化,整體表現出上升態勢。其中,文獻[5]方法的度量查準率的上升幅度最大,但其度量查準率值低于文中方法、文獻[4]方法和文獻[6]方法。文中方法的度量查準率上升幅度雖小,但度量查準率值更高,證明采用文中方法在醫療數據敏感度度量過程中,對醫療敏感數據的捕獲能力較強,檢索誤差較小,能夠有效實現敏感醫療數據的查準。
為進一步對度量方法的有效性進行檢驗,測試不同數據敏感度度量方法的度量開銷和查全率,結果分別如圖3和圖4所示。

(a)文中方法

(b)文獻[4]方法

(c)文獻[5]方法

(d)文獻[6]方法
分析圖3可知,隨著數據樣本數量的增加,同醫療數據敏感度度量方法度量所需的時間也在不斷變化。文中方法和文獻[4]、文獻[5]方法的時間開銷均呈現出上升態勢,而文獻[6]方法的時間開銷先上升后下降。但四種方法中,文獻[5]方法的時間開銷最大,文中方法和文獻[4]方法的時間開銷較接近,但文中方法的時間開銷更小,證明采用文中方法在醫療數據敏感度度量方法的時效性更強。

圖4 不同醫療數據敏感度度量方法查全率對比
分析圖4可知,隨著實驗迭代次數的不斷增加,不同醫療數據敏感度度量方法的查全率也在不斷發生變化。但文中的基于量子計算的醫療數據敏感度度量方法的查全率始終在4種方法中保持最高,維持在95%左右,證明該方法具有較強的自適應性,對數據的統計分析能力較強。
為對醫療數據的敏感度進行準確度量,提出基于量子計算的醫療數據敏感度度量方法。采用分布式樣本重構方法進行醫療數據的分布式結構重組,對醫療數據進行統計分析,結合量化回歸分析方法進行醫療數據敏感度度量的模糊融合和聚類分析,建立醫療數據敏感度度量的定量遞歸分析模型,采用量子計算方法建立醫療數據敏感度度量的量子尋優約束進化模型,根據動態全局規劃結果完成醫療數據敏感度的度量。經實驗研究得知,利用該方法進行醫療數據敏感度度量的辨識能力較好、統計分析能力較強,且自適應性能較強,為保證醫療信息的安全性奠定了基礎。在今后的研究中,將進一步對該方法進行優化,以期使所提的數據敏感度度量方法在度量時效和應用范圍兩個方面有效突破。