米 碩,孫瑞彬,李 欣,明 曉
(山東科技大學,山東 濟南 250000)
我們對數(shù)據(jù)進行歸一化,然后使用SPSS軟件對各個指標與睡眠質(zhì)量進行了相關(guān)性分析,接著通過Matlab以睡眠質(zhì)量為因變量使用逐步線性回歸方法剔除了相關(guān)性較小的指標,保留了Age、Sex和Nervousness三個指標,最后使用遺傳算法求解這三個指標與睡眠質(zhì)量的相關(guān)性權(quán)重,得到了這三個指標對睡眠質(zhì)量的重要性權(quán)值分別為[0.5394 0.0002 0.4604]。基于上述條件,我們利用數(shù)據(jù)進行建模分析,進一步確立了睡眠與病例診斷結(jié)果的關(guān)系。
我們使用Excel并結(jié)合 AnnexⅡTranslation中的數(shù)據(jù)對附件中的數(shù)據(jù)進行了異常值的檢測,發(fā)現(xiàn)Diagnosis中存在部分異常值和空值,比如“?”,“Xia Yong”等,由于異常數(shù)據(jù)量較少,因此,我們剔除了含有異常數(shù)據(jù)的樣本。
我們將數(shù)據(jù)中的性別按“male=0,female=1”轉(zhuǎn)化為數(shù)值型數(shù)據(jù),將Diagnosis中包含多個值的樣本劃分為Diagnosis各不相同的多個樣本;將Diagnosis中的值轉(zhuǎn)換為數(shù)值型數(shù)據(jù),根據(jù)各病癥在數(shù)據(jù)集中出現(xiàn)的順序?qū)⒉“Y分別標號為“0,1,2,3……”,最終得到包含6 955個樣本的數(shù)據(jù)集。
附件中的Age為連續(xù)型數(shù)據(jù),我們根據(jù)國際最新的年齡分段標準將Age分為了4段,并為其進行標識,其中,0~44歲為青年人,用“0”標識;45~59歲為中年人,用“1”標識;60~74歲為年輕老年人,用“2”標識;75歲以上為老年人,用“3”標識。
我們建立了基于LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節(jié)點是無連接的。但是這種普通的神經(jīng)網(wǎng)絡(luò)對很多問題卻無能無力,而采用循環(huán)神經(jīng)網(wǎng)絡(luò)就能很好地解決這個問題。
該網(wǎng)絡(luò)在t時刻接收到x之后,隱藏層的值是xt,輸出值是ot,關(guān)鍵在于st的值不僅僅取決于xt,還取決于st-1。利用下面的公式來表示循環(huán)神經(jīng)網(wǎng)絡(luò)的計算方法:

式(1)是輸出層的計算公式,式(2)是隱藏層的計算公式,即循環(huán)。如果反復把式(2)代入到式(1)中,將會得到:

從式(3)中可得,循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出值是受前面歷次輸入值xt,xt-1,xt-2,…,的影響的。以上就是在基于循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了改進后的基于LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)。
分析附件中的數(shù)據(jù),我們發(fā)現(xiàn)在其他指標相同時,其所患病癥可能不同,即同一數(shù)據(jù)的標簽不唯一,且診斷結(jié)果不僅與睡眠質(zhì)量有關(guān),與人體的其他因素也存在一定關(guān)系,為消除這些誤差,我們使用Top-n錯誤率評價模型的準確性。Top-n錯誤率即從模型的預測結(jié)果中選取概率最大的n個作為預測類別,當預測類別中包含真實類別時,判定為預測成功,否則為失敗。可以看出,當n為1時,即為常用的模型錯誤率。本文中,我們主要比較模型的Top-3和Top-5錯誤率。
我們將附錄中的9個指標作為神經(jīng)網(wǎng)絡(luò)的輸入,患病的類別作為神經(jīng)網(wǎng)絡(luò)的輸出,并設(shè)置神經(jīng)網(wǎng)絡(luò)的參數(shù)見表1.

表1 神經(jīng)網(wǎng)絡(luò)的參數(shù)
從處理后的數(shù)據(jù)中選取6 500組數(shù)據(jù)作為訓練集使用神經(jīng)網(wǎng)絡(luò)進行訓練。分別以Top-3錯誤率和Top-5錯誤率為標準,分別得到訓練的誤差變化圖和準確率變化,見圖1.
以Top-3錯誤率為標準訓練終止時的準確率為0.702 085,使用處理后數(shù)據(jù)中的500組數(shù)據(jù)最為驗證集對神經(jīng)網(wǎng)絡(luò)進行測試,可得到驗證集上準確率為0.696 276.

圖1 Top-3和Top-5的準確率變化圖
以Top-5錯誤率為標準訓練終止時的準確率為0.988 21,使用處理后數(shù)據(jù)中的500組數(shù)據(jù)最為驗證集對神經(jīng)網(wǎng)絡(luò)進行測試,可得到驗證集上準確率為0.973 721.
由于數(shù)據(jù)的指標均以Pittsburgh sleep quality index為選取標準,因此,我們在上述模型的基礎(chǔ)上,選取不同的取值,通過模型求得病率與原數(shù)據(jù)中的得病情況進行比較,得出睡眠質(zhì)量越高,睡眠時間越長,得病率越低。
參考文獻:
[1]周志華.機器學習[M].北京:清華大學出版社,2016.