◆陶雨潔 聶金玉
行業與應用安全
神經網絡在腦電信息的睡眠分期中的研究
◆陶雨潔 聶金玉
(云南大學軟件學院 云南 650504)
腦電信息蘊含著大量生理與病理信息,在睡眠相關領域的研究中起著十分重要的作用。睡眠分期作為睡眠醫學的基礎工作,借助神經網絡的發展也進入了新的階段。本文簡要介紹了睡眠分期的背景與意義,分析神經網絡在睡眠階段分期任務中的發展,最后提出幾點思考與建議,供相關讀者參考。
睡眠分期;神經網絡;不平衡;通道;紀元關聯性
人類睡眠質量的高低與生活效率、身體健康息息相關。多導睡眠圖(Polysomnography,PSG)作為評估睡眠的有力工具,是通過佩戴在測試者身上的多個傳感器采集,經前置放大,輸出不同的電訊號而獲取到的,其中包含11個通道信號數據。睡眠分期通常是使用其中腦電圖(EEG),眼電圖(EOG),肌電圖(EMG)等通道進行的[1]。
在傳統的睡眠任務中,相關研究人員需要使用睡眠手冊對多導睡眠圖數據進行人工分析,耗時費力且需要極高的專業知識。在半自動化睡眠分期任務中,大量研究使用基于特征工程的機器學習方法,通過多導信號的預處理例如去噪,提取并選擇統計特征,然后使用機器學習的不同分類方法進行訓練,通過這樣的流程以求提升準確度而展開的。
神經網絡的出現及其在眾多領域取得的驚人進展激發了人們對于應用它們進行自動睡眠分期的興趣。神經網絡的力量在于具有優異的特征學習能力,無須先驗知識便實現了自動化提取特征和分類的過程,從而避免了對手工制作功能的依賴。然而現有的自動化睡眠分期模型中仍然存在許多問題:(1)使用多通道數據會對睡眠本身產生一定限制和影響。(2)數據不平衡導致的過擬合問題。(3)睡眠階段連續紀元之間的關聯性難以把握。
睡眠是人類最重要的活動之一,然而我們對睡眠的研究卻僅僅只有幾十年歷史。1937年,Lomis、Harvey和Hobart注意到睡眠并不是一種的平穩的狀態,而是會發生一系列有規律的周期性變化[2]。1957年,1986年研究人員提出并開始完善有關睡眠分期的劃分標準。2007年,美國醫學會基于上述標準進行改進,發布了新的睡眠分期專業標準,其中規定了各個指標具體的采集標準及判定方法,該規則一直沿用至今[3]。
在美國醫學學會制定的新標準中,將一個夜間腦電圖睡眠信號劃分為30秒每紀元,每個紀元分別被劃分為清醒期、快速眼動期(REM)和非快速眼動期(NREM)階段,再進一步劃分為清醒期(W),非快速眼動1期(N1),非快速眼動2期(N2),非快速眼動3期(N3)和快速眼動期(REM)五個階段。表1簡要總結了各個睡眠階段的劃分標準和描述。

表1 睡眠階段的劃分標準和描述
多導睡眠圖和睡眠手冊的問世對睡眠的研究具有決定意義,然而過去的研究者們必須掌握有關睡眠的診斷方法,并熟練選擇應用和綜合分析這些方法,才能為疾病的診斷提供客觀依據。
在早期機器學習處理睡眠分期任務中,研究者熱衷于提取各類統計特征,其中常見的是平均振幅、方差、譜功率、中值等,通過如支持向量機(SVM)等機器學習方法對最佳特征子集進行分類。為了獲得更高的分期準確度,研究者們必須不斷嘗試并嚴格篩選特征,但特征是難以窮盡的,這無疑給睡眠分期任務帶來了巨大的工作量。
自動化睡眠分期算法的研究,提高了睡眠分析的自動化水平和準確性,為醫護人員的臨床診斷提供重要的輔助決策依據,也有利于為新經濟驅動下眾多失眠患者提供更為便捷的睡眠評估方法,具有重要應用價值。隨著神經網絡的快速發展,研究者將目光轉向了如卷積神經網絡(CNN)和循環神經網絡(RNN)及其變體的使用,以下介紹兩種常見的神經網絡作用。
卷積神經能夠自動從原始數據中提取出最能代表數據的重要空間特征,而無須任何預處理,在選擇這些特征時也無須任何人工決策。同時由于網絡的稀疏連通性和參數共享使得它在內存占用方面具有很高的優勢。憑借這一能力,卷積神經在不同的模式識別和計算機視覺應用中取得了巨大的成功。一個典型的卷積神經由三種類型的層組成:卷積層、池化層和全連接層。卷積層通過對輸入數據應用權重可訓練的濾波器來生成特征圖。然后應用池化層對特征圖進行降采樣,降低特征的維數,從而降低計算復雜度。最后,將全連通層應用于前一層的所有輸出,生成一維特征向量。將卷積神經網絡作為特征提取器代替前人工作中復雜的特征工程處理,在自動化睡眠分期任務中邁向了一大步。
循環神經網絡是一種功能強大的深度學習分類方法,尤其適用于時間序列數據。其基本思想是添加時間延遲單元和反饋連接,以便在后續狀態中可以使用以前狀態的信息,從而建立數據的長距離依賴關系。事實上,腦電信號是按照統一指標按時間順序記錄的數據,是典型的時序數據,循環神經網絡在一定程度上解決了睡眠分期的紀元關聯性問題。
神經網絡在睡眠分期任務上取得了革命性的突破,但這需要大量的數據作為支撐。當數據匱乏或不平衡時,網絡極易出現過擬合問題,特別是N1和N3數據規模較小而導致識別率低的問題。表2給出了兩個著名公開數據集中睡眠階段的紀元數量。

表2 睡眠階段的紀元數量
數據擴充是解決由數據稀缺導致的不平衡數據問題的一種有效方法[4]。在睡眠分期任務中,常見的增強手段,例如通過減少多數類中樣本數量的下采樣方法,容易使得多數類丟失關鍵信息;通過復制或者生成更多少數類的方法,如隨機反復抽取少數類并放回原樣本空間的隨機上采樣方法,易導致樣本相似度極高而引起過度擬合問題;使用如Boosting或Bagging的方法在模型層面減少數據不平衡的風險,但這也限制了模型的設計。
一些生成模型,例如變分自編碼網絡(VAE)和生成對抗網絡(GAN),已經證明通過網絡生成數據方法可以用于數據增強任務[5]。雖然相比傳統的數據增強技術過程更為復雜,但生成的樣本也更具相似性和多樣性,值得研究者們進行嘗試。
基于神經網絡的睡眠分期研究可分為兩部分:(1)多通道(2)單通道,多通道PSG數據的采集需要受到測試者前往醫院,佩戴的多個傳感器電極,同時受到避免夜間起夜、保持情緒穩定、禁食茶水等諸多限制,這對睡眠質量本身將會產生一定的影響。《2015年中國睡眠指數報告》指出我國約有三分之一的人存在嚴重的睡眠問題,然而大部分人群沒有達到醫院就醫標準,但仍需要日常監測[6]。
根據現有的方法顯示,使用單通道幾乎可以達到與多通道媲美的效果。同時采用單通道檢測階段,簡化了儀器和實驗記錄的復雜性,降低了睡眠階段人工分類的成本。因此使用少量通道,進行自動睡眠階段分類,可以極大程度上支持在移動設備或家庭可穿戴設備上提供睡眠監護與服務[7]。
睡眠是一個周期性交替進行的過程,這意味著睡眠階段的連續性和連續紀元之間的強烈依賴性。睡眠分期的分類任務中處理紀元之間的依賴性,在數據層面上需要使用上下文,常見的方法是將三個或五個紀元作為共同輸入,這將引起無法確認中心位紀元的重要程度以及計算復雜度呈線性比例增加的問題;在模型層面上,常見的方法是采用循環神經網絡及其變體,對不同睡眠階段轉換規則所需的長期依賴信息進行選擇和記憶。
現有的分類模型中往往忽略了多個訓練任務之間的關聯性信息提取,因此使用多任務神經網絡成為當前研究的熱點課題之一[8]。在睡眠分期研究中使用多任務神經網絡對中心位紀元分期進行權重分析、共同決策,在一定程度上解決了連續紀元之間的依賴性和關聯性,同時結合其他的分類技術,相比用多個模型進行集成的方法將會更加廉價和方便。
睡眠分期作為睡眠醫學的基礎工作,在睡眠質量研究中扮演著重要的角色。睡眠的自動分期作為睡眠判定的重要工作,正得到越來越多的研究者的關注。想要通過神經網絡進行自動分期并取得更加良好的成績,研究者們必須考慮到睡眠數據本身的特點,使之真正成為幫助醫患的有效、實用性工具。
[1]段瑩,高和. 標準多導睡眠監測的技術規范和應用范圍[J]. 世界睡眠醫學雜志,2014(1):30-33.
[2]蔡文英,鐘龍云. 睡眠腦電波的計算機分析[J]. 中國科學技術大學學報,1990(7):177-183.
[3]Iber C,Ancoli-Israel S,Chesson A, and Quan SF for the American Academy of Sleep Medicine. The AASM Manual for the Scoring of Sleep and Associated Events:Rules, Terminology and Technical Specifications,1st ed.:Westchester, Illinois:American Academy of Sleep Medicine,2007.
[4]向鴻鑫,楊云. 不平衡數據挖掘方法綜述[J]. 計算機工程與應用,2019,55(04):6-21.
[5]張曉峰,吳剛. 基于生成對抗網絡的數據增強方法[J]. 計算機系統應用,28(10).
[6]師樂,陸林. 我國睡眠醫學的現狀與展望[J]. 中華精神科雜志,2017,50(001):5-7.
[7]吳曉丹,宋元林,李善群,等. 物聯網在睡眠呼吸紊亂管理中的應用[J]. 國際呼吸雜志,2014,34(019):1512-1515.
[8]馬建陽. 基于多任務學習的數據分類方法研究[D]. 北京交通大學,2018.