999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

降低數據稀疏性的多維時序序列時間戳對齊方法

2022-04-28 14:10:12李廣盛鄭建立車霞靜
智能計算機與應用 2022年4期
關鍵詞:分類模型

李廣盛,鄭建立,車霞靜

(1上海理工大學 健康科學與工程學院,上海 200093;2上海交通大學附屬仁濟醫院,上海 200127)

0 引 言

在過去的二十年中,時間序列分類(time series classification,TSC)被認為是數據挖掘中最具挑戰性的問題之一。隨著時間數據可用性的增加,自2015年以來已有數百種TSC算法被提出。由于時間序列數據的自然時序性,幾乎每一個需要某種人類認知過程的任務中都會出現時間序列數據。時間序列廣泛存在各類研究工作中,包括電子健康記錄、人類活動識別到聲學場景分類和網絡安全等領域。但由于種種原因,如收集錯誤、故意損壞、醫療事件、節省成本、設備異常等,往往會不可避免地出現丟失觀測數據和不規則采樣等現象,使得時序序列數據稀疏性大大增加,阻礙了分類任務的開展。

針對時序序列中缺失問題,從不同的解決方法來看,主要可以分為2類。一是以專家知識為基礎進行手工填補和重采樣;二是利用深度學習等方法實現端到端的數據填補及分類。前者主要利用專家知識,根據時序序列數據的觀測變量等信息進行缺失值的填補和修正,后者利用深度學習強大的抽象表征能力和擬合能力來實現數據的填補和分類[11-14]。

基于專家知識的方法盡管可解釋性較強,但是卻費時費力;而基于深度學習方法在原始數據集上直接填補盡管能夠取得不錯的效果,但是卻忽視了不規則采樣等問題。此外,數據集中可能存在部分數據缺失率過高,使得模型無法抽取其潛在信息,模型的填補效果大打折扣。本文提出一種基于數據集中自帶的時間戳數據,通過數據時間戳對齊和下采樣方法,在多個公開數據集以及私有數據集和近年來提出的深度學習時序序列分類算法上的實驗表明,該方法能夠在基本不損失模型效果的同時,有效減小數據集的稀疏規模和模型訓練時間。

1 相關方法

在本節中,本文先給出多維時序序列的相關定義,之后將相關方法分為時間戳對齊和基于分布密度的下采樣兩步講述,具體流程示意圖如圖1所示。

圖1 時間戳對齊和下采樣流程示意圖Fig.1 Schematic diagram of time stamp alignment and downsampling process

1.1 多維時序序列的定義

1.2 時間戳對齊

由于數據集的不規則采樣,導致雖然數據采樣點的時間跨度非常大,但是數據點的個數卻非常少,具體到每一個樣本更是不盡相同。例如在Physionet數據集中,總共有48×60 min,共2 880個數據可采樣點。但事實上該數據集中最大樣本的數據采樣點個數只有249,而最小樣本的數據采樣點個數只有1。考慮到深度學習模型在訓練時一般采用小批量(mini-batch)做法,因此需要在較短的樣本尾部填充無意義的屏蔽值(mask value),使模型的輸入等長。但是這樣的對齊在RNN模型中是有缺陷的,RNN模型的每一個時刻輸入是mini-batch在時間維上的切片,上述做法會使得切片中包含的不同樣本數據點沒有對齊,即樣本的t時刻的數據和樣本的t時刻數據同時輸入RNN模型,這樣會導致模型效果欠佳。因此,需要做數據對齊。

首先本文根據時間戳的最小粒度和其時間跨度,構建一個具有最長數據點長度的無值背景板,再根據原始數據對應的時間戳將每一個數據點嵌入其中,這樣就得到了一個完整的所有樣本數據點都對齊了的數據集,實現了數據點的物理位置和邏輯位置的統一。根據上述做法,Physionet數據集的維度從原始的3 994×203×41,最終則轉換成了3 994×2 881×41。

1.3 基于數據分布密度的下采樣

在將數據對齊后,數據集的稀疏性會進一步擴大,需要做進一步的處理來減小數據集的稀疏性。本文定義在時間軸上的數據集分布密度函數,具體如下:

根據定義可知,當()較小時,說明樣本在對應時間戳∈[tt)中分布較少,該區間的稀疏性較大。本文通過求解該區間所有觀測變量的均值來替代該稀疏區域,實現數據稀疏性的減小,計算公式如下:

其中,t可用如下數學公式計算得出:

圖2給出了Physionet數據集原始和預處理后的數據密度分布圖像。從圖2中可以明顯看出,經過預處理的數據在時間軸上的分布密度顯著提升,并且基本保留原始分布密度的分布趨勢。

圖2 Physionet數據集數據分布密度Fig.2 Data distribution density of Physionet data set

在經過預處理后,Physionet數據集大小從經過時間戳對齊后的3 994×2 881×41轉換成了3 994×100×41。對比該數據集原始的大小可以發現,經過處理后的Physionet數據集的大小是原來的0.493倍,顯著減少了數據集的尺寸。

2 實驗結果

2.1 數據集

Physionet challenge 2012是physionet.org在2012年舉辦的一個多維時序序列分類和回歸比賽。該比賽使用的數據是12 000名因心臟病、內科、外科等原因而住院的ICU病人的記錄,包括白蛋白(Albumin)、堿性磷酸酶(ALP)、谷丙轉氨酶(ALT)等36個觀測變量和年齡、身高、體重等6個一般描述符,共42個變量。除一般描述符外,囿于病人身體狀態差以及醫療設備工作性質等原因,在36個觀測變量中有很多缺失值,且每一個觀測的時間間隔也不相同。數據集中給出了每一個觀測的相關時間戳,該時間戳的分度值是分鐘,即時間的最小粒度為每分鐘。該挑戰賽設立了5個分類任務和一個回歸任務。本文主要使用的是其中的死亡預測任務,即預測病人在48 h后是否死亡。這也是下文涉及的算法在提出時被使用到的任務。

MIMIC-III Clinical DataBase是一個大型的公開數據庫,其中包括了2001年至2012年期間在美國BIDMC醫療中心重癥監護病房住院的超過4萬名患者的已確認的健康相關數據。該數據庫包括人口統計信息、在床邊進行的生命體征觀測、實驗室檢測結果、程序、藥物、護理記錄、影像報告和死亡率等記錄。通過數據挖掘、信息提取等手段,從該數據庫中提取了份存在大量缺失值和不規則采樣的ICU住院病人48 h內的時序序列數據、對應的時間戳和死亡預測標簽。該數據一共有12個觀測變量,包括血氧飽和度(SpO2)、心率(HR)、呼吸速率(RR)、收縮壓(SBP)等。和Physionet一樣,本文也是使用其作為分類任務。

腎移植術后數據集是來自某三甲醫院腎移植科的931名腎移植患者術后生理檢查的數據集,其中包括血常規、尿常規和血藥濃度等共87個觀測變量。該數據集的時間戳較為特殊,以腎移植手術當天為第零天,手術后所做檢查的時間戳都為正整數,手術前所做檢查的時間戳皆為負整數,時間戳的單位長度為一天。一般腎移植患者術后需住院幾周,因此,數據在第零天周圍分布比較密集。之后因病人經濟原因、個人意愿以及地域等因素,使得病人做生理檢查次數較少、檢查范圍不全,從而導致數據分布十分稀疏且不規則。該數據集的標簽分為感染、排異和正常三個類型,分別描述了病人腎移植術后自身免疫力水平低、高、正常對移植腎的影響。

圖3給出了上述3個數據集原始缺失率和經過下采樣后的缺失率。從圖3中可以發現,腎移植數據集缺失率較另外2個數據集缺失率更高,下采樣效果不明顯,但是對于Physionet數據集和MIMIC-III數據集,下采樣均有效降低了數據集的缺失率。

圖3 3個數據集下采樣前后缺失率對比圖Fig.3 Comparison of missing rates among three data sets with and without downsampling

2.2 相關分類算法

GRUD,全稱GRU-deacy。文獻[12]通過分析缺失值的類型給出了2個缺失模式,分別是:固定缺失值模式和衰減收斂缺失值模式。其中,固定缺失值模式指某個觀測變量的缺失值和該觀測變量最早的記錄值相同;衰減收斂缺失值模式指觀測變量在經過較長時間變化后逐漸收斂,如MIMIC-III中SpO2等觀測變量。研究中根據這2種缺失值模式提出了填補函數,并將填補過程嵌入普通GRU模型,構建了一個端到端的對具有缺失值和不規則采樣的多維時序序列進行分類的深度學習算法,在原始Physionet數據集實驗表明,該算法能夠有效地實現對病人死亡與否的預測,其達到了0.831,是一個強有力的基線。

Interp-net通過構建了一個插值網絡來捕獲輸入數據的平滑趨勢、瞬態和觀測強度信息共三個維度的信息,以適應使用稀疏和不規則采樣數據作為有監督學習輸入的復雜性,從而得到一個規則間隔和無缺失值的輸出,在此基礎上將利用預測網絡計算出最后的分類結果。與GRUD不同的是,該模型完全是模塊化的,其插值網絡和預測網絡是分開的。在原始MIMIC-III數據集上達到了0.853。

2.3 結果

由于3個數據集標簽分布并不均勻,因此本文采用ROC曲線下面積來衡量模型的效果。的計算方法同時考慮了分類器對于正例和負例的分類能力,在樣本不平衡的情況下,依然能夠對分類器做出合理的評價。實驗中將數據集分為訓練集、驗證集、測試集,其比例為0.64:0.16:0.2。模型超參數均為模型研發者提供的默認值,其中,Physionet數據集和腎移植數據集的批次大小為128,MIMIC-III批次大小為256。

表1顯示了上述模型在3個原始數據集和預處理后訓練的最終效果。從表1中可以看出,模型在經過預處理的數據集上的效果幾乎同模型在原始數據集上效果相同,損耗在0.003。

表1 GRUD、Interp-net模型在Physionet、MIMIC-III、腎移植數據集上AUC效果表Tab.1 AUC effect table of GRUD and Interp-net models on Physionet,MIMIC-III,and kidney transplantation data sets

本文還對比了上述模型在這2類數據集上訓練所需時間,所有訓練內容都在一張Nvidia Tesla P40顯卡上進行。實驗結果見表2,單位為hour/epoch。從表2中可以明顯看出模型在經過預處理的數據集上達到收斂點的時間較短,能夠有效地縮短模型的訓練時間:在相同模型情況下,經過處理后的數據集的訓練時間與原始數據集訓練時間相比,平均減少了42.1%。尤需指出的是,腎移植數據集在GRUD算法上則減少了50%。

表2 GRUD、Interp-net模型在Physionet、MIMIC-III、腎移植數據集上訓練時間表Tab.2 Training schedule of GRUD and Interp-net models on Physionet,MIMIC-III,and kidney transplantation datasetshour·epoch-1

3 結束語

本文提出了一種新的多維時序序列預處理方法。首先利用數據集自帶的時間戳,實現原始數據在時間刻度上的對齊;然后通過觀察數據集在時間軸上的分布密度來縮小分布密度較低的區間,最終得到一個規則采樣且數據稀疏性大大減少的新數據集。實驗結果顯示與原始數據集相比,在基本不損失模型效果的情況下,該方法顯著減小了模型訓練所需要的時間。但是,該方法不夠自動化,仍需要手動選擇需要縮小的區間。因此,性能上更為優越的自動化是未來探索的方向。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精品成| 国产日本欧美在线观看| 欧美 亚洲 日韩 国产| 亚洲品质国产精品无码| 久久久噜噜噜久久中文字幕色伊伊| lhav亚洲精品| 国产99视频精品免费观看9e| 国产日本视频91| 四虎永久免费在线| 国精品91人妻无码一区二区三区| 高清码无在线看| 黄色网站在线观看无码| 成人国产精品网站在线看| 日本午夜精品一本在线观看| 日韩欧美成人高清在线观看| 制服丝袜一区| 亚洲综合中文字幕国产精品欧美| 99久久精品免费看国产电影| 久久精品66| 5388国产亚洲欧美在线观看| 久久久久88色偷偷| 成年人国产视频| 色综合久久88| 宅男噜噜噜66国产在线观看 | 热九九精品| 亚洲精品第1页| 国产在线91在线电影| 亚洲欧洲自拍拍偷午夜色| 污污网站在线观看| 欧美日本激情| 欧美怡红院视频一区二区三区| 午夜啪啪网| 91成人精品视频| 一本大道无码高清| 毛片大全免费观看| 一区二区欧美日韩高清免费| 欧美影院久久| 丰满人妻中出白浆| 日韩无码真实干出血视频| 亚洲小视频网站| 免费一级全黄少妇性色生活片| 手机在线免费毛片| 国产美女91视频| 综1合AV在线播放| 亚洲国产精品日韩欧美一区| 在线免费观看AV| 美女国产在线| 69av免费视频| 美女国内精品自产拍在线播放| 少妇精品久久久一区二区三区| 亚洲天堂福利视频| 深夜福利视频一区二区| 亚洲美女视频一区| 亚洲AV无码一区二区三区牲色| 国产在线第二页| 亚洲成人网在线观看| 日韩东京热无码人妻| 久久国产香蕉| 久久99这里精品8国产| 91精品视频在线播放| 日韩中文字幕免费在线观看| jizz亚洲高清在线观看| av无码一区二区三区在线| 依依成人精品无v国产| 亚洲天堂免费在线视频| 91精品国产91久无码网站| 亚洲成人黄色在线| 国产91在线免费视频| 亚洲天堂伊人| 99久久精品国产自免费| 国产福利在线观看精品| 真人高潮娇喘嗯啊在线观看| 天天色综网| 久久这里只有精品66| 香蕉视频在线观看www| 亚洲欧洲日产无码AV| 久久伊人操| 亚洲女同一区二区| 综合色婷婷| 国产欧美视频一区二区三区| 日韩国产精品无码一区二区三区| 91视频日本|