999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單輸出子網(wǎng)迭代學(xué)習(xí)的缺失值填補方法

2022-07-26 00:51:20關(guān)晶,帆,勇,
大連理工大學(xué)學(xué)報 2022年4期
關(guān)鍵詞:實驗方法模型

關(guān) 李 晶, 何 潔 帆, 張 立 勇, 閆 曉 明

( 大連理工大學(xué) 控制科學(xué)與工程學(xué)院, 遼寧 大連 116024 )

0 引 言

近年來,隨著計算機技術(shù)和信息技術(shù)快速發(fā)展,各行業(yè)各領(lǐng)域每天產(chǎn)生海量數(shù)據(jù),大到軍事、科技研究,小到日常生活,數(shù)據(jù)無處不在.但是現(xiàn)實世界中,數(shù)據(jù)缺失問題非常普遍.在采集、傳輸以及存儲等環(huán)節(jié)可能出現(xiàn)的數(shù)據(jù)丟失,都會導(dǎo)致最終數(shù)據(jù)集的不完整.?dāng)?shù)據(jù)缺失增加了數(shù)據(jù)分析與挖掘的難度,并可能影響分析結(jié)果的準(zhǔn)確性.因此,合理填補缺失值是數(shù)據(jù)處理過程中非常重要的一個環(huán)節(jié).

不完整數(shù)據(jù)的處理可以分為刪除法和填補法兩類.刪除法,就是直接刪除含有缺失值的樣本或?qū)傩裕瑥亩纬梢粋€完整數(shù)據(jù)集[1].刪除法簡單、易于操作,但是破壞了數(shù)據(jù)的規(guī)模,降低了可用數(shù)據(jù)的數(shù)量.填補法利用不完整數(shù)據(jù)集中存在的屬性值信息,通過相關(guān)的技術(shù)方法或算法為缺失值尋求一個盡可能合理的近似值填補其空缺.根據(jù)技術(shù)方法的差異,填補法常被分為基于統(tǒng)計學(xué)的填補方法和基于機器學(xué)習(xí)的填補方法[2-3].

常用的統(tǒng)計學(xué)填補方法有均值填補[4]、熱卡填補[5]、回歸填補[6]、多重填補[1,7-8]以及EM填補[9-10]等.基于機器學(xué)習(xí)的填補方法則是利用適當(dāng)?shù)乃惴ǎ瑯?gòu)造數(shù)學(xué)模型或者模型組,從數(shù)據(jù)集已知數(shù)據(jù)中尋找樣本之間、屬性之間的關(guān)聯(lián)關(guān)系,通過模型輸出填補缺失值.常用的機器學(xué)習(xí)填補方法有KNN算法[11]、支持向量機[12-13]、神經(jīng)網(wǎng)絡(luò)[14-16]、遺傳算法[17]以及聚類算法[18-19]等.為了追求更高的填補精度,也有很多學(xué)者嘗試將多種算法結(jié)合來填補缺失值[20].Aydilek等[21]將支持向量機、遺傳算法與FCM算法相結(jié)合應(yīng)用于缺失值填補;Abdella等[22]采用遺傳算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)以提升模型的逼近能力,使缺失值的填補精度得到了提高.

目前,基于模型的填補方法大多采用數(shù)據(jù)集中的完整樣本來訓(xùn)練模型,或是使用預(yù)填補方法將不完整數(shù)據(jù)完整化后來訓(xùn)練模型.當(dāng)不完整數(shù)據(jù)缺失率較高時,完整樣本訓(xùn)練方案往往會出現(xiàn)訓(xùn)練樣本不足導(dǎo)致模型精度低甚至無法建模的情況;而預(yù)填補方法中模型的構(gòu)建過分依賴預(yù)填補的結(jié)果.為此,本文從缺失值的對待與描述切入,將缺失值視作變量,使得不完整數(shù)據(jù)集中所有樣本均能參與模型訓(xùn)練.鑒于單輸出子網(wǎng)結(jié)構(gòu)簡潔并具有強大的學(xué)習(xí)能力,逐一構(gòu)建子網(wǎng)模型挖掘單個屬性與其他屬性之間的關(guān)聯(lián)關(guān)系,進而實現(xiàn)對缺失值的填補.

1 基于神經(jīng)網(wǎng)絡(luò)的缺失值填補方法

神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)中的熱點方向.神經(jīng)網(wǎng)絡(luò)具有很強的非線性學(xué)習(xí)能力,可以有效發(fā)掘數(shù)據(jù)集中的隱含信息,從而降低數(shù)據(jù)集的不完備性[23].

基于神經(jīng)網(wǎng)絡(luò)的填補方法通常先根據(jù)缺失數(shù)據(jù)的分布,針對每種缺失屬性組合構(gòu)建模型,并基于完整樣本求解網(wǎng)絡(luò)參數(shù),挖掘數(shù)據(jù)屬性間的關(guān)聯(lián)關(guān)系,然后將不完整樣本作為模型輸入,得到的模型輸出作為缺失值的填補結(jié)果.上述方法在數(shù)據(jù)缺失率較高或缺失數(shù)據(jù)分布比較復(fù)雜的情況下存在一定的局限性.

本文從簡化模型結(jié)構(gòu)和缺失值的對待與描述切入,利用單輸出子網(wǎng)結(jié)構(gòu)降低模型數(shù)量、提高建模效率,并引入迭代學(xué)習(xí)方案提高網(wǎng)絡(luò)訓(xùn)練集的規(guī)模以及存在屬性值信息的利用率,進而改善神經(jīng)網(wǎng)絡(luò)對缺失數(shù)據(jù)的填補效果.

2 基于子網(wǎng)迭代學(xué)習(xí)的填補方法

基于多層感知機的不完整數(shù)據(jù)填補方法分別為每種缺失屬性的組合建立一個網(wǎng)絡(luò),而單輸出子網(wǎng)迭代學(xué)習(xí)的方法通過簡化整體網(wǎng)絡(luò)架構(gòu),解決模型數(shù)量過多導(dǎo)致的建模復(fù)雜低效問題.

2.1 單輸出子網(wǎng)結(jié)構(gòu)

2001年,王秀坤等[24]提出了單輸出子網(wǎng)結(jié)構(gòu),并通過理論和實驗分析表明相較于多輸出網(wǎng)絡(luò),單輸出子網(wǎng)結(jié)構(gòu)具有更強的學(xué)習(xí)能力.多輸出網(wǎng)絡(luò)的輸入信息通過隱含層同時作用到所有輸出神經(jīng)元,相比而言,單輸出子網(wǎng)結(jié)構(gòu)更能清晰獲得各輸入對任一輸出的作用.因此,本文采用單輸出子網(wǎng)結(jié)構(gòu)為不完整數(shù)據(jù)建立任一屬性與其他屬性間的關(guān)聯(lián)關(guān)系.

單輸出子網(wǎng)的構(gòu)造方法如圖1所示,將n維輸出的神經(jīng)網(wǎng)絡(luò)拆分成n個單輸出子網(wǎng),形成一個由n個子網(wǎng)組成的單輸出子網(wǎng)組.子網(wǎng)的輸入層、隱含層神經(jīng)元個數(shù)與多輸出網(wǎng)絡(luò)保持一致,不同之處在于子網(wǎng)僅有一個輸出層神經(jīng)元,子網(wǎng)的輸出與各輸入單獨通過連接權(quán)重相互關(guān)聯(lián).

圖1 單輸出子網(wǎng)結(jié)構(gòu)Fig.1 The structure of single output sub-network

神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練如下:

(1)

(2)

其中Ep表示網(wǎng)絡(luò)第p個輸出的誤差.

多輸出神經(jīng)網(wǎng)絡(luò)在滿足式(2)時停止訓(xùn)練,盡管各個輸出誤差對權(quán)重偏導(dǎo)數(shù)之和為0,但無法確保每一個偏導(dǎo)項均為0.而單輸出子網(wǎng)組中的每一個子網(wǎng)都使用梯度下降法單獨進行訓(xùn)練,需滿足式(3)所示的所有目標(biāo)才能停止訓(xùn)練:

(3)

因此,從誤差函數(shù)取極值的角度,單輸出子網(wǎng)組的必要條件比多輸出神經(jīng)網(wǎng)絡(luò)更加充分,與多輸出神經(jīng)網(wǎng)絡(luò)相比,單輸出子網(wǎng)組應(yīng)具有更強的學(xué)習(xí)能力.

2.2 迭代學(xué)習(xí)訓(xùn)練方案

依次以不完整數(shù)據(jù)集每一個存在缺失值的屬性作為輸出、其他屬性作為輸入,來構(gòu)建單輸出子網(wǎng)組模型,其中每個子網(wǎng)用來擬合相應(yīng)輸出屬性與其他屬性之間的關(guān)聯(lián)關(guān)系.最終需要構(gòu)造的子網(wǎng)個數(shù)不會超過數(shù)據(jù)集的屬性個數(shù).

在單輸出子網(wǎng)組模型的基礎(chǔ)上,針對模型輸入的不完整性,從缺失值的對待和描述切入,提出一種基于單輸出子網(wǎng)迭代學(xué)習(xí)的不完整數(shù)據(jù)建模及填補方法.在單輸出子網(wǎng)組訓(xùn)練過程中,將缺失值當(dāng)作系統(tǒng)級變量,網(wǎng)絡(luò)參數(shù)與缺失值變量交替更新,即缺失值變量根據(jù)每次迭代時與之對應(yīng)的子網(wǎng)模型輸出進行動態(tài)更新.隨著迭代學(xué)習(xí)的深入,缺失值的填補與模型參數(shù)的訓(xùn)練相互作用、協(xié)同提升,當(dāng)模型訓(xùn)練結(jié)束時隨之完成對缺失值的填補.基于迭代學(xué)習(xí)的填補方法使數(shù)據(jù)集中的所有完整和不完整樣本都能參與模型訓(xùn)練,不僅增加了訓(xùn)練樣本的數(shù)量、提高了存在屬性值信息的利用率,還能有效解決由于缺失值的存在導(dǎo)致模型輸入不完整問題.

設(shè)不完整數(shù)據(jù)集X的樣本個數(shù)為n,屬性個數(shù)為m,令XM表示所有缺失值構(gòu)成的集合,基于單輸出子網(wǎng)迭代學(xué)習(xí)的屬性關(guān)聯(lián)建模和缺失值填補流程如下:

(2)更新后的數(shù)據(jù)集的所有樣本參與第i個子網(wǎng)的訓(xùn)練,使用隨機梯度下降法更新網(wǎng)絡(luò)參數(shù).

(3)利用上一步子網(wǎng)i訓(xùn)練后的輸出填補第i維屬性上的缺失值,更新數(shù)據(jù)集,令i=i+1.

3 實驗及結(jié)果分析

3.1 實驗數(shù)據(jù)集

從機器學(xué)習(xí)數(shù)據(jù)庫UCI中選取如表1所示的6個數(shù)據(jù)集,在完整數(shù)據(jù)集的基礎(chǔ)上通過人工缺失來驗證所提方法的填補效果.將缺失率θ分別設(shè)為0.05、0.10、0.15、0.20、0.25、0.30,按照給定缺失率隨機去除屬性值,從而得到不完整數(shù)據(jù)集.

表1 實驗數(shù)據(jù)集Tab.1 Experimental datasets

3.2 評價指標(biāo)

以平均絕對百分比誤差Emap作為衡量填補精度的性能指標(biāo),如下:

(4)

3.3 實驗方案

為研究不同網(wǎng)絡(luò)結(jié)構(gòu)和模型訓(xùn)練方案對不完整數(shù)據(jù)填補效果的影響,本文開展4種不同神經(jīng)網(wǎng)絡(luò)填補方法的對比實驗,具體如下:

(1)單輸出子網(wǎng)填補方法(SONN).該方法由建模和填補兩階段組成.建模階段,將各屬性依次作為輸出,其他屬性作為輸入,建立m個子網(wǎng),基于完整樣本求解子網(wǎng)模型參數(shù).填補階段,將不完整樣本根據(jù)缺失情況輸入對應(yīng)的子網(wǎng)模型,利用模型輸出填補缺失值.

(2)子網(wǎng)迭代學(xué)習(xí)填補方法(SONN+IL).構(gòu)造m個單輸出子網(wǎng)模型,利用均值填補初始化缺失值,讓所有樣本參與子網(wǎng)訓(xùn)練.子網(wǎng)訓(xùn)練和填補流程在2.2節(jié)中已有具體描述,將缺失值視為系統(tǒng)級變量,使其在迭代過程中動態(tài)更新,子網(wǎng)模型訓(xùn)練結(jié)束的同時完成對缺失值的填補.

(3)自編碼器填補方法(AE).該方法也由建模和填補兩階段組成.建模階段,構(gòu)造一個輸入節(jié)點和輸出節(jié)點個數(shù)均為m的自編碼器模型,并基于完整樣本訓(xùn)練網(wǎng)絡(luò).填補階段,將不完整樣本輸入模型,以模型對應(yīng)輸出填補缺失值.

(4)自編碼器迭代學(xué)習(xí)填補方法(AE+IL).首先采用均值填補初始化缺失值,讓所有樣本參與自編碼器的訓(xùn)練,其中缺失值作為變量隨著訓(xùn)練動態(tài)更新.

訓(xùn)練算法選用隨機梯度下降法.在實驗中,對于學(xué)習(xí)率、動量因子、隱含層個數(shù)、隱含層神經(jīng)元個數(shù)等超參數(shù),選取驗證集重構(gòu)誤差最小的超參數(shù)組合.

3.4 實驗結(jié)果

針對實驗數(shù)據(jù)集,在每個缺失率下隨機生成5個不同的不完整數(shù)據(jù)集,分別開展實驗,取5次實驗的Emap平均值,結(jié)果如圖2~7所示.

圖2 不完整Iris數(shù)據(jù)集的實驗結(jié)果Fig.2 The experimental results on incomplete Iris datasets

圖3 不完整Seed數(shù)據(jù)集的實驗結(jié)果Fig.3 The experimental results on incomplete Seed datasets

對于Wine數(shù)據(jù)集,缺失率為0.30時隨機生成的不完整數(shù)據(jù)集中幾乎無完整樣本,AE和SONN方法無法實施.

3.5 實驗結(jié)果分析

由圖2~7可知,除Wine數(shù)據(jù)集在缺失率為0.05的情況外,最優(yōu)填補結(jié)果都來源于本文提出的SONN+IL填補方法,表明了單輸出子網(wǎng)迭代學(xué)習(xí)在填補性能方面的優(yōu)越性.

圖4 不完整Blood數(shù)據(jù)集的實驗結(jié)果Fig.4 The experimental results on incomplete Blood datasets

圖5 不完整Wine數(shù)據(jù)集的實驗結(jié)果Fig.5 The experimental results on incomplete Wine datasets

圖6 不完整Glass數(shù)據(jù)集的實驗結(jié)果Fig.6 The experimental results on incomplete Glass datasets

圖7 不完整Abalone數(shù)據(jù)集的實驗結(jié)果Fig.7 The experimental results on incomplete Abalone datasets

(1)網(wǎng)絡(luò)結(jié)構(gòu)對比

比較SONN和AE的填補結(jié)果可見,除Seed和Wine數(shù)據(jù)集外,在其他4個數(shù)據(jù)集上都是SONN方法的填補誤差較小.對比SONN+IL和AE+IL兩種方法的實驗結(jié)果,前者的Emap更小.說明相比于自編碼器,單輸出子網(wǎng)通常能更精確地擬合不完整數(shù)據(jù)屬性間的關(guān)聯(lián)關(guān)系.單輸出子網(wǎng)依次擬合某一屬性與其他屬性之間的關(guān)聯(lián)關(guān)系,而自編碼器一次性構(gòu)建所有屬性之間的相互關(guān)系,子網(wǎng)組模型更具針對性.另外,自編碼器具有高度自跟蹤特性,填補效果容易受到預(yù)填補結(jié)果的影響.

(2)訓(xùn)練方案對比

比較SONN和SONN+IL的填補結(jié)果可見,除Wine數(shù)據(jù)集在缺失率為0.05的情況外,使用迭代學(xué)習(xí)訓(xùn)練方案的填補方法在各不完整數(shù)據(jù)集上都取得了小的填補誤差;對比AE和AE+IL的填補結(jié)果,除Seed和Abalone數(shù)據(jù)集外,AE+IL的填補誤差都小于AE.上述結(jié)果表明了迭代學(xué)習(xí)訓(xùn)練方案的優(yōu)越性.迭代學(xué)習(xí)訓(xùn)練方案將缺失值作為變量,能使不完整樣本也參與網(wǎng)絡(luò)訓(xùn)練,通過增加訓(xùn)練樣本數(shù)量提高模型擬合精度;另一方面,缺失值在迭代過程中動態(tài)優(yōu)化,從而能降低預(yù)填補對建模所產(chǎn)生的影響.

4 結(jié) 語

本文提出了一種基于單輸出子網(wǎng)迭代學(xué)習(xí)的不完整數(shù)據(jù)缺失值填補方法.采用單輸出子網(wǎng)結(jié)構(gòu)刻畫不完整數(shù)據(jù)復(fù)雜的屬性關(guān)聯(lián)關(guān)系,并將缺失值視作系統(tǒng)級變量,采用迭代學(xué)習(xí)的訓(xùn)練方案,使缺失值與網(wǎng)絡(luò)參數(shù)協(xié)同訓(xùn)練,這樣,在解決由于缺失值的存在所導(dǎo)致的模型輸入不完整問題的同時,還能使存在缺失值的不完整樣本也參與模型訓(xùn)練,信息充分、客觀的利用提高了神經(jīng)網(wǎng)絡(luò)的擬合精度和模型的填補性能.

猜你喜歡
實驗方法模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 毛片三级在线观看| 97se亚洲综合在线韩国专区福利| 伊人91视频| 国产一级妓女av网站| 情侣午夜国产在线一区无码| 欧美性天天| 在线免费看黄的网站| 99热最新在线| 伊人狠狠丁香婷婷综合色| 久久免费视频6| 成人日韩欧美| 秋霞国产在线| 亚洲中文字幕在线一区播放| 久久久久国色AV免费观看性色| 激情乱人伦| 精品国产福利在线| 亚洲综合18p| www.亚洲色图.com| 91精品小视频| AV在线天堂进入| 色爽网免费视频| 爱爱影院18禁免费| 久久精品中文无码资源站| 国产手机在线小视频免费观看| 国产在线欧美| 91成人精品视频| 国产在线精品网址你懂的| 亚洲天堂免费在线视频| 亚洲V日韩V无码一区二区 | 91外围女在线观看| 国产综合欧美| 日本一本正道综合久久dvd | 中文天堂在线视频| 精品久久综合1区2区3区激情| 一区二区三区在线不卡免费| 一区二区无码在线视频| 国产免费福利网站| 国产亚洲精品无码专| 国产精品林美惠子在线播放| 啦啦啦网站在线观看a毛片| 欧美、日韩、国产综合一区| 欧美 亚洲 日韩 国产| 国产www网站| 欧美色视频网站| 夜色爽爽影院18禁妓女影院| 国产久草视频| 日本爱爱精品一区二区| 一区二区午夜| 无码综合天天久久综合网| 成年A级毛片| 中文字幕首页系列人妻| 国内精品视频区在线2021| 免费jjzz在在线播放国产| 亚洲中文字幕日产无码2021| 色久综合在线| 26uuu国产精品视频| 免费观看精品视频999| 国产视频只有无码精品| 国产成人一区二区| 天天激情综合| 白浆免费视频国产精品视频| 人妖无码第一页| 国产乱视频网站| 91美女视频在线| 免费高清毛片| 亚洲第一天堂无码专区| 亚洲IV视频免费在线光看| 亚洲香蕉伊综合在人在线| 日韩乱码免费一区二区三区| 不卡视频国产| 国产黑丝一区| 久久影院一区二区h| 少妇精品久久久一区二区三区| 2020国产精品视频| www.99在线观看| 人妻丰满熟妇啪啪| 香蕉久人久人青草青草| 欧美第二区| 91精品小视频| 91国内外精品自在线播放| 一级毛片在线播放| 国产福利一区在线|