999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)處理中缺失數(shù)據(jù)填充方法的研究

2013-11-12 06:32:16胡玄子陳小雪錢(qián)葉亮姜正龍趙彤洲
關(guān)鍵詞:方法模型

胡玄子, 陳小雪, 錢(qián)葉亮, 姜正龍, 趙彤洲

(武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430073)

在海量信息處理過(guò)程中,經(jīng)常會(huì)遇到數(shù)據(jù)集不完整的情況,通常稱之為缺失數(shù)據(jù).缺失數(shù)據(jù)產(chǎn)生的原因很多,例如受客觀條件限制導(dǎo)致的信息無(wú)法獲取,信息因人為疏忽被遺漏,信息屬性值不存在等因素.針對(duì)這些缺失數(shù)據(jù),前人做過(guò)很多有益的工作,處理方法大致分成三類:刪除、填充、丟棄.刪除數(shù)據(jù)就是將存在確實(shí)數(shù)據(jù)的一組數(shù)據(jù)完全刪除,從而得到的數(shù)據(jù)是沒(méi)有確實(shí)數(shù)據(jù)的完整的數(shù)據(jù)集合.在數(shù)據(jù)分析中,這種方法與丟棄數(shù)據(jù)的方法都比較簡(jiǎn)單,是以犧牲某些記錄屬性為代價(jià)的.但在多維數(shù)據(jù)處理中,數(shù)據(jù)的不同屬性之間很可能存在某種關(guān)系,而完全不考慮存在缺失數(shù)據(jù)的那些屬性,就很可能影響對(duì)數(shù)據(jù)集合的方差及數(shù)據(jù)分布的準(zhǔn)確判斷.因此,針對(duì)缺失數(shù)據(jù)填充方法的研究成為人們關(guān)注的熱點(diǎn)問(wèn)題.缺失數(shù)據(jù)的填充方法大致分為兩類:基于統(tǒng)計(jì)的方法和基于數(shù)據(jù)挖掘的方法.

統(tǒng)計(jì)方法主要通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,得出數(shù)據(jù)集的一些統(tǒng)計(jì)信息,然后利用這些信息填充缺失數(shù)據(jù).根據(jù)對(duì)數(shù)據(jù)集的了解程度,統(tǒng)計(jì)填充方法可以分為參數(shù)方法、非參方法以及半?yún)⒎椒ǎ畛S玫膮?shù)方法就是線性回歸、EM算法.?dāng)?shù)據(jù)挖掘算法主要有貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集規(guī)則方法等等[1].根據(jù)數(shù)據(jù)特點(diǎn),本文有選擇性地對(duì)如下四種方法進(jìn)行了研究.

1 算法分析對(duì)比

1.1 拉格朗日插值法

其中ωn+1(x)=(x-x0)(x-x1)…(x-xn),

(xi-xi-1)(xi-xi+1)…(xi-xn).

在數(shù)據(jù)填充時(shí),可以利用已知數(shù)據(jù)求出拉格朗日插值多項(xiàng)式,然后將待求節(jié)點(diǎn)帶入該多項(xiàng)式,就可以求出目標(biāo)值.

1.2 回歸分析法

所謂回歸就是在已知數(shù)據(jù)基礎(chǔ)上,構(gòu)建回歸模型,找出回歸模型中的參數(shù),用以模擬和預(yù)測(cè)未知數(shù)據(jù)的過(guò)程.常用的線性回歸方法,是以誤差平方和最小為基本思想,尋找回歸參數(shù)的過(guò)程[2].本文僅討論一元線性回歸分析.

當(dāng)求出回歸模型的參數(shù)后,將缺失點(diǎn)數(shù)據(jù)x帶入回歸模型,即可求出填充數(shù)據(jù)y.

1.3 灰色預(yù)測(cè)法

灰色預(yù)測(cè)是通過(guò)少量的、不完全的信息建立數(shù)學(xué)模型,進(jìn)而找到模型參數(shù)的過(guò)程.它具有運(yùn)算方便,建模精度高的特點(diǎn),在各種預(yù)測(cè)領(lǐng)域都有著廣泛的應(yīng)用,是處理小樣本預(yù)測(cè)問(wèn)題的有效工具.定義[3]如下,設(shè)給定觀測(cè)數(shù)據(jù)列

x(0)={x(0)(1),x(0)(2),…,x(0)(N)}.

經(jīng)一次累加得到

x(1)={x(1)(1),x(1)(2),…,x(1)(N)}.

特別地,當(dāng)t=t0時(shí),x(1)=x(1)(t0).對(duì)等間隔取樣的離散值則為

采用最小二乘法來(lái)確定a、μ.當(dāng)模型系數(shù)確定后,采用同樣的方法,將缺失點(diǎn)帶入方程,求得缺失數(shù)據(jù)的估計(jì)值.

1.4 BP神經(jīng)網(wǎng)絡(luò)法

BP網(wǎng)絡(luò)是由已知的輸入矢量和輸出矢量,訓(xùn)練出一個(gè)網(wǎng)絡(luò)用來(lái)逼近某個(gè)函數(shù),具有較強(qiáng)的泛化性.主要思想是使網(wǎng)絡(luò)上的節(jié)點(diǎn)真實(shí)值與模擬值的誤差平方和最小,即用網(wǎng)絡(luò)的實(shí)際輸出A1,A2,…,Aq, 與目標(biāo)矢量T1,T2,…,Tq之間的誤差修改其權(quán)值,使實(shí)際輸出值與期望值盡可能接近從而能得到一個(gè)訓(xùn)練好的網(wǎng)絡(luò)[4-6].在此采用兩層BP網(wǎng)絡(luò)結(jié)構(gòu).

2 數(shù)據(jù)填充方法在空氣質(zhì)量數(shù)據(jù)分析中的應(yīng)用

自2012年入冬以來(lái),各地出現(xiàn)的霧霾天氣不斷成為人們關(guān)心的話題,也成為各大媒體關(guān)注的焦點(diǎn),武漢市已經(jīng)實(shí)現(xiàn)PM2.5的24小時(shí)監(jiān)測(cè).本實(shí)驗(yàn)采集了2013年3月13日至4月29日(晚上8點(diǎn))的武漢市PM2.5值(表1).由于各種原因,導(dǎo)致有部分?jǐn)?shù)據(jù)缺失.為了得到相對(duì)完整的、可靠的數(shù)據(jù)集,我們采用上述4種方法進(jìn)行了數(shù)據(jù)填充的工作,力圖尋找一種適用于該類數(shù)據(jù)填充的方法.在估計(jì)未知數(shù)據(jù)時(shí),為檢測(cè)算法的有效性,我們將部分已知數(shù)據(jù)剔除后,進(jìn)行準(zhǔn)確性對(duì)比,并同時(shí)估計(jì)未知數(shù)據(jù).

表1采集到的部分PM2.5原始數(shù)據(jù)μg/m3

日期PM2.5日期PM2.5日期PM2.53/131073/301334/15773/14663/311324/16883/15754/11514/171203/26844/3964/20693/16604/4684/22303/17944/5544/23613/201534/6684/241033/21984/8734/251103/221834/9314/26833/241454/10534/27593/25674/11574/28523/27884/12414/29393/28804/13643/29944/1474

其中,有8天數(shù)據(jù)缺失.用上述四種方法分別進(jìn)行了數(shù)據(jù)填充.為檢驗(yàn)算法的有效性,首先將部分已知數(shù)據(jù)剔除,然后分別用四種方法計(jì)算剔除數(shù)據(jù)的估計(jì)值,并與真實(shí)值對(duì)比,結(jié)果見(jiàn)表2、表3.

表2 各種算法對(duì)剔除數(shù)據(jù)的估計(jì)值和真實(shí)值的對(duì)比 μg/m3

表3 各種算法的殘差 μg/m3

為定性檢驗(yàn)上述算法的準(zhǔn)確性,我們對(duì)各種算法的后驗(yàn)差比值進(jìn)行計(jì)算并比較.后驗(yàn)差比值的計(jì)算方法為

F=s2/s1.

即,s1是x(0)的方差,s2是殘差的方差.由此定義可知,后驗(yàn)差比值反映了殘差相對(duì)于標(biāo)準(zhǔn)偏差偏離的程度,后驗(yàn)差比值越小,表明估計(jì)值偏離真實(shí)值的程度越小,就越接近真實(shí)值.通過(guò)上述方法計(jì)算各種算法的后驗(yàn)差比值,見(jiàn)表4.從表4中可見(jiàn),拉格朗日插值法的后驗(yàn)差比值最小.因此模擬效果最好.按照此方法,對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì),可得估計(jì)值見(jiàn)表5.

表4 各種算法后驗(yàn)差比值

表5 缺失數(shù)據(jù)的估計(jì)值 μg/m3

3 結(jié)論

盡管填充數(shù)據(jù)的算法有很多種,但是,并不是每種算法都能適用于所有數(shù)據(jù).針對(duì)空氣質(zhì)量參數(shù)之一的PM2.5的缺失數(shù)據(jù)填充,我們進(jìn)行了一些探索性嘗試,認(rèn)為拉格朗日插值法能比較準(zhǔn)確填充缺失數(shù)據(jù),進(jìn)而可以實(shí)現(xiàn)部分?jǐn)?shù)據(jù)的預(yù)測(cè).考慮到研究的科學(xué)性,這種算法不一定是最好的,隨著研究的深入,我們認(rèn)為還有更好的方法值得探索.

另外,從數(shù)據(jù)預(yù)測(cè)的趨勢(shì)可見(jiàn),武漢市PM2.5數(shù)值在3-4月份呈現(xiàn)下降的趨勢(shì).

[參考文獻(xiàn)]

[1] 劉星毅,曾春華. 缺失數(shù)據(jù)的處理和挑戰(zhàn)[J].欽州學(xué)院學(xué)報(bào),2008,23(06):25-29.

[2] 蔣金山,何春雄,潘少華. 最優(yōu)化計(jì)算方法[M]. 廣州:華南理工大學(xué)出版社,2008.

[3] 張光澄. 非線性最優(yōu)化計(jì)算方法[M]. 北京:高等教育出版社,2005.

[4] 倪 勤. 最優(yōu)化方法與程序設(shè)計(jì)[M]. 北京:科學(xué)出版社,2009.

[5] 楊淑瑩. 模式識(shí)別與智能計(jì)算:Matlab技術(shù)實(shí)現(xiàn)[M].北京: 電子工業(yè)出版社,2008.

[6] S Theodoridis. 模式識(shí)別[M]. 第4版.北京:電子工業(yè)出版社,2010.

[7] 張德豐. MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計(jì) [M].第二版. 北京:機(jī)械工業(yè)出版社,2012.

[8] 周建興. MATLAB從入門(mén)到精通[M]. 第二版. 北京:人民郵電出版社,2012.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 亚洲综合天堂网| 国产亚洲一区二区三区在线| 国产精品香蕉在线观看不卡| 91人人妻人人做人人爽男同| 亚洲一区波多野结衣二区三区| 日本道综合一本久久久88| 再看日本中文字幕在线观看| 国产欧美高清| 中文国产成人精品久久一| 亚洲开心婷婷中文字幕| 一级福利视频| 亚洲精品你懂的| 中文字幕无码av专区久久| 国产精品久线在线观看| 91精品人妻互换| 亚洲美女视频一区| 久久91精品牛牛| 国产精品久久久久久久久久98| 国内精品九九久久久精品| 天天躁夜夜躁狠狠躁躁88| 免费A级毛片无码无遮挡| 久久成人免费| 国产精品网拍在线| 久久精品波多野结衣| 99无码熟妇丰满人妻啪啪| 亚洲国产欧美国产综合久久| a毛片在线| 97精品伊人久久大香线蕉| 国产激情无码一区二区三区免费| 波多野结衣一区二区三区四区视频| 亚洲高清国产拍精品26u| 中文字幕第4页| 亚洲无线一二三四区男男| 免费中文字幕在在线不卡| 天天摸夜夜操| 亚洲精品成人片在线播放| 久久久久久午夜精品| 中文无码精品A∨在线观看不卡| 女人毛片a级大学毛片免费| 国产精品第一区| 亚洲精品制服丝袜二区| 蜜芽国产尤物av尤物在线看| 91免费国产高清观看| 亚洲美女一区| 精品国产亚洲人成在线| 欧美日本中文| 久久永久视频| 色综合久久久久8天国| 久久久久九九精品影院| 国产黑丝视频在线观看| 亚洲第一黄片大全| 久草视频精品| 国产欧美视频综合二区| 亚洲综合专区| 国产精品一区不卡| 日韩视频免费| 亚洲一欧洲中文字幕在线| 成年网址网站在线观看| 国产成人1024精品| 精品無碼一區在線觀看 | 日本草草视频在线观看| 国产乱子伦视频在线播放| 青草午夜精品视频在线观看| 国产精品吹潮在线观看中文| 久久久久青草线综合超碰| 亚洲九九视频| 青青草久久伊人| 欧美日韩另类在线| 日韩123欧美字幕| 亚洲第一色网站| 亚洲最大福利网站| 91在线日韩在线播放| 97国产在线观看| 天堂网亚洲系列亚洲系列| 波多野结衣亚洲一区| 国产一区成人| 国产日产欧美精品| 亚洲床戏一区| 亚洲国产精品一区二区高清无码久久 | 国产亚洲欧美日韩在线一区| 亚洲欧美一区二区三区蜜芽| 在线五月婷婷|