999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BP神經(jīng)網(wǎng)絡(luò)的磷酸鋁合成數(shù)據(jù)補值模型研究

2013-12-31 00:00:00李勁松
軟件工程 2013年12期

摘 要:磷酸鋁合成反應(yīng)數(shù)據(jù)庫中有29%的數(shù)據(jù)存在不同情況的缺失。為了處理缺失值問題,本文首次提出利用BP神經(jīng)網(wǎng)絡(luò)對其進行估計補值。在不同缺失率下,通過大量的隨機實驗結(jié)果證明了補值算法具有一定的有效性和可行性。

關(guān)鍵詞:微孔材料;BP神經(jīng)網(wǎng)絡(luò);缺失值

中圖分類號:TP391.4 文獻標識碼:A

1 前言

數(shù)據(jù)缺失(missing values,MVs)問題是廣泛存在且無法回避的一個問題。尤其是在面對處理現(xiàn)實問題時,缺失問題更為普遍和嚴重[1]。數(shù)據(jù)參數(shù)缺失有很多種原因,如對實驗數(shù)據(jù)沒有詳細的記錄、部分參數(shù)無法測定等。不完整的數(shù)據(jù)對后續(xù)的數(shù)據(jù)分析帶來不同程度的干擾。因此,對缺失值數(shù)據(jù)進行補值是一步非常重要的數(shù)據(jù)預(yù)處理方法[2]。

近些年,國內(nèi)外學(xué)者子在研究是發(fā)現(xiàn),如果在補值時考慮參數(shù)間的相關(guān)性則補值的估計誤差率會明顯降低[3]。針對不同情況,學(xué)者們先后提出了不同的補值方法,如KNN補值方法(K-nearest neighbor imputes,KNNimpute)[4]、奇異值分解補值方法(singular value decomposition imputes,SVDimpute)[5]等。在生物信息學(xué)[6]和計量化學(xué)[7]等很多領(lǐng)域已經(jīng)開展了缺失值處理方法的研究。但目前還沒有針對磷酸鋁合成反應(yīng)數(shù)據(jù)的缺失值處理的相關(guān)方法研究報道。因此,本文首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法(BP neural networks imputes,BPimpute)應(yīng)用到磷酸鋁合成反應(yīng)數(shù)據(jù)上,并同其他經(jīng)典方法(基于KNN的補值方法(K-nearest neighbor imputes,KNNimpute)、基于SVD的補值方法(singular value decomposition imputes,SVDimpute)和基于最小二乘的補值方法(least square imputes,LSimpute)進行對比,來驗證算法的可行性和有效性。

本文結(jié)構(gòu)如下:在第二部分對現(xiàn)有的幾種經(jīng)典補值方法進行簡單介紹;然后在第三部分詳細描述BPimpute的補值過程;第四部分是實驗設(shè)計和結(jié)果分析;最后給出本文結(jié)論。

2 補值方法簡介

現(xiàn)有的補值方法一般被分為兩類:基于模型的方法和插補方法(hot-deck inputation)[8]。插補方法是最典型的無需構(gòu)建模型的補值方法,它利用含缺失數(shù)據(jù)的樣本較像數(shù)據(jù)的可用參數(shù)值來替換缺失值,最經(jīng)典方法就是KNNimpute[9]。插補方法簡單、易用,能夠?qū)崿F(xiàn)完備集數(shù)據(jù),但是它沒有考慮數(shù)據(jù)參數(shù)間的相關(guān)性。基于模型的方法(如SVDimpute[10]和LSimpute[11])首先根據(jù)現(xiàn)有數(shù)據(jù)建立估計模型,然后對缺失值進行補值,是一種更復(fù)雜、應(yīng)用更靈活的方法。近年來,一些學(xué)者發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)也能解決類似的問題。

3 BPimpute方法

基于分子篩的合成機理,以及參數(shù)間存在潛在映射關(guān)系,而BP神經(jīng)網(wǎng)絡(luò)是能夠獲得從輸入到輸出之間的非線性映射關(guān)系的有效工具,因此利用BP神經(jīng)網(wǎng)絡(luò)來刻畫參數(shù)間的映射關(guān)系,首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法。

BPimpute采用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(輸入層、隱含層和輸出層)來構(gòu)建參數(shù)模型[12]。從Y中不含參數(shù)缺失的樣本隨機選出k個樣本作為訓(xùn)練樣本;假設(shè)第h個參數(shù)缺失。BPimpute方法分兩個階段進行缺失值估計,即訓(xùn)練模型階段和估計缺失值階段。在訓(xùn)練階段,每個訓(xùn)練樣本除第h個參數(shù)外的參數(shù)作為BP網(wǎng)絡(luò)的輸入向量,訓(xùn)練樣本的第h個參數(shù)值作為模型的輸出,訓(xùn)練好BP網(wǎng)絡(luò)模型。在估計階段,就是將測試樣本送入訓(xùn)練好的BP模型中,模型的輸出即為缺失值的估計值。

4 實驗結(jié)果與分析

4.1 磷酸鋁合成反應(yīng)數(shù)據(jù)庫簡介

磷酸鋁合成反應(yīng)數(shù)據(jù)庫[13]是由吉林大學(xué)徐如人院士領(lǐng)導(dǎo)的“無機合成與制備國家重點實驗室”在國內(nèi)外大量學(xué)者、科研機構(gòu)研究的基礎(chǔ)上率先建立起來的,并對國內(nèi)外學(xué)者免費開放(http://mezeopor.jlu.edu.cn/alpo/)。該數(shù)據(jù)庫共有約1600條數(shù)據(jù),對應(yīng)230余種磷酸鋁骨架結(jié)構(gòu)。

4.2 補值實驗設(shè)計與結(jié)果分析

首先,從原始數(shù)據(jù)庫中挑選出不含參數(shù)缺失的數(shù)據(jù)構(gòu)建完備數(shù)據(jù)集,每條數(shù)據(jù)由凝膠成分、溶劑屬性、模板劑屬性和生成物結(jié)構(gòu)參數(shù)四部分組成。因為溶劑和模板劑屬性是固定參數(shù),所以本文僅考慮能夠生成含(6,12)元環(huán)無機微孔化合物的數(shù)據(jù)(398條)的4個凝膠成分參數(shù)[14](data_M)作為研究目標。并做以下假設(shè):4個凝膠成分參數(shù)是相關(guān)的,且發(fā)生缺失的情況是獨立的、隨機產(chǎn)生的,每條樣本數(shù)據(jù)最多存在一個參數(shù)缺失。最后,根據(jù)以上假設(shè),隨機將部分數(shù)據(jù)樣本的某個參數(shù)設(shè)為缺失,對其進行補值,通過與真實值的誤差評價算法的有效性。

補值實驗的設(shè)計描述如下所示:

(1)首先從原始數(shù)據(jù)中刪除含有缺失值的樣本,得到完備數(shù)據(jù)集;

(2)根據(jù)缺失比率q()在中隨機產(chǎn)生缺失情況;

(3)利用補值方法估計缺失值;

(4)計算估計值和真實值之間的誤差;

(5)重復(fù)l次實驗,獲得估計平均誤差來評價算法的性能。

補值方法的性能通過均方誤差根(normalized root mean squared error,NRMSE)來衡量,如公式(1)所示:

其中,是真實值,是通過補值方法獲得的估計值。NRMSE值越小說明算法性能越好,誤差越小。

實驗中data_M的缺失比率q被設(shè)為1%,3%,5%,10%,20%,30%和50%。重復(fù)l次實驗的目的是為了保證至少99%的數(shù)據(jù)都參與了實驗,更符合統(tǒng)計規(guī)律。不同的數(shù)據(jù)和缺失率l設(shè)置不同,具體詳見表1。

表1 不同數(shù)據(jù)和缺失率下l值的設(shè)置

Tab.1 The setting of l

表2列出了不同方法的平均NRMSE結(jié)果。可以看出當訓(xùn)練樣本數(shù)量多、缺失率較低的情況下BPimpute效果最優(yōu),而在缺失率較高的情況下KNNimpute的補值結(jié)果不受其影響,如圖1所示。

表2 不同方法的平均NRMSE結(jié)果

Tab.2 The average NRMSE of different methods

針對反應(yīng)凝膠中第一種溶劑的摩爾數(shù)/Al的摩爾數(shù)(F3)無論那種補值方法的NRMSE都超過了1.0。

圖1 不同補值方法的NRMSE結(jié)果圖

Fig.1 Comparisons of NRMSE different methods

4.3 補值算法對現(xiàn)有數(shù)據(jù)的修正

除了補值實驗外,本文還設(shè)計了通過補值算法對現(xiàn)有數(shù)據(jù)的修正的實驗。如果算法有效,構(gòu)建的參數(shù)間關(guān)系模型準確,可以對參數(shù)進行校正,則那些被錯誤分類的樣本經(jīng)過補值算法的修正后能夠被正確分類。實驗描述如下:

(1)從數(shù)據(jù)庫中隨機選擇398個負樣本和398個正樣本構(gòu)建樣本集;

(2)隨機選擇199個正樣本和199個負樣本訓(xùn)練SVM分類器(RBF核函數(shù)),剩下的樣本作為測試樣本;

(3)重復(fù)t次5重交叉驗證實驗,得到平均預(yù)測準確率、錯誤樣本和訓(xùn)練好的SVM模型;

(4)分別用BPimpute方法和KNNimpute()方法對錯誤樣本進行修正;

(5)將修正后的數(shù)據(jù)重新送入SVM模型中,得到修正后的預(yù)測準確率。

圖2顯示,僅修正了(6,12)元環(huán)樣本后的預(yù)測準確率就得到了提升,這也證明了補值方法對數(shù)據(jù)的修正作用,并從另一個角度證明了補值方法的有效性。如果能夠?qū)θw錯誤樣本都進行修正,那么準確率一定會進一步提升。

圖2 修正后的預(yù)測準確率結(jié)果對比圖

Fig.2 Comparisons of prediction accuracy on

AlPOs dataset

5 結(jié)語

針對磷酸鋁數(shù)據(jù)庫的樣本含缺失值的情況,本文首次提出基于BP神經(jīng)網(wǎng)絡(luò)的補值方法。在不同缺失率下,通過大量的隨機實驗結(jié)果證明了補值算法具有一定的有效性和可行性,尤其是當完備數(shù)據(jù)較多、缺失率較小時,BPimpute方法補值效果最好。但是本文僅針對(6,12)元環(huán)結(jié)構(gòu)進行實驗,在后續(xù)的工作中將陸續(xù)開展其他結(jié)構(gòu)的實驗工作。

參考文獻

[1] Celton M, Malpertuy A,Lelandais G,et al.Comparative analysis

of missing value imputation methods to improve clustering and

interpretation of microarray experiments[J].BMC

Genomics,2010,11-15.

[2] Aittokallio T.Dealing with missing values in large-scale studies:

microarray data imputation and beyond[J].Brief Bioinformatics,

2010,11: 253-264.

[3] Alizadeh A A,Eisen M B,Davis R E,et al.Distinct types of diffuse

large B-cell lymphoma identified by gene expression profiling[J].

Nature, 2000:403;503-511.

[4] Troyanskaya O,Cantor M,Sherlock G, Brown P,et al.Missing

value estimation methods for DNA microarrays[J].Bioinformatics,

2001,17:520-525.

[5] Watkins D S.Fundamentals of Matrix Computations[M].Wiley,

1991 New York.

[6] Liew A W C,Law N F and Yan H. Missing value imputation for

gene expression data:computational techniques to recover

missing data from available information (Review paper)[J].

Briefings in Bioinformatics,2011,1-16.

[7] Andersen C M,Bro R.Practical aspects of PARAFAC modeling

of fluorescence excitation- emission data[J]. Journal of

Chemometrics,2003, 17(4):200-215.

[8] Lakshminarayan K,Harp S,Samad T.Imputation of missing data

in industrial databases[J]. Applied Intelligen ce,1999,11(3),

259-275.

[9] Chen J,Shao J.Nearest neighbour imputation for survey data[J].

Journal of Official Statistics,2000,16(2),113-131.

[10] Mirkin B.Mathematical Classification and Clustering[M].

Kluwer Academic Publishers,1996.

[11] B? TH,Dysvik B,Jonassen I: LSimpute: accurate estimation

of missing values in microarray data with least squares

methods[J].Nucleic Acids Res, 2004,32(3):e34.

[12] Kong J,et al.A two stage neural network-based personal

identification system using handprint[J].Neurocomputing,2008

(71),641-647.

[13] 顏巖,等.開放骨架磷酸鋁合成反應(yīng)數(shù)據(jù)庫的建立與應(yīng)用[J].

中國科學(xué)B輯: 化學(xué),2009,39(11):1308-1313.

[14] Li J,et al.Missing value estimation for database of

aluminophosphate (AlPO) syntheses[J].Microporous and

Mesoporous Materials,2013(173):197-206.

作者簡介:

李勁松(1980-),男,理學(xué)博士,中級工程師.研究領(lǐng)域:數(shù)據(jù)

分析.

主站蜘蛛池模板: 国产特级毛片aaaaaaa高清| 91精品免费久久久| 成人小视频网| 久草热视频在线| 日韩a在线观看免费观看| 2021国产精品自产拍在线观看| 亚洲国产成熟视频在线多多| 青青操视频免费观看| 四虎国产精品永久在线网址| 国内精品视频在线| 国产三区二区| 亚洲无码久久久久| 成人精品午夜福利在线播放| 亚洲永久色| 亚洲成人网在线观看| 亚洲国产一成久久精品国产成人综合| 青青青国产精品国产精品美女| 97国内精品久久久久不卡| 很黄的网站在线观看| 91久久精品日日躁夜夜躁欧美| 97久久人人超碰国产精品| 国产精品久久久久久久久kt| 亚洲人成网站在线播放2019| 99视频在线免费观看| 国产一区二区网站| 中文字幕乱妇无码AV在线| 亚洲综合二区| 国产精品中文免费福利| 成人精品在线观看| 波多野吉衣一区二区三区av| 爱做久久久久久| 99久久免费精品特色大片| 国产精品国产三级国产专业不| 国产精品lululu在线观看| 1级黄色毛片| 亚洲国模精品一区| 综合亚洲色图| 激情乱人伦| 国产亚洲精品精品精品| 国产丝袜无码一区二区视频| 国产精品3p视频| 亚洲国产精品日韩av专区| 激情爆乳一区二区| 波多野衣结在线精品二区| 国产一区亚洲一区| 国产亚洲欧美在线中文bt天堂 | 亚洲精选无码久久久| 极品尤物av美乳在线观看| 国产免费黄| 亚洲国产亚洲综合在线尤物| 亚洲色图在线观看| 日本a级免费| 国产91在线免费视频| 亚洲色无码专线精品观看| 日韩欧美亚洲国产成人综合| 最新国产精品第1页| 国产成人一区在线播放| 伊人成人在线| 91久久青青草原精品国产| 日韩在线影院| 一级毛片在线播放免费| 欧美a级在线| 欧美va亚洲va香蕉在线| 国内丰满少妇猛烈精品播| 午夜天堂视频| 国产女人在线视频| 国产男人天堂| 日本欧美成人免费| 国产毛片高清一级国语 | 伊人久久大香线蕉影院| 高清国产在线| 成人年鲁鲁在线观看视频| 国产91无码福利在线| 国产在线精彩视频二区| 老司机午夜精品视频你懂的| 91麻豆国产视频| 97se亚洲综合在线| 国产一级裸网站| 国产亚洲欧美在线专区| 国模极品一区二区三区| 亚洲天堂首页| 黄色网址免费在线|