999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘方法在生物實(shí)驗(yàn)數(shù)據(jù)上的應(yīng)用

2018-09-22 05:39:16辛月振孫貝貝夏盛瑜
關(guān)鍵詞:分類生物實(shí)驗(yàn)

辛月振,孫貝貝,夏盛瑜

(中國石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)

0 引 言

隨著大規(guī)模生物實(shí)驗(yàn)技術(shù)的發(fā)展和數(shù)據(jù)累積,如何處理數(shù)據(jù),從全局和系統(tǒng)水平研究和分析生物學(xué)系統(tǒng),揭示其發(fā)展規(guī)律已成為一個(gè)新的研究熱點(diǎn)。傳統(tǒng)生物數(shù)據(jù)分析方法受限于其處理能力與時(shí)間復(fù)雜度,已逐漸不適用于當(dāng)前的生物數(shù)據(jù)分析。將計(jì)算機(jī)技術(shù)與生物實(shí)驗(yàn)相結(jié)合,采用生物信息學(xué)的思想與方法成為目前生物數(shù)據(jù)處理的新途徑[1]。

近年來,機(jī)器學(xué)習(xí)方法已應(yīng)用于生物數(shù)據(jù)處理。在生物數(shù)據(jù)處理領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)挖掘算法已應(yīng)用于產(chǎn)量的優(yōu)化[2],特別是在培養(yǎng)條件的優(yōu)化方面。張梅等利用BP神經(jīng)網(wǎng)絡(luò)優(yōu)化杜鵑花黃酮的提取工藝[3]。Khaouane L等利用神經(jīng)網(wǎng)絡(luò)和粒子群優(yōu)化算法尋找最優(yōu)截短側(cè)耳素培養(yǎng)條件[4]。最近,隨著生物數(shù)據(jù)的增加,數(shù)據(jù)分類思想也應(yīng)用于生物數(shù)據(jù)處理方面[5-7]。分類的概念是在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上使用分類函數(shù),或者構(gòu)造一個(gè)分類模型(即通常稱之為分類器)。函數(shù)或模型可以將數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到給定的類別,它可以應(yīng)用于數(shù)據(jù)預(yù)測。在文獻(xiàn)[8]中,應(yīng)用在這些實(shí)驗(yàn)中收集的數(shù)據(jù),以統(tǒng)計(jì)方法建立數(shù)學(xué)模型來預(yù)測桑黃產(chǎn)黃酮產(chǎn)量,并取得了較好的效果。但在這個(gè)過程中,發(fā)現(xiàn)統(tǒng)計(jì)方法在處理生物實(shí)驗(yàn)數(shù)據(jù)具有模型建立依賴先驗(yàn)知識,數(shù)據(jù)受誤差樣本擾動大,信息易丟失等缺點(diǎn)。因此,文中采用分類算法對整個(gè)樣本集進(jìn)行高產(chǎn)和低產(chǎn)的數(shù)據(jù)分類,取得了良好的分類精度。在高產(chǎn)數(shù)據(jù)集的基礎(chǔ)上,采用BP神經(jīng)網(wǎng)絡(luò)和遺傳算法對產(chǎn)量進(jìn)行優(yōu)化。最終得出了最優(yōu)產(chǎn)量與實(shí)驗(yàn)條件。

1 數(shù)據(jù)采集與分類

1.1 數(shù)據(jù)采集

首先從生物單因素試驗(yàn)中采集數(shù)據(jù)。文中所采集的實(shí)驗(yàn)數(shù)據(jù)來源于桑黃實(shí)驗(yàn)室發(fā)酵實(shí)驗(yàn)[9],包括接種量、PH值、初始液量、溫度、種齡、發(fā)酵時(shí)間和轉(zhuǎn)速等參數(shù)。共獲取了90組實(shí)驗(yàn)數(shù)據(jù)。

1.2 數(shù)據(jù)分類

將數(shù)據(jù)集劃分為高產(chǎn)量數(shù)據(jù)集和低產(chǎn)量數(shù)據(jù)集兩部分。由之前的生物數(shù)據(jù)處理經(jīng)驗(yàn),來自生物實(shí)驗(yàn)的數(shù)據(jù)具有不同實(shí)驗(yàn)梯度數(shù)據(jù)相似度高、實(shí)驗(yàn)梯度有限等特點(diǎn)。傳統(tǒng)的預(yù)測方法在整個(gè)數(shù)據(jù)集中很難取得好的結(jié)果。所以文中使用分類的方法,針對高產(chǎn)的數(shù)據(jù),增加分類數(shù)據(jù)集中的樣本差。選擇分類時(shí)必須考慮到兩個(gè)關(guān)鍵因素。

第一,保持兩個(gè)數(shù)據(jù)集之間的平衡。較大的不平衡可能導(dǎo)致分類器中更多的偏差[10]。類別數(shù)據(jù)不均衡是分類任務(wù)中一個(gè)典型存在的問題。簡而言之,即數(shù)據(jù)集中,每個(gè)類別下的樣本數(shù)目相差很大。例如,在一個(gè)二分類問題中,共有100個(gè)樣本(100行數(shù)據(jù),每一行數(shù)據(jù)為一個(gè)樣本的表征),其中80個(gè)樣本屬于class1,其余的20個(gè)樣本屬于class2,class1∶class2=80∶20=4∶1,這便屬于類別不均衡。如果使用這種模型,分類器就不能找到高產(chǎn)因子,也不能為BP神經(jīng)網(wǎng)絡(luò)建立訓(xùn)練數(shù)據(jù)集。

第二,高產(chǎn)數(shù)據(jù)集和低產(chǎn)數(shù)據(jù)集必須覆蓋所有單因素實(shí)驗(yàn)的實(shí)驗(yàn)條件。文中考慮兩種分類策略:第一個(gè),取黃酮類化合物產(chǎn)量的中位數(shù)作為分類邊界(在實(shí)驗(yàn)數(shù)據(jù)中是1 100 μg/ml),這樣獲得了數(shù)目相同的高產(chǎn)和低產(chǎn)數(shù)據(jù)集。通過大量實(shí)驗(yàn),證明在此分類邊界下分類效果是可以接受的。但是這種方法將會使某些單因素實(shí)驗(yàn)因素完全劃分為某低產(chǎn)類或高產(chǎn)類當(dāng)中;另一個(gè)策略是在每一組單變量實(shí)驗(yàn)中選擇一個(gè)邊界。保持每個(gè)單因素實(shí)驗(yàn)數(shù)據(jù)在兩個(gè)不同的類中,并且盡量使兩個(gè)類別中的元素?cái)?shù)量盡可能接近。結(jié)合上述條件,選擇黃酮產(chǎn)量為1 273 μg/ml作為邊界條件。在這個(gè)邊界條件下,得到20組高產(chǎn)量數(shù)據(jù)和30組低產(chǎn)量數(shù)據(jù)。

分類結(jié)果如表1所示。

表1 分類準(zhǔn)確率(邏輯回歸)

2 模型建立

BP(back propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)之一[11]。

基本BP算法包括信號的前向傳播和誤差的反向傳播兩個(gè)過程。即計(jì)算誤差輸出時(shí)按從輸入到輸出的方向進(jìn)行,而調(diào)整權(quán)值和閾值則從輸出到輸入的方向進(jìn)行[12]。

2.1 正向傳遞子過程

現(xiàn)在設(shè)節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的權(quán)值為wij,節(jié)點(diǎn)j的閾值為bj,每個(gè)節(jié)點(diǎn)的輸出值為xj,而每個(gè)節(jié)點(diǎn)的輸出值是根據(jù)上層所有節(jié)點(diǎn)的輸出值、當(dāng)前節(jié)點(diǎn)與上一層所有節(jié)點(diǎn)的權(quán)值和當(dāng)前節(jié)點(diǎn)的閾值還有激活函數(shù)來實(shí)現(xiàn)的。具體計(jì)算方法如下:

(1)

xj=f(Sj)

(2)

其中,f為激活函數(shù),一般選取S型函數(shù)或者線性函數(shù)。

2.2 反向傳遞子過程

反向傳遞是將輸出誤差通過隱含層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層所有單元,以從各層獲得的誤差信號作為調(diào)整各單元權(quán)值的依據(jù)。通過調(diào)整輸入節(jié)點(diǎn)與隱層節(jié)點(diǎn)的連接強(qiáng)度和隱層節(jié)點(diǎn)與輸出節(jié)點(diǎn)的連接強(qiáng)度以及閾值,誤差沿梯度方向下降,經(jīng)過反復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對應(yīng)的網(wǎng)絡(luò)參數(shù)(權(quán)值和閾值),訓(xùn)練即告停止。

假設(shè)輸出層的所有結(jié)果為dj,誤差函數(shù)如下:

(3)

其中,E(w,b)為當(dāng)前位置的梯度。

由經(jīng)驗(yàn)公式可以確定隱含層節(jié)點(diǎn)數(shù)目,如下:

(4)

其中,h為隱含層節(jié)點(diǎn)數(shù)目;m為輸入層節(jié)點(diǎn)數(shù)目;n為輸出層節(jié)點(diǎn)數(shù)目;a為1-10之間的調(diào)節(jié)常數(shù)。經(jīng)過反復(fù)試驗(yàn)確定中間層節(jié)點(diǎn)數(shù)為9。

每個(gè)隱層傳遞函數(shù)設(shè)置為“tansig”(雙極性S函數(shù))、“l(fā)ogsig”(單極性S函數(shù))。訓(xùn)練方法設(shè)定為“trainlm”。trainlm是指L-M優(yōu)化算法[13]。

Sigmod函數(shù)如下:

(5)

每次選擇15組數(shù)據(jù)進(jìn)行建模,選擇5組數(shù)據(jù)進(jìn)行驗(yàn)證。訓(xùn)練次數(shù)設(shè)定為1 000,訓(xùn)練收斂誤差設(shè)定為0.000 01。重復(fù)7次實(shí)驗(yàn)的結(jié)果如表2所示。平均誤差為133.53,誤差百分比為8.7%。誤差值如圖1所示,誤差百分比如圖2所示。可以判斷模型取得了很好的效果。

表2 BP預(yù)測結(jié)果

圖1 誤差值

圖2 誤差百分比

3 實(shí)驗(yàn)仿真與尋優(yōu)

文中采用遺傳算法(genetic algorithm,GA)來優(yōu)化產(chǎn)量。GA是模擬達(dá)爾文生物進(jìn)化論中自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計(jì)算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法[14]。GA是從代表問題可能潛在的解集的一個(gè)種群(population)開始,而一個(gè)種群則由經(jīng)過基因(gene)編碼的一定數(shù)目個(gè)體(individual)組成。每個(gè)個(gè)體實(shí)際上是染色體(chromosome)帶有特征的實(shí)體。染色體作為遺傳物質(zhì)的主要載體,即多個(gè)基因的集合,其內(nèi)部表現(xiàn)(即基因型)是某種基因組合,決定了個(gè)體的形狀的外部表現(xiàn)[15]。因此,在一開始需要實(shí)現(xiàn)從表現(xiàn)型到基因型的映射即編碼工作。由于仿照基因編碼的工作很復(fù)雜,往往進(jìn)行簡化,如二進(jìn)制編碼。遺傳算法過程如圖3所示。

圖3 遺傳算法流程

設(shè)置GA算法的參數(shù)如下:種群大小設(shè)置為300,染色體大小設(shè)置為6,交叉速率設(shè)置為1,變異率設(shè)置為0.01。提取BP神經(jīng)網(wǎng)絡(luò)的隱藏閾值作為GA算法的適應(yīng)度函數(shù)。在大約30到500次迭代之后,GA過程返回最佳個(gè)體。訓(xùn)練過程如圖3所示。重復(fù)測試7次,結(jié)果如表3所示。可以看到,得到的收益比實(shí)際收益略有增加。

表3 7次實(shí)驗(yàn)預(yù)測結(jié)果

4 結(jié)束語

利用桑黃實(shí)驗(yàn)數(shù)據(jù)作為載體,提出了一種利用計(jì)算機(jī)技術(shù)處理生物實(shí)驗(yàn)數(shù)據(jù)的方法。實(shí)驗(yàn)結(jié)果表明,模型預(yù)測的最優(yōu)條件與生物實(shí)驗(yàn)結(jié)果一致,證明該方法對培養(yǎng)條件優(yōu)化具有良好的可預(yù)測性。機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的算法在處理大數(shù)量的生物數(shù)據(jù)具有獨(dú)特優(yōu)勢,是生物信息學(xué)潛在的發(fā)展方向[16-17]。

猜你喜歡
分類生物實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
生物多樣性
生物多樣性
上上生物
分類算一算
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
做個(gè)怪怪長實(shí)驗(yàn)
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 性欧美久久| 久久青草免费91观看| 国产精品99一区不卡| 国产精品一区二区在线播放| 国产成人精品一区二区三区| 日韩精品专区免费无码aⅴ| 精品午夜国产福利观看| 无码中字出轨中文人妻中文中| 午夜小视频在线| 91丝袜在线观看| 久久精品国产999大香线焦| 国产全黄a一级毛片| 日韩精品中文字幕一区三区| 最新日本中文字幕| 99久久精品国产自免费| 青青国产成人免费精品视频| 欧美一区国产| 97国产在线视频| 国产h视频在线观看视频| 91精品亚洲| 天天视频在线91频| 亚洲资源站av无码网址| 欧美精品亚洲日韩a| 国产精品免费入口视频| 五月天丁香婷婷综合久久| 播五月综合| 97久久精品人人做人人爽| 久久成人国产精品免费软件 | 蜜桃视频一区| 在线国产欧美| 日韩资源站| 亚洲综合专区| 97影院午夜在线观看视频| 亚洲国产精品不卡在线| 日韩美女福利视频| 国产不卡国语在线| 国产精品美女免费视频大全| 人妻中文字幕无码久久一区| 91精品日韩人妻无码久久| 欧美人人干| 亚洲经典在线中文字幕| 成人永久免费A∨一级在线播放| 色婷婷国产精品视频| 精品国产欧美精品v| 性喷潮久久久久久久久| 国产免费久久精品99re不卡 | 无码AV动漫| 久久久精品国产亚洲AV日韩| 97在线国产视频| 丁香五月亚洲综合在线 | a在线观看免费| 久久精品最新免费国产成人| 欧美一区国产| 国产精品福利在线观看无码卡| 一区二区三区高清视频国产女人| 国产精品视频a| 国产网站免费看| 激情综合网址| 99精品国产电影| 中文字幕首页系列人妻| 69视频国产| 国产午夜福利在线小视频| 国产伦片中文免费观看| 亚洲精品动漫| 中国一级毛片免费观看| 无码一区18禁| 久无码久无码av无码| 久久久黄色片| 国产一区二区三区在线观看视频| 中文字幕人妻无码系列第三区| 欧美日韩激情在线| 91蝌蚪视频在线观看| 国产精品白浆无码流出在线看| 69精品在线观看| 欧美激情伊人| 综合五月天网| 亚洲第一福利视频导航| 欧美中文字幕第一页线路一| 国产欧美高清| 四虎精品黑人视频| 亚洲综合九九| 国产精品亚洲va在线观看|