999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于堆棧稀疏自編碼的K-均值聚類算法的種質評價

2018-05-22 07:19:06王儒敬賈秀芳
計算機應用與軟件 2018年5期
關鍵詞:資源

李 偉 王儒敬 賈秀芳 黃 河

1(中國科學院合肥智能機械研究所 安徽 合肥 230031)2(中國科學技術大學自動化系 安徽 合肥 230026)

0 引 言

隨著我國種業改革持續開展,育種技術的發展大勢所趨。與其把擴大種植規模作為提升國家農業競爭力的抓手,不如加快高效新品種的培育。諸多國家和地區已經將快速高效地培育新品種作為一種提升農業方面競爭力的關鍵技術。目前,育種的趨勢向著多元化方向發展[1],追求材料品質篩選成為新品種培育的主題。

我國的種質評價方式大多依賴于專家的經驗知識,因此缺乏客觀性,同時也限制了其規模與范圍的擴大。大規模種質資源數據庫的建設將有效地提升育種專家的效率。在本文中將利用深度學習和數據挖掘相關算法自動進行作物育種資源的評價工作,構建種質資源數據庫,用于輔助育種工作者進行優質品種的選育。本文以水稻育種材料為例提出聚類算法來進行大量種質材料數據品質自動分類。由于歷年來水稻育種數據量較大,所以提出一種基于深度學習中堆棧稀疏自編碼網絡的K-均值聚類算法評價方法。

本文方法表明可以極大加速種質資源數據庫的建設,提供高質量的種質資源材料品質評價數據。方便育種家精準地進行新品種的選育,同時提高了育種領域中的信息化管理水平。

1 深度學習

深度學習[4-7]是神經網絡學習的進一步發展,通過建立多個層次結構的神經網絡,實現對輸入的大數據進行深層次表達,從而達到更好地分類與特征提取效果。深度學習方法通過多層次學習機制,使得計算機能夠自動學習處理人工方法難以發現的重要特征。深度學習在機器學習和人工智能方面已經進行了大量的研究,在不同領域也得到了廣泛應用。深度學習方法主要有自編碼網絡[8]、堆棧自編碼網絡[9]、深度置信神經網絡[10]和卷積神經網絡[11]等。

1.1 稀疏自編碼器[2]

自動編碼器AE(autoencoder)是利用三層的神經網絡AE對用戶輸入的數據進行編碼,再通過解碼得到輸出,通過利用反向傳播算法來對網絡進行訓練,使得輸出等于輸入,最終得到編碼的結果。稀疏自編碼器學習過程[12]如圖1所示。

圖1 稀疏自編碼器學習過程

若原始數據為X={x1,x2,…,xm},xi∈Rn×1作為自動編碼器的第i個輸入向量,輸入到具有d個神經元的編碼層(encoder),通過非線性激活函數f(x)=1/(1+exp(-x))。由式(1)得到編碼zi∈Rd×1。

zi=sf(Wxi+b1)

(1)

式中:W∈Rd×n為權重矩陣,b1∈Rd×1為編碼層偏置向量。

(2)

(3)

式中:KL(p‖pj)表示兩個變量p、pj之間的相對熵;p是稀疏參數,通常設定為最小的值,可以取p=0.07。

在本文中,稀疏自編碼重構誤差函數為:

(4)

式中:α是超函數,決定了稀疏項的相對重要性。

1.2 堆棧稀疏自編碼器

初始種質資源材料數據來源廣泛,數據質量參差不齊,需要構建堆棧稀疏自編碼器SSAE(stacked sparse autoencoder)[13],即在堆棧式自編碼器SAE(stacked autoencoder)模型[9]加入稀疏表示的限定條件,以提高模型的泛化能力。圖2為堆棧稀疏自編碼器的學習過程。

圖2 堆棧稀疏自編碼器學習過程

本文基于堆棧稀疏自編碼器,實現對輸入數據的特征提取。首先,設置堆棧稀疏自動編碼器結構,包括每層的節點數{d(1),,d(2),…,d(T)},其中,d(1)=m=|X|,X(1)=X∈Rm×D作為第一層輸入到有d(2)=S個節點的自動編碼器,訓練的結果為X(2)=Z(1)∈RS×D,如此類推,將X(2)輸入到有d(3)個節點的自動編碼器,訓練結果為X(3)=Z(2)∈RS×D;循環下去,直到得到所需要的編碼層結果X(T)∈Rm×D。

1.3 K-均值聚類算法

聚類算法是基于群體共性與特異性特征為表達的機器學習方法。衍生出多種不同的聚類算法,包括層次聚類、密度聚類、網格聚類、基于模型的聚類和劃分的聚類等。諸多的聚類算法中,K-均值聚類是最為經典的聚類粒化分析算法。

其基本思想是:從m個數據樣本中隨機選取k個樣本作為初始聚類中心,其他樣本根據其與已得到的聚類中心的相似度來進行最優匹配而歸類;其次,不斷地計算聚類中心,同時調整各個樣本的類別,最終使得各個數據樣本到其所屬類別中心的均方差達到最小值,即聚類結果中同一類中樣本盡可能緊湊,不同類間盡可能地分開。

算法步驟說明如下[3]:

算法1K-均值聚類算法

輸入:m個數據對象X={x1,x2,…,xm},xi∈Rn×1,聚類個數為k;

輸出:k個聚類。

Step1從研究對象中任意選取k個樣本作為初始聚類中心(c1,c2,…,ck)。

Step2計算每一個對象xi同每一個聚類中心cj之間的相似度,將每一個研究對象歸屬于最相似的類別中。具體相似公式計算如下:

Step3計算每個聚類中所有對象的均值作為新的聚類中心,具體計算步驟如下:

Step4重復迭代Step2和Step3,一直使得標準函數E收斂為止。

其中,k表示聚類個數,xij表示第i個類中的第j個樣本,ci表示第i個聚類的中心,m表示需要聚類的樣本數。

典型的K-means聚類每次都需要對更新后的整個數據重新聚類,其復雜度為O(mkl), 其中,m為數據中所需聚類的樣本數,k為聚類個數,l為迭代次數。

2 種質資源數據品質聚類算法

針對K-均值聚類算法的一個特征是聚類結果嚴重依賴于初始分類,即對初始中心的選取問題比較敏感。為了克服此不足,我們利用堆疊稀疏自編碼網絡進行關鍵數據特征提取,逐步降低樣本維度,構建混合特征數據,將其作為K-均值聚類算法的初始中心;利用K-均值聚類算法進行水稻種質資源的品質數據聚類;最后在此基礎上利用已有的水稻種質資源品質數據對聚類結果進行標注,得到大規模種質資源品質數據庫。算法流程圖如圖3所示。

圖3 種質資源數據品質數據標識過程

算法2種質資源數據品質聚類算法

輸入:國家農作物種質資源平臺m個水稻種質資源數據對象X={x1,x2,…,xm},xi∈Rn×1;

輸出:經過聚類并進行類別標注的水稻種質資源品質數據庫。

Step1對輸入數據進行轉置XT={x1,x2,…,xm}T。

Step2利用堆棧稀疏自編碼器對XT轉置進行編碼解碼,最終輸出具有代表性的特征數據。

Step3將特征數據作為K-均值聚類的中心點,利用K-均值聚類算法對輸入數據進行聚類。

Step4利用國家水稻數據中心優異種質數據庫選取各級別品質種質資源,對其取平均值作為標準值Ei其中i為國家水稻數據中心優異種質數據庫中第i個類別。將聚類結果中的中心分別與標準值Ei進行匹配,具體是計算聚類中心點和標準Ei之間的馬氏距離DEi。馬氏距離:DEi=d(xi,xj) = (xi,xj)′∑-1(xi,xj),其中∑-1是向量間協方差矩陣的逆矩陣。

Step5將最小馬氏距離min(DEi)標記作為聚類中類別的標記。

Step6輸出經過聚類并進行類別標注的水稻種質資源品質。

3 算法應用與結果分析

為驗證深度稀疏自編碼網絡中心選擇支持下的K-均值聚類算法的可行性以及實驗劃分的準確性,文中選擇經典Wine-Quality數據集和自建的育種品質數據集進行算法驗證,并將此算法用于育種材料數據的篩選與比對工作。

3.1 Wine-Quality數據集

Wine-Quality是常用的聚類實驗數據集。通過兩個文件分別記錄紅、白兩種葡萄酒的各類成分度量數據,數據集包含紅葡萄酒數據1 599條,白葡萄酒數據4 898條。可通過固定酸度、揮發性酸度、檸檬酸等11個指標預測葡萄酒品質。

紅葡萄酒和白葡萄酒在化學成分上有差異,在本實驗中,將紅葡萄酒數據文件與白葡萄酒數據文件合并生成聚類數據集,測試算法對于葡萄酒類型的聚類效果。

合并后生成的數據集有6 479條記錄,增加一個類型字段type,1代表紅葡萄酒,2代表白葡萄酒。數據集多維標度分析(MDS)后數據分布圖見圖4。

3.2 水稻種質品質數據集

對于育種專業數據,為驗證算法的準確性,我們通過以中國水稻研究所國家水稻數據中心,優異種質數據庫(http://www.ricedata.cn/rsres/mix.asp)作為驗證測試數據集。數據庫中包含部頒標準一級品種數據328條,去除重復后為278條;二級品種數據735條,去除重復后為733條。將二者合并以后數據量1 011條,部分數據有缺失,作為驗證測試集合。

3.3 實驗驗證與應用

文中選用R語言K-均值聚類工具包運行于Windows7操作系統平臺,算法執行代碼都由R語言設計完成。表1給出兩種不同中心選擇模式下實驗結果。

模式1:利用上述給定的數據集進行聚類,聚類中心選取規則為隨機選擇。

模式2:首先利用堆棧稀疏自動編碼網絡算法進行數據集處理,得到關鍵數據特征,將特征數據作為初始聚類中心,利用K-均值算法進行聚類。算法中使用的優化算法為BFGS牛頓優化算法。

其中:Wine-Quality數據集中紅、白兩種葡萄酒進行聚類,驗證其聚類的結果。種質數據集中對于品種的等級進行聚類分為兩個等級。

經典K-均值聚類算法對于初始聚類中心的選擇較為敏感,不同初始聚類中心選擇對結果的影響也不盡相同。通過實驗驗證Wine-Quality數據集下利用模式1得到的正確率為78.54%,而通過模式2得到的正確率為98.58%。如圖5所示。

圖5 Wine-Quality聚類結果

自建的育種品質數據集通過模式2算法驗證下得到的正確率也得到大幅度的提升。由此可見,本文提出的基于深度學習稀疏自動編碼初始聚類中心選擇算法可以明顯地提高聚類分析的準確率。

4 結 語

本文針對國家農作物種質資源平臺(http://www.cgris.net/)13 942個水稻材料數據源缺少等級分類的問題。提出基于堆棧稀疏自編碼網絡的K-均值聚類算法。選取與材料品質相關的屬性(糙米率、精米率、蛋白質、賴氨酸、總淀粉、直鏈淀粉、膠稠度)作為分類特征,對數據進行分類,取得較好的結果。

由于條件限制,本文只采用了兩個稀疏層進行特

征數據提取,對于給出研究數據進行適當增加層數是否能夠更進一步提高聚類效果有待進一步研究。同時,對堆棧自編碼網絡中的參數進行不斷調整優化,從而縮短訓練時間等問題需要做更深入研究。

參考文獻

[1] 樊龍江,王為娣,王斌,等.作物育種相關數據及大數據技術育種利用[J].浙江大學學報(農業與生命科學版),2016,42(1):30-39.

[2] Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances in Neural Information Processing Systems, 2007, 19:153-160.

[3] 孫即祥.現代模式識別[M].長沙:國防科技大學出版社,2002.

[4] Schmidhuber J. Deep Learning in neural networks: An overview[J]. Neural Netw, 2014, 61:85-117.

[5] Bengio Y, Courville A, Vincent P. Representation Learning: A Review and New Perspectives[J]. IEEE Trans Pattern Anal Mach Intell, 2012, 35(8):1798-1828.

[6] Li D. A tutorial survey of architectures, algorithms, and applications for deep learning[J]. Apsipa Transactions on Signal & Information Processing, 2014, 3(3):1-30.

[7] Zhang X, Gao Y. Face recognition across pose: A review[J]. Pattern Recognition, 2009, 42(11):2876-2896.

[8] Le Q V,Ngiam J, Coates A,et al. On optimization methods for deep learning[C]//Proceedings of the 28th International Conference on Machine Learning, ICML 2011, Bellevue, Washington, USA, June 28-July 2, 2011:265-272.

[9] Vincent P,Larochelle H,Lajoie I,et al. Stacked denoising autoencoders[J]. Journal of Machine Learning Research, 2010,11(12):3371-3408.

[10] Ranzato M A, Boureau Y L, Lecun Y. Sparse feature learning for deep belief networks[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc. 2007:1185-1192.

[11] Matsugu M, Mori K Y, Kaneda Y. Subject independent facial expression recognition with robust face detection using a convolutional neural network[J]. Neural Networks, 2003, 16(6):555-559.

[12] Shin H C, Orton M R, Collins D J, et al. Stacked autoencoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013,35(8):1930-1943.

[13] Ranzato M, Poultney C, Chopra S, et al. Efficient learning of sparse representations with an energy-based model[C]//Advances in Neural Information Processing Systems,NIPS 2006.2006:1137-1134.

猜你喜歡
資源
讓有限的“資源”更有效
污水磷資源回收
基礎教育資源展示
崛起·一場青銅資源掠奪戰
藝術品鑒(2020年7期)2020-09-11 08:04:44
一樣的資源,不一樣的收獲
我給資源分分類
資源回收
做好綠色資源保護和開發
當代貴州(2018年28期)2018-09-19 06:39:04
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
激活村莊內部治理資源
決策(2015年9期)2015-09-10 07:22:44
主站蜘蛛池模板: 国产一区成人| 综合社区亚洲熟妇p| 色综合国产| 亚洲中文字幕手机在线第一页| 一本久道久综合久久鬼色| 国产亚洲欧美在线视频| 丰满少妇αⅴ无码区| 污视频日本| 亚洲精品视频网| 波多野结衣一区二区三区88| 欧美不卡在线视频| 国产精品理论片| 亚洲免费人成影院| 色悠久久久| 亚洲大尺度在线| 国产精品视频久| 高清视频一区| 天堂成人av| 国产95在线 | 国产福利影院在线观看| 波多野结衣一区二区三视频 | 无码久看视频| 亚洲天堂在线视频| 精品久久久久久久久久久| 国产精品不卡永久免费| 国产成熟女人性满足视频| 18禁影院亚洲专区| 亚洲国产第一区二区香蕉| 在线国产你懂的| 久久青草免费91线频观看不卡| 国产女人水多毛片18| 亚洲精品图区| 爱色欧美亚洲综合图区| 一区二区理伦视频| 久久伊人久久亚洲综合| 国产99在线观看| 91网在线| 国产真实乱子伦精品视手机观看 | 日韩 欧美 小说 综合网 另类 | 热re99久久精品国99热| 亚洲天堂精品视频| 國產尤物AV尤物在線觀看| 国产成人亚洲日韩欧美电影| 欧美亚洲日韩中文| 97成人在线视频| 国产福利大秀91| 中文字幕日韩久久综合影院| 91系列在线观看| 呦视频在线一区二区三区| 91精品综合| 中文字幕在线日本| 日韩av无码DVD| 久久人妻系列无码一区| 欧美精品黑人粗大| 欧美一级高清片欧美国产欧美| 99热这里只有精品在线播放| 亚洲综合日韩精品| av在线人妻熟妇| 国产波多野结衣中文在线播放 | 欧美激情首页| 亚洲一区二区三区麻豆| 深夜福利视频一区二区| 久久精品国产国语对白| 婷婷综合在线观看丁香| 久久综合亚洲鲁鲁九月天| 日韩无码黄色网站| 狠狠色香婷婷久久亚洲精品| 狂欢视频在线观看不卡| 国产青榴视频| 国产91导航| 久久久久久久久亚洲精品| 粗大猛烈进出高潮视频无码| 国产精品成人免费视频99| 麻豆精品在线| 免费播放毛片| 国产在线观看第二页| a毛片在线免费观看| 国产精品人成在线播放| 久久国产高潮流白浆免费观看| 亚洲欧洲日韩综合色天使| 91视频免费观看网站| 亚洲精品成人片在线播放|