999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KMeans聚類的微生物群落結構研究

2018-02-01 11:36:57王俠林賀建峰
軟件導刊 2018年1期
關鍵詞:方法

王俠林+賀建峰

摘要:

隨著宏基因組學的不斷發(fā)展,揭示了微生物菌群在研究中的重要作用。采用K-Means聚類算法對來源于北平頂猴陰道微生物群落OTUs數(shù)據(jù)集的27個樣本進行研究,并與PCA主成分分析法進行對比。K-Means聚類將OTUs數(shù)據(jù)集分成4個Cluster,而PCA將OTUs數(shù)據(jù)集劃分成5個Cluster。此外,結合樣本的元數(shù)據(jù)-pH,發(fā)現(xiàn)樣本間的pH值相似性更能與K-Means聚類的分類保持一致。相較于PCA主成分析方法,K-Means聚類能更精確地對OTUs數(shù)據(jù)集進行分類。

關鍵詞:

K-Means聚類;PCA主成分分析法;微生物群落結構;OTUs數(shù)據(jù)集

DOIDOI:10.11907/rjdk.172732

中圖分類號:TP319

文獻標識碼:A文章編號文章編號:1672-7800(2018)001-0146-03

Abstract:The development of macrogeome has shown that microbial flora plays an important role in the research and development of many aspects. A total of 27 samples from the OTUs data collection of the microbiological community of the North Mongolian monkey were studied by K-Means clustering algorithm and compared with the PCA principal component analysis method. K-Means clustering divides the OTUs data set into four clusters. Interestingly, PCA divides the OTUs data set into five clusters. In addition, combining the sample metadata-pH, it is found that the pH similarity between the samples is more consistent with the classification of K-Means clustering.K-Means clustering classifies the OTUs data sets more accurately than the PCA principal analysis method.

Key Words:K-Means clustering; principal component analysis; microbial community structure; OTUs data set

0引言

微生物群落的種群多樣性一直是微生物生態(tài)學和環(huán)境學科研究的重點。近年來,微生物群落結構成為了研究熱點。群落結構決定了生態(tài)功能的特性和強弱,因此群落結構的高穩(wěn)定性是實現(xiàn)生態(tài)功能的重要因素,群落結構變化也是標記環(huán)境變化的重要指標[1-4]。通過對目標微生物的群落結構和多樣性進行解析并研究其動態(tài)變化,可為挖掘群落功能信息、優(yōu)化群落結構與調節(jié)群落功能提供可靠依據(jù)。

自新一代高通量測序技術2005年問世以來,以其數(shù)字化信號、高數(shù)據(jù)通量、高準確率以及信息量豐富等優(yōu)點,被廣泛應用于微生物菌群研究中[3-6]。本次研究的菌群數(shù)據(jù)集具有OTUs(Operational Taxonomic Unit)數(shù)量多、數(shù)據(jù)量大、樣本信息復雜以及具有一定稀疏性等特點,且微生物群落數(shù)據(jù)特性與文本分析的變化模式類似。因此,本文提出一種非監(jiān)督學習算法K-Means聚類算法對微生物群落進行研究。

目前,在微生物群落研究中,PCA主成分分析法也是一種常用方法。PCA 主成分分析法是把多指標轉化為少數(shù)幾個綜合指標,使其盡可能多地保留原始變量信息,且彼此不相關[7-8]。但處理結果具有一定模糊性,不能很好地抓住數(shù)據(jù)的真實子空間結構,當遮擋幅值較大時,效果較差。而K-Means聚類算法是一種非監(jiān)督學習的硬聚類算法[9],是典型的基于原型的目標函數(shù)聚類方法的代表。它是以數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標函數(shù),利用函數(shù)求極值的方法得到迭代運算的調整規(guī)則,主要采用誤差平方和準則函數(shù)作為聚類準則函數(shù),以歐式距離作為相似度測度,具有計算速度快、操作簡單、時間復雜度近似線性的特點,適合挖掘大規(guī)模數(shù)據(jù)集,且對大數(shù)據(jù)集分析有較高效率以及可伸縮性[10]。因此,本文采用K-Means聚類分析不同來源或不同時期的微生物群落,并與PCA方法進行對比,使該方法能夠進一步運用于微生物研究。

1材料與方法

1.1數(shù)據(jù)來源

本次數(shù)據(jù)集來源于兩個成年雌性北平頂猴個體PMA和PMB的陰道菌群數(shù)據(jù),共27個樣本。其中,PMA含有13個時間點數(shù)據(jù),PMB含有14個時間點數(shù)據(jù)[11]。

1.2K-Means聚類原理

K-Means聚類[12-13]也稱為K-平均或K-均值,是一種使用最廣泛的聚類算法。它是將各個聚類子集內的所有數(shù)據(jù)樣本均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同類別,使評價聚類性能的準則函數(shù)達到最優(yōu),從而使生成的每個聚類類內緊湊,類間獨立。劃分聚類方法對數(shù)據(jù)集進行聚類時包括如下3個要點:

(1)選定某種距離作為數(shù)據(jù)樣本間的相似性度量。由于K-Means聚類算法不適合處理離散型屬性,而對于連續(xù)型屬性比較適合。因此,在計算數(shù)據(jù)樣本之間的距離時,可以根據(jù)實際需要選擇歐式距離、曼哈頓距離或者明考斯距離中的一種作為算法的相似性度量[14],其中最常用的是歐式距離。endprint

(3)根據(jù)一個簇中對象的平均值進行相似度計算,步驟為:①將所有對象隨機分配到k個非空的簇中;②然后計算每個簇的平均值,并用該平均值代表相應的簇;③根據(jù)每個對象與各個簇中心的距離,分配給最近的簇;④最后轉到②,重新計算每個簇的平均值。該過程不斷重復,直到滿足某個準則函數(shù)才停止。

K-Means聚類的具體算法步驟[17]為:①為每個聚類確定一個初始聚類中心,共有k個初始聚類中心;②將樣本集中的樣本按照最小距離原則分配到最鄰近聚類;③使用每個聚類中的樣本均值作為新的聚類中心;④重復步驟②、③,直到聚類中心不再變化;⑤結束,得到k個聚類。

2分析結果

2.1K-Means聚類結果

利用K-Means聚類對北平頂猴OTUs數(shù)據(jù)集的27個樣本進行分析,并通過MEV軟件進行計算處理,最終將OTUs數(shù)據(jù)集分成了4類(見圖1)。圖1(a)、(b)、(c)、(d)分別表示K-Means聚類的4個Cluster。每行表示每個OTUs在不同樣本中的相對豐度,每列表示每個樣本中OTUs的相對豐度。

由圖1可以看出,樣本PMA05、PMB05、PMB13對第1個分類影響最大;PMA01、PMB08對第2個分類影響最大;PMA12、PMA14對第3個分類影響最大;PMA09-11對第4個分類影響最大。表1展示了K-Means的詳細聚類結果。

2.2PCA-主成分分析法

以OTUs數(shù)據(jù)集為評價單元,對其指標數(shù)據(jù)進行標準化處理后作為樣本,利用SPSS 23.0對其進行主成分分析。按照成分因子達到80%~85%即可提取為主成分因子的原則,提取前5個因子作為主成分因子(見表2)。

主成分分析法提取的公共因子,每一載荷量表示主成分與對應變量的相關系數(shù)(見表3)。由表3可以看出,公共因子1載荷量較大的樣本是PMA01-02、PMA04、PMA11-13、PMB01-02、PMB08-09、PMB16;公共因子2載荷量較大的樣本是PMA05、PMB04-06、PMB12-15;公共因子3載荷量較大的樣本是PMA03、PMA14、PMA16;公共因子4載荷量較大的樣本是PMA09;公共因子5載荷量較大的樣本是PMA08。

計算OTU數(shù)據(jù)集各樣本綜合得分(見圖 2)。

2.3NPTM-pH值

NPTM-pH值是所在樣本的pH值,如圖3所示。

根據(jù)pH值的相似性將OTUs數(shù)據(jù)集分為4類,分別用4種不同顏色表示。由圖3可以看出,K-Means聚類的分類結果與樣本pH值的相似性保持一致。

3結語

本文基于K-Means聚類對微生物群落結構進行了研究,K-Means聚類將OTUs數(shù)據(jù)集的27個樣本分成4個Cluster,PCA主成分分析將該樣本分成5個Cluster。結合樣本元數(shù)據(jù),發(fā)現(xiàn)K-Means聚類的分析結果能更好地與pH值的相似性保持一致,說明K-Means聚類更能精確地對OTUs數(shù)據(jù)集進行分類。兩種方法評價結果的差異主要與兩種方法所確定的權重差異、結果數(shù)據(jù)處理差異、方法理論差異等有關,同時與標準化處理方法的差異也有一定關系。但綜合考慮來看,K-Means聚類相對于PCA方法更能有效地區(qū)分微生物群落結構樣本。

參考文獻:

[1]HUMAN MICROBIOME PROJECT C. Structure, function and diversity of the healthy human microbiome[J]. Nature,2016,486:207-214.

[2]HUMAN MICROBIOME PROJECT C. A framework for human microbiome research[J]. Nature,2016,486:215-221.

[3]曹鵬,賀紀正.微生物生態(tài)學理論框架[J].生態(tài)學報,2015(22):7263-7273.

[4]車玉伶,王慧,胡洪營,等.微生物群落結構和多樣性解析技術研究進展[J].生態(tài)環(huán)境,2005(1):127-133.

[5]孫志濱.LDA模型的研究及其在推薦系統(tǒng)中的應用[D].杭州:浙江大學,2016.

[6]盛華芳.基于BIPES分析微生物群落的生物信息學方法的建立[D].廣州:南方醫(yī)科大學,2012.

[7]CHENG FAN LI, YANG YANG DAI,JUN JUAN ZHAO, et al. Remote sensing monitoring of volcanic Ash clouds based on PCA metho[J]. Acta Geophysica,2015,63(2):1-19.

[8]POTEMRA T A. The empirical connection of riometer absorption to solar protons during PCA events[J]. Radio Science,2016,7(5):571-577.

[9]Anna Kijewska,Anna Bluszcz. Research of varying levels of greenhouse gas emissions in European countries using the K-Means method[J]. Atmospheric Pollution Research,2016.

[10]TAKASHI ONODA,MIHO SAKAI,SEIJI YAMADA. Careful seeding method based on independent components analysis for K-Means clustering[J]. Journal of Emerging Technologies in Web Intelligence,2012,4(1):112-115.endprint

[11]ZHU L, LEI AH, ZHENG HY, et al. Longitudinal analysis reveals characteristically high proportions of bacterial vaginosis-associated bacteria and temporal variability of vaginal microbiota in northern pig-tailed macaques (Macaca leonina)[J]. Zoological Research,2015,36(5):285-98.

[12]VINCENT COHENADDAD, PHILIP N KLEIN, CLAIRE MATHIEU. Local search yields approximation schemes for K-Means and k-median in Euclidean and minor-free metrics[J]. Foundations of Computer Science,2016:353-364.

[13]SHAHRIVARI S, JALILI S. Single-pass and linear-time K-Means clustering based on MapReduce[J]. Information Systems,2016,60(C):1-12.

[14]COHENADDAD V, KLEIN P N, MATHIEU C. Local search yields approximation schemes for K-Means and K-Median in euclidean and minor-free metrics[C].Foundations of Computer Science,2016:353-364.

[15]SHI Z, SONG W, TAHERI S. Improved LMD, permutation entropy and optimized K-Means to fault diagnosis for roller bearings[J]. Entropy,2016,18(3):70.

[16]HAMIDA E B, JAVED M A. Channel-aware ECDSA signature verification of basic safety messages with K-Means clustering in VANETs[C].IEEE, International Conference on Advanced Information Networking and Applications. IEEE,2016:603-610.

[17]AHMADIAN S, NOROUZI-FARD A, SVENSSON O, et al. Better guarantees for K-Means and euclidean K-Median by primal-dual algorithms[J]. Sciencewise,2016.

(責任編輯:黃健)endprint

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 精品91视频| 国产精品任我爽爆在线播放6080 | 99一级毛片| 日本五区在线不卡精品| 国产黄视频网站| 亚洲视频一区| 日韩成人午夜| 国产一区二区人大臿蕉香蕉| 精品国产免费第一区二区三区日韩| 亚洲欧洲自拍拍偷午夜色无码| 久久天天躁狠狠躁夜夜2020一| 欧美日韩国产系列在线观看| 日韩高清一区 | 国产亚洲精品yxsp| 玖玖精品视频在线观看| 国产精品999在线| 精品人妻无码中字系列| 免费看av在线网站网址| 91欧洲国产日韩在线人成| 五月天福利视频| 国产乱视频网站| 亚洲高清免费在线观看| 亚洲欧美日韩中文字幕在线一区| 国产欧美又粗又猛又爽老| 丁香六月激情婷婷| 日韩国产亚洲一区二区在线观看| 中文纯内无码H| 国产女人综合久久精品视| 看av免费毛片手机播放| 欧美日韩专区| 日本中文字幕久久网站| 欧美A级V片在线观看| 国产一级做美女做受视频| 亚洲精品无码AV电影在线播放| 久久婷婷综合色一区二区| 午夜激情婷婷| 国产又大又粗又猛又爽的视频| 免费观看成人久久网免费观看| 亚洲精品综合一二三区在线| 青青草原偷拍视频| 婷婷综合色| 青青草原偷拍视频| 成人福利在线视频| 暴力调教一区二区三区| 国产爽歪歪免费视频在线观看 | 精品一区二区三区自慰喷水| 九九热精品免费视频| 欧美人与牲动交a欧美精品 | 99精品影院| 国产91小视频在线观看| 五月综合色婷婷| 免费99精品国产自在现线| 国产系列在线| 欧美日本在线一区二区三区| 国产成人精品无码一区二 | av在线人妻熟妇| 精品成人免费自拍视频| 欧美另类视频一区二区三区| 69综合网| 2021国产v亚洲v天堂无码| 日本成人不卡视频| 国产91麻豆视频| 欧美一级大片在线观看| 国产呦精品一区二区三区下载| 亚洲欧美激情另类| 一区二区三区四区精品视频| 亚洲综合久久成人AV| 在线精品亚洲一区二区古装| 色哟哟国产精品| 免费一级毛片不卡在线播放| 午夜激情福利视频| 久久黄色视频影| 免费人成视网站在线不卡| 亚洲国产精品美女| 国产高潮流白浆视频| 欧美国产日韩在线观看| 制服丝袜无码每日更新| 国产乱人伦AV在线A| 午夜性刺激在线观看免费| 久视频免费精品6| 国产视频资源在线观看| 欧美精品成人|