999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用爬蟲構建生物細胞器基因組數據庫

2019-06-11 09:54:12陳琦吉嘉銘徐逸卿
電子技術與軟件工程 2019年7期
關鍵詞:物種數據庫

文/陳琦 吉嘉銘 徐逸卿

本研究以物種細胞器基因組數據為對象做分析,在不損壞原始數據的情況下大批量整合,提供一種完善且高效的基因數據獲取、分析方式。細胞器指細胞內具有特定功能的子單元。在真核細胞中有著不同種類的細胞器,而原核生物本身不具有細胞器,但有些則含有基于蛋白質的細菌微室,被認為是原始的細胞器。

葡萄Vitis vinifera是最古老的果樹種之一,與多個物種存在遺傳進化關系,對葡萄的基因分析有助于了解其進化發育和其他相近物種遺傳特征。國內外學者使用線粒體DNA和葉綠體DNA的分子生物學分析獲取細胞器基因組的特征,對細胞器基因組的分析是理解其遺傳進化的重要途徑。線粒體基因組具有高拷貝數、高替代率、母系遺傳等特點,線粒體DNA被廣泛用作許多領域的工具。葉綠體基因組編碼蛋白質對光合作用功能非常重要,人們在研究其基因序列的時候發現它在物種的進化、遺傳、系統發育關系等方面具有重要的作用。

基因組數據庫為基因研究提供所需的物種種屬、細胞器類別、基因序列等重要數據。隨著生產完整基因組序列的效率提高,難以使用原始文獻進行廣泛比較。現有的物種數據庫沒有標準化且存在錯誤數據導致沒有能夠承擔該任務的工具,通常還缺乏充分利用這些數據的描述符。曾被許多生物學家所使用的GOBASE數據庫,組織并整合了與細胞器相關的分子序列、RNA二級結構和遺傳圖譜,以及所有真核物種的分類信息,該數據庫于2010年8月停止維護更新。行業中缺少一個專用于細胞器基因組的數據庫,也缺乏對基于細胞器基因組相關研究的后續支持。

1 材料與方法

1.1 數據庫與數據格式

選用NCBI的Genome庫獲取物種的細胞器基因組數據,相應的數據文件以GenBank的格式被提供下載和訪問。NCBI自1992年以來一直負責提供GenBank DNA序列數據庫,并與個別實驗室和其他序列數據庫進行協調,為每種生物體分配了唯一的標識符以供識別。同時提供了一個序列相似性搜索程序用于在生物體中找到與查詢序列相似的序列,可在15秒內在數據庫內完成序列比較[8]。GenBank序列數據庫收集了所有公開可用的核苷酸序列、蛋白質序列和基因圖譜等信息。GenBank數據庫包含序列文件,索引文件等,對其所含的數據和基因序列進行分析、拆離和存儲是本研究的重點。

1.2 信息抓取流程

使用相關數據接口和爬蟲處理來自NCBI中細胞器基因組數據,對核苷酸序列和蛋白序列等序列進行特征識別和提取,最終構建物種的細胞器基因組數據庫,為做進一步的生物學相關研究提供了數據支持。細胞器基因組是NCBI參考序列項目的一部分,該項目為本研究提供了源數據。本研究的數據處理以葡萄的葉綠體基因組(NC_007957.1)和線粒體基因組(NC_012119.1)為例作為分析對象。每個物種的細胞器基因組都被分配了一個唯一可識別的索引編號。根據已獲得的編號序列,以統一資源定位符的格式獲取資源拼接出完整可訪問的資源路徑(http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=“編號序列”&rettype=gb&retmode=text)。

設計爬蟲訪問拼接后的路徑地址,通過索引編號的檢索逐個獲取。再以同樣的方式下載線粒體基因組數據。分析文本特征之后將其中功能不同的數據和序列提取出來分別存儲,該特征模式適用于幾乎所有物種。以葡萄為例如下圖1所示,圖中左側字段的層級關系,將被程序分離處理轉換為數據庫中對應的鍵間關系。文件轉化為數組對象,利用不同區域的特征確定該字段所在層級。在此基礎上建立文本分析模型。使用程序將整個文本劃分為層次分明的數個字符串,提取字段為鍵,緊跟在后的字符串為值填充數據庫。枚舉空白字符數為0的鍵值,獲得一級目錄的最大深度。使用正則式匹配無縮進字符串,結果如圖1中紅框所示。以此類推,以縮進層次為特征分別枚舉出第二層級(圖1中藍框)和第三層級(圖1中綠框)的關鍵字和對應信息。第四層級到達了堿基序列和蛋白質序列的層次,單獨使用不同的算法對其進行處理,“/”后的字段是第四層的鍵值,遍歷所有文件,獲得第四級目錄字段出現的深度。從中再次提取出關鍵字如source下的/organism、/organelle、/mol_type等鍵值。

分塊取值并填充到鍵值樹,將結果插入數據庫。按照生成的鍵值樹結構建立數據庫,并根據字段和屬性自動生成數據表,編寫程序將各層級的鍵值插入到數據表中。一至三級存放文件索引字段及相對應的信息,第四級存放如核苷酸序列、蛋白質序列的長文本。分離層次后在數據庫中建立相對應的數據表。便于相關研究對不同序列的要求,對數據庫中的數據信息進行了分類和導出。分別生成相應的文本文件和基因示意圖,以文件樹的結構存放在服務器中供研究人員下載調取。整體目錄結構、文件信息、序列數據等將被自動化腳本定期更新后上傳至服務器供訪問。將分析結果用算法實現并與下載用的爬蟲程序整合,將流程自動化,使其能夠自動訪問NCBI下載并更新細胞器基因組的數據,按照特征分析、分類,生成對應的數據表及相應的字段,寫入數據庫。為相關基于細胞器基因組的研究,例如構建系統發育樹、基因共線性分析等提供了數據條件。

2 結果與分析

功能完備且便于使用的細胞器基因組數據庫的出現為相關生物學研究提供了極大的助力。至2019年初,本研究建立的數據庫共收錄相關細胞器基因組數據共12130組,其中線粒體基因組9185個,葉綠體基因組2374個,質體571個。如圖2自1990年以來各細胞器基因組通過測序收錄的數量,線粒體基因組的測序數量自2000年后數量大幅增長,自2005年至今新增加的通過測序的線粒體基因組數量已翻了十倍。葉綠體基因組和質體基因組自2005年起每年新增測序數量也有明顯增長。由于葉綠體僅出現在大部分高等植物細胞和藻類中、質體僅出現在植物細胞中,能獲取到葉綠體或質體樣本的物種有限,導致了葉綠體基因組和質體基因組測序數量增長速度受到了限制。

基因測序技術的發展是使測序數量大幅增長的原因之一。其中線粒體基因組的增長趨勢尤為突出,這是由線粒體的本身生物特性導致的。線粒體在生物體中分布廣泛,可輕松獲取大量樣本。動物線粒體DNA比核遺傳標記發展更快,同時也是系統發育和進化生物學的支柱。本研究結合了來自NCBI的細胞器基因組數據及相關計算機算法,設計構建了一個更易于研究使用的專業細胞器基因組數據庫,分析了不同細胞器基因組測序研究的組成與發展趨勢,為相關生物學研究提供了數據依據,為更好地發展如構建系統發育樹等研究項目打下了基礎。

圖1:基因文件四層級分級示意圖

圖2:不同年份細胞器基因組的總測序數量

猜你喜歡
物種數據庫
物種大偵探
物種大偵探
吃光入侵物種真的是解決之道嗎?
英語世界(2023年10期)2023-11-17 09:18:18
回首2018,這些新物種值得關注
電咖再造新物種
汽車觀察(2018年10期)2018-11-06 07:05:26
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 久久久久亚洲AV成人网站软件| 动漫精品中文字幕无码| 精品成人一区二区三区电影| 四虎永久免费地址| 国产成人综合亚洲欧美在| 日韩在线1| 亚洲无码精品在线播放| 亚洲Va中文字幕久久一区| 欧美在线国产| 在线亚洲小视频| 久久特级毛片| 在线亚洲小视频| 波多野一区| 精品欧美一区二区三区久久久| 91视频国产高清| 国内精品视频| 亚洲无码37.| 毛片视频网址| 国产情精品嫩草影院88av| 日韩一级二级三级| 精品国产成人av免费| 毛片一区二区在线看| 在线看免费无码av天堂的| 久久亚洲国产一区二区| 尤物特级无码毛片免费| 白浆视频在线观看| 欧美伦理一区| 亚洲最大在线观看| 久久亚洲高清国产| 青青操国产| 国产精品9| 亚洲欧洲日韩综合| 久久毛片免费基地| 精品国产网站| 华人在线亚洲欧美精品| 久久9966精品国产免费| 国产69囗曝护士吞精在线视频| 狠狠色香婷婷久久亚洲精品| 97影院午夜在线观看视频| 国产乱码精品一区二区三区中文 | 国产一区二区三区在线精品专区| 午夜小视频在线| 久久人妻xunleige无码| 亚洲综合香蕉| 第九色区aⅴ天堂久久香| 麻豆国产精品| 国产精品人莉莉成在线播放| 四虎免费视频网站| 国产精品lululu在线观看| h视频在线观看网站| 国产成人精品一区二区三在线观看| 麻豆国产原创视频在线播放| 亚洲人视频在线观看| 97国产在线观看| 免费jizz在线播放| 四虎永久在线精品影院| 69综合网| 国产精品亚洲а∨天堂免下载| 成人一级黄色毛片| 亚洲视频免费在线看| аv天堂最新中文在线| 在线播放精品一区二区啪视频 | 无码aaa视频| 亚洲成A人V欧美综合| 国产主播福利在线观看 | 久久性妇女精品免费| 国产亚洲精品在天天在线麻豆 | 亚洲精品无码不卡在线播放| 日韩欧美视频第一区在线观看| 成人噜噜噜视频在线观看| 四虎影视库国产精品一区| 国产第一页屁屁影院| 国产精品蜜芽在线观看| 午夜精品影院| 免费女人18毛片a级毛片视频| 无码一区中文字幕| 日本在线免费网站| 欧美 国产 人人视频| 国产一区二区三区精品欧美日韩| 一级片一区| 在线欧美国产| 91极品美女高潮叫床在线观看|