999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能技術(shù)在生物信息學(xué)中的應(yīng)用

2021-11-19 21:25:13張衛(wèi)婷
電子技術(shù)與軟件工程 2021年16期
關(guān)鍵詞:生物文本分析

張衛(wèi)婷

(咸陽職業(yè)技術(shù)學(xué)院 陜西省咸陽市 712000)

1 文本分析技術(shù)在生物信息學(xué)中的應(yīng)用

1.1 蛋白質(zhì)折疊識(shí)別

蛋白質(zhì)的折疊識(shí)別,可以理解為在蛋白質(zhì)眾多序列中準(zhǔn)確識(shí)別其三維立體結(jié)構(gòu)特殊類型,該應(yīng)用是作為生物信息學(xué)重點(diǎn)研究方向存在。在蛋白質(zhì)的一級(jí)序列中,常使用字母對標(biāo)準(zhǔn)氨基酸進(jìn)行表示,而其序列信息在借助文本文件儲(chǔ)存在相關(guān)數(shù)據(jù)庫中。世界范圍內(nèi)最大蛋白質(zhì)序列數(shù)據(jù)庫當(dāng)屬美國國立生物技術(shù)信息中心(NationalCenter for Biotechnology Information)的NR (Non-Redundant Protein Sequence Database)數(shù)據(jù)庫。NR 數(shù)據(jù)庫與常見的MySQL數(shù)據(jù)庫有所不同,其應(yīng)用fasta 格式的文本文件,格式雖然簡單,但是內(nèi)容卻異常豐富,使用該格式完成蛋白質(zhì)序列儲(chǔ)存工作,這讓許多文本分析數(shù)學(xué)算法無須額外處理,直接應(yīng)用在分析蛋白質(zhì)序列工作中即可[1]。

1.2 應(yīng)用原理

目前蛋白質(zhì)從折疊識(shí)別會(huì)覆蓋蛋白質(zhì)所有序列,直到構(gòu)建三維空間停止,而應(yīng)用方法主要是穿線法(Threading),即將目標(biāo)序列作為“針”,在由蛋白質(zhì)構(gòu)建三維空間中進(jìn)行穿梭,以科學(xué)方法對序列和結(jié)構(gòu)是否具備高匹配度嚴(yán)格分析。匹配程度而打分分?jǐn)?shù)具有正相關(guān)聯(lián)系。而對于蛋白質(zhì)的折疊情況進(jìn)行識(shí)別,其理論應(yīng)用基礎(chǔ)為蛋白質(zhì)即便序列并不是太過相似條件下,其空間結(jié)構(gòu)也存在相似影響潛力,可以理解為蛋白質(zhì)是擁有弱同源性[2]。在生物發(fā)展歷程中,蛋白質(zhì)為保證在自我復(fù)制時(shí)仍可以擁有完整功能,就需要保證結(jié)構(gòu)擁有保持穩(wěn)定性質(zhì),而序列則會(huì)被各類突變因素影響,呈現(xiàn)變化狀態(tài)。可以將該特性描述成蛋白質(zhì)結(jié)構(gòu)比擁有相對保守序列。在這種條件影響下,可以從自然界發(fā)現(xiàn)序列并不相似,而結(jié)構(gòu)卻有相同特征蛋白質(zhì)結(jié)構(gòu)。而文本分析對于蛋白質(zhì)折疊的識(shí)別具有重要意義。目前科研界推崇一種以文本分析為主,將機(jī)器學(xué)習(xí)作為輔助工具使用的新型方法。應(yīng)用該方法時(shí),借助文本分析提供信息檢索這項(xiàng)服務(wù)完成相關(guān)工作。在將某蛋白質(zhì)一級(jí)結(jié)構(gòu)查詢清楚,對于折疊蛋白質(zhì)識(shí)別目標(biāo),就是將應(yīng)用囊括可能性固定模板,以序列,以及結(jié)構(gòu)相關(guān)性科學(xué)排序,可以將其看作由百度搜索引擎,根據(jù)用戶向網(wǎng)站輸入查詢內(nèi)容,會(huì)在網(wǎng)頁中顯示關(guān)聯(lián)度排名。而使用該分析算法,蛋白質(zhì)擁有相似度越高。理論上會(huì)擁有更有優(yōu)勢排名次序。所以,文本分析就是站在總體角度運(yùn)行一種策略,可以理解為通過搜索引擎相關(guān)算法方式,實(shí)現(xiàn)蛋白質(zhì)折疊類型高效檢索。而向機(jī)器學(xué)習(xí)輸入蛋白質(zhì)特征向量,即設(shè)計(jì)參數(shù),該研究可以用于表示蛋白質(zhì)序列,以及分析結(jié)構(gòu)相似性所有蛋白質(zhì)指標(biāo)。

1.3 文本存儲(chǔ)

作為表述蛋白質(zhì)擁有的三維空間重要工具,文本在蛋白質(zhì)研究中具有重要地位。雖然其結(jié)構(gòu)可借助三維圖形顯示,而真實(shí)對蛋白質(zhì)結(jié)構(gòu)完成存儲(chǔ)工作卻為文本文件,并應(yīng)用PDB 格式存儲(chǔ)到相關(guān)電腦或數(shù)據(jù)庫中。而PDB 數(shù)據(jù)庫對于生物大分子結(jié)構(gòu)擁有超過16萬數(shù)據(jù)存儲(chǔ)量,過半數(shù)為蛋白質(zhì)結(jié)構(gòu)相關(guān)文件。正因?yàn)橥ㄟ^文本完成蛋白質(zhì)結(jié)構(gòu)文件存儲(chǔ),也讓文本分析在蛋白質(zhì)結(jié)構(gòu)具體分析中發(fā)揮重大作用奠定良好條件,包括但不限于將信息從數(shù)據(jù)庫中提取、充分對數(shù)據(jù)展開分析,以及對蛋白質(zhì)結(jié)構(gòu)選擇性優(yōu)化等[3]。

1.4 蛋白質(zhì)分類

根據(jù)外表形態(tài)和應(yīng)用功能,可以將生物體內(nèi)所有蛋白質(zhì)劃分為三類,分別是纖維狀蛋白、球狀蛋白、膜蛋白。在蛋白質(zhì)中,膜蛋白相對特殊,真實(shí)二級(jí)結(jié)構(gòu)并不具備較高預(yù)測準(zhǔn)確率。其原因可能是膜蛋白在結(jié)構(gòu)為生物膜之中,導(dǎo)致膜蛋白在跨膜區(qū)和非跨膜區(qū)無論是實(shí)際區(qū)別,還是具體功能,都存在較大差異。所以,膜蛋白和球蛋白擁有完全不同生化特性。精準(zhǔn)獲得膜蛋白在跨膜區(qū)和非跨膜區(qū)數(shù)據(jù)信息,可以為判斷膜蛋白真實(shí)生物學(xué)功能提供有效幫助。所以,面向膜蛋白二級(jí)結(jié)構(gòu),展開預(yù)測算法開發(fā),同樣為生物研究重要發(fā)展方向。

2 Docker技術(shù)在生物信息學(xué)中的應(yīng)用

2.1 技術(shù)優(yōu)勢

Docker不僅具備信息開放性,在應(yīng)用也可以有效保證安全可靠,所以在生物信息學(xué)實(shí)際應(yīng)用具有重要價(jià)值。

2.1.1 跨平臺(tái)支持

跨平臺(tái)支持。在生物信息學(xué)研究水平不但深入,各類信息數(shù)據(jù)呈指數(shù)形式快速增長,超過270 項(xiàng)的開源軟件都為生物信息學(xué)提供技術(shù)應(yīng)用。可是,大量實(shí)用性工具卻使用各種編程語言編寫,例如C++、Python 等,不同語言需要各自運(yùn)行環(huán)境,以及相應(yīng)配置,才能完成高效使用目的。Docker 提供引用跨平臺(tái)能力,并不需要特殊配置,即可在不同服務(wù)環(huán)境下提供最優(yōu)質(zhì)的功能與,保證成果可以在多種條件下依舊復(fù)現(xiàn),也可以多次使用工具而不發(fā)生影響結(jié)果的特殊情況[4]。

2.1.2 整合服務(wù)器

針對基因組完成測序數(shù)據(jù)相關(guān)分析,其研究對象不僅需要落實(shí)大規(guī)模資源計(jì)算,例如序列比對、基因組注釋,不要求過多計(jì)算,但是仍需要保持高度警惕處理的數(shù)據(jù)存儲(chǔ)、系統(tǒng)維護(hù)也在研究范圍內(nèi)。這種不確定具體資源效果,對于許多獨(dú)立科研單位難以使用當(dāng)前已獲得測序數(shù)據(jù),進(jìn)一步提升對基因分析難度。但是Docker 卻可以將大量計(jì)算資源全部整合,并以彈性方式完成擴(kuò)充,從而借助最小成本,實(shí)現(xiàn)最大化硬件利用。

2.1.3 高效開發(fā)

在對生物信息學(xué)產(chǎn)生數(shù)據(jù)信息分析時(shí),無論是輸入還輸出都要面對海量數(shù)據(jù)處理規(guī)模,這導(dǎo)致大部分測序數(shù)據(jù)常會(huì)擁有GB 級(jí)別規(guī)模,對于省級(jí)或者國家級(jí)科研項(xiàng)目則會(huì)出現(xiàn)TB 級(jí)別,即便是最長應(yīng)用參考序列,其規(guī)模也在保持在GB 級(jí)別,這導(dǎo)致在實(shí)際應(yīng)用中會(huì)產(chǎn)生反復(fù)調(diào)試,并對問題反復(fù)修正,雖然是眾多應(yīng)用軟件開發(fā)必須要經(jīng)歷內(nèi)容,可是海量數(shù)據(jù)會(huì)在本地?cái)?shù)據(jù)庫以及遠(yuǎn)端服務(wù)器內(nèi)產(chǎn)生多次重復(fù)性傳遞,消耗大量分析時(shí)間,在實(shí)際應(yīng)用中也會(huì)出現(xiàn)數(shù)據(jù)復(fù)制時(shí)產(chǎn)生錯(cuò)誤。但是Docker 卻在本地服務(wù)器上衍生數(shù)十個(gè)可以容納數(shù)據(jù)信息容器,并將所有容器中全部部署Docker 的同一鏡像,從而高效完成線上模擬實(shí)踐作業(yè)。而且,開源式社區(qū)也提供大量系統(tǒng)調(diào)試工具,也讓鏡像擁有改進(jìn)能力,減少資源反復(fù)查找所需[5]。

2.1.4 高效利用資源

在生物信息學(xué)研究中,高通量測序技術(shù)會(huì)產(chǎn)生大量遠(yuǎn)超過摩爾定律上限數(shù)據(jù)量,第二代技術(shù)已經(jīng)在數(shù)據(jù)產(chǎn)生方面已經(jīng)超過第一代100 ~ 1000 倍,但是很對測序數(shù)據(jù)的分析能力卻在多年中沒有得到更多提升。但是Docker 卻可以讓啟動(dòng)以秒級(jí)單位計(jì)算,擁有較強(qiáng)運(yùn)行能力,從而將研究重心集中于數(shù)據(jù)分析,其他產(chǎn)生時(shí)間消耗工序則被大量省略,有效降低系統(tǒng)負(fù)載,進(jìn)而提高整體應(yīng)用效率。

2.2 分析工具

通過Docker,將大量應(yīng)用型工具和相關(guān)數(shù)據(jù)信息全部封裝于不發(fā)生信息復(fù)制錯(cuò)誤的單一鏡像內(nèi),提供分析人員便利應(yīng)用化條件,這讓Docker 在生物信息學(xué)應(yīng)用越加廣泛,部分研究人員已經(jīng)將該技術(shù)當(dāng)開發(fā)首選方案。由BLASR、BWA 等構(gòu)成NanoOK,其功能主要為多序列比對,并實(shí)現(xiàn)序列匹配,具體用途則是通過宏基因組充分比對,并以此為分析依據(jù),展開應(yīng)用更為廣泛的多樣本分析,重點(diǎn)關(guān)注多序列基因比對;而SBMLDock 則將研究對象放在數(shù)據(jù)模型上,通過模型不同構(gòu)成比對,對于模型組成部分完成檢測,并將可能存在理解偏差進(jìn)行注釋,最后相關(guān)數(shù)據(jù)信息提取等一系列作業(yè),將生物學(xué)模型以系統(tǒng)化方式完成分析;而floweatchR 借助EBImage,將細(xì)胞以顯微形式獲取圖像信息,并對其進(jìn)行分析,從而對確定細(xì)胞在檢測時(shí)真實(shí)位置,與檢測對細(xì)胞外界刺激產(chǎn)生運(yùn)動(dòng)狀態(tài)全部分析,最后獲得相應(yīng)細(xì)胞軌跡,對于細(xì)胞在常態(tài)、外界刺激等研究具有重要參考價(jià)值。通過大量鏡像信息,借助標(biāo)準(zhǔn)化輸入輸出流程,完成參數(shù)控制,并讓多種分析應(yīng)用工具擁有同樣接口,對于以往軟件配置難度有效件降低,并提升應(yīng)用分析效率,打破過去資源共享各種阻礙。較為典型當(dāng)屬SBMLDock 會(huì)提供以SBML格式對數(shù)數(shù)據(jù)書寫鏡像。而CWL 標(biāo)準(zhǔn)已經(jīng)得到全球基因組學(xué)認(rèn)可,健康聯(lián)盟也對其表示支持,現(xiàn)在廣泛應(yīng)用于癌癥基因組研究項(xiàng)目當(dāng)中,實(shí)用性較強(qiáng)[6]。

2.3 分析流程

Docker 可以將多種技術(shù)軟件,將通過串聯(lián)方式組成分析流程,將其全部封裝于鏡像中,并讓技術(shù)人員在應(yīng)用時(shí)可以保持相同執(zhí)行標(biāo)準(zhǔn)。而且,針對具體分析流程而制作Docker 鏡像,在生物信息學(xué)研究中,也可以作為一種應(yīng)用成果使用。例如將Illumina HiSeq數(shù)據(jù)平臺(tái)提供測序數(shù)據(jù)作為研究對象,則可以提供專門負(fù)責(zé)數(shù)據(jù)傳輸,可以做到數(shù)據(jù)質(zhì)量控制實(shí)踐應(yīng)用Docker 鏡像,并在鏡像中封裝多種工具,例如FastQC。而以Docker 為工具,將病毒全部基因組檢測順序,并將病毒變異完整全流程高效分析,包括對病毒串聯(lián)基因組,并完成質(zhì)量控制,將序列和生物基因進(jìn)行比對,對病毒變異情況全面檢測,并將分析病毒組全部時(shí)間步驟注釋。也可以針對原核生物基因組展開分析,評(píng)估基因組,并將其與其他原核生物在對比后,選擇最具有參考價(jià)值基因組,用于以后實(shí)驗(yàn)選擇。借助Docker 也可以提升生物醫(yī)學(xué)在分析作業(yè)效率。借助Tophat2 工具集可以將RNA 序列完整分析,并將該流程以數(shù)據(jù)形式保存在合適存儲(chǔ)設(shè)備中,而SAKE 則負(fù)責(zé)對基因組變異全面檢測,提升分析效率,BLAST 則將檢測對象調(diào)整到非編碼RNA 區(qū)域。通過應(yīng)用Docker 工具集,可以對生物信息學(xué)大量需要消耗計(jì)算時(shí)間,數(shù)據(jù)信息繁瑣量任務(wù)簡化,在復(fù)用性方面得到研究學(xué)界一致認(rèn)可[7]。而借助Galaxy 數(shù)據(jù)分析平臺(tái),以SADI 前端標(biāo)準(zhǔn),并從可視化視角對Docker 分析,可以從其鏡像完成UniProt 數(shù)據(jù)庫高效訪問,并對信息精準(zhǔn)查詢,面對數(shù)據(jù)可以做到有效統(tǒng)計(jì),對問題快速追蹤。保證可以在短時(shí)間內(nèi)處理應(yīng)用過程,提升分析質(zhì)量,應(yīng)用較為便捷。

3 總結(jié)

無論是文本分析還是Docker,都在生物信息學(xué)表現(xiàn)良好,其應(yīng)用價(jià)值也被國內(nèi)各類研究高校的科研人員廣泛認(rèn)可,未來仍有進(jìn)一步發(fā)展良好趨勢。而我國目前針對生物信息學(xué)應(yīng)用仍處于初級(jí)階段,真正應(yīng)用內(nèi)容仍有待挖掘,希望未來包括生物在內(nèi)多種科研領(lǐng)域,可以將人工智能技術(shù)充分發(fā)揮,推動(dòng)我國科研水平穩(wěn)定提升。

猜你喜歡
生物文本分析
生物多樣性
生物多樣性
上上生物
隱蔽失效適航要求符合性驗(yàn)證分析
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 无码一区二区三区视频在线播放| 亚洲欧美日韩视频一区| 制服丝袜亚洲| 国产男女免费完整版视频| 亚洲人成网站在线观看播放不卡| 91年精品国产福利线观看久久| 91网在线| 国产第一页亚洲| 国产精品视频观看裸模| 色婷婷天天综合在线| 日本少妇又色又爽又高潮| 在线欧美a| 日本黄色不卡视频| 成人在线天堂| 97国产精品视频自在拍| 国产一区二区精品福利| 伊人中文网| 午夜无码一区二区三区在线app| 日本亚洲欧美在线| 日本一区中文字幕最新在线| 日韩av无码精品专区| 国产又粗又猛又爽| 青青草原国产av福利网站| 午夜色综合| 亚洲欧美在线精品一区二区| 国产一区在线观看无码| 日韩免费无码人妻系列| 免费国产小视频在线观看| 精品国产Ⅴ无码大片在线观看81| 在线网站18禁| 日韩高清中文字幕| 色综合a怡红院怡红院首页| 永久免费精品视频| 国产成人亚洲综合a∨婷婷| 国产黄视频网站| 免费无码又爽又黄又刺激网站 | 久久99热66这里只有精品一| 欧美另类精品一区二区三区| 亚洲国产综合自在线另类| 99视频在线免费观看| 国产亚洲欧美另类一区二区| 日本免费高清一区| 亚洲首页在线观看| 日本精品αv中文字幕| 四虎在线观看视频高清无码| 99re这里只有国产中文精品国产精品| 国产亚洲精品自在线| 亚洲婷婷丁香| a级毛片网| 久久99蜜桃精品久久久久小说| 欧美色伊人| 国语少妇高潮| 青青青视频免费一区二区| 亚洲成综合人影院在院播放| 中文字幕天无码久久精品视频免费| 欧美在线导航| 亚洲国产精品国自产拍A| 全部免费毛片免费播放| 久久青草视频| 国产清纯在线一区二区WWW| 九九久久精品免费观看| 亚洲全网成人资源在线观看| 国产一区二区人大臿蕉香蕉| 日韩欧美在线观看| a级毛片免费在线观看| 亚洲无码视频喷水| 中文一区二区视频| 很黄的网站在线观看| 人妻一本久道久久综合久久鬼色| 国产va在线观看免费| 国产成人综合日韩精品无码首页| 亚洲色图欧美在线| 在线中文字幕日韩| 婷婷五月在线视频| 青青久久91| 色国产视频| 大香网伊人久久综合网2020| 黄片一区二区三区| 国产免费久久精品44| 99热国产这里只有精品9九| 国产精品流白浆在线观看| 精品人妻无码中字系列|