陳前軍 劉杰 胡昀



[摘 要] 該文基于某省部共建的大學本科生物信息學的實驗教學建設與改革實踐,從實驗教學內容設計、實驗教學平臺搭建、教學模式改革等方面進行了研究與探索,并就一些難點問題提出思考和解決方案,以期為相關類似專業課程的實驗教學平臺建設提供參考。
[關鍵詞] 云環境;實驗教學;教學改革;生物信息學;虛擬化
[基金項目] 云環境下高校計算機虛擬實驗的建設與實踐省級教學改革項目
[作者簡介] 陳前軍(1980—),男,博士,湖北大學生命科學學院/生物催化與酶工程國家重點實驗室高級實驗師,主要從事生物信息學研
究;劉 杰(1981—),男,博士,湖北大學生命科學學院/生物催化與酶工程國家重點實驗室教授,博士生導師,主要從事蜘蛛分類學研究;胡 昀(1983—),女,博士,湖北大學生命科學學院/生物催化與酶工程國家重點實驗室實驗師,主要從事實驗管理研究。
[中圖分類號] G647? ? [文獻標識碼] A? ? [文章編號] 1674-9324(2020)23-0005-03? ? [收稿日期] 2019-12-24
生物信息學作為一門信息科學,是研究生物信息的采集、處理、存儲、傳播、分析和解釋等各方面的學科。該學科集生物科學、計算機科學和數學之大成,是當下最為火熱專業之一,也注定是未來熱門、高產出的學科之一,是一個交叉性極強的學科。然而,生物信息學所需處理的數據具備明顯的大數據特征,其對數據存儲容量、計算能力和實驗環境要求極高,這給大學生物信息學實驗教學帶來了諸多挑戰。本文以生物信息學實驗教學在云環境下實驗教學內容設計和平臺建設等相關問題為主題進行探索與研究[1-2]。
一、生物信息學實驗教學課程特點分析
生物信息學是建立在基因/蛋白質(本文以基因為例)序列文本研究基礎上,綜合利用多種數據分析方法挖掘海量數據中暗藏的生物學問題或規律的一門學科,歸納起來可將實驗過程劃分為樣本文庫建立、上機測序和數據處理分析三個階段。形象描述為生物組織是原料、序列是半成品、算法是工具、“知識”是預測結論,從這個“生產線”可知,生物與計算機實驗貫穿整個生產線全過程、全要素。
樣本文庫建立,通常可按①研究目標組織的制樣,通過特異的探針庫提取目標DNA或RNA,②純化目標DNA或RNA,③采用EmPCR或橋式PCR擴增之后建立待測文庫。樣本庫建立過程是傳統的生化過程,一般生物學實驗室便可完成,但整個過程成本較高,如外顯子測序、RNA-Seq測序、ChIP-Seq測序都需要相應的探針試劑來對細胞核中的DNA、RNA等目標進行篩選,這些試劑盒成本和操作的精準性要求高、流程性強,且有些理論不夠直觀、晦澀難以理解[3]。
上機測序目的是獲取DNA或RNA的序列數據,測序儀器屬于高科技產品,目前市場價格比較昂貴。根據調研,國內基本交由測序公司完成,如華大基因等科技公司,也就是說國內高校基本不具備這樣的實驗設備和條件。關于生物信息學中的測序技術只能講授理論部分,對學生來說是一個“黑盒子”過程。上機測序最終產生大量的測序數據,尤其NGS(Next Generation Sequencing),一次測序都能產生10GB、上百GB甚至達到TB級別的數據,這對數據的存儲、計算帶來了不小的挑戰,如Illumina的HighSeq2000一次測序便可產生200GB的有效數據,其數據增長明顯加速,其增長規律已經不符合摩爾定律。另外一方面上機測序產生的數據明顯符合大數據的4V特征,如何借助新的技術和新的思想處理這些新的問題,成了比較現實的問題[4-6]。
數據分析作為生物信息學非常重要的組成部分,在生物信息學整個生態中占據著非常重要的位置。根據目前調研看,生物信息學相關軟件不下1000個,大部分運行在Linux環境下,且對計算資源、內存資源要求極高。對組裝40GB的序列數據,建議內存不小于64GB,如序列合并組裝步驟,大部分都采用命令行來操作,甚至有些工具和數據必須采用在線模式,實驗過程需要訪問國際互聯網,也就是說即便一些實驗步驟都熟悉的情況下,如果網絡速度很慢或者國際互聯網不通,也能導致分析實驗失敗。這使得學生在驗證知識的正確性可能無法在實驗教學過程中完成,而對于更高層次的知識靈活應用和創新就顯得不具現實性[7]。因而需要采用新的模式建立實驗平臺,滿足日益增長的本科生理論學習、實驗教學要求。
二、變換思路構建新一代實驗室
(一)生物信息學實驗平臺構建的困境
根據生物信息學實驗教學的目標,以及前文分析的學科特征,在現有的軟、硬件條件下,很難再按照傳統的模式來設計實驗教學內容、搭建實驗教學平臺。
傳統實驗平臺建設,對于生物信息學實驗室建設必定圍繞三個方面展開,即建立傳統的生物學實驗室,以完成樣品的制備過程;建立測序平臺,以完成上機測序動作;構建大規模超算中心,以完成數據處理分析。作為本科教學,這些投入和產出比顯然難以接受、不切實際。
(二)學習模式革新
另一方面,學生學習的方式、知識獲取途徑發生著深刻的變化,互聯網思維日益廣泛地被學生所接受。學生更傾向于通過手機等移動產品通過類似于游戲的方式快速、隨時隨地獲取知識;以導航式、身臨其境的方式參與學習過程;并希望能夠根據自身特征接受個性教學,接受個性化定制教育[8]。
(三)虛擬仿真技術的應用
《教育部關于一流本科課程建設的實施意見》一文中,提出“雙萬工程”,加強一流本科建設,明確提出構建“實驗金課”要求。實施意見中,指出通過虛擬仿真技術,搭建實驗教學平臺,通過線上、線下或混合模式的方式來完成實驗教學目標[9]。
生物信息學課程實驗教學中,在樣品制備、上機測序等步驟完全符合虛擬仿真技術的應用場景,具備構建線上虛擬仿真實驗室的先天優勢,如實驗耗材損耗大、過程重復率高、實驗流程性強、選項多等特征。這兩部分通過虛擬仿真技術,借助HTML5(Flash在2020年后將不被Chrome等瀏覽器所支持)、B/S、數據庫等一系列信息技術能夠準確地實現場景重現、流程定制、短視頻教學、智能問答、在線評測教學功能,必將成為一個順應時代潮流、符合學科特征的較優的實驗教學解決方案。
(四)云環境虛擬化實驗教學平臺應用
生物信息學實驗數據處理分析方面,也是本專業教學的落腳點,其教學的成功影響專業教學質量。根據前文分析,生物信息數據處理信息量大、計算要求高且繁雜,但作為本科實驗教學,不需做到面面俱到,因而在實驗內容設計、軟件工具的選取、實驗平臺搭建方面存在一定獨特性。
1.實驗內容設計。實驗內容設計對于實驗教學也是至關重要的環節,實驗內容設計需綜合考慮所講授的課程對象、學科特征和實驗環境。目前生物信息學關于測序,研究的模式生物比較多,如人類基因組,而人類全基因組含有30億個堿基,也就是3Gb數據,這個數據規模對于本科實驗教學并不合適;另外一個模式生物,如大腸桿菌,它只有470萬個堿基,也就是4.7Mb,這個基因數量只是人類基因的1/638,在NCBI上有大量的SRA短片測序數據,從數據分析來看,大腸桿菌對于數據模擬、分析,耗費的計算和存儲資源比人類基因小,因而作為本科教學是合適的實驗對象,適合在虛擬環境下完成的計算任務。
2.工具集的集成是實驗流程梳理。目前生物信息學軟件不下1000種,而且有很多軟件功能類似,這要求實驗設計和系統集成密切配合,負責教學的教師積極參與實驗設計,過濾、歸納實驗教學中用到的軟件,并研究設計實驗完整流程和步驟。如RNA-seq數據分析,需考慮是否需要進行序列組裝,是有指導組裝還是獨立組裝等問題;如何進行序列比對,比對結果數據如何閱讀、如何分析;甚至是否需要引進AI技術等等。表1所示,列舉部分常用軟件:
3.虛擬化實驗室的發布。生物信息學虛擬化在線實驗平臺最后一個問題就是實驗環境發布問題。通過分析,不管采用何種技術,目前最終給學生看到的人機界面可歸納為三個層次,即應用級別的虛擬化、容器級別虛擬化和操作系統級別虛擬化。應用級別虛擬化如虛擬仿真,即為一個軟件模擬實驗環境,但實際并沒有調用相關的軟件進行實際計算、分析;容器級別虛擬化,如Docker,即在Docker模式下運行生物信息學軟件,可以形象認為是瘦虛擬化。操作系統級別虛擬化,即基于VMware等虛擬化平臺搭建的虛擬化,可直接提供Linux等實驗環境,并在此實驗環境下搭建生物信息學真實的計算平臺,以滿足教學要求,可以形象地認為是胖虛擬化。生物信息學很多實驗、實驗數據存在上下文關系,采用Docker對于學生綜合分析能力的培養不是最優解決方案,采用直接VMware級別的虛擬化能夠讓學生直接接觸真實生產環境,且可以通過擴展虛擬化資源無縫將教學實驗環境遷移到科研實驗環境,但缺點明顯,如在性能、資源難以支撐科研實驗。如圖1、圖2所示,胖虛擬化實驗環境下實驗平臺軟件運行情況:
采用胖虛擬化模式,需要優化虛擬化實驗室對學生提供服務的途徑和方式。當下主流是基于Web的虛擬化管理模式,也是容易被學生接受的模式。經過調查和研究,采用B/S的模式,按照學生需求預設多套虛擬化實驗室虛擬機模板。根據課程設計和教學方案,可以提供學生申請資源、下載虛擬化鏡像、管理虛擬化主機需求,并且可以錯峰提供虛擬化計算服務[ 10 ]。
三、總結和展望
生物信息學是一個新型的信息學科,截至到2018年全國開設該專業的學校只有24所,開設該專業的學校分布在理、農、林、牧、醫等類型學校。從現狀看,課程建設還處在建設起步和上升期。筆者所在的學校開設該專業三年,但根據課程合理性需求,期間已修改過一次培養方案,實驗教學中還存在諸多不確定因素,也無可參照的成熟模式。本文通過生物信息課程特征分析入手,剖析傳統實驗教學所存在的問題,提出借助虛擬化技術的解決思路,重點研究胖環境下的實驗虛擬化思路,并得到初步的驗證。也以此拋磚引玉,供大家探討,未來我們也將進一步拓展相關的改革思路、解決實驗教學中存在的問題。
參考文獻
[1]范丙友,賈小平,胥華偉,等.生物信息學課程教學改革與探索[J].大學教育,2013(16):61-62.
[2]馬明月,曾垂省,解增言,等.生物信息學大實驗教學改革的探索與實踐[J].生物化工,2018,4(02):103-105+108.
[3]李宗瑋.基于高通量測序的微生物辨識、進化與耐藥性生物信息學分析[D].中國人民解放軍軍事醫學科學院,2016.
[4]郝愛平,國會艷,薛巨坤,等.大數據時代提高生物專業研究生科研創新實踐能力教學改革探索——以“生物信息學”課程為例[J].安徽農學通報,2017,23(17):140-141.
[5]楊帥.面向組學大數據的生物信息學研究[D].中國人民解放軍軍事醫學科學院,2016.
[6]李廣林.大數據背景下的生物信息學教學探索[J].教育教學論壇,2015,(29):210-211.
[7]張渝潔,邢晉祎.生物信息學實驗教學中的網絡資源及其利用[J].安徽農業科學,2019,47(11):276-278.
[8]鐘玉珍.“互聯網+”時代的計算機教學新模式[J].計算機產品與流通,2019(12):210.
[9]教育部發文推進本科課程改革 理直氣壯為本科生“增負”[J].西部素質教育,2019,5(22):154.
[10]Serdar Yegulalp,Serdar Yegulalp.VMware dresses up Docker for the enterprise[J].InfoWorld.com,2016.
Exploration and Practice of the Course Reform of Experimental Teaching of Bioinformatics in Cloud Environment
CHEN Qian-Jun,LIU Jie,HU Yun
(State Key Laboratory of Biocatalysis and Enzyme Engineering,School of life Sciences,Hubei University,Wuhan,Hubei 430062,China)
Abstract:The paper is based on the construction and reform of the experimental teaching of Bioinformatics for undergraduate students in a university co-sponsored by Hubei Province and the Ministry of Education.It makes a study on the content design,platform construction,and teaching model reform of this course.Meanwhile,it points out some problems which may happen during the teaching process and provides corresponding solutions as a reference to the experimental teaching of similar professional courses.
Key words:Cloud environment;experimental teaching;teaching reform;Bioinformatics;virtualization