黃茉莉
[摘 要]隨著大數據時代的到來,面向生物類專業的生物信息學教學也隨之發生變化。授課范圍由傳統“面面俱到”的灌輸式教學向緊跟科研發展的數據挖掘和大數據處理傾斜;授課方式由單一的理論學習轉為與上機操作相結合,并采用案例分析將教學內容系統、完整地銜接和串聯。本文根據筆者的教學實踐,以兩個案例教學為中心,從教學手段、考核方式等方面展開闡述和討論。
[關鍵詞]生物信息學;案例教學;生物類專業
[中圖分類號]G64 [文獻標識碼]A [文章編號]1005-6432(2014)48-0179-03
生物信息學是一門交叉科學,它包含了生物信息的獲取、處理、存儲、發布、分析和解釋等在內的所有方面,綜合運用生物學、數學、計算機科學等方法,闡述和理解數據所包含的生物學意義。作為21世紀生命科學領域發展最為迅速的學科之一,生物信息學已成為介于生物學和計算機科學前沿的重要學科。實驗室的每一項技術,從簡單的克隆、PCR到基因數據分析都需要在計算機上進行處理。因此對生物學專業的學生而言,具有一定程度的理解和應用生物信息學技術的能力是十分必要的。而課程是為培養目標服務的。這就要求教師在有限的授課時間內,使學生不僅掌握基本的理論知識,緊跟科研的最新進展,而且在今后的科研工作中能學以致用。
1 理論與實踐相結合的教學手段
根據當今生物信息學的發展方向,教師結合理論教學內容增加綜合性、開放性實驗,使學生循序漸進地理解和掌握生物信息學的原理和方法,進而運用合適的生物信息學工具解決問題。本文以兩個案例解析這一教學過程。一是信息的簡單檢索。在獲取生物信息的同時,理解數據庫概念、動態規劃和bootstrap等算法;二是高通量測序的數據分析。在實現大規模數據處理和分析的同時,掌握統計分析基礎知識。
1.1 生物信息的簡單檢索
近一二十年,生物學數據,尤其是序列數據,以指數級的方式增長。以GenBank的核酸數據庫為例,每12~20個月數據就翻一番,略高于Moore定律提供的參考數值。如何從這些海量數據中獲取想要的信息,已成為生物學專業學生必須掌握的技能之一。而如何正確獲取和應用信息,則需要了解數據是如何被存儲、解析,以及背后隱藏的算法。因此圍繞正確挖掘數據信息這一主題,設計以下案例,通過4步展開教和學。
1.1.1 講解
基于大數據教師引申出數據庫存儲信息的概念。而后分類介紹常用的基因組數據庫、核酸序列數據庫、蛋白質序列數據庫、蛋白質結構數據庫以及各種常用復合數據庫。
1.1.2 演示
了解上述常用的數據庫之后,教師實例演示數據庫檢索。通過逐層提出問題,誘導學生思考如何利用上述不同的數據庫資源,一步一步挖掘所需的信息。例如,被測序的片段是哪個基因?該基因編碼的蛋白質序列是什么?是否有保守的功能結構域?在亞細胞的什么位置發揮什么功能?可能的三級結構?和哪些蛋白或RNA存在可能的相互作用?它在進化中又是如何演變的?
1.1.3 實踐
讓學生上機操作上述實例,體驗各個數據庫的側重點,并理解不同軟件不同參數的意義或差別。比如GenBank和Swissprot的側重點,PAM-n和BLOSUM-n的選取。
1.1.4 成文
引導學生形成可重復計算的科學文檔。對每一個案例,教師展示常規性的文件組織形式:/data,/analysis,/scripts,/reference等。寫說明文檔的時候,要求學生記錄每一個分析步驟的所有細節:數據庫的網址、軟件的名稱、版本、輸入的文件、精確的運行參數、結果的提取等。
通過這樣的案例教學模式,一是較好地將知識點融合串聯到教師講授和學生上機操作中。二是使學生不僅熟悉各種常見的數據庫,而且理解數據庫中各個軟件及其參數的意義,遇到實際問題也不再束手無策。而教師也可以充分參與到學生的學習中,對學生上機操作過程中出現的一些主要理論與技能問題了如指掌。通過教—學—練—教—練,達到學以致用的教學目的。三是培養學生創建較好的文檔及其組織形式,形成科學研究的可重復性(replication)和可復現性(reproducibility)。不僅有利于追溯前因,而且對代碼的復用,以及對結果應用于新項目都非常必要。
1.2 高通量測序數據的分析
隨著高通量測序技術的興起,大量物種的全基因組數據、轉錄組數據和其他類型數據被測定完成或正在進行中,每天都有成千上萬的數據被源源不斷地輸入相應的生物信息庫中。這些大規模數據的不斷產出,使得生物學專業學生掌握高通量數據分析技術已成為一種趨勢。因此,教師有必要將這部分內容由理論講授過渡到上機操作。
1.2.1 介紹
教師以DNA測序技術發展為主線,理論介紹De Novo測序、ChIP-seq測序、RNA-seq測序、Methyl-seq測序等。并通過拍攝的錄像,向學生直觀地展示不同的測序儀及其特點。
1.2.2 演示
教師對整個分析過程進行詳細的闡述并實時上機演示(下圖)。以轉錄組RNA-seq為例,包括測序質量的評估(堿基組成和堿基質量分析)、clean reads的篩選、利用TopHat/Bowtie將篩選出來的reads比對到參考轉錄本、統計reads在參考基因上的分布情況及覆蓋度,判斷比對結果是否通過第二次質控、通過cuffmerge將重復測序得到的reads形成一致性轉錄本、基因結構優化、基因覆蓋度統計、使用cuffdiff篩選差異表達基因和鑒別可變剪切體、對結果基因進行聚類分析、GO和pathway富集性分析。
1.2.3 實踐
讓學生分組討論并上機實現上述數據分析流程。掌握基本的Linux命令、統計計算和可視化分析。
1.2.4 成文
引導學生形成規范化文檔和腳本,以便回溯和可重復性使用。
高通量數據分析不僅涉及的知識點多,而且需要在Linux下進行簡單的操作和軟件的使用。對生物學專業的學生來說,容易造成心理上的抗拒。教師可以采用“分而食之”的策略:將教學內容分成相對獨立完整又有一定聯系的幾個部分(下圖)。對于每部分內容,教師利用已講解的相關知識給學生實時演示,并給出教師自己的理解和結果。然后把學生分組,讓他們根據自己的理解,帶著興趣和疑問上機實踐。并在上機操作過程中,鼓勵學生之間、學生與教師之間及時討論交流。最后讓學生將所有內容串聯起來,介紹本組的實驗內容及解決辦法。通過這種方式能較明顯地消除心理顧慮,有助于學生獨立思考,獨立解決問題。
“RNA-seq數據分析”案例教學流程圖
2 以能力測試為中心的考核方式
對于生物學專業的學生而言,生物信息學是一門實踐性很強的學科。因此,教師采用以“能力測試”為中心,知識與技能考核并重的考核方式。以上述兩個案例為例,在期末考試中,教師將NCBI GEO中“(RNA-seq[Title])AND “Mus musculus”[porgn:__txid10090]”722個實驗數據,隨機分配給每個學生。要求每個學生對分配到的RNA-seq數據進行差異表達分析,聚類分析和富集性分析。并選擇合適的基因,分析其保守的功能結構域、亞細胞定位以及可能的蛋白質結構和功能、可能結合的轉錄因子、相互作用的蛋白質網絡和信號通路、構建相應的系統進化樹。
學生對上述每一個小題從“知識點”、“參考資料”、“使用軟件或工具”、“參數”、“腳本”、“結果”分別答題,不僅非常有效地明確所學的內容,而且很好地杜絕了作弊行為。
3 教學效果
為了解案例教學的效果,本課程案例教改活動向2011級生物科學和免疫學專業學生QQ群發放電子問卷,共收回82份答卷,統計結果如下表所示。從表中可以看出,案例教學模式使學生有較強的參與感,能較好地提高學生的學習興趣,學生對理論問題的認識更為深刻。
4 結 論
案例教學基于具體的事例,將一系列的知識點有機地串聯起來,并通過實例操作達到學以致用的目的。從學生反饋意見可以看出,這種理論與實踐結合的教學模式,很好地提高了學生的學習興趣。考慮到有限的授課時間和不同學生的學習背景,作為教師需要設計合適的案例,從而達到較好的教學效果。一般可以遵循以下原則。
4.1 具有代表性
所選的案例既要經典又要緊跟科學前沿。比如第一個案例所蘊含的數據庫檢索、序列比對和系統進化樹的構建,在生物信息學中,屬于較經典且核心的知識點。而第二個案例選擇的對象則與當前的科研熱點緊密聯系。
4.2 具有偏向性
生物信息學本身是個交叉學科,涉及的知識點相對較多。面對生物類專業背景的學生,我們側重生物信息學方法或者工具(軟件)的應用,而不是強調算法。比如第一個案例中系統進化樹的構建,我們只是以5條8bp長的序列為例講解最小進化法和鄰接法、最大簡約法、最大似然法以及貝葉斯推斷,重點在于強調不同的數據適合采用上述哪些方法以及如何用Mega等軟件實現系統進化樹的構建。
4.3 先后案例有層次性
比如第一個案例中,學生掌握了Windows下的序列比對。對于第二個案例中Linux下的Bowtie就容易理解并操作。
4.4 具有拓展性
比如第一個案例中,在Windows的DOS下進行批量序列比對時,不同的參數設置,輸出不同的數據格式。第二個案例中,Bowtie最多允許3個錯配,如果允許更多的錯配數,則可以采用SOAPaligner/ SOAP2實現。學生可以根據自己的興趣和能力,選擇拓展性內容進行繼續學習。
4.5 良好的成文習慣
引導學生養成良好的文檔組織和書寫習慣。每一個案例,都要求學生形成可重復性和可復現性的文檔,對于整理分析思路、核實結果、重復使用代碼都起到事半功倍的效果。
生物信息學是現代生物科學研究的重要工具和載體。如何有效正確地應用生物信息學,是每一個生物實驗者需要具備的能力。教師應緊跟學科發展的速度,圍繞學以致用的原則,將案例教學科學地、和諧地應用到教學實踐中,不僅使學生掌握一定的理論知識,從而正確地應用軟件工具,而且逐漸培養學生自我分析和解決問題的能力。
參考文獻:
[1]LuscombeNM,Greenbaum D,Gerstein M.Whatis bioinformatics? A proposed definition and overview of the field[J].Methods Inf Med,2001,40(4).
[2]ENCODE Project Consortium.An integrated encyclopedia of DNA elements in the human genome[J].Nature,2012,489(7414).
[3]1000 Genomes Project Consortium,Abecasis GR,Auton A,Brooks LD,DePristo MA,Durbin RM,Handsaker RE,Kang HM,Marth GT,McVean GA.An integrated map of genetic variation from 1,092 human genomes[J].Nature,2012,491(7422).
[4]Sandve GK,Nekrutenko A,Taylor J,Hovig E.Ten simple rules for reproducible computational research[J].PLoS Comput Biol,2013,9(10).
[5]McCormick M,Liu X,Jomier J,Marion C,Ibanez L.ITK:enabling reproducible research and open science[J].Front Neuroinform,2014(8).
[6]李偉蘭.論大學生學習心理障礙的成因及基本對策[J].湖北函授大學學報,2012,5(25).
[7]李運慶.淺析案例教學存在的問題及對策研究[J].長春理工大學學報(社會科學版),2011,9(24).
[8]白新艷.案例教學法的探索[J].成功(教育),2012,6.