唐丹丹 張志豪 田翔華

關鍵詞:生物醫藥數據專業;生物信息學;教學探新;R語言;項目式教學
1 生物信息學介紹
生物信息學(Bioinformatics) 是一門以計算機為工具,研究生物信息采集、處理、存儲、傳播,分析和解釋等方面的新興交叉性學科,是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一[1]。隨著高通量測序技術的快速發展,生物醫學數據的快速積累,當前,我國對生物數據分析人才的需求日益激增,如何培養復合創新型生物類專業人才成為醫學院校急需解決的問題[2]。生物信息學課程建設在生物類專業建設和人才培養方案中具有重要地位。近年來,我國各大醫學院校都相繼針對相關專業的本科生開設了生物信息學課程,并取得了一定的成效[3-8]。筆者針對醫學類高校生物信息學課程教學實踐中存在的問題,提出了生物醫藥數據專業生物信息學課程建設和改革的相關建議,旨在通過該門課程的改革,提升學生大數據采集、處理、分析與挖掘能力,解決應用領域問題;培養一批具有創新思維能力的生物信息學專業人才,滿足我國生物醫學數據科學的發展需求;為今后的同類教學提供一些借鑒和參考。
2 課程發展歷史
2020年,為滿足研究生的科研需求,新疆醫科大學首次面向研究生開設了生物信息學公共選修課程,以滿足學生對生物信息數據分析學習的興趣和需求。開設課程之初,選修該課程的學生人數相對較少。以2023年春季碩士研究生班的選課情況為例,可以看出,一共有13名同學選擇該課程,其中12名學生來自基礎醫學院,覆蓋人體解剖與組織胚胎學、遺傳學、生理學、法醫學、病理學與病理生理學、生理學、免疫學、生物化學與分子生物學以及中西醫結合臨床等專業(見表1) 。
近年來,隨著生物信息學的快速發展,國內外各種生物醫學研究機構、生物醫藥企業以及高校對生物信息學研究和生物信息學技術服務的人才需求不斷增加,越來越多的高等院校和科研單位紛紛針對生物信息學相關專業開設生物信息學課程,培養生物信息學復合型人才,以滿足我國生物醫藥產業、生命科學發展的新需求。自2021年新疆醫科大學開設生物醫藥數據科學專業以來,目前共招收了兩屆生物醫藥數據科學專業的學生,75名學生中,男生35名,女生30名,男女比例為1:1.6。生物信息學作為生物醫藥數據科學專業的核心課程,注重鍛煉學生的動手能力,重視學生對生物信息學的基礎理論知識和分析方法的掌握,從而培養學生從事生物信息數據分析與挖掘的能力。
3 生物信息學課程教學中存在的問題
第一,師資力量不足。生物信息學是一門跨領域的學科,涵括生命科學、物理、化學、統計、計算科學與數據科學等專業學科,授課老師不僅要具備信息學與計算機科學的平臺開發與數據處理技能,同時還要了解生命科學、基礎醫學等生物信息學的背景知識,而在國內醫學院校這類復合型人才十分稀缺。以新疆醫科大學為例,生物信息學課程劃分在信息科學教研室,目前教研室只有兩名教師能夠承擔該門課程,授課教師的缺乏嚴重阻礙了該門課程的持續發展。第二,教學方法和教學手段設置不合理。生物信息學是一門重實踐的課程,著重培養學生的生物信息數據處理與分析能力,而國內大多數醫學院都將其設置作為專業課模塊中的選修課,以傳統的面授理論教學為主,實驗教學多以學生課下自行練習為主,這就使得學生學習興趣不足,動手實踐能力薄弱,不能熟練地掌握課程內容。第三,教材和教學內容陳舊。隨著高通量測序技術的快速發展,多模態、多層次、高維度、非線性的復雜生物數據不斷增加,生物信息學的研究內容日新月異,國內醫學院現有的大多數教材內容過于陳舊,滯后于生物信息學的發展,學生學習的內容無法滿足科研和工作需要。第四,缺乏教學和生物信息數據分析平臺。目前,大多數醫學院校及科研機構都沒有自己的生物信息數據分析平臺,教學實踐也只是停留在簡單的小樣本數據分析,主要依靠學生自己的筆記本電腦完成數據分析,沒有高性能的服務器,一旦數據量過大,就無法滿足教學和科研需求。因此,醫學研究和教學迫切需要有價值的生物樣本和數據資源集成平臺,以滿足日益增長的研究需求。
4 生物醫藥數據科學專業生物信息學課程建設探新
鑒于研究生生物信息學課程中存在的普遍問題,從生物信息學實踐性強、內容更新快的專業特點出發,探索和改進教學模式和教學手段,生物醫藥數據科學專業本科生的生物信息學課程建設可從以下四個方面開展。
4.1 基礎課程建設
隨著人工智能、大數據和生物醫藥數據新一輪科技革命和產業革命的快速發展,醫學教育模式正朝著“醫學+X”交叉學科的建設轉變。生物醫藥數據科學專業是一個典型的多學科交叉專業,其生物信息學課程建設需要緊跟新醫學的發展前沿,建立多學科交叉融合的課程體系。對應培養目標要求,課程可分為“公共課程”“醫學基礎”和“生物醫藥數據科學”三個大模塊和七個子模塊。其中核心課程包括以下22門:R語言基礎、Python語言程序設計、SAS基礎、數據結構、數據庫應用技術、概率論與數理統計、基礎醫學概論、分子生物學、生物信息學、臨床醫學概論、藥學概論、流行病學、生物統計學、生物信息學、生物醫藥數據挖掘、機器學習、深度學習、Hadoop和Spark基礎、運籌學、數值分析與統計計算、藥物數據分析、流行病建模與預測、臨床試驗設計。這些核心課程的設置包含了生物信息學所需要的醫學基礎知識、數學和計算機分析技能以及生物學基礎知識,是生物醫藥數據科學專業畢業以后從事生物醫藥數據分析、高校教師、科研人員、臨床醫生等工作需要掌握的技能。除此以外,為了培養學生實踐動手能力,課程應設置與理論教學同步的實驗課程,包括基礎性實驗、綜合性實驗、驗證性實驗及設計性實驗,充分調動學生的動手實踐能力,培養學生的創新能動意識,使學生能夠符合新醫學的發展需求。
4.2 基于R 語言的項目式實踐教學
生物信息學主要借助計算機,通過統計學方法分析生物信息數據來揭示其中包含的內在信息,它需要一種功能強大的數據處理和分析軟件作為工具。目前常用的生物信息分析軟件有Python,Perl語言和R 語言。Python作為一門高級編程語言,支持函數式編程,面向對象編程,擁有龐大的社區及標準庫。Python 更加注重數據處理和自動化流程,雖然其越來越流行,但是在數據可視化方面Python與R語言還有很大差距。Perl語言對過程、檔案和文字有很強的處理能力,跨平臺、執行效率高、簡單易學,但可讀性差。R 語言作為生物醫藥大數據處理的關鍵技術,在生物信息學領域應用非常廣泛,它不僅開源免費、易擴展、資源豐富,而且還具有Bioconductor這種提供了大量開源和開放式的生物信息學分析軟件包集成開發項目。Bioconductor 主要用于分析和理解高通量基因組數據,其在統計上用嚴謹的方法對設計的實驗進行微陣列預處理和分析,并且對生物信息學處理有綜合和可重復的方法而獲得了很高的可信度。最新Bioconduc? tor3.16版中提供了2183個軟件包,用于表達和其他微陣列、序列分析、流式細胞術、成像和其他領域,這為R語言教學和學習提供了強大的資料來源,也為培養學生解決實際問題創造了可能性,并提供了有效途徑,基本上能滿足本科生和研究生的生物信息學分析需求。除此以外,R語言在生物信息數據分析可視化方面相比于Python、Perl具有絕對的優勢。R語言有一系列的數據可視化包,包括基礎繪圖系統的graph? ics包,高級繪圖系統ggplot2、lattice、leaflet、playwith、ggvis、ggmaps包等。基于R語言的PBL實踐教學以生物信息學真實問題作為實訓項目,項目分為三個階段:基礎階段、實戰階段和創新設計階段。基礎階段,首先對學生進行分組,讓學生參與到自己感興趣的教授團隊和課題研究組,選取相應的負責人主持項目任務的實施和工作部署。學生可從老師布置的真實問題中學習項目任務中涉及的生物信息學的理論知識(例如轉錄組、蛋白質組和代謝組等)。第二階段,學生在導師的引領下,解決項目中不懂的問題,導師給學生們布置一些與課題任務相關的論文閱讀任務,學生需要基于閱讀內容撰寫閱讀報告并進行小組匯報。學生通過基礎階段的學習已經了解了項目背景和相關的專業基礎知識,實戰階段學生將以R語言作為生物信息學分析的主要工具來模擬操作生物學數據,完成項目的計算機模擬實驗練習。第三階段,根據項目實戰分析結果,撰寫研究報告,學生將有機會通過不同類型的項目實戰,達到既定學習效果,加深對學科知識的認識,樹立知識創新的思維。
4.3 組建跨學科的師資團隊,發展醫工結合創新型教師人才
在現有人才隊伍基礎上,建立跨學科的教學團隊,授課老師可以由來自計算機學、統計學、分子生物學、遺傳學和微生物學等專業的教師擔任。同時,也可以聘請公司有經驗的生物信息工程師,教師可以根據自己的專業特長,實施團隊教學。例如,擅長生物信息平臺開發數據挖掘的生物信息工程師可以講授Linux系統、Hadoop和Spark等課程。
通過線上線下各種學習途徑對現有教師進行專業的培訓。例如聘請生物信息學專家開展講座、參加學習班、網上慕課學習等多種方式提升教師的專業技能。通過創新團隊建設,引進人才。引進1~2名生物學、生物信息學博士;引進1~2名生物學、生物信息學碩士;培養1~2名生物信息學博士,使三個研究方向有3~4名學術帶頭人和5~10名學術骨干,形成科學研究和教學的學科梯隊,建立一支15人以上的、相對穩定、團結協作和結構更加合理、教學和科研水平較高、解決實際問題較強的教學隊伍。
4.4 建設生物信息學高性能教學平臺
隨著高通量測序技術的快速發展,生物醫藥大數據急劇增加,生物信息數據的計算分析需要搭建高性能的生物信息學計算平臺。在醫學工程技術學院現有實驗室的基礎上,新增“生物信息學研究中心”,建立兩個生物信息學專用實驗場,通過學院領導層牽頭立項招標,投入一定比例的經費,聘請專業的團隊搭建一個融教學科研計算、海量數據處理、信息管理服務于一體的高性能計算校級公共服務平臺,滿足學校各學科領域對于大規模數據處理和大規??茖W計算的普遍需求、 專門學科領域對于高性能計算的特殊需求、各院系日常教學對于高性能計算的基本需求,為學校的重點學科建設和高素質人才培養提供有力支撐,初步實現學校建設高性能計算校級公共服務平臺的初衷和目標。
5 結束語
在當今大數據時代,生命科學領域的數據產出能力在各學科中處于領先位置,數據量迅速增大,數據類型不斷增加,促進了生物信息學的快速發展。生物信息作為一門涉及多學科交叉的前沿科學,在生物信息獲取、加工、儲存、分配、分析等方面發揮著重要作用。因此,熟練掌握生物信息學課程已成為當今生物醫藥數據科學專業高校對學生的必然要求。經過兩年的研究生學院生物信息學課程教學實踐和不斷的探索,研究生教學已經取得了一定成效,形成了針對研究生的特色教學手段。結合研究生生物信息課程教學中存在的不足,本文對醫學院高校生物醫藥數據科學專業的生物信息學課程建設從基礎課程建設、基于R語言的項目式教學手段、教師人才隊伍建設以及生物信息學建設等方面提出了相應的改革建議,希望學生通過對生物信息學這門課程的學習能夠廣泛提高解決實際問題的能力,提升生物醫學數據的分析處理技能,不斷滿足學生的科研和工作需求;希望教師能夠進一步提高生物信息學課程的教學質量與效果。