【摘要】生物信息學作為生命科學與生物技術/信息技術研究領域的關鍵交叉學科,對生物經濟和數字經濟的貢獻日益顯著。當前,生物信息學仍面臨學科體系不健全、定位模糊以及交叉合作不充分等挑戰,多模態高維度生物大數據的準確性、分析處理和共享整合問題也考驗著生物信息學的發展。在建設科技強國的過程中,生物信息學是生物經濟產業布局的關鍵環節。與此同時,人工智能技術的融入正引發生命科學研究范式的轉變,促使生物信息學從認知科學向工程創造的STEM并存模式方向發展。此外,生物信息學面臨人才培養同質化和優秀青年人才“內卷”的困境,需要構建多層次培養體系和優化科研環境,培養具有戰略眼光的科學家。由此,應加強頂層設計,完善學科體系與教學體系;建立多元化人才培養體系;全面推進“101計劃”;優化教育資源分配和教學模式創新。
【關鍵詞】生物信息學 人工智能 人才培養 STEM 優化教育資源分配
【中圖分類號】Q811.4/C961 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.16.002
生物信息學興起的背景與意義
20世紀以來,生物學取得了巨大的發展,在許多生物領域的發現和研究方面作出了重大貢獻。同時,計算機科學和信息技術也有了顯著進展,信息處理能力日益增強。生物學和信息技術的快速發展促使人們利用信息技術的優勢來解決生物學領域的問題,這便催生了生物信息學。此外,大規模生物數據的可用性也推動了生物信息學發展。生物學家能夠獲取大量生物數據,如基因序列、基因表達譜、蛋白質結構和代謝物組成等。隨著高通量測序和其他生物學技術的不斷進步,生物數據的數量和復雜性持續增加。這些大數據難以通過傳統手動方法處理和分析,迫切需要生物信息學引入新的方法。
簡而言之,生物信息學是整合計算機科學、統計學和生物學的學科,旨在使用計算方法分析和解釋各種生物數據并提供預測。隨著相關技術的不斷發展和突破,生物信息學也在不斷演進,其歷程可以劃分為如下四個階段。
基因組階段?;蚪M階段生物信息學發展的標志性事件是人類基因組計劃的啟動。該計劃于1990年啟動,歷時13年,旨在確定人類基因組的化學結構、功能和組織。在這一階段,生物信息學主要關注基因組序列的生成、注釋和分析,為人們提供了大量精確的生物信息,從而推動了分子生物學、基因組學、遺傳學等多個領域的發展。
高通量階段。高通量階段生物信息學發展的主要特征是利用高通量技術大規模獲取各種生物數據,如芯片技術(microarrays)和高通量測序(high-throughput sequencing)。在這一階段,數據的大規模獲取和分析變得更加容易,使我們能夠深入了解生物系統的復雜性。高通量技術的發展提高了生物信息學的效率和準確性,使研究人員可以快速獲得生物數據,并利用生物信息學工具進行分析。高通量技術在生命科學和醫學研究中的應用日益廣泛,如基因組學、轉錄組學、蛋白質與代謝組學。
大數據階段。大數據階段生物信息學發展的主要特征是大數據的生成和處理。生物數據以指數級增長,如基因組、轉錄組、蛋白質組、代謝組等大數據集的不斷積累,給數據的存儲和處理帶來了極大挑戰。因此,生物信息學的發展重點關注開發新的技術,如云計算、分布式計算和并行計算,以滿足更高效的數據處理需求。此外,大數據使得開發更準確的模型、算法和工具來預測生物事件及其參數成為可能。
人工智能階段。人工智能階段生物信息學發展的主要特征是人工智能技術大規模應用于生物數據的處理和分析。隨著深度學習、自然語言處理和圖像處理等領域的迅速發展,人工智能技術已廣泛應用于生物數據的解讀和分析。例如,深度學習算法可以在海量生物數據中識別模式和趨勢,并預測生物事件及其參數。人工智能技術可以用于研究原位基因表達、細胞圖像和蛋白質結構等生物系統。類腦神經元模型構建方法為人工智能的性能提升提供理論支持。
在大約半個世紀的時間里,生物信息學歷經上述四個階段不斷發展和壯大,為生物學研究提供了新的工具和方法,不斷推動著生命科學的進步,也為生物學、醫學、農業等領域持續帶來重大改變和提升。通過生物信息學分析從基因組序列到其他類型的生物數據,科學家能夠更好地理解遺傳學、基因組學和其他生物學領域的問題。具體來說,生物信息學提供的分析工具使科學家能夠更快地識別和比較基因序列、注釋基因功能、了解分子調控過程及其他生物信息,更好地探究基因型和表型間的可能機制。生物信息學通過比較基因組、蛋白質組和其他生物數據,實現精準醫學研究,使科學家能夠更快地識別新的藥物、診斷以及發現新的治療方法。生物信息學還可以輔助分子育種,改進作物品種,提高作物產量,改善食品質量并發現新的農業處理方法。
生物信息學發展的困境及挑戰
生物信息學的學科定位未獲共識。生物信息學作為一門交叉學科,盡管在許多領域發揮著重要作用,但其學科體系尚不健全,存在學科認可、專業定位問題。生物信息學涵蓋理論算法研究、技術開發、組學分析、應用研究以及工程化創新研究,涉及從生物學問題和數學信息問題,到應用分析、數據挖掘、人工智能和主動發現等多個方面。廣泛的研究內涵使其在不同學術領域形成了相對獨立的研究方向和影響力,如偏算法的理論研究和偏實驗科學的生物學應用研究,不同領域的研究所面臨的發展挑戰也各不相同,這導致生物信息學的學科內部合作不充分、不主動。此外,生物信息學作為整體交叉學科,缺乏成熟的理論體系和鮮明的領域方向,產業應用集群效應也未得到足夠積累。
生物數據對生物信息學的發展至關重要。生物信息學依賴于生物數據,生物數據的質量、特性、處理方法、共享和整合使用情況等因素影響著生物信息學的發展。一是生物數據可能存在錯誤或不完整。如何確保數據的準確性、識別和糾正錯誤或缺失的數據,成為生物信息學發展的關鍵挑戰。二是生物數據具有其特定屬性。如何正確區分其全局性和局部性、常態和特殊條件、靜態和動態等,也是科學處理數據的難點所在。三是有效地分析大量數據的方法選擇。生成大量數據后,不同類型數據的分析、不同分析方法的評估和使用、基于已有知識的有監督數據分析和基于數據的無監督數據分析都有其不同的應用范圍。四是生物數據的共享和整合使用面臨的挑戰。生物數據通常由不同的研究人員和機構創建和管理,因此在數據的共享和整合使用方面可能存在壁壘。充分利用多模態生物數據,需要識別和克服上述問題。
生物數據已成為國家重要資源,其產生、分析、管理與利用是保障生物科技安全的重要環節。針對部分敏感生物數據的分析處理還需要建立可持續發展的安全保護、隱私保護和共享服務的機制和技術。2019年,主要依托中國科學院北京基因組研究所的中國生物信息學中心正式成立,打破了歐美日壟斷全球生物數據的格局,實現了生物信息學數據庫的自主開發、自主管理,為我國高質量生物數據資源的基礎設施建設提供了重要支撐。未來應進一步加大投入,將其建設成引領全球生物信息學生物數據資源發展的大國工程。
生命科學研究范式發生轉變。生命科學研究范式正在發生深刻變革,尤其是人工智能技術對生命科學研究范式產生了深遠的影響??傮w來說,從單純的問題驅動研究,轉變為問題驅動與數據驅動并行的研究?;蚪M學、轉錄組學、蛋白質組學、代謝組學、表型組學等領域的數據量巨大,傳統方法難以應對,而人工智能算法技術可以高效地從中提取有價值的信息,使得研究更加高效、精準和個性化。例如,人工智能技術可以將不同來源的數據(如臨床數據、實驗數據、文獻數據)進行整合,提供更全面的視角。在人工智能時代,對生物大分子和基因的研究進入精準調控階段,通過機器學習模型,可以預測疾病的發生和發展,使個性化醫療成為可能。在病理學、細胞生物學等領域,人工智能的圖像分析技術可以自動識別和分類細胞、組織等,提高診斷的準確性和效率。采用人工智能技術分析患者的基因組數據、病史和生活方式,可以提供個性化的治療方案。利用可穿戴設備和人工智能技術進行實時健康監測和管理,能夠有效提高疾病預防和管理水平。人工智能還可以模擬和預測藥物與靶點的相互作用,加快新藥研發速度。人工智能技術(如AlphaFold)在蛋白質結構預測方面取得的重大突破推動了結構生物學的發展。人工智能技術幫助設計更高效的CRISPR編輯工具,能夠提高基因編輯的準確性。人工智能驅動的自動化實驗室可以進行高通量篩選和分析,進而大幅提高實驗效率。生物信息學應秉持“從生物中來到生物中去”的理念,探索從“認知科學”到“工程創造”的有效發展路徑,實現從單一理科到理工并存發展的新的轉變。
加快建設科技強國與大國競爭形勢緊迫。世界百年未有之大變局加速演進,科技革命與大國博弈相互交織,高技術領域成為國際競爭最前沿和主戰場,深刻重塑全球秩序和發展格局。當前,我國亟需通過科技創新驅動,發展新質生產力,推動數字經濟和生物經濟的發展。具體來說,要堅持目標導向和問題導向,依靠跨學科、大協作和高強度支持,發揮協同創新的新型舉國體制優勢,充分體現戰略科技力量在集聚整合相關科研力量、開展核心技術攻關中的引領作用。2022年5月,國家發展和改革委員會發布的《“十四五”生物經濟發展規劃》強調,培育壯大生物經濟支柱產業,加快生物技術廣泛賦能健康、農業、能源、環保等產業,促進生物技術與信息技術深度融合,全面提升生物產業多樣化水平,推動生物經濟高質量發展。具體規劃包括:依托人工智能技術、生物醫學和健康大數據資源,發展智能輔助決策知識模型和算法,輔助個性化新藥研發,為疾病診斷治療提供決策支持;利用第五代移動通信、區塊鏈、物聯網等前沿技術,實現藥品、疫苗從生產到使用全生命周期管理;深化衛生健康大數據在醫學科研、教育培訓、臨床診療、產品研發、行業治理、醫保支付等方面的應用,等等?!吨袊锂a業發展報告2022》提出,2025年我國生物經濟總量有望達到22萬億元。
科技工作要面向世界科技前沿、面向經濟主戰場、面向國家重大需求、面向人民生命健康。在自然指數追蹤的學科排行榜上,我國越來越多的科研機構進入科研領導者榜單,科研機構的高質量科研能力有強者愈強之勢。然而,在大國競爭中,我國生物經濟領域仍缺少具備市值規模、市場份額、專利技術、品牌影響力和產品競爭力的“世界級領軍企業”。未來,我國需要在基因組學、腦與認知科學、精準醫療、生物醫藥、高端醫療器械、生物育種、同一健康、合成生物學、生物質能源和生物安全等產業布局方面實現全面突破和引領。
生命科學相關的未來產業人才培養有待進一步加強。當今世界的競爭說到底是人才競爭、教育競爭。我國要實現高水平科技自立自強,歸根結底要靠高水平創新人才。當前,我國部分領域的人才培養仍存在原創性和突破性不足、科研資源出現分散重復與“圈子”壟斷、研究深度不足等問題。圍繞生命科學相關的未來產業布局,開展相應的人才培養需要進行詳細的規劃和實施。一方面,建立多層次的人才培養體系。加強本科教育,注重學生基礎知識的學習和科研素養的培育,增加實驗課程和實踐環節,鼓勵學生參與科研項目;在研究生教育階段設置跨學科課程,提供更多的科研機會和國際交流項目,培養學生的創新能力和跨學科思維;通過博士后流動站和青年科學家計劃支持青年科研人員獨立開展研究,提供相應科研經費和科研資源,鼓勵原創性研究。另一方面,優化科研環境。增加對基礎研究和前沿技術研究的經費投入,設立專項基金支持原創性和突破性研究;建設和完善高水平的科研實驗室和平臺,提供先進的科研設備和技術支持;鼓勵和支持科研人員參加國際學術會議,不斷增加國際合作研究項目,促進學術交流和合作;建立靈活的聘用和評價機制,減少對論文數量和影響因子的過度依賴,更注重科研成果的實際貢獻;加強公共服務資源統籌,為科技人才提供住房、子女入學、醫療健康、后勤服務等有效保障,切實幫助人才解決后顧之憂。
生物信息學教育資源發展不均衡。當前,我國生物信息學教育資源的發展仍存在不均衡現象,主要表現在一流師資力量不足、頂尖專家參與教學積極性較低、教材質量仍有提升空間以及教育資源分配不均等方面。生物信息學要求教師具備生物學、計算機科學和統計學等多學科背景,而具備這種多學科背景的教師數量相對較少。同時,許多在生物信息學領域具有豐富經驗的專家更傾向于從事科研工作,而非參與一線教學,導致學生難以直接獲得頂尖專家的指導和啟發。生物信息學教材的編寫需要綜合多個學科的知識,而現有的教材質量參差不齊,優秀的生物信息學教材數量有限,難以滿足日益增長的教學需求。教育資源分配不均的現象依舊存在,未來應重點施策逐步縮小區域、城際、校際教育質量差距。
生物信息學人才培養的模式與建議
加強頂層設計,完善學科體系與教學體系。一方面,要健全和完善生物信息學的學科體系?,F有的學科分類、產業分類和經濟活動目錄中,存在生物信息學缺失或定位不準確的問題,建立完善的理論體系、充分體現學科價值、進行有效的學科分類和產業分類等工作至關重要。要加強頂層設計,充分發揮新型舉國體制的優勢,推動學科發展和產業創新深度融合。
另一方面,要完善教育部制定的生物信息學專業國家標準,并成立教學指導委員會。在科學(Science)、技術(Technology)、工程(Engineering)和管理(Management)等方面,明確生物信息學的人才培養定位,構建STEM培養體系。這將有助于規范和提升生物信息學教育的質量,引導高校培養出符合社會和產業發展需求的高素質人才。
建立多元化人才培養體系。一是避免同質化,加強工程化培養。為避免同質化培養、同質化科研、同質化成果對自由探索原創性科研成果的制約,應將生物信息學與STEM教育相結合,針對不同領域和崗位需求,制定差異化的人才培養方案,在科學研究、技術應用和工程開發等方向上有區分地培養生物信息學科學家和工程技術人員。注重系統的工程化培養,提升學生的綜合素質和跨學科能力。豐富實踐項目和跨學科課程,增強學生的創新能力和實際操作能力。在培養過程中,要堅持全科與專科相結合。
二是緩解青年人才“內卷”焦慮。在當前競爭激烈的社會環境中,注重青年學生的理論學習和科研訓練的同時,還要注重培養其科學情操、抗壓能力和良好的心理素質。為此,應為青年科研人員提供必要的心理輔導、團隊建設等活動機會,提升其綜合素質和團隊合作能力。同時,應建立和完善公平公正的激勵、評價和保障體系,引導青年教師專注科研和教學工作。此外,要引導青年人才理性看待和追逐科研熱點的現象,避免盲目跟風和短期行為。
三是注重培養戰略科學家。戰略科學家的培養是我國科技發展的重要一環,其作用不僅在于推動前沿科技的突破,更在于為國家的長遠發展提供戰略性指導和創新驅動。教育部圍繞這一目標,鼓勵各高校開展卓越班的培養模式,并實施了基礎學科招生改革試點(即“強基計劃”),旨在通過該計劃開展知識、能力、素質、人格四位一體的人才培養模式,實現“好苗子”一貫式培養。培養具有戰略眼光與創新能力的科學家和技術人才,需要特別注意以下幾點:首先,戰略科學家需要具備敏銳的戰略眼光和前瞻性思維,因此課程設置應面向國家重大需求和前沿科技領域,采用啟發式教學方法,激發學生的戰略思維和創新能力;其次,戰略科學家必須具備全球視野和跨領域整合能力,因此應加強高校之間的合作與交流,鼓勵學生參與國際學術交流和合作研究項目;再次,戰略科學家的培養還需要豐富的科研資源和實踐機會,應進一步打通高?!皣鷫Α?,鼓勵學生選擇不同高校、科研院所進行交流學習,拓寬視野;最后,要注重人才科研素養的培養和家國情懷的教育,使其能夠在國家重大科技需求和前沿領域中發揮關鍵作用,助力科技強國建設。
全面推進“101計劃”?;A學科教育教學改革試點工作計劃(即“101計劃”)旨在建設核心課程、核心教材、核心師資和核心實踐項目,著力培養一批未來在全球具有重要影響力的杰出自然科學家、醫學科學家和社會科學家。教育部“101計劃”生物信息學核心課程牽頭專家的任務是聯合全國33所生物科學類“拔尖2.0”相關高校,開展“核心課程、核心教材、核心師資團隊”的建設。未來將從“教學理念、團隊建設、教材建設、質量標準、課程模式、教學方式、課程資源、質量管理”等方面全方位打造具有“思想性、科學性和時代性”的生物信息學一流課程體系,以滿足我國對生物信息學領域拔尖創新人才的需求。
具體來說,在專業、課程大綱及課程組設置方面,應全面規劃課程內容,加強知識圖譜和能力圖譜建設。課程設計可分為理論課和實驗課兩部分,前者包括“基本原理與算法”和“組學數據分析與應用”兩大模塊,后者設計科研案例模塊,邀請國內外優秀專家學者向學生講授生物信息學的研究案例和學術報告,充分展示生物信息學的交叉性和前沿性。理論與實踐相結合的課程設計能夠確保學生在掌握理論的基礎上提升解決實際問題的能力。
優化教育資源分配和教學模式創新。一是推動教育資源優化與共享。為了改善生物信息學教育資源分配不均衡的現狀,需通過政策引導和資金支持優化資源分配,縮小不同地區、不同高校及高校內不同院系之間的教育資源差距。要加大生物信息學科研后備人才的培養,擴大人才規模,提高人才質量。同時,進一步推進高校管理改革,解決結構性問題,促進公平競爭和資源共享。
二是加強教育部生物信息學虛擬教研室的建設。虛擬教研室是一種依托現代信息技術,突破時空限制,靈活開展線上線下結合的教學研究和實踐活動的新型教學組織。它匯集優質資源,跨時空和跨領域進行精細化、專業化的教研合作,具有開放性、靈活性和變革性等特征,能夠彌補實體教研室的不足,構建多學科、多層級、多類型的立體化教研模式。生物信息虛擬教研室的創立將進一步推動生物信息學人才的培養,利用其信息技術優勢,實現跨時空的教學研究合作,促進優質資源共享,提升學術交流的效率和深度,推動生物信息學領域的教學與研究創新。
三是推動科教融合。通過政策引導更多具有多學科背景的人才加入教育領域,制定激勵政策提高專家參與教學的積極性,設計涵蓋生命科學、計算機科學、數據科學等學科交叉內容的綜合課程并確保教學內容的前沿性和實用性。注重人工智能與數據分析的教學,內容涵蓋機器學習、深度學習和數據挖掘等技術,并在教學中引導學生將這些技術應用于生物數據分析。此外,還應讓學生了解人工智能技術應用于生命科學中的倫理問題,如隱私保護、數據安全和倫理決策,確保其在技術應用中能夠遵循道德規范。為進一步提升學生的科研能力,可鼓勵學生參與團隊課題組的科研項目,通過實際科研工作積累經驗。在“101計劃”的框架下,推動各高校學生參與到其他高校的科研活動中,促進跨校合作和資源共享。
四是推動產教融合。生物信息學與產業深度融合,通過合理的產業布局和全面的人才培養,構建產業集群,能夠有效推動醫療健康和生物技術的進步。為此,要加大對生物信息學技術研發的投入,支持企業和科研機構開展自主創新,推動技術的不斷進步和應用。推動產業園區規劃和基礎設施建設,在重點區域建立生物信息學產業園區,吸引相關企業、研究機構和高校入駐,形成集聚效應,帶動技術創新和產業發展。建立產學研合作平臺,鼓勵企業、研究機構和高校合作,設立聯合研究項目和實驗室,推動應用研究和技術開發,培養學生的實踐和創新能力。推動企業、研究機構與高校共同制定人才培養計劃,設立聯合培養基地,通過實習和合作研究等形式,讓學生在實際工作中得到鍛煉并提高綜合素質。引導企業和社會組織資助生物信息學相關的科研項目,通過設立科研基金和獎學金等方式,支持優秀學生和教師開展科研工作,推動學科發展。
五是引導社會資源參與。要通過制定相關政策,提供稅收優惠和資金支持等激勵措施,鼓勵企業和社會組織參與生物信息學人才培養和學科發展,吸引更多社會資源投入,形成多方協同、共同推進的良好發展局面。利用報紙、電視、廣播、網絡等媒體平臺,采用制作專題節目、科普專欄等多樣化的傳播形式,向公眾科普生物信息學的基礎知識和最新進展,豐富公眾對生物信息學的認識和理解。對中小學等教育機構,可以以合作方式將生物信息學科普內容納入課程體系,開展校內外的科普活動,培養學生的科學興趣;對大學生和科研人員等具備一定知識基礎的受眾,可以提供前沿研究報告、技術培訓課程等更深入的科普內容。同時,需要規避包括利益驅動的不良社會教育培訓機構的影響。加強科普宣傳,提升公眾的科學素養,使其能夠辨別優質教育資源和不良培訓機構,避免被利益驅動的機構所誤導。
結語
生物信息學的特色和優勢主要體現為強大的數據處理能力、跨學科融合的創新方法、精準高效的生物學研究、創新的生物技術、廣泛的應用領域以及智能化和自動化的技術應用。生物信息學的發展得益于新算法、新理論、新技術和新工具的不斷涌現。同時,政策的支持與引導也為生物信息學帶來了創新突破和長效機制,進一步引領了學科的發展。
利用生物信息學技術進行大數據分析,可以挖掘數據價值,提供精準的市場預測和決策支持。將人工智能技術與生物信息學結合,開發智能化的生物信息學應用系統,能夠提高數據處理和分析的效率,進一步推動數字經濟的發展。在精準醫療領域,生物信息學技術被廣泛應用于基因檢測和個性化治療等服務,這提高了醫療水平和效率。生物信息學在農業科技中的應用,如作物基因改良和畜禽育種,提升了農業生產效率和質量,推動了生物經濟的發展。將生物信息學技術用于環境監測和治理,可以進一步提升生態環境精細化管理水平。然而,人工智能在生命科學中的應用也帶來了隱私、安全和倫理等方面的挑戰,需要制定相應的法規和倫理指南。
生物信息學與產業的有效結合可以構建產業集群,助力數字經濟和生物經濟的建設,推動經濟高質量發展。未來,還需進一步規范引導數據資源共享,建立生物信息學數據共享平臺,提高數據利用效率,進而推動技術創新和產業發展。同時,要加強數據安全保障,制定數據安全管理制度,保護數據隱私和安全,從而提升數據共享平臺的可信度和安全性。綜上,才能更好發揮生物信息學在推動科學研究、促進產業發展和提升社會福祉方面的重要作用。
參考文獻
陳銘,2004,《后基因組時代的生物信息學》,《生物信息學》,第2期。
陳銘,2022,《大數據時代的整合生物信息學》,《生物信息學》,第2期。
國家發展和改革委員會,2022,《“十四五”生物經濟發展規劃》,https://www.ndrc.gov.cn/xxgk/zcfb/ghwb/202205/P020220920618304472104.pdf。
國家發展和改革委員會創新和高技術發展司、中國生物工程學會編,2022,《中國生物產業發展報告2022》,北京:化學工業出版社。
施一公、趙進東、陳曄光、金力主編,2024(待出版),《高等學校生物科學類專業人才培養:戰略研究報告暨核心課程體系》,北京:高等教育出版社。
責 編∕李思琪 美 編∕梁麗琛