肖貞林 黃雪霜
進入21世紀,多組學技術和生物治療等醫學前沿技術突飛猛進,人類社會進入一個前所未有的歷史性變化中。可是發明了那么多新技術,積累了那么多新知識,發表了那么多高水平論文,為什么人類面臨的很多健康問題依然得不到有效改善?
要回答這個問題,不得不提起20世紀90年代興起的轉化醫學。轉化醫學的初衷是要把臨床提出的問題快速轉化為基礎研究項目,而后再將研究項目的成果通過研究型病床有效地轉化為針對臨床患者疾病的準確預防、診斷、治療及預后評估等一系列方案,從而讓新技術更快,也更有的放矢地用于增進人民群眾健康福祉。
近30年來,我國在基因組測序技術、臨床疾病分子分型與診治標志物、藥物設計靶點、臨床隊列與生物醫學大數據等方面積累了大量的數據,但這些數據并沒有有效地服務于臨床患者。為了有效地將它們轉化成解決臨床問題的信息,切實造福人民健康,迫切需要科研人員加強突破慢病防控、精準醫學等關鍵技術。響應國家在轉化醫學領域的號召,方海從牛津大學全職回國,回到上海交通大學醫學院附屬瑞金醫院,組建并負責轉化醫學國家重大科技基礎設施(上海)瑞金基地的生物信息(以下簡稱“生信”)大數據平臺,聚焦復雜慢性疾病,開展遺傳靶點“計算醫學”研究工作。

方海作報告
“我一直想要開創一個新的轉化醫學研究范式,利用現有的組學大數據,挖掘支持治療靶點選擇的遺傳證據。”方海認為,在個體化治療中,必須挖掘個體的遺傳變異信息,而在各種相關的組學數據里,真正有助于患者受益的是找到潛在的治療靶點。這是一個新的遺傳靶點計算醫學研究模式。這些年,他專注于領域的前沿算法的研究,相關工作多次在國際學術會議作口頭報告及特邀報告,獲得2017年度牛津大學卓越獎,并先后入選上海高校特聘教授、上海市高層次特聘專家、國家高層次引進人才(青年)等。
在醫學研究中,如何將大量的數據轉化為解決臨床問題的有用信息一直是個難題。這個難題的破解需要生命科學、統計學、計算機科學和醫學領域專家的有效合作與交叉研究。
方海恰恰具備多學科的學術背景。早年在中國科學院上海生命科學研究院碩博連讀時,他的專業領域是遺傳學與生物信息學,而2010年前往英國布里斯托大學深造時,他決定加入計算科學系。從傳統的生物醫學轉向計算科學,是一個大膽的本能決定,卻為之后的研究打下了堅實的基礎。
在布里斯托大學,方海除了維護數據庫之外并沒有固定的課題。“在這種‘自由放養’式堅守本職工作的環境中,他逐漸發現事務性工作反而賦予他更多的遐想和對原創思維的重視。”工作半年間,他完全憑借自己的興趣和創新動力,自主研發了新算法,為之后蛋白結構域語義注解數據庫的建立奠定了基礎。該數據庫在連續3次國際蛋白質功能預測競賽中的預測成績均名列前茅,直到10年后的今天,仍被使用并收錄于維基百科全書中,對后續的研究工作產生著深遠的影響。
2015年,方海回歸生物醫學領域,在牛津大學威康人類遺傳學中心從事醫學基因組大數據與計算醫學研究。“我已經積累了多學科的技能,出于本能決定再回到生物醫學領域。”對方海來說,這是一種必然的回歸。
在牛津大學,方海主要是在歐盟創新藥物計劃(IMI)資助下的協會中工作,參與多國合作的創新藥物研究。針對復雜疾病治療研究瓶頸共性(即非編碼區遺傳變異位點加大了潛在靶點的選擇難度),以及遺傳靶點重要性(即遺傳靶點支持加倍提高藥物研發的成功率),他率先提出并開展“復雜疾病遺傳靶點計算醫學”研究。這一前沿研究具有鮮明的多學科交叉特征,涉及多門基礎學科,包括醫學(復雜疾病)、基因組學(多層次遺傳調控組學)、計算科學(蛋白結構)、人工智能(非監督式自組織學習)等。方海的多學科背景正好為他在這些領域的探索和突破提供了施展的空間。
幾年后,方海領銜團隊取得了具有重要國際影響力的標志性原創成果。2019年6月,方海在《自然·遺傳學》(Nature Genetics)發表文章,介紹了他負責創建的“優先指數”(Priority index)。“優先指數”是計算醫學轉化系統,可以預測遺傳靶點以期指導藥物研發,實現組學大數據向治療遺傳靶點計算轉化的概念。相關成果一經發表,便引起制藥行業各大企業的關注。
全基因組關聯研究(GWAS)產生了海量遺傳組學大數據,其中蘊含潛在的疾病易感遺傳位點,是研究復雜疾病的有效手段。但GWAS所揭示的遺傳位點絕大多數位于基因組的非編碼區,其生物學意義(如潛在的調控基因)難以解釋,進而加大了對潛在治療靶點選擇的難度。“優先指數”攻克了這一難題,針對復雜免疫疾病GWAS匯總數據,利用功能基因組數據(產自于基因表達數量性狀定位分析技術與染色體構象捕獲技術)預測疾病潛在致病調控基因,并整合基因互作網絡信息將潛在調控基因擴展至網絡關鍵節點,從而實現了對治療靶點“五星等級式”量化推薦。
“‘優先指數’最大的優勢是針對復雜疾病非編碼區遺傳信息,通過‘生物與信息融合’理念指導推測治療靶點。”方海的這一成果被認為“是一個重大的突破”,因為復雜疾病靶點選擇痛點是非編碼區遺傳變異位點,而“優先指數”實現了從非編碼區的信息到臨床應用治療靶點的量化利用。為此,《自然·遺傳學》發表2019年度編輯評論“遺傳學年度回顧(A year in genetics)”,提及方海的工作“在藥物基因組學上具有前瞻性”。基于該研究成果,2020年,方海受邀在醫學權威雜志《柳葉刀·風濕病學》(Lancet Rheumatology)上撰寫綜述,系統性闡述以遺傳學為導向治療靶點計算醫學研究的理論基礎,并指明該領域的前沿方向。

近5年,方海在計算醫學領域取得的標志性原創成果有Priority index、OpenXGR與dcGO,均發表在《自然·遺傳學》《柳葉刀·風濕病學》《核酸研究》《血液》等國際雜志上
“遺傳靶點是指遺傳證據支持的候選治療靶點。”2021年,方海明確定義了遺傳靶點的概念,這也是計算醫學的核心目標。藥物研發回顧性分析表明:若I期臨床候選藥物具有遺傳靶點支持,其研發成功率將提高兩倍;若具有與疾病存在因果關系的靶點支持,藥物研發成功率還將進一步提高。“優先指數”可以預測高通量細胞篩選平臺測量的靶點活性,這些平臺包括L1000技術、CRISPR篩選技術、隨機突變技術及基于病人樣本的細胞篩選技術,因此對于藥物的研發具有實用性,若合理利用,可以大大節省研發時間與人力成本。“經典的藥物研發是在傳統的實驗室里根據自己的興趣來研究某一條具體通路,有時候失敗是因為沒有基于臨床資源的遺傳靶點的支持。精準醫學或新藥研發的核心是治療靶點的篩選。”這是方海從過去近20年的研發歷程中總結出的樸素經驗。
針對某一疾病,“優先指數”可以發現已知藥物治療靶點并刻畫遺傳信息支持治療的潛能,進而構建基于治療遺傳靶點的疾病間關系全圖。專家對此給予了高度評價,認為“優先指數”核心算法提供了一個新思路,即將組學數據向靶基因和靶通路的計算轉化,開啟了復雜慢病遺傳靶點轉化研究的新模式:非編碼遺傳位點—調控基因—靶基因量化推薦—通路交匯干預靶點。
值得一提的是,方海創建的“優先指數”不僅包括方法學,還提供了開源軟件與數據庫。用戶可以通過開源工具包,針對自己的數據開展計算醫學研究。
“從人類基因組的遺傳信息中發現潛在的治療靶點,指導藥物的研發。這在當時一直停留在概念階段且比較受質疑,具體實現并不被大家看好。”但隨著方海的研究成果陸續刊登發表,各大藥企逐漸表現出了極大興趣。一些媒體預測,隨著制藥行業加大對醫學組學大數據研究的投入,計算醫學時代即將到來。
隨著“優先指數”的問世,這一算法體系在國外的計算醫學領域備受關注。此時,方海決定將它帶回國并進一步拓展,希望在祖國大地上深耕推廣。

生信大數據平臺成員合影
2020年,方海回到上海交通大學醫學院附屬瑞金醫院,組建生信大數據平臺,通過生物與信息融合的理念,挖掘基因組數據,找到潛在的遺傳證據支持的靶點,旨在助力后續原創藥物研發效率的提高。
近年來,關于遺傳靶點的研究成果主要集中于劍橋大學的“開源靶點(Open Targets)”與牛津大學的“優先指數(Priority index)”。然而,無論是“優先指數”還是“開源靶點”,都僅提供預先計算并存儲于關系數據庫中的遺傳靶點。為打破這一瓶頸,在瑞金醫院,方海于2022年上半年在國際期刊《核酸研究》(Nucleic Acids Research)上連續發表最新研究成果,并借助該期刊的“2022年度數據庫專刊”對外發布了同名數據庫“優先指數”,以及“2022年度在線工具專刊”發布了“優先指數”在線服務工具PiER(翻譯為“碼頭”)。不同于以往的資源工具,PiER以“從頭實時”整合量化推薦的優勢,致力于“用戶至上”的宗旨支持用戶輸入自己的數據,3分鐘內一鍵式實現遺傳靶點的計算轉化。
“目前,‘優先指數’已成功地應用于30余種免疫介導相關復雜疾病的遺傳靶點計算轉化。”方海介紹。“優先指數”系列專門的數據庫和在線網站可支持數字化挖掘,助力計算醫學研究。該數據庫專門網站提供便捷的疾病、靶基因及其蛋白結構查詢。查詢結果除了靶點量化排序信息及背后遺傳證據外,還提供可靶向性模式信息,尤其是基于已知蛋白PDB結構的可成藥性口袋預測信息,并支持其3D互動可視化展示。網站還支持高級使用,用戶可以開展跨疾病比較分析。
現在,“優先指數”計算醫學系列工具資源已經基本涵蓋所有免疫介導的復雜疾病,并成功將靶點計算醫學研究模式擴展至其他復雜系統性疾病,無償地支持第三方用戶開展多種疾病的遺傳靶點發現工作,如1型糖尿病、阿爾茨海默病、心血管疾病、纖維增生性疾病等,這些工作均發表在國際學術期刊上。
“這不僅停留在算法和理論基礎上,還是一個有數據庫的支撐工具,供大家免費方便使用。”在“組學大數據——蛋白結構計算預測”大科學與大健康的背景下,“優先指數”系列的算法工具數據庫有望賦能我國計算醫學研究最底層基礎設施的建立,在不久的將來實現治療靶點選擇的自動化、智能化與平臺化。
創建“優先指數”并研發數據庫和用戶服務網站,對方海來說,既是原創性的本職工作,也是對服務性工具的一種堅持。他認為好的科研工作不僅要有原創,更要有服務意識,兩者相輔相成,原創工作終將服務于大眾。
方海將自己“原創與服務”的理念延續到生信大數據平臺。在平臺創建初期,他就明確了其定位:一方面是服務,即服務臨床多組學數據的解讀;另一方面是研發,即自主研發核心算法與新工具。原創工具增加平臺的實用性及服務水平。除了前述的“優先指數”與dcGO,方海還是非監督式自組織學習工具(supraHex)與組學匯總數據在線解析工具(OpenXGR)的研發者與維護者。OpenXGR收錄于《核酸研究》“2023年度在線工具專刊”,支持各個層面組學匯總數據解讀,并將進一步改善用戶使用體驗感,類似于OpenAI現象級產品ChatGPT,實時響應自然語言請求。

生信大數據平臺成員合影
“在瑞金醫院,我們不僅是為臨床醫生解讀臨床數據,更多的是推廣一種新的研究模式。”方海口中所說的這種模式就是從臨床樣本中挖掘有用信息加以利用,產生新的知識再加以論證,進而指導臨床實踐。方海希望他的工作不僅服務于瑞金醫院,還能服務于自己不直接參與的項目,讓更多人便利地使用算法工具數據庫,為我國計算醫學的發展添磚加瓦。
方海的團隊秉持“原創與服務齊頭并進”的理念。雖然他回國工作時間不長,僅招收了第一批研究生,但他希望培養的學生能支持合作項目的數據分析,同時也能自主研發一些公益數據庫。“不問得失,但求極致。”有了原創性研究就相當于擁有了“有源之水”和“有本之木”,而懷揣為“它”之心,才能讓水潤萬物,大樹枝繁葉茂。
方海近期的目標很清晰——建設一個重大疾病治療靶點發現與論證的生信大數據平臺。“除了腫瘤研究,我們的特色或者重心也應放在復雜慢性疾病及其病前亞健康上。”與諸多同道前輩想法一致,隨著我國老齡化加劇,復雜慢性疾病呈現顯著增長趨勢,因此他和團隊的目標是繼續創新計算醫學,全面提升其在轉化醫學與精準醫學研究領域中的引領作用,以滿足人們對慢病及其病前亞健康防控需求的增長,主動應對人口老齡化,改善老齡健康。
方海希望加速轉化利用自然人群隊列與專病人群隊列中蘊含的臨床資源與組學數據,高效準確地識別并論證全新的分子標志物和治療靶點。他還希望在研發新算法與建立新范式的基礎上,開發運行高效、結果可靠、用戶友好的應用軟件功能性產品,實現一鍵式快速挖掘數據背后的臨床轉化知識,預測個體化藥物靶向作用組合,指導個性化臨床防治實踐。最終,方海的目標是通過計算醫學研究工作,助力“健康中國”國家戰略,提高國民的健康水平和幸福感,這也是他畢生所追求的“最幸福的事業”。