近日,加拿大蒙特利爾學習算法研究所(MILA)唐建教授團隊開源了一個通用型藥物發現和設計的機器學習平臺一一TorchDrug,涵蓋了圖機器學習(包括圖神經網絡、幾何深度學習和知識圖譜)、深度生成模型以及強化學習等技術。
TorchDrug是一個建立在開源機器學習庫上的深度圖表示學習工具箱,整合了分子性質預測、分子從頭設計和優化、反應預測、逆合成以及分子重定向等多個任務集。“該平臺在通用性、應用性以及可擴展性等方面具有明顯的優勢。”唐建表示。
此項工作還得到了“原創AI教父”、“深度學習三巨頭”之一的Yoshua Bengio的指導。
Yoshua Bengio于1993年創辦了MILA,這是目前全球學術界從事深度學習和強化學習最大的研究中心。2017年,唐建加入MILA并擔任助理教授,他的主要研發方向是圖表示學習、圖神經網絡、深度生成模型、知識圖譜和新藥研發,尤其是圖表示學習在新藥研發中的應用。
MILA助理教授唐建
“2017年以來,我一直在思考圖表示學習未來的發展方向,最終發現圖表示學習‘殺手級的應用方向在生物醫藥領域,尤其是藥物研發。生物醫藥領域絕大部分的數據是圖結構數據,包括分子結構數據、蛋白質結構數據、知識圖譜等,圖表示學習在該領域有巨大的應用價值。通過開源TorchDrug,我們計劃建立一個開源人工智能藥物發現社區,科研人員和制藥公司都可以共享這個成果。”唐建說。
讀博最后一年,唐建開始嘗試將深度學習應用于圖結構數據分析中。自2017年入職MILA以來,他一直聚焦圖表示學習在新藥研發的研究和應用。
今年是他任教MILA研究中心的第四個年頭,上文提到的開源平臺TorchDrug則是唐建團隊過去近4年來在圖表示學習和圖神經網絡領域研究成果的積累。
據唐建介紹,TorchDrug主要解決兩大類的問題,一是從頭設計和優化分子,二是藥物重定向,也就是常說的老藥新用。
具體來講,如果要從頭發現和設計分子,發現新分子結構,需要完成多個模塊任務。首先需要預測分子性質,分子活性、毒性、水溶性等ADMET參數;緊接著需要進行分子優化、搜索、設計,在這一過程中通過深度學習模型或者是強化學習模型設計和優化分子,尋找到性質最佳的分子;然后需要考慮如何合成分子,需要找到分子的逆合成路徑,合成自然界不存在的新分子。
要發現一種療效更佳的全新藥物分子并非易事,所以老藥新用也是一種常見的一種藥物分子篩選思路。以COVID-19為例,老藥新用就是當下尋找潛在治療藥物的主流思路,比如吉利德通過老藥新用的方式發現廣譜抗病毒藥瑞德西韋對COVID-19具有一定的治療效果。
從機器學習和數據建模角度講,老藥新用的核心在于圖結構數據,也就是知識圖譜的構建,在知識圖譜中挖掘藥、疾病、蛋白質之間的相互關系。
唐建告訴生輝,評估藥物發現平臺的關鍵點包括通用性、應用性和可擴展性,他還從這幾個方面講解了TorchDrug的特點。
一是通用性,TorchDrug是通用型的機器學習模型,適用于不同疾病,針對不同疾病的建模過程本質上相同;
二是應用性,TorchDrug整合了多個任務模塊,同時盡可能減少醫藥行業的專業知識,比如說對不同的任務模塊提供了標準的數據集和評測方法。目前,多個藥物發現任務模塊已經開通運行。
三是可擴展性,能夠加速多個CPU或者GPU的訓練和推理,只需一行代碼,用戶即可在CPU、GPU等設置之間切換。
此外,該團隊還計劃進一步將該平臺擴展多種功能,包括三維結構建模和幾何深度學習方法。
現階段,AI之于新藥研發,已不再是可有可無的角色。從資本市場再到制藥工業,各界對AI的態度變得日益明朗。
AI制藥公司的數目也在增加,據統計,美國也有超100家AI制藥初創公司,在國內也有近50家初創公司。AI制藥公司數目增長的同時,吸金能力、認可程度也隨之提升。
2020年,AI制藥“老兵”薛定諤、AI制藥明星初創Relay相繼登陸納斯達克,受到資本市場的熱捧。未上市AI制藥新銳的吸金能力也在高漲,自2020年3月以來,全球共有超11家AI制藥公司完成了1億美元以上的融資,instro、晶泰相繼完成4億美元單筆融資。
現在,AI制藥也開始贏得制藥工業的接受,真正應用于產業界中。從英國AI制藥領跑者Exscientia與GSK、賽諾菲、BMS、拜耳等簽單,薛定諤與藥明康德、BMS、再鼎攜手,再到晶泰一月之內與制藥公司達成約5項合作。“我認為,整體而言,無論是資本市場還是學術界、產業界都已經開始認可AI在藥物研發中的潛力。現在看來,AI制藥正處于早期發展過程中的快速增長階段,未來仍將蓬勃發展。”唐建說。
近年來,AI在制藥產業界的進展頻頻。高嘁多年的AI制藥終于不再束之高閣,而是開始接受臨床驗證。2020年,Exscientia宣布全球首個完全由AI設計的藥物分子進入臨床試驗階段,隨后又公布了第2個藥物分子進入臨床。2021年,Insilico宣布利用AI發現了兩款臨床前候選分子,其中針對肺纖維化的分子有望年內進臨床。“預計未來5年左右,AI研發的新藥可能將會開始真正獲批上市。”唐建預測道。
根據市場調研機構Facts and Factors數據顯示,到2026年,人工智能在制藥領域的全球市場預計將達到82億美元,年復合增長率為47%。AI制藥領域市場發展勢頭強勁的同時,對新型AI技術、深度學習、強化學習模型的需求也將不斷增長。
在圖表示學習應用于新藥研發領域積淀多年后,唐建團隊也有志于將科研成果落地轉化,他們希望與在生物醫藥研發領域經驗豐富的專家合作共同推進產業落地。(摘自美《深科技>)(編輯/萊西)