楊小康 許巖巖 陳露,2 王韞博 高岳 田濟東 俞凱,2 金耀輝 梅宏
1 上海交通大學 人工智能研究院 上海 200240
2 上海交通大學 計算機科學與工程系 上海 200240
3 北京大學 信息科學技術學院 北京 100871
人工智能(AI)在前沿科學與技術領域的應用已經取得了令人矚目的重大成果。在生物領域,2021年《科學》雜志將 AlphaFold2 評選為“2021 年度十大科學突破”榜首[1];在物質領域,AI 實現了核聚變托卡馬克裝置的等離子流高效控制[2];在藥物領域,AI 加速了新冠藥物設計[3]。眾多的科學突破和國內外的發展趨勢表明,AI for Science 正在成為一種新的研究范式。
2007年,圖靈獎得主Jim Gary 曾經用“4種范式”描述了科學發現的歷史演變,即實驗觀察、理論推導、模擬仿真、數據驅動(即數據密集型科學發現)(圖1)。幾千年前,人類通過實驗觀察和經驗來描述自然現象,形成經驗范式(第一范式)。幾百年前,科學家開始使用理論推導進行科學研究,基于理論和模型解釋自然現象,如17世紀牛頓定律的誕生,這是理論范式(第二范式)。20 世紀中葉以來,科學家通過計算機模擬仿真復雜現象,進行理論驗證,形成了計算范式(第三范式)。近10 多年來,人類進入大數據時代,通過大數據分析去理解、逼近復雜系統,得出之前未知的科學理論,形成了數據密集型范式(第四范式)。然而,由于受限于數據采集與模擬空間,即便在數據密集型的科學研究范式下,科學假設依舊由科學家的專家經驗主導;同時由于缺乏有效的數據開放機制和實驗的局域性,制約了大規模、跨學科科研活動的開展。

圖1 科學研究范式的轉變Figure 1 Paradigm shift in scientific research
最近若干年,深度學習技術,特別是生成式AI的迅猛發展,使得學術界可以利用深度學習建模和挖掘高維科研數據,捕捉多模態數據背后的科學規律,同時借助數據生成的方式,突破實驗觀測數據的有限性與數值模擬的理論限制,拓展科學假設的空間。多模態語言大模型潛在的文獻理解總結、實驗方案生成等全新能力,結合無人實驗系統與科學數據開放平臺,可促使科學研究邁向以“平臺協作”為主要特征的新模式。微軟劍橋研究院院長Chris Bishop 等將AI for Science 稱為驅動科學研究的第五范式(利用AI 和機器猜想來進行科學發現的新方法)①Chris Bishop. 科學智能(AI4Science)賦能科學發現的第五范式. (2022-07-07). https://www.msra.cn/zh-cn/news/features/ai4sci‐ence.。與前4種范式不同,它不僅依賴于已有數據和方程,而且能夠通過機器學習模擬自然現象,推斷出某些未知的規律,提高科學研究的效率和準確性,探索更廣闊的可能性空間,其中包括問題空間和解空間。
鑒于AI可能為科學發展帶來的巨大助力,英國提出“用于科學研究和政府管理的人工智能”(AI for Science and Government)計劃,旨在應用AI解決現實自然/社會科學問題。美國國家科學基金會(NSF)于2021年開展了一項AI4Science研究計劃,使用AI推動數學和物理學領域科學發現。2022年,法國國家科學研究中心(CNRS)成立“人工智能與科學研究雙向驅動的跨學科中心”(The Artificial Intelligence for Science, Science for Artificial Intelligence Center,AISSAI),推動不同領域間的交流與合作,拓展AI在科學研究中的應用。從2019年起,中國科學院及其所屬研究院所在多個學科領域開展了AI for Science相關研究,涵蓋生物醫學、材料科學、計算物理及量子計算等多個領域。
2017年,國務院在印發的《新一代人工智能發展規劃》中指出:“聚焦人工智能重大科學前沿問題,兼顧當前需求與長遠發展,以突破人工智能應用基礎理論瓶頸為重點,超前布局可能引發人工智能范式變革的基礎研究,促進學科交叉融合,為人工智能持續發展與深度應用提供強大科學儲備”。2023年3月,科學技術部會同國家自然科學基金委啟動“人工智能驅動的科學研究”專項部署工作,推進面向重大科學問題的AI 模型和算法創新,發展針對典型科研領域的AI for Science 專用平臺,布局AI for Science 研發體系,逐步構建以AI 支撐基礎和前沿科學研究的新模式,加速我國科研范式變革和能力提升。
雖然AI在特定科學領域的應用已經取得了令人矚目的重大成果,如AlphaFold2[1]、核聚變智能控制[2]、基于AI規劃的全自動有機合成平臺[4]、分子動力學模擬[6]及新冠藥物設計[3]、生成式材料反向設計[7]等,但是這些工作仍然處于特定研究組對特定問題的科研模式,學科的跨度、研究場景的規模、研究方案及其結果的可復現性均受到限制,“平臺協作式”的AI for Science科研模式及設施體系尚有待建立。
實現智能時代的基礎科學源頭創新及其下游重大技術創新,急需破解2 個核心問題。① 如何面向AI for Science 的研究范式,建立全新的科學智能大設施?從而系統性、整體性地釋放新一代AI(特別是生成式AI及大模型)在基礎科學領域的創造性和通用性,實現自發假設生成、自動規律推演、自主無人實驗、自驅可信協作等創新功能,推動超大規模、高速迭代的科學探索?② 如何利用新一代AI 實現對傳統科學設施的賦能?科學研究活動主要包括由科學家提出問題和假設、由實驗人員進行檢驗和驗證、通過科研機構與出版商進行科研成果和數據傳播與共享等環節。在傳統的科學設施和研究范式下,整個科研流程存在科學問題溝通難、科學實驗操作難、科學數據共享難等困難(圖2)。一些高精尖的大型科學設施及其科研環境高度復雜,此類困難尤為突出。利用新一代AI實現“科學問題(科學家)—實驗設備(實驗員)—科研數據及文獻(科研機構及中介)”高效閉環,不僅是新建的科學設施需要具備的標配,更是在已有的科學設施升級改造過程中的新需求和新機遇。

圖2 智能化科學設施的總體思路Figure 2 Overall approach of AI enabled scientific infrastructure
針對上述問題,2023 年4月,上海交通大學人工智能研究院團隊在浦江創新論壇“AI for Science 專題論壇”上提出了建設“智能化科學設施”(AI enabled Scientific Facility,AISF)的構想。智能化科學設施的總體思路是瞄準世界科技前沿與國家重大需求,兼顧“創建高度智能化的科學新設施”和“賦能已有科學大設施”2 個層面,構筑AI for Science 的科學設施體系,加速重大科學發現、變革性物質合成及重大工程技術應用(圖2)。
智能化科學設施綜合運用生成式AI、語言大模型、大數據、區塊鏈等前沿技術,形成人在環路的科學智能大設施3 層體系架構(圖3)。① 基礎支撐層,通過高性能計算、算力網,形成算力支撐;② 科學模型層,構建跨學科、跨模態的科學大模型,以及“AI科研助手”;③ 實驗應用層,通過AI操作機器人、智能實驗環境,實現自主無人實驗和多方科研協作。

圖3 智能化科學設施的架構設想Figure 3 Conceptual architecture of AI enabled scientific infrastructure
在3 層架構基礎上,智能化科學設施可形成傳統范式所不具備的4個主要新功能(圖4):① 科學大模型,實現跨模態的科研內容生成、文獻綜述生成、科學任務自動拆解及實驗方案自動生成等能力,進而構造具有較高綜合科學能力的“AI 科研助手”系統模型;② 生成式模擬與反演,提供復雜流體、多物理場、復雜物質結構等科學現象生成及其AI加速的超大規模模擬能力, 緩解維度災難 (curse of dimensionality),激發科學直覺;③ 高通量自主無人實驗,將自動化實驗室和AI 模型結合,實現合成化學、合成藥物、材料基因組等領域的“干濕閉環”自主實驗驗證;④ 大規??尚趴蒲袇f作:通過區塊鏈、群體智能等技術,實現科學模型及數據集的鏈上朔源、確權、共享、流通,加速科學新思想和新方法的涌現。

圖4 智能化科學設施的創新功能Figure 4 Innovative functionalities of AI enabled scientific infrastructure
在上述架構和功能基礎上,以人類科學家和科學問題為中心,構筑“AI科研助手—AI操作機器人—智能實驗環境—可信多方協作”的人機物協同科研空間,橫向支撐超大規模的“假設生成—規律推演—無人實驗”高速迭代、推進高度智能化的AI for Science科研范式轉變,縱向優化基礎科學大設施、賦能傳統“實驗觀察—理論建?!獢祿治觥笨蒲辛鞒獭?/p>
以ChatGPT 為代表的對話式大語言模型被視為顛覆性的新一代AI技術。在基礎大語言模型之上,通過科學大數據訓練科學知識與能力,通過“科學家在環路”的強化學習實現科學規范倫理對齊,打造適用于科學研究的大模型,有望形成AI與基礎科學之間交互強化、回旋加速的創新機制與方法體系。
(1)AI正向驅動基礎科學。一方面,利用AI提高科學研究的速度和準確性,以及對科學知識的融匯能力,探索更廣闊的科學假設空間,促進多學科深度交叉和重大科學發現。另一方面,AI成為傳統科研范式的有益補充,可有效提升實驗觀察、理論推導、仿真模擬、數據驅動等能力。
(2)基礎科學反向驅動AI。① 科學大模型將為領域大模型的發展樹立技術標桿。在主要面向人類自然語言和常用編程語言的大語言模型基礎上,科學AI大模型還要面向數學公式、物理方程、化學分子式、材料結構、基因序列等跨學科、跨模態的科學語言和文獻,可以對其他大模型的發展起到示范作用。② 相較于面向互聯網應用的基礎大模型,面向特定領域的科學大模型擁有更快的訓練和迭代速度。同時,科學大模型的服務對象為科研工作者和高校學生,其使用過程中將產生海量的科學問題及回答,從而積聚科學知識、引導大模型生成新的科學假設。③ 當前大模型備受爭議的是大數據、大算力導致的高能耗。這需要從開源、節流2 個方面去解決。從開源角度來看,需推動能源科學技術的進步,進一步提升人類匯集、產生、存儲、輸送、使用能源的效率,這也是AI可以發揮重要作用的領域。從節流角度來看,需努力降低計算系統的能耗,追求綠色節能。隨著計算所需的能源成本降低、AI計算體系架構的逐步完善,無論是基礎大模型,還是科學大模型,都將進一步釋放出更大的威力。
為構建科學大模型(圖5),我們需要在基礎大語言模型之上形成4 種專門能力,并構建對應的評測基準。① 跨學科跨模態統一輸入的能力。語言大模型逐漸被應用到生物醫學[7]、材料學和化學[8]等多個學科領域,已經可以較好地實現實體識別、關系抽取、領域分類等文本處理任務。在科學研究產生的數據中,除了文本數據,一般還有公式、圖表、分子式等多模態數據,如何實現這些跨模態數據的統一輸入,進而對跨學科的專業知識進行聯合建模,是建立科學大模型亟待解決的挑戰問題。② 有效調用外部科學工具的能力。大模型雖然擁有較強的語言理解、語言生成及復雜推理能力,但仍然存在輸出看似合理、實則錯誤內容的問題。相比基礎大語言模型,科學大模型對生成內容的專業性、準確性都提出了更高要求。解決此類問題的一種可行技術途徑是將大模型作為規劃與推理引擎,通過調用不同類型的外部科學工具,以提高可信度和準確性。③ 模型持續反饋和進化的能力。人類科學家可以依靠自身的經驗積累和外部的持續反饋,不斷提升科研能力。類似地,科學大模型一方面可以利用科研人員的高質量反饋,完善科學領域專業知識,增強科學知識建模與推斷能力,提高科學內容生成、文獻歸納推理等方面的水平;另一方面,可以利用實驗反饋來不斷提升其科學假設生成和實驗方案優化的能力。④ 幻覺(hallucination)消除能力。目前,大模型仍然存在幻覺現象(即模型生成的內容與現實世界事實或用戶輸入不一致的現象),難以滿足科學研究的精度要求。如何有效篩選專家知識,并利用高精準度的專業知識進行強化學習,實現大模型的迭代和更新,是消除科學幻覺的重要方法。此外,基于基座模型的定向優化和集成,在特定領域提升模型的可信度和精準度,也是修正科學幻覺的重要途徑。⑤ 科學大模型的評測基準。為了對科學大模型的能力進行準確評估,并促進其快速迭代,亟需在科學知識和常識的基礎上建立覆蓋學科面較廣的科學知識測試基準,一方面測試科學大模型的跨模態、跨學科數據理解和建模能力;另一方面評測科學大模型是否具有利用科學工具準確魯棒地完成復雜任務的能力,以及是否具有較強的拒絕生成虛假和有害內容的能力。

圖5 科學大模型整體架構圖Figure 5 Architecture diagram of scientific large-scale models
綜上所述,科學大模型作為“AI助手”輔助人類科學家進行科學研究,需要具備跨學科的知識背景、處理跨模態數據輸入、掌握外部科學工具的調用能力,結合反饋與評測,實現持續進化。另外需要強調的是,科學大模型作為人類的“AI 科研助手”提出“科學假設”,僅僅是給人類科學家的建議,需要認真甄別后方可進行后續的科學論證或實驗探索。
用仿真及計算機模擬工具實現“理論—現象”之間的推演是科學研究的重要范式之一。仿真空間從人類感官的直覺上建立了假設空間和觀測空間的橋梁(圖6)。在核物理等規律及理論明確、數據質量高、觀測成本高的應用場景中,計算機仿真越來越多地作為實驗的有效補充。然而,傳統的基于數值計算的模擬方法在很多現實場景中至少存在求解速度與精度2個方面的局限:① 迭代計算速度慢,特別是大規模的科學問題,對算力需求巨大;② 諸多復雜科學現象的底層理論模型尚不完備,只能采取近似或忽略復雜高階物理關系的方式進行模擬,使得仿真可能產生有悖于實際觀測的結果。

圖6 仿真空間的生成式模擬與反演Figure 6 Generative AI based simulation and inversion
生成式AI技術有望克服求解速度和精度上的局限性。① 以生成式神經網絡為基礎結構,將對復雜系統的數值求解問題轉化為數據擬合問題,建立起從假設空間到仿真空間的高效映射,從而加速求解。② 利用生成式渲染技術,實現從仿真空間到觀測空間的科學現象表觀生成,進而實現橫跨3 個空間的閉環學習,驅動規律反演(圖6)。
對于理論模型相對完備的科學現象,生成式AI求解方法可以形成假設空間到仿真空間的映射,加速方程求解。關鍵技術難題在于如何將理論模型盡可能準確、有效地嵌入到機器學習求解器的神經網絡訓練過程中。一種方法是用傳統數值模擬器產生的仿真數據訓練神經網絡,間接實現科學規律嵌入[9]。另一種更為直接的方式是將數學方程轉化為神經網絡的損失函數,從而利用科學先驗使得機器學習求解過程快速收斂到理論解附近[10]。然而,上述生成式AI求解方法在訓練數據層面嚴重依賴數值模擬器的精度,對理論模型尚不完備的復雜科學現象,往往存在訓練數據與真實數據存在偏差,邊界條件與方程假設過度化簡等系統性差異,在此基礎上訓練的機器學習求解器,不可避免地存在誤差累積的問題。
針對理論模型尚有待完善的復雜科學現象,生成式AI技術還可以被用來學習仿真空間到觀測空間的數據映射關系[11],有能力生成在統計學意義上符合觀測分布、在感官上更逼近現實的信號與信息,從而允許科學家根據實際觀測數據反演仿真空間中的狀態“后驗信息”,通過與仿真得到的“先驗信息”進行比對,對已有的科學規律進行修正,甚至通過拓展假設空間,發現新的科學現象。
目前,生成式AI技術已被廣泛驗證可以極大地加速超大規模科學計算問題的求解,緩解維度災難。以流體模擬為例(圖6),“神經流體”(NeuroFluid)[12]提出的生成式AI技術的反演方法,以機器學習求解器的流體粒子仿真結果驅動基于“神經輻射場”(NeRF)的圖形渲染,將數據中隱藏的物理規律從觀測空間映射回容易被科學家理解分析、可以用狀態參數調控的仿真空間,實現從自然圖像中高精度地推理復雜幾何結構周圍的流體運動。但生成式AI技術的可解釋性與魯棒性還缺乏足夠的理論保障。未來需要重點突破復雜流體、多物理場、復雜物質結構等科學規律嵌入到機器學習求解器的問題,以及探索如何進一步利用生成式AI技術進行“假設—仿真—觀測”3個空間之間的推理,尤其是針對理論模型仍不完備的科學問題,激發科學直覺,實現理論模型的完善或者修正。
自主智能無人實驗系統旨在將AI和機器人領域的技術成果與科學實驗進行結合,通過無人化、標準化、大規模的實驗流程,提升實驗效率和可復用性。美國麻省理工學院(MIT)的Coley 等[4]于2018 年提出AI 規劃的自動化學合成工作流,中國科學技術大學江俊團隊[5]于2023 年提出基于文獻閱讀的機器人自動合成裝置。在此基礎之上,智能化科學設施強調形成“開放協作、人在環中”的人—機融合實驗模式(圖7)。其中,無人實驗操作平臺及智能化系統的任務流程主要包括3 個步驟:① 方案自動優化,在所提出科學猜想的基礎上,自主進行模型設計和方案優化;② 自主任務規劃,整合科學大模型,將實驗和反應流程轉化為形式化的機器人操作指令,完成實驗操作的全流程自主規劃;③ 無人實驗操作,基于機器人的無人實驗操作平臺執行操作指令,開展自主無人實驗,研究人員可通過人機交互接口遠程監控實驗狀態。在無人實驗操作平臺及智能化系統的基礎上,擴展形成安全、并行、協作的大規模開放實驗平臺。

圖7 自主智能無人實驗系統Figure 7 Autonomous unmanned experiment system

圖8 高效、可信的大規??蒲袇f作系統Figure 8 Efficient, trustworthy, and large-scale research collaboration system
根據操作精度的不同,無人實驗操作可分為微觀和宏觀2 種空間尺度。微觀尺度下的無人實驗的操作對象通常為活細胞、蛋白質等微小顆粒,多采用固定實驗平臺,其核心問題為提升高精度操作通量。宏觀尺度的無人實驗操作側重實驗流程的完備性,以搭載機械臂的可移動機器人為主在實驗設備之間自主移動,完成多任務全流程的自動化實驗。此外,人形機器人能夠在人—機融合協作環境中以更直接的方式實現高精度靈巧操作技能的模仿學習,有望進一步提升無人實驗操作平臺機器人的靈活性和自主性。
在硬件本體平臺的基礎上,構建智能化系統軟件是自主智能無人實驗平臺的另一個基礎問題,通過軟件驅動自身狀態感知、外部環境感知、移動導航、儀器定位、實驗操作規劃和控制執行等流程。深度強化學習與模仿學習可以通過環境交互的經驗軌跡或專家示教軌跡進行自主學習,構建觀測信息與最優動作之間的映射關系[13]。近年來,ChatGPT 等語言大模型為無人實驗智能化系統的設計帶來新的技術途徑,一方面可以將語言指令和外界觀測序列以端到端的方式映射為機器人動作指令;另一方面可以接收并理解人類輸入的語言指令,自動將任務分解為若干個易于完成的子任務。
目前,硬件平臺的集成和智能化系統的相關技術已經可以初步實現個體實驗平臺的無人化和自主化。未來的發展方向是多機協作開放實驗平臺的構建,為此需要重點關注4個問題。
(1)多機并行。當前的自動化實驗方法大多使用單個機械臂或單體移動機器人,缺乏長序列任務的調度能力,實驗吞吐量較低。多機平臺采用并行化工作流程和多機協作調度,引入標準化的批量實驗操作、數據處理流程、災備冗余預案,提高工作效率,降低實驗的不確定性,實現實驗的可控性、資源配置的最優化及靈活性。
(2)開放協作。當無人實驗平臺無法自主完成復雜的未見的實驗任務時,研究人員可通過手動引導的方式跟機器人協作完成宏動—微動實驗操作,形成“開放協作、人在環路”的人—機融合實驗模式。
(3)實驗結果評價。依據特定科學領域,設計合理的無人實驗成效評價機制,主要包括:① 科學實驗本身的成功率,即與人工實驗結果的一致性;② 實驗操作是否達到應有的標準(如操作和定位精度);③ 并行協作平臺的實驗過程的通量水平和工作效率。
(4)安全保障。大規模開放無人實驗平臺的安全性可參考無人駕駛技術,從完全封閉環境下的無人參與實驗環境,到實驗機器人可在研究人員參與的實驗環境中自主安全移動,最終在高度自治的基礎上實現人—機協作共融。
在AI驅動科學研究的新范式下,大規模跨領域的協作已成為科學研究的必然模式。智能化科學設施支持數據共享,以便于AI模型的開發與測試,但是需要設計一系列措施對數據開發者的知識產權與利益進行確認與保護。近年來,去中心化科學(DeSci)也備受科研人員關注,DeSci旨在使用Web3工具,包括智能合約和區塊鏈來解決科學研究中的知識產權問題,促進科學數據的共享流通。在智能化科學設施的架構中,區塊鏈技術為打造安全、可信的協作環境提供基礎,聯邦學習技術能夠在去中心化的協作環境中解決數據孤島問題并保證數據安全和科研效率,互聯網群體智能可以將不同的科研模塊整合在統一的平臺中,實現高效的大規??蒲袇f作。
(1)基于區塊鏈的可信計算?;趨^塊鏈的可信計算可對科研協作過程中各方的工作和貢獻進行溯源,實現科研協作多方確權。區塊鏈和AI的有效結合將是構建可信的科研協作環境的有效方法。AI技術可以實現區塊鏈的可預測性,并有效檢測區塊鏈及其智能合約的漏洞,提升其安全性。反之,區塊鏈技術有望解決AI模型的分布式數據共享和分布式訓練推理等問題。
(2)基于聯邦學習的科學計算。聯邦學習有望實現數據去中心化的科學計算,通過相容激勵的機制設計,實現多用戶端協作的機器學習模型訓練和推理。基于聯邦學習的科學計算只要求用戶將數據存儲在本地,不需要每個用戶上傳數據,通過迭代的模型聚合實現學習目標,滿足大規模科研協作的科學數據及模型的去中心化需求。
(3)網絡空間中的群體智能。綜合運用數聯網、群體決策、語言大模型等技術,科研群體有望在網絡空間形成大規模的科研協作,突破傳統科研協作的時空局限性,為科研人員推薦相關的研究團隊、連接不同領域的科研人員、增強跨學科科研協作、實現對傳統科學設施的AI 賦能。其關鍵技術可以概括為:① 基于數字對象的數聯網。數聯網是基于互聯網的虛擬數據網絡,通過數字對象有效連接分布式的數據平臺,支撐多元異構科學數據的互通互聯。以數字對象為核心的數聯網為構建AI for Science科研協作平臺提供了有效載體[14]。② 群體智能決策策略。網絡空間中的人類與機器之間共同協作的群體智能通過“探索—融合—反饋”機制[15],有望促進開源社區等協作平臺的決策效率。③ 基于語言大模型的智能體。ChatGPT 等語言大模型為機器與機器之間群體智能科研協作提供了新的契機。由于語言大模型擁有知識、推理能力、思維鏈功能,使得其可以作為智能體,實現復雜協作任務中的自主管理和調度。
AI for Science 正在成為驅動科學研究的新范式,引起各國政府、高校和科研機構的高度重視。本文提出了建設智能化科學設施的構想,闡述了“算力支撐—科學引擎—無人實驗”3 層基礎架構和“科學大模型、生成式模擬與反演、高通量自主無人實驗、大規??尚艆f作”4 個創新功能,形成高度數字化和智能化的新型智能化科學設施,同時對已有的重大科學設施進行AI賦能。
智能化科學設施的建設不僅有助于解決復雜科學問題、促進跨學科合作創新、開辟新的科學疆域,而且有望對工程技術、未來產業起到重要推動作用。在工程技術方面,智能化科學設施可以提高大規模和復雜工程問題的仿真和推理能力,對復雜工程場景做出更加準確的預測,提高重大工程設備的可靠性和運行效率。在產業方面,智能化科學設施的建設將促進我國產業界承接基礎研究的新成果,并充分利用AI和區塊鏈等技術,探索低成本、高可信、標準化的CRO(合同研究組織)科創合作模式及其“風險共擔、收益共享”的激勵機制,提升重大科技成果的轉化效率和質量,對未來產業發展起到支撐作用。
致謝衷心感謝丁奎嶺院士、程津培院士對本文的指導。