999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI for Science:科學研究范式的新革命*

2023-05-13 00:14:42李建會
廣東社會科學 2023年6期
關鍵詞:科學模型

李建會 楊 寧

人工智能驅動的科學研究(AI for Science)是大數據時代以機器學習(ML,machine learning)為代表的人工智能技術與科學研究深度融合(AI+Science)的產物。作為AI子領域,機器學習,特別是深度學習技術以其在理解高維數據和解析復雜系統方面遠勝人類的優勢,成為科學研究數字化和自動化轉型的中堅力量。當前,AI for Science在物理學、生命科學、材料科學和地球科學等領域的知識發現與成果優化方面表現驚人,基于多領域整合和人-機協作的數據驅動型科學發現模式越來越得到科學家的認可和應用。AI for Science不僅加速科學的發展,而且反過來,加速發展的科學又推動AI的加速發展。AI與科學之間的持續雙向賦能使得AI向著其技術奇點加速邁進。在這個循環加速的發展中,數據隱私和AI模型可信度及可控性等重要科技倫理問題也引發社會擔憂,使得開發可解釋的AI模型成為焦點議題。在AI領跑科技創新的國際競爭背景下,開展AI for Science的前瞻性規劃及其資源整合研究對推動我國基礎科研實力具有非常重要的價值。

一、從AI到“AI+Science”

(一)人工智能與機器發現

科學研究的目的之一是做出科學發現。AI誕生初期,一些專家便開始嘗試開發程序以通過機器進行科學發現。起初,他們雄心勃勃地認為,“學習的每一個方面或智力的任何其他特征在原則上都可以被精確地描述,以至于可以制造一臺機器來模擬它。”①McCarthy J., Minsky M. L., Rochester N, et al. “A proposal for the dartmouth summer research project on artifi‐cial intelligence,august 31,1955”,AI magazine,2006,27(4),p.12.20世紀40―70年代的傳統AI只服務于特定的任務,通過邏輯和啟發式算法實現游戲、知識表達、推理和專家系統。此后的30年里,感知機模型的提出使研究界更加關注從觀察數據中自動提取“規律”,并開始嘗試為能夠實現指定任務的候選模型搭建一個統一架構。進入新世紀,“深度學習之父”杰弗里·辛頓(Geoffrey Hinton)解決了困擾神經網絡用于表征學習的模型過擬合和梯度擴散難題,并進一步開發出更高精度的卷積神經網絡(convolutional neural networks,CNNs)模型AlexNet②Alom M. Z., Taha T. M., Yakopcic C., et al. “The history began from alexnet: A comprehensive survey on deep learning approaches”,arXiv preprint arXiv:1803.01164,2018,pp.1-39.,基于多層次型人工神經網絡(artificial neural network,ANN)的深度學習(deep learning,DL)因此成為AI 的新的潮流。作為ML技術的強大子集,DL更加適應多層次結構數據的表征學習③指將原始數據轉換成能被機器學習有效開發的表征,即允許機器通過簡化復雜的原始數據,自動發現并提取可用于檢測或分類的特征。,成為語音識別、計算機視覺、自然語言處理、知識圖譜和自動駕駛的重要方法④LeCun Y.,Bengio Y.,Hinton G.,“Deep learning”,Nature,2015,521(7553),pp.436-444.。

在AI發展的第一階段,著名的AI專家赫伯特·西蒙(Herbert Simon)就提出了用計算機模擬人的創造性思維的想法。為此,西蒙及其研究團隊嘗試用機器再現歷史上的科學發現過程,他們研制了BACON系列程序,這些程序不僅重新發現了波義耳定律、開普勒行星運動第三定律、理想氣體定律等多種定律和函數關系,而且還涉及一些定性定律的再發現、結構模型的再發現和過程模型的再發現、以及實驗過程設計的再現等方面。他們還設計了GLAUBER 程序和DALTON程序等。GLAUBER程序能再發現酸和堿的概念以及有關的定性定律;DALTON程序能夠模擬多重化學反應,甚至可以應用于粒子物理學和經典遺傳學,比如發現孟德爾(G.Mendel)遺傳學定律。另外一個科學再發現模型是列納特(D.B.Lenat)開發的AM程序。AM能在初等數學和集合論中重新發現概念和假設,比如發現加法、乘法、素數等概念以及哥德巴赫猜想等等。“這些再發現程序使科學發現邏輯的研究重新興旺起來,為思考發現的邏輯是否存在,及其能否作為科學哲學合法研究主題問題的研討,提供了新的論域。”⑤樊陽程:《科學創造力的機器發現研究述評》,《自然辯證法研究》2007年第11期,第40頁。

科學假說或理論的評價問題也是早期機器發現專家努力的目標之一。著名認知科學家薩伽德(P.Thagard)用聯結主義方法開發了ECHO 程序來評判相互競爭的理論假設的優劣問題。ECHO程序對科學中許多對立的理論進行過對比分析,比如,ECHO對氧化理論和燃素說、進化論和神創論、哥白尼天文學和托勒密天文學等學說的優劣進行了評判。

除了模擬或重建歷史上的科學發現過程和對理論假設進行評價外,機器發現還嘗試進行真正的科學發現。例如:“AUTOCLASS系統通過對紅外光譜的分析,擴展了原先主要基于可見光譜分析的恒星分類學;RL系統能發現有經濟價值的化學藥品的致癌性的定性規律;PRPGOL系統能應用于基因變異中化學因素的發現;GRAFFITI系統在數論和其他離散數學領域中產生的猜想已經引發了數學領域學者的研究興趣;MECHEM系統自動發現了乙烷氫化裂解反應的新機理;PAULI系統得到了能解釋產生守恒定律的歷史數據的新守恒定律;LAGRAMGE 系統發現了生態行為的時間定律等。”①樊陽程:《科學創造力的機器發現研究述評》,《自然辯證法研究》2007年第11期,第41頁。早期的機器發現研究雖然取得了一系列成果,但由于數據、算法和算力的局限性,機器發現取得的成果非常有限,進一步的發展需要等待計算機在數據、算法和算力方面取得突破性進展。

(二)AI加速科學發現:AI for Science

隨著數字化時代到來,計算機和高通量實驗儀器成為科學研究的基本工具。AI不僅模擬感知智能,而且還模擬認知智能和決策智能②Xu Y., Liu X., Cao X., et al. “Artificial intelligence: A powerful paradigm for scientific research”, The Innova‐tion,2021,2(4),p.2.。AI通過整合計算機科學、數學、神經科學和機械工程等學科的思想,具備科學與技術的雙重特性。AI帶來的“數據、算法、算力”三位一體的計算方式極大提升了應對海量數據處理和復雜系統求解的能力。在數據驅動與模型驅動兩種方法的有效整合下,AI驅動的科學研究——AI for Science模式——在設計科研框架、揭示科學定律和知識、提升數值模擬速度和準確度方面取得了巨大的成績。以蛋白質三維結構解析為例,傳統的實驗室方法復雜且難以得出有意義的結果,AI的應用則迅速推進了此類研究的進展:2014年領域內開始通過ML方法預測蛋白質二維結構,預測準確率在一年間突破80%;2016年AlphaGo以4∶1戰勝頂尖棋手時,AI預測蛋白三維結構的嘗試也悄然展開③Wang S.,Li W.,Liu S.,et al.“RaptorX-Property:a web server for protein structure property prediction”,Nucle‐ic acids research,2016,44(W1),pp.430-435.,2017年就實現了以DL方法對蛋白質結構氨基酸間空間距離的預測,并被用以搭建AI預測系統Alpha Fold;2020年,Alpha Fold 2在第14屆國際蛋白質結構預測競賽(CASP14)中以絕對優勢奪冠,引起世界關注。當前,AI for Science的可行性和適應性已在更廣泛的應用場景中被證實,如藥物和材料設計、求解薛定諤方程和控制論方程、加速分子和空間模擬等等,AI正在幫助加快走完科學研究和技術創新之間的最后一公里。

(三)科學對AI的逆向賦能:Science for AI

值得一提的是,科學的進步也在啟發機器學習理論(Science for AI),助力神經網絡模型訓練方法的持續迭代。生物學和神經科學一直是AI發展的靈感原型,上世紀中期受生物神經細胞啟發而設計的感知機(perceptron),是神經網絡模型和現代DL算法的重要基礎,前沿的CNNs中神經計算的數個標志也源自哺乳動物視覺皮層單細胞對視覺輸入的獨特處理④Holzinger A., “Introduction to machine learning & knowledge extraction (make) ”, Machine learning and knowledge extraction,2019,1(1),pp.1-20.。近年來,大型復雜系統的對稱性、大規模自由度、多尺度和多分辨率動態等特征對科學仿真和ML技術提出更高的要求。例如,量子計算實現了更高性能的量子機器學習,量子增強、量子比特和連續變量(continuous variable)量子強化了生成模型(generative model)的表達⑤Dunjko V., Briegel H. J., “Machine learning & artificial intelligence in the quantum domain: a review of recent progress”,Reports on Progress in Physics,2018,81(7):074001,pp.1-116.;統計力學的物理分析方法為深度學習的表達、信號傳播和泛化等理論原則提供了概念性解答①Bahri Y., Kadmon J., Pennington J,. et al. “Statistical mechanics of deep learning”, Annual Review of Con‐densed Matter Physics,2020,11,pp.501-528.。此外,用智能材料升級的計算機和智能機器的設備和芯片,必將大幅度促進AI在所有領域的發展和應用,AI研究正在致力于開發能夠從先前經驗中自主學習的軟件,如ChatGPT4,甚至嘗試實現全自動的無人研究閉環②Shahriari B.,Swersky K.,Wang Z.,et al.“Taking the human out of the loop:A review of Bayesian optimization”,Proceedings of the IEEE,2015,104(1),pp.148-175.,將會以智能化搜索和數字孿生助力科技創新與制造。

可見,兼具跨領域知識和人機合作創新的“AI+Science”(包含AI for Science和Science for AI)形成了AI和科學之間的雙向賦能,并將持續推動二者間的循環加速發展。

二、AI驅動下的傳統科研領域

(一)生命科學領域

生命世界具有高度的復雜性和多樣性,在后基因組時代,生物技術的數字化和數據驅動的高性能計算平臺對生命科學研究越發重要。AI技術提高了探索生物過程及其相關機制的效率和精度,引領著生命科學研究“從顛覆性使能技術(enabling techonology)創新走向工程化平臺建設”③趙國屏:《合成生物學:開啟生命科學“會聚”研究新時代》,《中國科學院院刊》2018年第11期,第1141頁。。

1.組學研究

基因是人類生存的密碼,其表達水平與疾病的篩查、檢測和治療休戚相關。AI參與進行的分子生物學研究范圍已經覆蓋了從基因到表型的關鍵過程與機制,研究對象涉及DNA序列、DNA的化學修飾和開放程度、組蛋白的分布和化學修飾、RNA及RNA的轉錄后修飾、蛋白質、代謝通路和代謝產物④Caudai C., Galizia A., Geraci F., et al. “AI applications in functional genomics”, Computational and Structural Biotechnology Journal,2021,19,pp.5762-5790.。DNA序列和DNA在細胞核內的組織方式和折疊狀態是調控基因表達水平的關鍵因素,通過AI理解基因調控過程的方法能夠高效全面地整合和解釋高通量測序獲得的組學信息。例如,基于CNNs的Akita⑤Fudenberg G.,Kelley D.R.,Pollard K.S.,“Predicting 3D genome folding from DNA sequence with Akita”,Na‐ture methods,2020,17(11),pp.1111-1117.僅依靠DNA序列就準確預測出基因組的三維空間結構,揭示DNA序列如何編碼一個特定基因座的折疊模式,解碼基因組功能。基于DL的Enformer⑥Avsec ?.,Agarwal V.,Visentin D.,et al.“Effective gene expression prediction from sequence by integrating longrange interactions”,Nature methods,2021,18(10),pp.1196-1203.提高了對基因序列表達及其單個位點變體效應的預測精度,并學會直接從DNA序列中預測增強子-啟動子的相互作用,推進了疾病-位點映射研究前沿。細胞對基因擾動的反應一直是基因藥物組學的重要問題,但可能的多基因擾動組合數量巨大,傳統實驗難以覆蓋,而GEARS方法⑦Roohani Y., Huang K., Leskovec J., “GEARS: Predicting transcriptional outcomes of novel multi-gene perturba‐tions”,BioRxiv,2022,2022.07.12.499735,p.5.實現了根據單細胞RNA測序數據預測細胞對單基因或多基因擾動的轉錄反應,并泛化到訓練集尚未覆蓋的基因擾動,其預測精度是先前方法的翻倍。

2.智慧醫療

自然語言處理、計算機視覺和數據挖掘正在快速推動智慧醫療的發展。自然語言處理的著名應用案例是IBM Watson平臺開發的腫瘤專家系統“沃森醫生”(Doctor Watson),可利用病例、病史和文獻知識儲備提供治療建議,以提高不同病情的診斷率。計算機視覺中的許多模型可用于醫學圖像的分類、檢測和分割任務,幫助識別異常和診斷疾病。例如,算法對黑色素瘤可疑色素病變的自動識別準確率與專業醫師診斷間的一致性高達88%①Soenksen L.R.,Kassis T.,Conover S.T.,et al.“Using deep learning for dermatologist-level detection of suspicious pigmented skin lesions from wide-field images”,Science Translational Medicine,2021,13(581):eabb3652,p.1.;針對宮頸癌開發的AI醫療工具突破了組織病理學檢測水平和醫生個人經驗的限制,利用臨床數據庫提高了篩查效率②Bao H.,Sun X.,Zhang Y.,et al.“The artificial intelligence‐assisted cytology diagnostic system in large‐scale cer‐vical cancer screening: a population‐based cohort study of 0.7 million women”, Cancer medicine, 2020, 9 (18),pp.6896-6906.。醫療效率方面,基于ML的預測或預后模型利用覆蓋遺傳、臨床和人口特征的醫藥大數據平臺,準確預測患者的藥物反應以指定最佳處方,提高了重度抑郁等疑重癥的診治效率③Taliaz D., Spinrad A., Barzilay R., et al. “Optimizing prediction of response to antidepressant medications using machine learning and integrated genetic, clinical, and demographic data”, Translational psychiatry, 2021, 11 (1),p.381.。精準醫療是近年來迅速發展的新興概念,根據個體的基因組學信息、遺傳學和生活方式等因素,定制個體化的精確診斷、用藥及醫療方案。隨著對基因-疾病關系的深入了解,AI技術在精準醫療中的應用更加全面,主要涉及基于測序和醫學成像的疾病早篩④Dlamini Z.,Francies F.Z.,Hull R.,et al.“Artificial intelligence (AI) and big data in cancer and precision on‐cology”,Computational and structural biotechnology journal,2020,18,pp.2300-2311.,依據組學數據的靶向藥物選擇⑤Yang Y., Yang J., Shen L., et al. “A multi-omics-based serial deep learning approach to predict clinical out‐comes of single-agent anti-PD-1/PD-L1 immunotherapy in advanced stage non-small-cell lung cancer”,American jour‐nal of translational research,2021,13(2),p.743.,以及基于基因編輯技術⑥Choi G. C. G., Zhou P., Yuen C. T. L., et al. “Combinatorial mutagenesis en masse optimizes the genome editing activities of SpCas9”,Nature methods,2019,16(8),pp.722-730.和核酸藥物成藥性⑦Wei J., Chen S., Zong L., et al. “Protein–RNA interaction prediction with deep learning: structure matters”,Briefings in bioinformatics,2022,23(1),p.540.的基因治療。

3.藥物研發

傳統的藥物研發是一個投入成本高昂且產出高度不確定的復雜過程,經歷信號通路研究,蛋白結構解析,藥物作用位點探索,藥物分子設計和發現,以及藥物分子活性優化后才能進入臨床試驗⑧Paul D.,Sanap G.,Shenoy S.,et al.“Artificial intelligence in drug discovery and development”,Drug discovery today,2021,26(1),p.80.。AI通過賦能藥物靶點、藥物分子和二者間親和力(相互作用力)這三個關鍵層面的研究,正在引領藥物研發,尤其是藥物設計、藥物篩選和藥理檢測,走上降本增效的高速路。藥物靶點解析方面,通過采用DL算法,Alpha Fold 2預測人類蛋白質組三維結構的范圍提升至98.5%⑨Tunyasuvunakool K., Adler J., Wu Z., et al. “Highly accurate protein structure prediction for the human pro‐teome”,Nature,2021,596(7873),pp.590-596.,并實現了對RNA近天然態結構的高精度優化①Xiong P., Wu R., Zhan J., et al. “Pairing a high-resolution statistical potential with a nucleobase-centric sam‐pling algorithm for improving RNA model refinement”,Nature Communications,2021,12(1):2777,pp.1-2.。藥物設計與合成方面,2018年提出使用深度神經網絡和符號AI來發現逆向合成路線②Segler M. H. S., Preuss M., Waller M. P., “Planning chemical syntheses with deep neural networks and symbolic AI”,Nature,2018,555(7698),pp.604-610.,比傳統的計算機輔助搜索速度要快30倍,產生的分子數量幾乎是后者的兩倍。近期,深度圖像生成模型Deep LigBuilder③Li Y., Pei J., Lai L., “Structure-based de novo drug design using 3D deep generative models”, Chemical sci‐ence,2021,12(41),pp.13664-13675.推進了基于結構的新藥設計和線索優化,通過從頭藥物設計策略實現了具有高度藥物親和力的類藥分子的三維構象。基于DL模型的AI工具Deep Tox④Mayr A., Klambauer G., Unterthiner T., et al. “DeepTox: toxicity prediction using deep learning”, Frontiers in Environmental Science,2016,3,p.80.通過識別藥物分子的靜態和動態特性來預測分子毒性,在擴展藥物篩選維度的同時提升藥物可用性檢測的效率。蛋白-蛋白親和力計算的主要難題在于蛋白間作用位點的采樣數量巨大,且蛋白動態構象變化難以用傳統方法描述。對此,AI能夠快速處理復雜的動態數據,擅長高維空間的搜索;神經網絡的高維表示能力也為高效采樣提供了解決方案⑤Wang D., Wang Y., Chang J., et al. “Efficient sampling of high-dimensional free energy landscapes using adap‐tive reinforced dynamics”,Nature Computational Science,2022,2(1),pp.20-29.。關于蛋白動態構象研究,常用的分子動力學模擬計算法受到力場精度和采樣效率的限制而成本過高,而ML模型idp GAN⑥Janson G., Valdes-Garcia G., Heo L., et al. “Direct generation of protein conformational ensembles via machine learning”,Nature Communications,2023,14(1),p.774.實現了通過模擬數據進行訓練,直接生成物理上真實的蛋白質構象集合,還能泛化到訓練集以外的構象,使得計算成本可以忽略不計。

(二)物理科學領域

在物理學領域,ML憑借其自適應配置和數據處理,特別是圖像重建與分析方面的優勢,在相應的粒子物理學、核物理學、凝聚態物理學和宇宙物理學中都發揮著重要作用。AI正在幫助加速粒子的模擬與識別。在超級計算機上使用馬爾可夫鏈蒙特卡洛模擬方法來研究夸克間強相互作用力的非擾動特性時,難以避免拓撲凍結和臨界減速,而DL通過提出和測試新算法克服了此類困難⑦Foreman S., Jin X. Y., Osborn J. C., “Deep Learning Hamiltonian Monte Carlo”, arXiv preprint arXiv:2105.03418,2021,p.1.。不僅如此,ML還可以縮減物理觀測數據的方差,通過區分信號和廣泛的背景事件來優化數據信噪比和縮短生成數據的時間成本⑧Zhang R., Fan Z., Li R., et al. “Machine-learning prediction for quasiparton distribution function matrix ele‐ments”,Physical Review D,2020,101(3):034516,pp.1-19.。核探測方面,傳統探測法通過脈沖信號的不同波形(脈沖信息分布)來進行分離與識別,但只能處理單脈沖波,ML通過對波形組合的分類實現了多脈沖波的特征分析,甚至能夠改進和重建算法,使探測效率高且誤差小。凝聚態物理學方面,AI模型顯示出捕捉原子間力場(描述原子間的相互作用)的巨大優勢,不斷推進分子動力學模擬方法的發展。一些AI原子間勢模型已經被開發出來,DimeNet⑨Gasteiger J.,Gro? J.,Günnemann S.,“Directional message passing for molecular graphs”,arXiv preprint arXiv:2003.03123,2020,p.9.構建定向信息傳遞的神經網絡時,能夠將原子間的鍵長、鍵角、二面角和未連接原子間的相互作用通通加入模型中,以獲得良好的精確度。宇宙物理學方面,觀測和數據分析在天文研究中起著核心作用。除了長期進行的銀河數據溯源和星系分類,如今基于CNNs的引力波信號實時檢測和解碼,已經能夠在2毫秒內重建所有參數,而傳統算法需要幾天時間才能完成同樣的任務①George D.,Huerta E.A.,“Deep neural networks to enable real-time multimessenger astrophysics”,Physical Re‐view D,2018,97(4):044039,p.20.。此外,已經開發出基于DL的自動智能溯源工具②Lao B., An T., Wang A., et al. “Artificial intelligence for celestial object census: the latest technology meets the oldest science”,arXiv preprint arXiv:2107.03082,2021,pp.1-28.,不僅在操作速度上有很大的優勢,而且可以識別傳統軟件和視覺檢查無法檢測到的特殊形式的物體,促進人類對宇宙的全面了解。

(三)材料科學領域

歷史上,新材料的發現和工業應用往往需要相當長的時間。2011年,美國首次提出材料基因組計劃(Materials Genome Initiative,MGI),目標至少兩倍速地提升了先進材料的發現、開發、制造和部署的進度。在MGI與大數據的不斷融合下,數據驅動模型已被視為材料研究中最有前途的方法,AI技術是獲得成分-結構-工藝-性能關系的關鍵③Pollice R., dos Passos Gomes G., Aldeghi M., et al. “Data-driven strategies for accelerated materials design”,Accounts of Chemical Research,2021,54(4),pp.849-860.,甚至有望徹底改變材料科學。

眾所周知,當前形式的化學元素周期表是在一個世紀左右的時間里被構建出來的,而ML技術的輔助使得科學家有可能在幾個小時內重建周期表。一個名為Atom2Vec的無監督機器從已知化合物和材料的廣泛數據庫中自主學習原子的基本屬性,然后在神經網絡中運用它們來預測新材料的詳細特征,并具有顯著的準確性④Zhou Q., Tang P., Liu S., et al. “Learning atoms for materials discovery”, Proceedings of the National Academy of Sciences,2018,115(28),pp.6411-6417.。在新興的超材料領域,高分子復合材料的結構幾何和基本成分決定了對合成設計至關重要的材料參數,二者的組合變化遠超出傳統試錯法的能力。AI仿真模型則能高效高精度地實現從分子單體到鏈結構再到大分子團聚結構的多尺度建模,以探索聚合物材料的構效關系⑤Luo X., “Subwavelength artificial structures: opening a new era for engineering optics”, Advanced Materials,2019,31(4):1804680,p.1.。同時,借助ML不斷產生的新高分子聚合物數據,填補了目前數據缺乏的問題,最終實現更高性能的材料合成⑥Goldsmith B.R.,Esterhuizen J.,Liu J.X.,et al.“Machine learning for heterogeneous catalyst design and discov‐ery,AIChE Journal,2018,64(9),p.3553.。大規模的高質量數據集是AI技術擴展到材料科學研究領域的必要設施,“atomly.net”數據庫計算了超過18萬種無機化合物的特性,在此基礎上建立的ML模型,實現了快速預測幾乎任何給定化合物的形成能量,產生了相當好的預測能力⑦Liang Y., Chen M., Wang Y., et al. “A universal model for the formation energy prediction of inorganic com‐pounds”,arXiv preprint arXiv:2108.00349,2021,p.9.。近十年,拓撲(電子和聲子)材料憑借奇特的物理特性成為熱電、光學、催化和能源相關領域的新寵,而利用高通量方法建立的相關數據庫為加速篩選和實驗發現新型拓撲材料的功能應用提供了可能⑧Chen X. Q., Liu J., Li J., “Topological phononic materials: Computation and data”, The Innovation, 2021, 2(3):100134,pp.1-3.。

(四)地球科學領域

地球演化史研究、氣候變化評估、災害事件預測、自然資源計算和環境管理治理等重要地球科學問題緊密關聯著人類的生存生活與社會發展。然而,地球科學現象具有明顯的動態時空結構,其變量服從非線性關系,在不同程度上表現出不完整性、噪聲和不確定性,使得實驗手段難以有效觀測地球系統實況并探究其子系統之間和內部的聯系①Karpatne A.,Ebert-Uphoff I.,Ravela S.,et al.“Machine learning for the geosciences:Challenges and opportuni‐ties”,IEEE Transactions on Knowledge and Data Engineering,2018,31(8),pp.1544-1554.。當前,智能傳感器、圖像可視化和智能反演(intelligent inversion)等計算建模手段為解決上述難題提供了更多可能,ML算法和模式挖掘技術的整合正在幫助模擬地質演化的極端條件、從觀測中估計地學變量并預測系統走勢、解析地學數據的潛在規律,以及因果發現與推理②Toms B.A.,Barnes E.A.,Ebert‐Uphoff I.,“Physically interpretable neural networks for the geosciences:Applica‐tions to earth system variability”,Journal of Advances in Modeling Earth Systems,2020,12(9),pp.1-20.。惰性氣體同位素測年是地球早期物質演化史研究的重要途徑,例如,檢測氦在典型地殼巖石中的流失時,主要的巖漿脫氣過程要求高溫低壓的極端反應條件,已通過AI技術實現了傳統實驗和計算手段均無法滿足的精度要求,并且通過仿真得到的數據與經典分子動力學計算結果及實驗數據較為一致③Luo H., Karki B., Ghosh D. B., et al. “Diffusional fractionation of helium isotopes in silicate melts”, Geochemi‐cal Perspectives Letters,2021,19,pp.19-22.。天氣預測方面,已有研究用深度生成模型取代大氣物理方程,實現了200萬平方公里的大氣層的物理仿真④Ravuri S., Lenc K., Willson M., et al. “Skilful precipitation nowcasting using deep generative models of radar”,Nature,2021,597(7878),pp.672-677.。在基于雷達的風速估算方法來確定大致的降雨范圍上,DL繞開物理條件的約束對未來降雨率進行直接預測。此外,地質資源管理方面,自適應智能動態資源規劃系統的設計和應用是可持續自然資源管理的亮眼成果⑤Krishnan S.R., Nallakaruppan M.K., Chengoden R., Koppu S., Iyapparaja M., Sadhasivam J., Sethuraman S.,“Smart Water Resource Management Using Artificial Intelligence—A Review”, Sustainability. 2022, 14(20): 13384,pp.1-28.,AI技術發揮其在建模、靈活性、推理和預測資源需求量方面的顯著優勢,在優化資源配置的同時最小化運營成本,助力可持續性發展。

三、科研模式轉型及其挑戰

圖靈獎得主吉姆·格雷(Jim Gary)將近代以來的科學研究劃分為:經驗范式、理論范式、計算范式和作為第四范式的數據密集型范式。通過引入大數據分析,“第四范式”反映了經由信息技術和數字化技術賦能科學研究和發展的本質,適用于各科學領域。作為當下科學實踐中的一種革命性工具⑥Zdeborová L.,“New tool in the box”,Nature Physics,2017,13(5),pp.420-421.,盡管AI的科學解釋能力尚不足以生成嚴格庫恩意義上的顛覆性理論⑦趙云波:《AI預測可以代替科學實驗嗎?——以Alpha Fold破解蛋白質折疊難題為中心》,《醫學與哲學》2021年第6期,第17—21頁。,但“大數據+智能算法”模式已被集中應用于實現自動化、建模、逆向問題和發現,引發了新一輪科技革命。在2022年首屆科學智能峰會上,有專家指出AI for Science是建基于應用數學之上的機理和數據的融合計算,更將其稱作“科學研究的第五范式”①張偉:《AI賦能科研“第五范式”引變革》,《中國高新技術產業導報》2022年8月15日,第13版。。對AI for Science新范式全景及其基礎的探討,仍需對更多具體研究領域的典型案例進行基本原理和關鍵技術分析,但可以確認的是,AI for Sci‐ence已然推進了科學發現進程、擴展了科學理解途徑,并帶來了對科技倫理的挑戰。

(一)科學發現新手段

數據驅動的科學仿真,也即AI模型,成為重要的科學發現手段。科學模型是一種具有重要科學意義的理想化表征②Weisberg M.,“Three kinds of idealization”,The journal of Philosophy,2007,104(12),pp.639-659.,而AI技術為科學研究提供了一種以數據為中心的科學仿真和預測性分析方法。在樸素科學時代,解決科學問題的關鍵在于追問能否觀測并總結規律;計算機普及后,科學活動依賴于實現有效近似的多項式和計算機模擬。如今,科學活動的數字化使可用數據和計算資源迅速增加,將海量非結構性數據轉化為形式化的知識成為基本科學任務。在算法和算力的強耦合下,AI技術更頻繁地輔助研究人員創建現實世界的“數字孿生”,從混亂數據中提取洞見、開發模型或測試假設。因此,科學解謎轉型為首先尋找問題背后的可用數據和原理。參考藥物研發領域的進展,AI for Science正在走向一種融合物理模型與數據的系統處理模式,在實測數據不足的情況下,可以利用高精度物理模型生成的仿真數據反過來優化和糾正AI模型。對此,ML算法已經開發出基于領域知識和目標參數來模擬復雜系統的替代模型,例如,通過設計蛋白質折疊轉換網絡塑造了單體蛋白的多種突變途徑(不改變其四元結構而切換折疊),幫助發現了更全面的蛋白質進化機制及其變體效應③Ruan B.,He Y.,Chen Y.,et al.“Design and characterization of a protein fold switching network”,Nature Com‐munications,2023,14(1),p.431.。以Alpha Fold 2的驚人表現為例,當前生成式AI已經能夠學習先驗知識和科學原理,更將“知識”“數據”和“模型”有機結合起來,以推進科學原理的進步。從數據分析擴展到預測性分析和規范性設計,AI的前景或許不再僅僅是一種高性能工具,AI模型甚至可能成為一種新的知識形式,與人類能夠理解的知識并駕齊驅,共同組成科學知識。

(二)科學理解新途徑

科學目的除了真理、解釋和預測外,也包括科學理解的重要一環④De Regt H. W., “Understanding, values, and the aims of science”, Philosophy of Science, 2020, 87 (5),pp.921-932.。AI在科學理解中已經扮演了兩種角色:首先,放大數據規律的“計算顯微鏡”。例如,用AI自動提取以視頻形式記錄的實驗數據中的隱藏變量⑤Chen B., Huang K., Raghupathi S., et al. “Automated discovery of fundamental variables hidden in experimental data”,Nature Computational Science,2022,2(7),pp.433-442.。其次,提供創新靈感的“人工繆斯”。這類啟發通常來自于⑥Krenn M.,Pollice R.,Guo S.Y.,et al.“On scientific understanding with artificial intelligence”,Nature Reviews Physics,2022,4(12),pp.761-769.:專家對數據異常的識別、對ML模型的重新審視(如,通過反事實解釋打開算法“黑箱”)和對人工自主體(artificial agent)行為及其內在獎勵策略的探測,AI對科學文獻特殊點的自動抓取,以及算法提供的可解釋性解決方案(如,數學公式、圖論等)中的新概念。“學習”是這個時代AI研究的關鍵詞,ML本身是關于理解用來設計和開發算法的智能,其工作流涉及⑦Bengio Y., Courville A., Vincent P., “Representation learning: A review and new perspectives”, IEEE transac‐tions on pattern analysis and machine intelligence,2013,35(8),pp.1798-1828.:從原始數據中學習,提取知識,使其普遍化,對抗維度詛咒,以及破解數據背后的解釋要素,以達到在時間推移中優化自身學習行為的目的。AI先驅唐納德·米奇(Donald Michie)曾將機器學習分類為弱機器學習、強機器學習和超機器學習。最后一類不再是輔助性角色,而是作為“理解主體”直接獲得新的科學見解,并傳授給人類專家。二十世紀八九十年代,科學知識社會學家和認知科學哲學家就對“AI能否替代科學家獨立完成科學發現”問題展開過激烈論戰①曾點:《人工智能能替代科學家嗎?——再思STS的一場論戰》,《哲學分析》2023年第1期,第159—171頁。。現在,AI工具正在演化出能夠自主學習的“AI科學家”。例如,AI-笛卡爾(AI-Descartes)已然實現了開普勒行星運動第三定律的再發現②Cornelio C.,Dash S.,Austel V.,et al.“Combining data and theory for derivable scientific discovery with AI-Des‐cartes”,Nature Communications,2023,14(1):1777,pp.1-10.,通過利用符號回歸和邏輯推理尋找方程擬合數據,該系統得以確定哪些方程最符合背景科學理論,未來甚至可能自己構建背景理論。然而,哲學家們質疑先進的計算方法和理想化模型是否在根本層面上幫助人們獲得新的科學理解③Potochnik A., “The diverse aims of science”, Studies in History and Philosophy of Science Part A, 2015, 53,pp.71-80.。此類爭議的一個潛在解決方案是開發可解釋AI(ex‐plainable AI,XAI)④Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,也即解釋學習算法的內在邏輯、由學習算法產生的模型或基于知識的推理方法的發展。此外,也有研究建議對人類決策的結構因果模型進行形式化處理,并將這些模型中的特征映射到DL方法中⑤Holzinger A., Langs G., Denk H., et al. “Causability and explainability of artificial intelligence in medicine”,Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2019,9(4):e1312,p.10.。

(三)科技倫理新挑戰

盡管AI for Science表現出蓬勃生機,但AI生成內容(AI generated content)受到ML模型“黑箱”屬性的干擾仍然表現出半客觀性,在數據隱私性和決策嚴謹性方面存在隱患⑥鄧莎莎、李鎮宇、潘煜:《ChatGPT和AI生成內容:科學研究應該采用還是抵制》,《上海管理科學》2023年第2期,第15—20頁。,因而招致科技應用在倫理、公平和信任方面的持續爭議。相關熱點議題包括但不限于:如何確保AI系統的設計和使用方式的道德和社會責任,并尊重基本的人權和價值觀⑦Muller H., Mayrhofer M. T., Van Veen E. B., et al. “The ten commandments of ethical medical AI”, Computer,2021,54(07),pp.119-123.?如何確保AI系統是公平的,不會延續或放大現有的偏見或歧視⑧Angerschmid A., Zhou J., Theuermann K., et al. “Fairness and explanation in ai-informed decision making”,Machine Learning and Knowledge Extraction,2022,4(2),pp.556-579.?如何確保AI系統的透明性和可解釋性,以建立用戶和利益相關者的信任⑨Holzinger K.,Mak K.,Kieseberg P.,et al.“Can we trust machine learning results?artificial intelligence in safetycritical decision support”,Ercim News,2018 (112),pp.42-43.?以及,面對上述倫理和社會影響,應如何制定和實施有效的政策、法規和治理框架,并促進各方利益相關者間的對話和合作?目前學界普遍認為,確保研究對象在科研鏈上各環節的詳細記錄的可溯性和可驗證性是提高AI模型可信度的重要思路之一。基于該路徑搭建的溯源模型(provenance model)能夠以機器可讀的方式留存研究歷史檔案①Wittner R.,Mascia C.,Gallo M.,et al.“Lightweight Distributed Provenance Model for Complex Real–world En‐vironments”,Scientific Data,2022,9(1),p.503.,在分布式多機構協作背景下實現了對數據質量的程序化評估。另外,魯棒性和可解釋性是提升可靠性和確保AI系統時刻受控的重要因素。魯棒性的一個可能強化方法是將統計學習與知識表示相結合②Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,可解釋性則使人們得以理解和評估AI系統的決策過程,確保AI解決方案的可信度和公平性③Holzinger A., Dehmer M., Emmert-Streib F., et al. “Information fusion as an integrative cross-cutting enabler to achieve robust,explainable,and trustworthy medical artificial intelligence”,Information Fusion,2022,79,pp.263-278.。醫藥等敏感領域已對可解釋性提出強制性要求,例如,歐洲體外診斷法規(IVDR)已有明確條例對軟件和AI算法提出要求④Müller H.,Holzinger A.,Plass M.,et al.“Explainability and causability for artificial intelligence-supported medi‐cal image analysis in the context of the European in Vitro Diagnostic Regulation”, New Biotechnology, 2022, 70,pp.67-72.,針對遺傳資源獲取和共享的《名古屋議定書》(Nagoya Protocol)強調了數據的透明度、可追蹤性和可解讀性⑤Martins J., Cruz D., Vasconcelos V., “The Nagoya Protocol and its implications on the EU Atlantic Area coun‐tries”,Journal of Marine Science and Engineering,2020,8(2),p.92.。在具體策略上,還可以考慮對AI模型的結構和訓練過程提供清晰的文件和說明,使用可解讀的(interpretable)模型或技術⑥Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,以及將模型的輸出和決策過程可視化等。

四、AI for Science的困境與機遇

大數據時代,利用多源異構的科學數據來推進知識前沿的追求激發了AI技術與科學研究的深度融合,但數據、知識、模型、算法、算力共同建構的AI for Science僅被挖出冰山一角,前路仍遠。一方面,作為新興技術,ML盡管取得迅猛進步,但算法難以解釋因果關系,相應模型敏感于微小的輸入差異以至產生大幅輸出變化,且部分研究領域仍存在低質量數據。要提高AI在科學研究中的可信度和可控性,尚需提高AI模型的魯棒性,并在保持準確率的前提下,降低ML模型對計算資源的依賴。從可解釋性方面來看,作為科學理解的要素,前文提及的XAI盡管被視為有前景的技術出口,但“解釋”的定義和涵蓋解釋各種屬性和維度的結構化格式尚不清晰⑦Vilone G.,Longo L.,“Notions of explainability and evaluation approaches for explainable artificial intelligence”,Information Fusion,2021,76,pp.89-106.,一些ML主導的閉環研究仍有賴于人類專家的領域知識進行概念性理解和決策。

AI for Science已成為全球新前沿,AI協助的科技創新發展對國家經濟實力和國際競爭力具有重大意義。以新材料研發為例,對材料的利用能力是人類生產力和生產方式的標志性體現,材料作為“工業骨骼”為各行業的技術進步起到基礎性和先導性作用。2014年美國將“材料基因組計劃”提升為國家戰略,配套建設了45個材料基因組創新平臺,每個平臺政府投資0.7~1.2億美元,建設周期5~7年①宿彥京、付華棟、白洋、姜雪、謝建新:《中國材料基因工程研究進展》,《金屬學報》2020 年第10 期,第1313—1323頁。。包括我國在內的多個國家也迅速啟動類似的研究計劃,爭取在新一輪材料革命中占得先機。事實上,針對我國高科技人才短缺和AI生態系統不成熟的問題,國內已擁有良好的AI技術基礎和全球最龐大的人口市場,突破口在于針對未來發展趨勢展開前瞻性規劃和相應的基礎研究②陸成寬:《中國科學院院士楊金龍:讓AI for Science更好服務國家戰略需求》,《科技日報》2023年5月22日,第5版。。近期,為落實國家《新一代人工智能發展規劃》,科技部會同自然科學基金委啟動了“人工智能驅動的科學研究”專項部署工作,點名藥物研發、基因研究、生物育種、新材料研發等重點領域的科技研發體系布局。可見,我國AI for Science發展的當務之急在于為重大科學問題研究建設專用平臺,鼓勵建設計算與智算融合的科研生態體系和更多的開放科學數據。從文章第二部分的案例中發現,AI方法在科學領域內的發展和普及通常是由一個既定科學問題推動的,而成功的最佳途徑是AI技術員在各個科研環節與科學家緊密合作。因此,跨領域融合的科研組織模式與跨學科重構的綜合人才培養是拉動創新平臺建設與專項研究的重要基礎,也是推進資源整合和政策合力的重要一環。首先,需要鼓勵科研人員積極接納和學習AI工具和手段,在國家戰略性需求領域的科學難題上實現技術突破,推進我國在基礎科研的國際競爭中的主動地位。其次,除了實現AI技術創新的人工智能人才,更需要高校建立跨學科的人才培養體系,通過設置交叉學科來培養能夠快速適應智能手段,甚至快速將技術創新轉化為實用科研設計的高層次人才。最后,要建設開放創新的專項智研平臺與公共大數據平臺,并制定配套的AI治理原則、數據安全規范和跨學科交叉研究政策。只有實現“項目、平臺、人才”三方合力的可持續發展聯合體,才能全面提升我國AI驅動的科學研究自主能力與范式變革。

五、結 語

加快新一代AI的發展是我國的一項關鍵戰略,旨在促進科技發展,升級各工業領域,并提高整體生產力。最大限度地發揮AI在基礎科研領域的潛力,要求更健康的科研體系布局與多方協作,實現研究機構、投資者、企業和市場之間的合作和知識轉移。可以設想,在“AI+物理模型+高性能計算+自動化實驗”的基礎上,以“搜索”為核心的精準仿真建模和重新設計(de novo de‐sign)有望真正實現“以終為始”——從需求出發升級工業設計和智能制造,重塑相關行業的技術標準和商業模式,最終推動我國的制造業轉型和實體經濟發展。因此,為更好地利用AI for Sci‐ence帶來的科研范式革命的機遇,我們應當鼓勵科學工作者積極擁抱AI for Science,加快AI for Science的科學研究平臺建設,挖掘AI for Science在各類科學研究中的潛力,使AI for Science在科學研究中最大限度地發揮作用,更好地服務國家戰略需求,以增強我國的科學研究實力,確保這一領域在國際競爭中處于世界前列。

猜你喜歡
科學模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
點擊科學
點擊科學
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
3D打印中的模型分割與打包
科學
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
科學拔牙
主站蜘蛛池模板: 97视频精品全国在线观看| 黑人巨大精品欧美一区二区区| 亚洲无线一二三四区男男| 欧美日一级片| 国产成a人片在线播放| 欧美日韩午夜| 婷婷色一二三区波多野衣| 四虎在线观看视频高清无码| 97视频免费看| 国产极品美女在线观看| 在线观看亚洲国产| 激情综合图区| 天天躁夜夜躁狠狠躁躁88| 中文字幕欧美日韩| 在线免费a视频| 日韩a级片视频| 国产成人av大片在线播放| 日本亚洲成高清一区二区三区| 精品视频第一页| 国产在线精彩视频论坛| 久久国产香蕉| 人妻熟妇日韩AV在线播放| 一级全免费视频播放| 日韩黄色在线| 就去吻亚洲精品国产欧美| 无码网站免费观看| 国产青青草视频| 亚洲无码高清一区| 久久国产高潮流白浆免费观看| 亚洲AV一二三区无码AV蜜桃| 手机在线看片不卡中文字幕| 亚洲视频欧美不卡| 日韩a级毛片| 欧美激情第一欧美在线| 一区二区三区在线不卡免费| 欧美激情视频二区三区| 中文字幕啪啪| 国产成人精品第一区二区| 久久国产精品嫖妓| 亚洲成人在线免费| 精品福利网| 国产亚洲精品资源在线26u| 蜜桃视频一区二区| 中文国产成人精品久久| 日本欧美午夜| 亚洲美女操| 精品国产福利在线| 中国国产高清免费AV片| 99热最新网址| 99精品视频在线观看免费播放| 国产精品部在线观看| 国内精品久久九九国产精品| 欧美高清视频一区二区三区| 亚洲国产欧美自拍| 日韩国产另类| 在线高清亚洲精品二区| 国产成人高清精品免费| 波多野结衣在线se| 无码国产偷倩在线播放老年人| 国产色网站| 亚洲国语自产一区第二页| 真实国产乱子伦高清| 极品尤物av美乳在线观看| 欧美成人精品在线| 亚洲三级电影在线播放| 男女男精品视频| 亚洲男人在线天堂| 91福利在线看| 国产成人乱无码视频| 中文字幕波多野不卡一区 | 国产欧美精品专区一区二区| 亚洲精品福利视频| 自拍亚洲欧美精品| 18禁影院亚洲专区| 成人国产精品2021| 国产九九精品视频| 国产免费a级片| 在线看国产精品| 在线国产91| 国产办公室秘书无码精品| 日韩精品免费在线视频| 亚洲国产精品国自产拍A|