許林玉/編譯
科學發現能否實現自動化?
許林玉/編譯

● 科學進步的速度只能與人類思考的速度保持同步,而將這一工作外包給人工智能也許能改變這一狀況。
科學正在遭遇一場數據危機。去年,僅生物醫學領域就發表了120多萬篇新論文,使經同行評議的生物醫學論文總數超過2600萬篇。然而,一名普通的科學家一年閱讀的論文只有250篇左右。與此同時,科學文獻的質量一直呈下降趨勢。最近的一些研究表明,大多數生物醫學論文無法復制。
科學論文面臨的數量太多而質量欠佳的雙重挑戰根源于人類心智的有限神經容量。科學家們在我們集體知識的越來越小的部分上形成假說,因此,他們所探究的很多問題本身就是錯誤的,或者已經有了答案。此外,人類的創造力似乎越來越多地依賴于以往經驗的隨機性——能夠讓研究人員注意到別人沒能注意到的特殊生活事件。盡管契機一直是科學發現的一大因素,但目前它所發揮的作用大大超出了應有的作用。
化解當前危機的一個有前景的策略是將機器和人工智能應用于科學過程。機器的存儲能力和計算能力均高于人腦。科學過程的自動化可大幅加快科學發現的速度,甚至可能開啟一場新的科學革命。這種巨大的可能性取決于一個同樣重大的問題:科學發現真的可以實現自動化嗎?
通過使用一種我們在幾個世紀以前就熟悉的方法,我相信可以做到這一點。這個問題的答案可以從17世紀英國哲學家和現代科學先驅弗朗西斯·培根爵士(SirFrancisBacon)的著作中找到。
早在幾百年前,強調經驗主義和實驗的伊本·艾爾-海什木(Ibnal-Haytham)等思想家就率先重申了這種科學方法。然而,最先正式構建這種科學方法并使其成為研究主題的人卻是培根。在培根所著的《新工具論》(1620)中,他提出了一個現在仍被稱作培根法(Baconianmethod,又作培根歸納法)的發現模式。他反對用演繹推理的邏輯進行科學綜合,認為這種方法并不可靠。相反,他提出了一種方法——使用歸納邏輯生成可概括的思想,系統收集有關某一特定現象的觀察結果,然后將其列成表格并進行客觀分析。在他看來,只有當思想不被殘缺(因此是錯誤的)的公理禁錮時,真理才會顯現。
培根法試圖通過描述科學綜合的步驟并且分別對其進行優化,去除觀察和概念化過程中出現的邏輯偏見。培根希望利用一個觀察者群體收集大量關于自然的信息,并將其匯總為可以進行歸納分析的重要記錄。在《新工具論》中,他寫道:“經驗主義者好比螞蟻,它們只是收集物品加以利用。理性主義者如同蜘蛛,它們只是吐絲結網。而蜜蜂的方法最好,它們采取一種折中的辦法:采用現成材料并對其加以利用。
如今,培根法已經鮮有人使用。事實證明,這種方法太過費力,而且代價高昂,技術應用也都不甚明朗。然而,在當時,這樣一種科學方法的規范化可謂是革命性的進步。此前,科學屬于形而上學,只有少數知識淵博的人才能涉足其中,而他們大多出身貴族。培根否認了古希臘人的權威,并對發現的步驟進行了闡釋,描繪出一幅無論出身貴賤,人人皆可成為科學家的藍圖。
培根的見解還揭示了一個隱藏的重要真相:發現過程具備固有的算法。它是數量有限的步驟的結果,這些步驟會不斷重復,直到出現有意義的結果。在描述他的方法時,培根明確使用了“機器”一詞。他的科學算法有三個基本要素:第一,必須將觀察結果收集起來,并整合到整個知識語料庫中。第二,新的觀察結果要用于生成新的假設。第三,通過精心設計的實驗對假設進行檢驗。
如果科學是算法,那么它肯定具有實現自動化的潛力。幾十年來,這個未來主義的夢想一直被信息和計算機科學家無視。在很大程度上,這是因為科學發現的三個重要步驟處于不同的層面。觀察屬于感覺層面,假設的生成屬于精神層面,而實驗屬于機械層面。科學過程的自動化要求機器在每一個步驟中都能夠有效配合,并且三個層面能毫無摩擦地互相傳輸。沒有人知道如何做到這一點。
近來,實驗已經取得了重大進展。例如,制藥行業普遍使用自動化的高通量藥物設計平臺。設在美國加州的Transcriptic和EmeraldCloudLab等初創公司正在構建系統,讓每一個生物醫學科學家從事的體力活都實現自動化。科學家可以在線提交他們的實驗,而這些實驗會在網絡上轉換成代碼,并被輸送至可開展一系列生物實驗的機器人平臺。這些解決方案與需要進行密集實驗的相關學科(如分子生物學和化學工程)存在極大的關聯性,但類似的方法也可以應用于其他數據密集型領域,甚至延伸至理論學科。
自動化的假設生成并沒有那么先進,但唐·斯旺森(DonSwanson)在20世紀80年代開展的工作向前推進了重要的一步。他證明了科學文獻中的不相關概念之間隱藏聯系的存在。他利用簡單的演繹邏輯框架,在引文無重疊的各個領域的論文之間建立了聯系。通過這種方式,斯旺森在未進行任何實驗,自己也不是食用魚油和雷諾綜合癥領域的專家的情況下,做出了這樣的假設:食用魚油和雷諾綜合癥之間存在新奇的聯系。最近出現的其他方法,如芝加哥大學安德烈·柴斯基(AndreyRzhetsky)和東北大學阿爾伯特-拉斯洛·巴拉巴斯(Albert-LászlóBarabási)使用的方法,均建立在數學建模和圖論的基礎之上。他們將巨大的數據集合并在一起,數據集里的知識被設計成網絡,其中節點表示概念,而鏈接表示它們之間的關系。新的假設將會展現為節點之間未被發現的鏈接。
在自動化過程中,最具挑戰性的步驟是如何收集大量可靠的科學觀察結果。目前,人們尚未從觀察層面建立可容納人類所有科學知識的中心數據庫。自然語言處理已經發展到了一個臨界點,它不僅可以自動提取出關系,還可以從科學論文中提取語境。然而,主要的科學出版商已經對文本挖掘加以嚴格限制。更重要的是,論文的文本偏向于科學家的解釋(或誤解),而且包含難以提取和量化的復雜合成概念和方法。
然而,最近在計算機和網絡數據庫方面的進展使培根法在歷史上第一次成為現實。甚至在科學發現能夠實現自動化之前,只要純粹的還原論超出適用范圍,那么培根法就是極具價值的。
在大數據時代,人類的思維無法有效重建高度復雜的自然現象。結合還原理念的現代培根歸納法,可以通過數據挖掘(再以歸納計算模型分析這些信息)改變我們對自然界的理解。通過這樣的方法,我們可生成更有可能是正確的新奇假設,填補人類知識的空白。它還提供了一個人們所急需的提醒,即科學應該追求真理、反對權威并享有無限自由。
[資料來源:TheAtlantic][責任編輯:朝 云]