
人工智能的運用正在讓許多研究領域煥然一新。
一個新出現的人工智能工具幫助專家填補殘缺的文本,估量古希臘銘文的年代和來源。
人工智能會讓許多工作變得自動化,進而消滅某些工作崗位,這種可能性正在穩步推進到越來越多的領域中。現在,這波浪潮甚至拍打到古代世界研究這片僻靜海岸上。近期《自然》雜志刊登的一篇論文中,揚尼斯·阿薩埃爾(Yannis Assael)等人介紹了一個名叫“伊薩卡”的人工智能工具,它的研發初衷就是將深度學習引入到古典學研究和古希臘抄寫文本(這些文本最初是鐫刻在石頭上)解譯工作中來。然而,這項進展不應該被解讀為針對數千年的傳統銘文研究(銘刻學)的一個威脅,更準確地說,它是銘刻學的一項補充。
對于歷史的研究總是基于并不充足的證據,研究的歷史離我們越是遙遠,證據越是殘缺不齊。歷史學家經常利用假設來跨越缺口,也常常修正他們的假設。在銘刻學的例子中,上述做法完全屬實。銘刻學家不得不基于勤勉的學習和豐富的經驗發展各種技巧,填補那些殘缺文本中的訛缺之處,再評估材料的年代和出處。迄今為止,這項工作通常都依賴學者群體的豐富經驗。這些學者逐步學會識別特定社會的語言慣例和慣常程序(比如批準法令的流程)。伊薩卡工具提供了一種基于計算機處理這些任務的方法,并利用深度學習來復制和改進結果。這類方法能激起我們的真實恐懼——害怕人類的理解可能變得多余,這些害怕心態與其他專門知識領域中感受到的憂慮并無不同。
在人文學科領域,古典學學者一直令人驚訝地領先潮流,積極采用數位工具來呈現和利用研究材料。多個早期資源庫——譬如珀耳修斯數字圖書館中豐富的古希臘和拉丁文本收藏——構想于20世紀80年代,在90年代以光盤形式供人獲取,在21世紀初轉移到互聯網上。這些項目的早期誕生意味著,許多項目的設立意圖是作為搜索工具。從那時起,互聯網一直被用來呈現資料(用其他方式發表的話,花費會昂貴得令人打消主意),譬如開創性的文德蘭達木牘線上發表。那些木牘是公元一世紀晚期和二世紀早期駐扎在哈德良長城附近的古羅馬士兵和他們家人之間的通信載體。
這種采用數位形式保存文本資源的做法激勵并促進了伊薩卡的研發,因為它為人工智能工具提供了一種方便獲取的訓練數據集。阿薩埃爾和同事們利用的最主要的資源是帕卡德人文研究所的“可搜索古希臘銘文”數據集。該資料庫并非隨機收藏的文本材料,而是提供了178 551份早已由學者鑒定過的抄寫文本,所有可辨認的字詞和不可辨識的缺損都得到仔細的描述。另一個可用的工具是牛津大學的《古希臘人名辭典》。伊薩卡利用這些專業資料,并予以擴展,模擬了學者的神經過程。
對這些資源的使用使得伊薩卡學會人名、特定地點與時期的銘文語言中存在的流行模式。論文作者們再用伊薩卡工具來評估一組殘缺文本,給出缺失文本復原的建議,同時給出對于文本出處和具體年代的意見。將伊薩卡給出的結論與專業學者相應的鑒定結論進行比較后,論文作者們發現,伊薩卡提供了準確性顯著更高和信息更為豐富的結果。
文德蘭達木牘上的通信書寫在容易腐壞的木片上,很偶然才保存下來。在希臘-羅馬世界的區域內,優質的石材容易獲得,公共和私人文件常常是刻在石頭這種更加結實的材料上。一些石板以相當完整的形式幸存下來,但歲月的流逝已經使得更多石板變成碎片。這些文本的發現和發表起始于19世紀早期,已經讓我們對遙遠過往的認知煥然一新。這種細致的工作在繼續修正我們對古雅典世界的理解。古雅典產生了許多記錄,雅典周圍的山嶺提供了豐富的優質大理石,那些記錄能輕易地鐫刻在大理石上。
結果就是,對于古代世界的研究最初幾乎完全聚焦于文學文本,如今已經擴大范圍,與廣泛的史料打交道,從購物清單到詩文,一應俱全。銘文隨時都能給出新信息,闡明古代人的家庭生活、經濟或政治情況,并要求我們不斷重新評估我們認為自己已掌握的信息。這些具有挑戰性的資料也許來自新發掘的考古發現,或者來自運用伊薩卡之類工具對我們以為自己了解的材料進行的重新分析。
伊薩卡發現新信息的潛力清楚可見,它不是要取代鑒定專家的知識,而是給予它“渦輪增壓”式的推動。人類的希望和期待很容易歪曲我們的視野,但伊薩卡工具處理任何殘缺文本時都不帶人類的偏見。它能始終如一地處理不同文本,無論是明顯很重要的文本,還是看起來無足輕重的文本。重要的是,對于“缺失處的相應文字可能是什么”的問題,伊薩卡不是提供一個固定的答案,而是提供一組按照可能性高低來排列的答案。伊薩卡項目的宗旨是“將歷史學家和深度學習之間的合作潛力最大化”。學者沒有被人工智能取代,相反地,伊薩卡的行為像獵犬一樣,為學者尋找蛛絲馬跡,但不會做出最終決定。
我們使用教學的語言來描述一個人工智能工具的開發。“教”迫使我們分析和解釋我們所做的事;這正是我們致力于將技能和累積的知識傳授給下一代時所進行的步驟。伊薩卡建立在學術圈提供的訓練數據集基礎上,并將現有的分析原則予以擴展。面對這樣的鑒定工具,與其共事,會得出重要的新知識,但它應該也會幫助學者更好地理解自身的心智歷程。人工智能的運用應該不會導致學者冗余,而是挑戰學者們對于他們自認為熟知的東西的認識。
資料來源 Nature