引" 言
隨著計算方法和人工智能的興起,人文學科的研究格局正在經歷一場深刻的變革。二十多年前,佛朗哥·莫萊蒂提出的“遠讀”概念引入了一種全新的研究范式:學者不再局限于細讀少數文本,而是可以利用計算機分析成千上萬的文本,從而揭示大規模的文學現象和規律。這標志著一個方法論的轉折點,“對極少數文本的精讀”已難以滿足人文學科對宏觀規律的探索需求。此后數年里,數字人文學科蓬勃發展,斯坦福文學實驗室等研究團體利用算法大規模地繪制情節結構和識別文類。與此同時,以GPT為代表的強大生成式人工智能的出現,正對人文學科中的作者身份、創造力及學術實踐提出新的挑戰。
本文旨在審視人工智能如何影響人文學科的未來,探討從“遠讀”到計算批評的關鍵創新、學術辯論、方法論與倫理挑戰,以及數字增強時代人文學科的前瞻方向。
方法論創新:從遠讀到
計算批評
數字時代人文學科的標志性創新之一是遠讀,該術語由莫萊蒂于2000年提出,用以指代對文本進行大規模的計算分析。莫萊蒂以“圖表、地圖、樹狀圖”聞名的研究,將焦點從個別的經典作品轉移到大量“未經閱讀的偉大文本”的集合上。通過對數千本書籍的模式進行計算和建模,學者們能夠發掘出僅靠細讀可能錯失的文學史洞見。例如,莫萊蒂早期的遠讀研究分析了7000部小說的標題,發現從1740年到1850年,小說標題有持續變短的趨勢,他將這一趨勢與大眾小說市場的擴張和期刊評論的興起聯系起來。這種量化視角提供了一種“無需任何直接文本閱讀”即可書寫的全新模式,優先關注系統性特征(如文類或修辭的變遷),而非個體文本的美學細節。
在此基礎上,計算形式主義浪潮在21世紀初席卷了文學研究領域。斯坦福文學實驗室發表的系列“小冊子”,展示了諸多創新技術。在《網絡理論與情節分析》中,莫萊蒂及其同事展示了如何將莎士比亞及其他作品中的人物關系繪制成網絡圖,從而量化情節結構,甚至通過網絡指標識別核心與邊緣角色。在另一本小冊子《量化形式主義:一項實驗》中測試了算法能否在無人為輸入的情況下識別文學文類——他們將《大衛·科波菲爾》輸入聚類程序,觀察程序是否將其歸類為成長小說或哥特小說,結果顯示算法具備有限的識別能力。這些項目強調,新的計算方法確實能夠在大規模語料庫中檢測出潛在的模式(情節、文類、風格),但需要人文學者靠洞察力進行驗證和解釋。
通過將文學分析的數據規模擴大,此類計算批評已取得實質性成果。在一項針對2958部19世紀英國小說的量化文學史研究中,研究者霍伊澤和勒卡克發現,19世紀英國小說中具體的描述性語言有可測量的增長,反映了從維多利亞時代的現實主義到早期現代主義這一過渡時期,小說“從講述到展示”的風格轉變。同樣,主題建模被用于繪制小說中的情感地理——斯坦福文學實驗室“倫敦的情感”項目分析了數千部小說,描繪了倫敦不同的社會空間(如客廳、貧民窟等)如何與獨特的情感基調相關聯,揭示了小說敘事中階級、空間與情感之間的長期聯系。這些研究證明算法在以前所未有的規模闡明歷史趨勢,并證實(或挑戰)現有的文學理論。
在前沿領域,生成式人工智能正作為人文學科探究的對象和工具進入大眾視野。像ChatGPT這樣的大語言模型不僅能分析文本,還能生成模仿人類寫作風格的文本。這引發了極具啟發性的疑問:人工智能能否寫出合格的文學評論?近期的實驗表明,其已達到本科生基礎水平,人類評分者幾乎無法區分人工智能與人類學生撰寫的論文。不過人工智能傾向于生成結構優美但分析膚淺的文章,缺乏人類學生所能提供的細致入微的細讀和文化語境。
隨著技術的迭代,人工智能或可承擔更多常規分析任務或初稿撰寫工作,目前,ChatGPT這樣的工具常被學生和研究者用于頭腦風暴、文獻綜述或構建論文結構,這一操作模糊了寫作中人類與機器的界限。因此,計算批評如今不僅包括對文本的算法解讀,還涵蓋了在批評行為中與人工智能的合作。這種方法的擴展要求我們批判性地評估人工智能的角色:如何能在增強人文學術探究的同時,不取代學者至關重要的批判與創造性判斷的角色。
批判性反思與學術辯論
計算方法在人文學科中的興起引發了關于其有效性和價值的激烈辯論。文學學者笪章難在2019年發表的文章《以計算的方法反對計算文學研究》中,質疑這些新研究是否真正產生了文學洞見。在回顧了一系列量化文學項目后,笪章難得出結論,大多數項目本質上是在基于詞頻統計進行“模式檢測”,然后將檢測結果包裝成文學闡釋。在她看來,各種各樣的問題(文類、風格、人物網絡等)最終都歸結為“對重疊詞匯的基本測量和統計呈現”——這與文學所要求的細致理解相去甚遠。
這一批判表明,遠讀及相關方法可能過于簡化:過度優先考慮可量化的表層特征,可能有忽略文學之所以為文學的要素(如微妙的含義、語境、反諷等)的風險。笪章難的文章引發了廣泛爭議,數十位數字人文學者和傳統學者參與辯論。
這場辯論被簡化為二元對立——計算與閱讀、數字與闡釋——一些人認為這是錯誤的二分法。例如,馬克·阿爾吉-休伊特指出,文化分析的實踐者并非簡單地讓計算機“自說自話”,而是通過批判性視角積極地闡釋統計模式。在這種觀點下,圖表和詞頻是新一輪閱讀行為的起點,而非分析的終點。
笪章難與其對話者之間的沖突最終凸顯了建立更清晰認識論的必要性:如何才能將量化數據與傳統詮釋學有效結合。
另一重要批判方向聚焦于算法偏見與透明度上,隨著人工智能技術的日益普及,這一點尤為重要。數字人文學領域的學者已經注意到,大數據或機器學習中的潛在偏見,若不加審視,可能會固化種族、性別或文化上的不平等。
在2023年的一次論壇上,安德魯·普雷斯科特考察了預測算法產生偏頗或不公結果的案例,提出人文學科在審視和減輕此類偏見方面可發揮重要作用。他強調了開放文檔和可解釋性在對抗算法不公中的重要性:如果模型和數據是黑箱,它們的錯誤和偏見就會被隱藏起來。普雷斯科特特別提示,人工智能的最大威脅并非科幻小說中的機器人失控,而是在警務、醫療或教育等領域盲目依賴不透明的商業算法導致的、非常真實的“社會失序與不公”。
這一關切與人文學者產生了強烈共鳴,他們長期批判權力體系,并能將這種批判延伸至數據與代碼領域。作為回應,近期的數字人文學研究倡導培養批判性的人工智能素養——確保學者和學生理解人工智能模型的工作及失效機制,并要求技術開發者提供透明度。同時,學界也在推動訓練人工智能時使用更多樣化和更有包容性的數據,以抵消現有數據集的內在偏見??偠灾?,人文學者不僅將人工智能視為一種工具,更將其視為一種文化產物——追問它由誰構建、蘊含何種價值觀,以及對社會產生何種影響。
與此密切相關的是計算研究中的可解釋性挑戰。當一個數字人文學研究產生一個復雜模型或使用神經網絡時,我們如何將輸出結果與人文學的意義聯系起來?像喬安娜·德魯克這樣的學者多年來持續警示,不要在未經批判性調整的情況下,將STEM領域的價值觀全盤引進到人文學科的語境中。她和其他學者敦促人文學者使用可解釋的模型,使其能夠與定性知識相協調,而不是簡單地接受算法的權威。這與“可解釋的人工智能”的概念不謀而合:正如我們要求一位評論家解釋其闡釋一樣,我們也應要求算法為其輸出提供推理過程或可讀特征。
在這一背景下,數字人文學者再次強調文檔、開放性和批判精神。其目標是一種“計算詮釋學”,即一種以算法輔助洞見生成,但不遮蔽或取代深層文化分析的方法。這種批判性視角提醒我們,人文學科中的量化方法必須始終對其研究對象的豐富性和模糊性負責。最終,從笪章難的懷疑論到對偏見意識的呼吁,這些持續的辯論表明該領域正在進行健康的自我反思。數字人文學者并非簡單地為技術喝彩,而是在批判性地審視其局限,并主張在數據驅動技術之外,重視理論闡釋和倫理的核心價值。
數字轉向中的理論演進
盡管早期存在質疑,但在過去二十年中,計算方法已日趨成熟,并日益與文學理論和歷史交織在一起。在《遠讀二十年:對文學研究數字轉向的思考》一文中,安東尼婭·普里莫拉克及其同事反思了莫萊蒂的理念自2000年以來的演變。他們觀察到,遠讀最初是一種旨在突破歐洲中心主義經典、重構“世界文學”的論戰式呼吁,如今在數字人文學領域幾乎已成為大規模語料庫文學分析的同義詞。一篇發表在《數字研究》的文章指出,“數字轉向”迫使學者們重新思考基本的文學概念。例如,當文類由詞語集群或網絡結構而非傳統修辭來定義時,意味著什么?當算法可以量化一位作家全部作品中句法和措辭的方方面面時,我們又該如何重構風格的定義?文學研究的范圍已經擴大:過去一項“大規?!毖芯靠赡鼙容^幾十部小說,而現在的項目通常涉及數千甚至數百萬份文本,且常跨越多種語言。這種規模上的轉變既帶來了洞見,也凸顯了不對稱性。
普里莫拉克等人指出,作為一個系統,世界文學是不均衡和不平等的——哪些文本被數字化和分析,往往取決于歷史和經濟的權力結構。例如,相對于許多非西方文學,英語文學在數字檔案中的代表性過高。因此,盡管遠讀使得更廣泛的跨文化比較成為可能,但除非有意識地納入多樣化的文學文本,否則它也面臨著重新固化“核心—邊緣”動態的風險。
新的理論框架正在涌現以解決此類問題,認識到多語言和跨文化分析的必要性和復雜性十分重要。早期的遠讀研究,包括莫萊蒂的研究,很大程度上回避了語言問題(通常聚焦于翻譯作品或英語作品)。如今,像歐盟的“歐洲文學史遠讀COST行動”這樣的倡議正在致力于構建多語言語料庫,并調整方法以適應非英語文本。其顯著成果之一——“歐洲文學文本集”的創建,它包含了多種語言的小說,旨在創造一個公平的競爭環境,實現真正跨語言的文學分析。這一過程也需要理論上的精進:文類、敘事聲音等概念如何在不同語言和文化語境中轉換?數字人文學者正與語言學家和區域研究專家合作,以確保計算模型能夠考慮到地域特殊性(例如,中文或阿拉伯語的情感分析可能需要使用不同的詞典和情感本體論)。非西方語境下的數字人文學已成為一個充滿活力的領域,中國、印度、非洲和拉丁美洲的學者們正在不斷調整工具以適配本土文化,并常常在此過程中重新定義研究議題。
例如,在中國,數字人文學正通過重大項目成形,這些項目數字化古代典籍,分析歷史文獻,甚至將人工智能應用于古詩詞。中國數字人文學的發展軌跡顯示了機遇與本土化的必要性:近期清華大學與同方知網合作,成立了一個新的數字人文學研究中心,旨在整合人文學科與技術資源,目標是為“人文研究與技術創新”搭建平臺,甚至開發針對傳統文化的人工智能模型。這預示著全球數字人文學將豐富并挑戰該領域的理論基礎,納入歐美學術界以外的非西方化視角。
在方法論層面,也存在一個明顯趨勢,即采用混合方法,將遠讀與細讀相結合。早期的論述常將兩者對立,但現在許多學者主張將它們結合在一個迭代循環中:利用計算分析識別模式或異常,然后運用專業的細讀來闡釋這些發現,甚至在獲得新洞見后返回進行第二輪數據分析。正如泰德·安德伍德所說的那樣:“我并不將細讀和統計模型視為相互競爭的認識論,而是將它們視為在不同分析尺度上表現出色的互鎖式闡釋模式?!?/p>
在實踐中,一個針對大型語料庫的項目可能首先使用主題建?;蛟~嵌入來檢測主題集群或語義關聯,再深入分析每個集群中的代表性文本,以理解其語境細節。細讀的結果隨后可以被編碼或量化,以迭代的方式改進模型。這種混合方法已被用于文學時間的研究,以及人物網絡的分析。
這種整合方法是對批評者的務實回應:它表明量化不一定會削平闡釋,傳統閱讀也可以在海量數據的背景下煥發新生。我們可以將這種新興實踐稱為“計算詮釋學”,它承認計算提供了新的視角,但強調意義建構仍然是人類的闡釋性行為。近年來的理論反思已經接納了這種協同作用。學者們不再將討論框架設定為算法與寓言之間的零和選擇,而是正在發展詞匯來描述算法本身如何參與詮釋學。因此,二十年后的數字人文學正朝著一種更具自我意識的方法論邁進,該方法論整合了量化嚴謹性與定性敏感性,并由考慮數據、規模和數字媒體環境的演進文學理論所引導。
一個體現方法論自我意識的絕佳例子是近期對文學文本的情感分析工具的批判性審視。情感分析——使用算法檢測情感基調——已在數字人文學中廣泛應用,但通常借用自科技界,其工具可能與文學的細微之處不甚契合。
2023年,西蒙娜·雷博拉發表了《文學研究中的情感分析:一項批判性綜述》,該文詳細審查了六種主要的情感分析系統在文學語料庫中的表現。雷博拉的研究強調了文學中情感理論的復雜性與許多算法底層情感模型的簡單化之間存在脫節。例如,一部小說可能使用反諷或不可靠敘述,傳達的情感會被基于字面意義的算法誤讀。該文提出了一種分類法,根據情感分析工具的底層情感理論、詞典構建和分析技術對其進行分類,并展示了不同工具在處理相同小說時如何產生迥異的結果。它在敘事學、讀者反應理論和計算建模之間架起了一座橋梁,同時提出了解決方案,使用集成方法來捕捉顯性和隱性的情感。
這類工作對數字人文學的下一階段至關重要:它不排斥這些工具,但也不全盤接受。相反,它對其進行改進,確保計算方法始終對人文學科豐富的闡釋性負責。簡言之,隨著方法的發展,一種元方法論的批判也在演進,確保人文學的意義理論引導人工智能的使用,而非相反。
實證應用與新知識
計算人文學在方法論上的進步,伴隨著一系列實證研究的涌現,這些研究為文學史和文化領域帶來了新洞見。這些應用展示了當人工智能和數據驅動方法被審慎應用時,能夠為人類研究具體貢獻什么。
一個成果豐碩的研究領域是文學網絡的繪制和量化——涵蓋人物關系網絡、風格親緣性和影響網絡。佛朗哥·莫萊蒂對莎士比亞戲劇的網絡分析就是一個典型例子:通過將角色設定為節點,將角色間的語言互動設定為連接,莫萊蒂發現悲劇往往具有高度中心化的網絡結構,而喜劇則將互動更均勻地分布在群體角色中。這種網絡視角為“為何悲劇感覺上聚焦于英雄的命運,而喜劇感覺上更強調社群互動”提供了一種新的形式化解釋。它還揭示了異常情況——例如,一部具有異常中心化網絡的喜劇可能暗示了一種不同類型的主角。同樣,小說情節也已通過網絡指標進行研究:狄更斯或奧斯汀作品中的人物可以被繪制成圖,以揭示社群的緊密程度或連接不同副線情節的橋梁角色。這些計算分析常常強化了傳統闡釋。例如,通過其巨大的網絡圖證實了《戰爭與和平》的社會廣度,但也會帶來驚喜,比如識別出作為隱藏結構關鍵的次要角色。通過量化網絡,學者們獲得了一種具體的方式來比較數十部作品的敘事結構——這是單憑記憶無法實現的。
另一個主要應用領域是大型文本集的主題建模與分析。主題建模算法能自動將頻繁共現的詞語分組,從而揭示潛在的“主題”。當應用于跨世紀的小說或報紙時,這些主題可以追蹤話語的變遷。例如,在歷史報紙中,主題模型追蹤了像“技術”或“家庭生活”這樣的概念如何隨時間消長,或者不同的政治情緒如何在地域上聚集。在文學研究中,主題建模被用來定義文類或模式:一項有影響力的研究由喬克斯進行,發現了與哥特、科幻或感傷小說等文類相對應的主題群,其中一些小說混合了不同主題,從而融合了不同文類。這類發現促使人們重新闡釋文類的邊界和演變。
此外,主題模型可以對文學進行空間化繪制:在“繪制倫敦的情感”項目中,主題建模與地理元數據相結合,識別出在兩個世紀里,某些情感關鍵詞在倫敦特定行政區的文學再現中聚集,從而闡明了這座城市的情感地理。這種方法,有時被稱為文化組學,將詞語使用模式作為文化趨勢的量化代理。盡管詞頻不等于意義,我們必須謹慎處理,但這些方法可以揭示宏觀模式,從而為細讀探索提供新的研究方向。
文類檢測和文體學也受益于人工智能技術。斯坦福量化形式主義實驗表明,即使是無監督算法也能通過文體線索區分哥特小說和成長小說。此后,更精細的機器學習分類器在已知文類范例上進行訓練,以對文本進行分類——通常在區分偵探小說與言情小說等方面具有很高的準確率,其依據是詞語使用、句子長度和其他特征。這引發了關于究竟是什么定義了一個文類的討論:是特定的關鍵詞,如“謀殺”“線索”之于懸疑小說,還是更微妙的模式,如模糊性或情節節奏?計算分析可以指出人類讀者可能不會有意識地追蹤的特征。
例如,一項研究發現,成功的懸疑小說往往具有獨特的角色引入分布模式(早期達到高峰,然后趨于平緩),這與關于偵探故事如何在前段集中呈現嫌疑人的敘事理論相符。通過人工智能進行的文體分析已擴展到作者身份識別(使用文體計量學的歸屬研究可以通過功能詞使用的細微怪癖來確定作者身份),甚至擴展到敘事中的情感弧線。后者建立在庫爾特·馮內古特的“故事形態”思想之上,利用情感分析繪制小說的情感軌跡。雖然馮內古特只勾勒了幾種基本形態(如“落入陷阱的人”“男孩遇見女孩”),但對數百部小說的計算研究表明,存在幾種常見的弧線(下降—上升、上升—下降—上升等),并且某些弧線與特定文類或時期相關。這種實證模式發現為情節動態的文學直覺提供了量化基礎。
至關重要的是,許多實證數字人文學研究已回歸傳統辯論,為長期存在的假設提供證據,或提出新的假設。
一個例子是小說研究中一個長期存在的問題:自由間接引語,這樣一種融合了角色與敘述者聲音的敘事技巧,是何時以及為何出現的。一項對數百部小說的遠讀研究測量了與自由間接引語相關的句法模式的頻率,發現在19世紀早期,尤其是在奧斯汀及其同時代作家的作品中,自由間接引語的使用顯著增加,這表明自由間接引語的興起與該時期更廣泛的對個體意識的意識形態關注有關。這與經典的文學史相吻合,但數據為其提供了支持,并可能更精確地定位其時間線。
另一個案例是文學聲望與流行度之爭。斯坦福文學實驗室的小冊子《流行度/聲望》中探討了經典形成如何被量化。通過分析圖書館藏書、再版歷史和文本特征,該研究模擬了為何一些維多利亞時代的小說得以流傳,而另一些則銷聲匿跡。其中一個發現是,與僅僅流行的小說相比,高度“有聲望”的小說具有獨特的語言模式(例如,更多的抽象語言),這引發了關于風格與經典化之間反饋循環的問題。
這些例子強調的是,人工智能和計算方法若被審慎應用,并不會將文學簡化為數字,相反,它們讓我們能夠看到因規?;驈碗s性導致的先前不可見的模式和語境。每一個模式隨后都成為人文闡釋的起點:為什么19世紀語言的具體性會增加?(或許是經驗主義或新聞業對小說的影響。)為什么《米德爾馬契》的網絡圖顯示出兩個幾乎獨立的任務集群?(喬治·艾略特的情節設計,即兩條最初獨立的故事情節逐漸匯合。)通過這種方式,實證數字人文學既是發現工具,也是診斷工具。通過闡明宏觀模式,它精煉了我們對微觀閱讀的理解;通過量化趨勢,它挑戰我們進行定性解釋。在這些應用中,證據與闡釋的協同作用展示了當人工智能與傳統批判方法合作時,可以對人文學知識產生的積極影響。
結"" 語
人工智能在人文學科中日益增長的影響具有兩面性:它為研究文化提供了強大的新視角,同時也挑戰該領域捍衛并重新定義其核心價值觀。一方面,遠讀和計算分析通過揭示模式和支持那些僅靠傳統手段無法得出的闡釋,證明了自身的價值。文學學者、數據科學家和歷史學家的合作努力已開始繪制一幅更廣闊的文學史圖景——它不僅能涵蓋經典,還能囊括大量的印刷品產出乃至非傳統文本,并進行大規模分析。另一方面,這些進步迫使我們直面可能失去或被忽視的東西:個體表達的微妙之處、創造力的“人性”元素,以及任何算法都無法完全忠實復制的批判性闡釋行為。人工智能驅動的世界中,人文學科的未來將不是一個簡單的自動化或增強的故事,而是一場人類洞見與機器計算之間的復雜協商。
如本文所探討的,前進的道路在于一種批判性的、創造性的綜合。擁抱人工智能和計算方法可以極大地增強人文學術研究——開啟遠距離的視野,發現未見的聯系,并處理日益增長的文化數據檔案。然而,人文學科必須堅定地引導這些方法,確保量化始終服務于闡釋,而非取而代之。最令人興奮的前景出現在當人工智能被用于服務人文學問題之時:例如,訓練算法來檢測敘事結構或哲學論證,這最終幫助我們更好地理解這些結構和論證。反之,如果我們不加批判地使用人工智能——將其輸出視為真理,或任其偏見塑造我們的敘事——陷阱便會出現。因此,持續的自我反思和對話至關重要:在人文學者與技術專家之間,在擁有不同文化背景的學者之間,以及在過去的傳統與未來的可能性之間。
總之,人工智能對人文學科的影響將取決于人文學者如何塑造它。數字人文學的發展方向并非注定,它將由我們的選擇、合作和創新所決定。通過追求理論整合、方法論嚴謹、倫理責任和全球包容性,學者們可以確保人文學科的未來是一個人工智能放大而非削弱我們對人類經驗理解的未來。人文學科的永恒任務——闡釋、尋找意義、批判權力、保存人類文化的豐富性,即使工具在演變。事實上,在一個信息泛濫且日益被算法媒介化的世界里,人文學者的角色變得愈發重要。人工智能可以幫助我們進行閱讀,但進行意義建構終究是我們的職責。人工智能與人文學科的結合,若能被審慎地管理,可以產生一種更具洞察力、更多樣化、更具反思性的學術——一種被數字時代的力量所更新,而非取代的人文學科。
責任編輯""" 袁"" 媛