陳加晉 盧勇

摘? ?要:在“信息革命”浪潮下,歷史學遭受的沖擊要比過去任何一個時代更為徹底與更具革命性,吸收信息技術精華、展現強大計算能力的計算史學成為了不可逆的趨勢。歷史學究竟何去何從?文章在概念辨析、歷史回顧及現狀分析的基礎上歸納出:中國計算史學自梁啟超首倡后已歷時百年,期間至少經歷統計歷史學、計量史學、信息史學、數字史學等若干學術實踐與流派。當下計算史學的成果集中在三大方面,包括數據集成和數據庫,歷史文本語料庫、知識庫建設與挖掘分析,可視化及GIS歷史地理信息系統。需警惕的是,計算史學所謂的“繁榮”帶有“泡沫”成分,“計算”技術的優越性容易讓人忘記其“雙刃劍”的一面,人性與人文精神的淡化亦令人擔心。計算史學只有在交叉、突破和自我覺醒中不斷重塑自身科學性,才會展現出在“大歷史”學科、“整體史”學術與“中國史”話語等方面的趨勢和未來。
關鍵詞:計算史學;計算人文;數字人文;信息轉向;史料革命
中圖分類號:K061? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023003
Abstract Under the wave of "information revolution", the impact on history is more thorough and revolutionary than any other era in the past. It is an irreversible trend for computational history to absorb the essence of information technology and show strong computing power. Where will historical research go? On the basis of concept discrimination, historical review and current situation analysis, the article concludes that: Chinese computational historiography has lasted for a hundred years since Liang Qichao initiated it. During this period, it has experienced at least several academic practices and schools such as statistical history, metrological history, information history, digital history, etc.. At present, the achievements of computational history focus on three aspects, including data integration and database, corpus and knowledge base construction and mining and analysis of historical text, visualization and GIS historical geographic information system. It should be noted that the so-called "prosperity" of computational historiography has a "foam" component. The superiority of "computing" technology is easy to forget its "double-edged sword" side, the weakening of human nature and humanistic spirit is also worrying. Only by constantly reshaping its own scientificity in the process of crossing, breaking through and self awakening, computational historiography can show its trend and future in the major of "grand history", learning of "overall history" and discourse of "Chinese history".
Key words computational historiography; computational humanities; digital humanity; information turn; historical revolution
歷史是人類社會過去的事件與活動,盡管歷史本身是不依賴于歷史記錄的客觀存在,但后人了解與認知歷史卻需要依靠刻石載筆,故歷朝歷代的歷史學家無不以記錄與重建歷史的真相為最高追求。對信史與直筆之尊崇,古今、中外皆無不同,但即便如此,以描述和敘事為主要特征的傳統治史框架的真實性仍然因政治環境限制、作者主觀意識以及技術手段匱乏等因素,而受到后人的多維審視與多重質疑。有鑒于此,以梁啟超為先的民國史學家們開始將歷史的真實性與史學的科學化相鏈接,并于1922年首次提出“統計歷史學”概念,從而開啟了史學定量化與可計算的新歷史。
如今,中國史學計算的研究與實踐恰好走過百年歷程,其文化環境與學術形態早已今非昔比。史學界對“計算”與“史學”的融合逐漸廣泛認可,由此衍生與分野出的計算史學更是站在了時代潮流與國家需求的“風口”當中。當歷史學的“信息轉向”越發成為不可逆轉的趨勢與清晰可見的事實時,不僅歷史學的知識生產、表達與思維觀念不可避免地被顛覆,整個歷史學的走向與歸途或許都將被重塑。在不斷探索“計算史學何去何從”宏大命題的過程中,我們必然會面臨與解決三個基本面問題:過去的計算史學有何源流并且如何流變?今天的計算史學是欣欣向榮還是虛假繁榮?未來的計算史學呈何種形態或者價值幾何?為此,筆者擬從中國計算史學的學術源流與不同時代的歷史轉向出發,在厘清其歷史脈絡和學術實踐的基礎上,對學術、技術、人文等三個面向及彼此關系進行反思,以期客觀與科學展望中國計算史學的走向與趨勢。
1? ?從史學計算到計算史學
作為社會文化的產物,歷史學之所以能夠與計算技術深度融合并衍生出計算史學一脈,根因還是時代提出的需求和提供的條件。自梁啟超始,每一代先賢學人都奮力緊握學術潮流并努力開拓歷史計算的研究局面。正是時代之勢與學人之力的協同謀合,方塑造出不同歷史階段中的不同計算史學形態。
1.1? ? “統計歷史學”的提出與初步踐行
1922年,梁啟超在東南大學史地學會的演講中首次提出“統計歷史學”概念,將其界定為:“歷史統計學,是用統計學的法則,拿數字來整理史料推論史跡。”[1]由此,現代數學方法第一次在中國史學研究中作為重要的方法論加以采用并被大力倡導。同時,梁氏進一步強調其初步應用的結果“成績很是不壞”,主要的成果形式是各類統計圖表,尤以1924年著成的《中國近三百年學術史》所展示的表格最多。
其后,歷史統計學作為開兩千年史學新風的“新史學”得到了大量史學家的認可、支持與踐行,代表者如丁文江、郭斌佳、翦伯贊等,尤以衛聚賢所受影響較大,他在清華學校多年講授經驗的基礎上編著出版了首部《統計歷史學》。同時,以吳晗、湯象龍、羅爾綱、梁方仲、谷霽光等人組成的史學研究會在歷史統計學方面亦有大量踐行。當然,也有不同甚至質疑的聲音,如傅斯年的反對就較為尖銳(支持與反對者見表1)。對于歷史統計學的局限性和注意點,湯象龍總結得最為精準:“一是盡管‘統計可以證明一切,但有時同樣的量的資料可以同時證明完全相反的事情;二是量的資料必須精確完整,而且不可把它的應用限度估量太高;三是歷史事實的發生都是獨一無二的,歷史資料的記載也是為某項事件或某項目而設,因此歷史研究中很難類推或佐證其他的歷史事項;四是歷史資料繁多,量的資料不過是其中之一,同時還需要其他相關資料的佐證。”[2]
馬克思曾指出:“一門科學只有在成功地運用數學時,才算達到了真正完善的地步。”[3]民國時期新生的統計歷史學計算手法初級,成果形式單一,且僅限統計學,但基本性質已然是一種以統計、歸納、分析為特征的計算型史學,因此在“計算史學”概念出現之前,一直被當代史學界視作“計量史學的先行狀態”。中國史學領域幾乎一切定量、計量和計算性質的研究及方向,都濫觴于此。
1.2? ? 計量史學的興起、引入及與計算機技術的結合
按諾貝爾經濟學獎獲得者諾斯(Douglass C.North)的追溯,1957年康拉德(Alfred Conrad)和邁耶(John Meyer)共同發表《南北戰爭前南部奴隸制經濟學》一文,標志著計量史學的正式誕生。20世紀70年代,計量史學風靡全世界,70年代末被引入中國。國內并未經歷西方計量史學的學術成長過程,因此接受的是一個相對完整的學術形態。對此霍俊江在《計量史學研究入門》中概括為:“它是運用現代數學的手段和統計學的方法,以及現代計算機技術,對歷史上的數量和數量關系(無論是顯性的還是隱性的),以及由這些數量關系所構成的特定的數據結構進行定量的研究和分析,進而使定性研究和定量研究相結合,使歷史研究進一步精確化和科學化的學科。”[4]
不難看出,計量史學的底層計算理念與計量路徑與過去包括統計歷史學在內的具有計算性質的史學類型是一脈相承的,并且在計量方法、數據模型乃至學科應用等方面具有很大的發展與創新,其中最具變革性的突破之一就是與現代計算機技術的結合[5]。計量史學家借助計算機可以更有效率地搜集、整理和儲存史料,并在此基礎上進行復雜的數量分析與定量計算。當時的計量方法已不限于平均數或相對數,而是涉及更加復雜的相關分析、回歸方程、趨勢推論、意義度量、線型規劃、動態數列、超幾何分布、因子分析、馬爾科夫鏈,甚至博弈論、對策論和曲線拓撲理論等。更重要的是,計算機技術可以不斷發現與分析新的、非傳統意義的原始資料,如政治史領域的各級選票、民意測驗,法制史領域的遺囑、死亡證明、法院審判記錄等,都是過去定性研究中既不被人注意更難以分析采用的材料。
就20世紀80年代至90年代的中國史學界而言,盡管面臨計算機過于昂貴的客觀條件限制,又有因求學階段文理分科導致的數理素養欠缺的主觀難題,但這并不影響國人對于史學研究定量化的認可與大量介紹,錢學森、何順果、蔣大椿等一批學者都曾積極倡導計量史學的價值及計算機應用于歷史學的前景[6-8]。在具體踐行上,梁方仲于1980年出版的《中國歷代戶口、田地、田賦統計》成為了早期計量史學本土化的經典案例,被譽為“是一部內容豐富具體化了的計量經濟學,又是一部大型的經濟史研究的基本工程的巨著”[9],其后當代人口史、經濟史、社會史、政治史乃至軍事史領域都曾不同程度地引用與應用計量史學的數據分析與模型建構方法。
總之,計量史學的學術實踐及與計算機技術的結合真正開啟了歷史學的精密計算化與科學化,并且將史學的人腦計算躍升到了電腦運算的歷史階段。當然,計量史學同樣有著與早前歷史統計學類似但更為復雜的局限性,特別是對于技術的盲信和人性的缺失讓其先后在西方和中國遭受了大量批評。從20世紀80年代末90年代初開始,作為學術流派的計量史學在國內逐漸沉寂,但是作為方法的計量分析與作為工具的計算機被史學界普遍接受,并且趨于常態化與常識化。1992年,姜錫滿懷希望地表示:“毫無疑問,廣泛采用微機,實現研究手段的現代化,將對我們的歷史研究和歷史科學產生重大而深遠的影響。”[10]直到21世紀初,吳承明仍在呼吁:“因為過去注意不夠,我主張大膽推廣計量學方法。”[11]
1.3? ? 數智時代計算史學視域下的理念、概念與行動
21世紀之交,在計算機與互聯網技術革新所引發的“信息革命”浪潮中,中國史學界再次迎來新的“信息轉向”,由此產生了與當下真正接近或一致的計算史學視域。大致自2012年之后,信息領域又快速邁入大數據、云計算及人工智能時代,現實與網絡、學科與學科的壁壘被進一步消弭,計算史學終現“思潮”之勢。盡管每個人對當前時代與時代之下的計算史學認知不同,并分別冠以“計算史學”“數字史學”“信息史學”“數位化史學”等不同學術概念與“身份”,但人們對于計算史學視域與方法的常態化及其革新之感是真實而具體的。
國內史學界對于信息時代的敏感度與計算史學的理性暢想可以說是不落后于西方國家的,1998年路振光就初步探索并提出了因特網史學信息的三種有效途徑[12],但可惜的是計算史學概念化、學科化的進程相對緩慢。直到2005年才見有臺灣學者黃一農提出具有計算史學性質的“e-考據”概念[13]。盡管他以之為方法取得了高效的研究成果,但常被認為本質上僅是一種“引得式或索引式的網絡新工具”[14],故一直沒能成為討論的熱點。
自黃一農之后,開始不斷有新的計算史學類概念被提出。2006年,王旭東提出“數字世界史”一說,即“從信息視角出發,依托特定的信息化技術平臺,以數字化和信息化理念、手段及方法,對人類社會歷史活動演變過程進行動態標記、整體表述和因果關系重現的綜合性系統研究,并以虛擬復原方式對所獲成果提供應用接口的全新世界史范式”[15]。其后,迭加周兵的發聲與理論貢獻[16],“數字史學”逐漸成為計算史學最為常用的“稱謂”和學術概念之一。2009年,焦潤明提出“網絡史學”概念并將其界定為“存在形式確為電子史學,從而有別于傳統的紙質史學”[17],該概念后由李劍鳴等再次提出并加以進一步闡釋[18]。大致從2011年開始,王旭東在早前“數字世界史”概念的基礎上,向“數字”背后的信息體系開展縱深性探究,并以“歷史學基本屬性之一是信息認知”為理論前提逐步構建起“信息史學”概念體系[19]。
相較史學家而言,遵循“信息技術應用”底層邏輯的圖書情報學背景的學術群體主要關注的是視域更大的“計算人文”層面,并在相關概念進入中國之前就已經持續關注數字轉向過程中的知識生產與發現問題,但總體上處于“分散式實踐探索”階段[20]。之后,數字人文的學術合作與研究項目開始凸顯出來,不過“數字人文”一詞的首次出現并非在圖情學,而是傳統人文領域。2003年,陳志良在《中國社會科學》雜志社和上海華夏社會發展研究院共同主辦的“數字化與 21 世紀人文精神”學術研討會上首次提出“數字人文”一說,并認為“‘數字化是一種人性化、以人為本的科技形式與力量,是對人的功能的合成、主體的系統表達,把原本屬于人的功能變為 “人化功能”,是對為人所知的、具有同步性、可經驗性、以人為主體的世界 “再造”,它超越了傳統科技與人文斷裂的形式和內容,是新時代科技與人文的一次新綜合。”[21]顯然,這是一種高度哲學化與廣域性的認識論,與我們當下所慣常認知的、限于學術與學科范疇且趨近方法論性質的數字人文是有很大差異的。
2009年,王曉光在“教育部人文社會科學研究方法創新論壇”上提出和闡釋的“數字人文”概念是真正具有計算意義與圖情學色彩的,即“數字人文,也稱人文計算(Humanities Computing或Computing in the Humanities),它是一個將現代計算機和網絡技術深入應用于傳統的人文研究與教學的新型跨學科研究領域,它的產生與發展得益于數字技術的進步及其在科學領域的普及應用”[22]。自此,數字人文很快由“前沿話語”轉變成“熱點話題”與“重點議題”。2011年,武漢大學成立中國第一家數字人文研究中心,表明在體制上對數字人文予以認可,北京大學、清華大學、南京大學、南京農業大學等亦緊跟其后。
近十多年里,計算人文的概念、內涵與外延等不斷發展與再定義中,但史學作為計算人文的重要對象、方向或子課題的性質一直未有改變。更重要的是,以2016年馬建強《計算歷史學:大數據時代的歷史研究》一文為典型,計算人文正逐步向“計算史學”領域分流與細化,并且不斷有學者意識到“數字人文”詞義已無法精準統括當下的計算史學。在“數字肥胖”已越發成為社會普遍現象的時代里,越來越多的資源天生就是“數字”,用“數字”作為限定或修飾已無必要,甚至顯得冗余。真正統括現狀和指明未來的概念范式應該是“計算”而非“數字”。
2? ?時代召喚下的計算史學
當時代需求與國家戰略對計算史學有所期待時,計算史學最大的本分應該還是基于知識規律和真理目標的學術探索與系列研究。綜合已有成果來看,以歷史學和圖書情報學為主體的學人主要在數據處理集成與數據庫,歷史文本語料庫、知識庫建設與挖掘分析,可視化及GIS歷史地理系統方面取了不同程度的突破,尤其圍繞計算的“方法論共同體”與“學術共同體”的顯現值得注意并期待。
2.1? ? 史料存儲、集成與數據庫構建
“史料者,歷史知識之唯一源泉也”[23]。史料是史學的基礎,史家治學總是以史料的搜集與考辨為第一步,相應地,“窮盡史料”就成為了史學工作者們的“烏托邦”。無數先賢為盡可能搜集與占有史料,必須經歷數月、數載甚至幾十載皓首窮經式的辛苦,但依然受困于“資料匱乏”“材料零碎”等難題。計算史學的學術實踐即是從史料生產與發現開始,并且早在20世紀的量化史學階段,就已經通過材料的電子化與編碼分類技術展示出了在資料“占有”與“記憶”方面的優越性。進入21世紀,文獻掃描、識別與轉化技術的革新極大擴充了史料載體與數量,迭加互聯網端的革新所帶來的史料可檢索化與共享化,由此基于海量歷史文獻數字化、數據化或可視化的數據庫大量出現。
近年來,大量在線數據庫已成為人們對于計算史學發展最大的直觀感受之一。既有臺灣雕龍中國古籍全文檢索數據庫,香港文淵閣四庫全書電子版,北京大學中國基本古籍庫,上海圖書館晚清、民國期刊全文數據庫(1833-1949)等大型檢索類數據庫,也有李中清、康文林團隊清代《縉紳錄》數據庫等小型專業數據庫,還有更多細分領域或方向的數據庫正在建設中。據筆者梳理,目前已立項的近450項數據庫類國家社科基金項目中,絕大部分都是文史類,其余國家社科基金項目如“明清以來長三角地區生態環境變遷與特色農業發展研究”等盡管未在題中顯現,但實際研究中已將構建數據庫列為重要議題。對比過去,如今計算史學的史料獲取與各大數據庫存儲的數據已是“天文數字”,不僅是單純“量”的爆炸,更是“類”的激增,除傳統文獻古籍、考古材料以外,“舉凡保留過去信息的文字、實物、圖像、影像、口述等資料,都有可能進入史家的視野”[24]。史料大量存儲與集成后,小眾、非典型、偶然的資料即會自動邊緣化,同時那些隱藏、零散的信息也會更容易被發現,從而某種程度上又為歷史學家提供了“新史料”。
更重要的是,計算史學領域的數據庫構建成功往往就代表至少已初步完成歷史信息的數據化重組,這在實質上已是科學的史料“加工”,“精準型研究”或形成新的歷史解釋就具備了先行條件,比較著名的如中國歷代人物傳記項目(CBDB)與Markus古籍半自動標記平臺等。簡單來說,大型數據庫不僅“廣”而“全”,更是“專”且“深”,其專業與客觀程度甚至可以實現不同類型數據庫的數據關聯與匹配,即梁晨所稱的“量化數據庫”[25]。此外,數據可視化與共享性等功能的拓展同樣不能被我們輕視,它是史料獲取和不同數據匹配的前提。很多傳統史學家之所以接受信息技術介入與改造,就是因為僅掌握簡單的關鍵詞檢索就可以得到大量史料,并且技術的進步往往與資料的收獲呈正比,如梁晨和董浩通過Python軟件的Selenium包,在一年內就抓取到不同數據庫的年度留美生信息;如果采用人工檢索的話,即便是有限的幾個數據庫也將花費5年[26]。
2.2? ? 歷史文本語料庫、知識庫建設與挖掘分析
與傳統史學研讀分析史料的原理相一致,計算史學需要對歷史文本進行挖掘與分析后才有可能發現知識與得出結論;不同的是,計算史學的研究對象是史料數據化后能夠被計算機識別的信息。這些信息,尤其是結構化的數據不僅巨觀,而且具有以往人力難以察覺的知識用途及潛力。文本挖掘大致在10年前被視作計算人文的重要方法之一,如今已是域內核心議題和主流技術。按鄧君等人歸納,歷史文本挖掘與分析技術至少有本體、語義網、關聯數據、數據庫設計、文本分析、聚類分析、主題圖分析、社會網絡分析(SNS)等[27],不同技術之間內涵重疊、邊界交織、流程串接,且對于大多數的史學工作者都存在技術門檻,這就導致圖書情報學背景的學術群體構成了計算史學文本挖掘與成果產出的主力。
在歷史文本挖掘與分析之前,需要對古文獻數字化后的信息進行“處理”,包括自動分詞、詞性標注、命名實體識別等,繼而在自建語料庫或借助外來語料庫的基礎上實現智能處理,包括自動校勘、斷句、標點、注釋、分詞、識別、翻譯等。在具體踐行中,南京農業大學黃水清團隊就較早完成了先秦古籍自動分詞與地名的自動識別模型構建[28]。若進一步通過構建知識本體、關聯數據等進行語義化知識組織,即可實現重要實體深度的語義層面知識挖掘。能夠實現知識組織的數據庫或系統常被稱為“知識庫”,即“顧名思義,基于知識的智能系統”[29],從徐晨飛等開展的南京農業大學館藏《方志物產》語義化知識組織研究結果來看,知識庫至少可提供知識檢索、多維知識聚合、關聯數據可視化、GIS時空展現等功能[30]。事實上,知識庫的可檢索性、知識性、智能性等功能在諸如中國歷代人物傳記資料庫(CBDB)等常規數據庫中均已實現,正是技術的普遍提高與全面滲透導致數據庫與知識庫的邊界越來越模糊。
知識發現是文本挖掘的本質與精髓所在,因此對于大部分史學家來說,可能更為在意與深究的還是歷史文本挖掘與分析的另一“知識發現”功能,尤其是“依靠數據庫發現知識”[31]越來越成為一種歷史學趨勢。近幾年比較流行的歷史文本挖掘技術主要涉及語義網、關聯數據、聚類分析、社會網絡分析等,并且在人、時、地、物、事等重要實體之間的時空關系方面取得了良好效果,如陸宇杰等利用中國歷代人物傳記資料庫(CBDB),通過社會網絡分析揭示了清代進士群體中以紀昀、錢大昕、全祖望位居中心度前列的社會關系網絡和紀昀、朱珪、朱筠等組成的社群影響力居首的現象[32]。簡而言之,歷史文本挖掘不單可以處理海量文獻并進行復雜運算,更重要的是能使碎片化的歷史知識系統化,同時使隱性化的歷史知識顯性化,有學者形象地用“望遠鏡”和“顯微鏡”來作比喻[33]。但需指出的是,目前仍沒有一種既全面又精準的文本挖掘手段,很多技術往往必須同時或接續使用,由此就推動形成了從歷史文本語料庫到文本挖掘研究的系列化與集群化,典型如南京農業大學黃水清團隊的《漢學引得叢刊》人文計算系列研究,不僅實現了分詞、詞性標注、命名實體識別的詞匯級知識人工和機器標注功能,還以春秋一經三傳、《史記》為重點對象進行了深度文本挖掘研究[34-35],其中不少成果相當具有創見性。
2.3? ? 可視化及GIS歷史地理信息系統
從海量歷史文獻中散見、零碎的信息中挖掘結果,以可視化技術可以更好地“呈現”和“展示”。據劉圣嬰等統計,2020年中國數字人文年會的最佳項目獲得者中,可視化或GIS類型占據一半之多[36],由此可見其在計算人文領域中的熱度和重要性。計算史學框架內的可視化并非只是一類為了展示服務結果的算法或技術,而是一套對語料或語義化數據進行系列處理、轉化和展示的方法流程,可以說,從語料庫到數據庫、知識庫,從知識組織到知識發現、知識圖譜等,無不浸透著可視化的技術需求與邏輯。
早在20世紀90年代末中國計算史學“信息轉向”初期,可視化就已凝結在以歷史數據庫和歷史地理信息系統等為代表的成果中,只是當時的數字化古籍史料大多只有時間的序列性展示[37]。隨著數字技術和計算方法的不斷更新,特別是歷史文本挖掘的多樣化與復雜化,使得可視化的細粒度和決策力越發顯現。單就可視化載體而言,數字化文本、界面、網站、數據庫、地圖、主題圖、動態圖像、視頻,甚至與AR/VR相結合的人機交互系統可謂眼花繚亂。無論是數據挖掘或社會網絡分析結果如何復雜,都能以直觀形象、有效交互的方式呈現,并且通過可視化的描述和表達幫助史學工作者快速發現歷史數據中隱藏的關系、特征及模式,以為進一步分析歷史變化的趨勢、規律等做準備。在此情況下,可視化技術與歷史文本挖掘過程也越發緊密,如歐陽劍的大規模古籍文獻可視化項目,就是在借助大規模古籍文本語料來研究漢語歷史詞匯演化及過程規律的基礎上,實現了實時、在線、可視化的歷史詞頻分布規律定量分析的展示效果[38]。
在目前主流的可視化技術與成果中,GIS歷史地理信息系統可能是應用情景最廣泛的領域或方向之一。GIS最大優勢是通過地圖形式來實現視覺化效果、地理分析功能和不同層信息的多維時空展示。從1996年臺灣“中研院”中國歷史文化地圖系統(CCTS)、2001年臺灣文化歷史地圖系統(THCTS),到同年(2001)復旦大學與哈佛大學等合作開發的中國歷史地理信息系統(CHGIS)、2017年中南民族大學的唐宋文學編年地圖平臺等,都是學界公認的杰出項目和案例示范,由此衍生出的理念和研究更是豐富,如唐宋文學編年地圖平臺團隊發掘的“系地”理念[39]等。2009年,王曉光指出:“GIS的歷史地理可視化是計算人文的實踐前沿”[22],這一論斷依然適用于十多年后的今天,因為幾乎每一次信息技術發展都會同步帶來GIS歷史地理信息系統的更新。值得注意的是,隨著GIS歷史地理信息系統的深化與拓展,以三維建模與虛擬現實為技術特征的新興空間史學開始興起并展現巨大潛能,甚至有學者認為歷史地理信息化已是計算史學領域中技術性最強、科學化程度最高的分支體系[40]。
3? ?在反思中思考計算史學的未來
在計算史學熱潮之下,越是熱潮涌動的時刻,越應冷靜地有所思考與回應,甚至一些帶有“破壞性”的反思,都將幫助計算史學走得更遠。唯有經歷紛爭與激蕩,我們才有可能從中撥開萬象、尋覓計算史學的真核并不斷強化其科學性。由此出發,我們將從計算史學的學術、技術與人文等三個方面及其關系著手進行反思,并盡可能客觀與科學地展望計算史學在學科、學術與話語等方面的趨勢與前景。
3.1? ? 對于計算史學歷史與現狀的反思
(1)計算史學熱潮的“冷”。隨著相關論文與新增項目越來越多、會議討論與學者發聲越來越熱,計算史學已越來越成為一場不可逆轉的趨勢,樂觀者更是在期待一場新的更為深刻的史學變革的降臨。但我們不能忽略的是,在此熱潮之下依然有不少學者保持審慎甚至警惕心理,如陳鵬就反思過史料型數據庫,指出“由于其設計上的缺陷、學者自身學識和治學態度的影響,在使用過程中,不可避免地會暴露各種問題,值得我們警惕和深思”[41]。我們當然不能也無法漠視不同的聲音,但更重要的是理解其背后的邏輯與認清本質的癥結。客觀地講,近十多年的計算史學類論文發表量確實呈激增態勢,但可惜的是,至今還未出現具有轟動或“破圈”效應的成果或發現。如果進一步梳理就會發現:研究成果看似多但是基礎創新相對少,面向文本、數據和方法論的應用型、專門類文章多,有深度的原創性、綜合性研究少,更有一些研究只是純粹地緊跟熱點,要么淺嘗輒止,要么拙劣模仿。計算史學的“交叉”優勢并未真正顯現,其背后研究者的合作與聯動更是乏乏,因此也就不難理解如此局面:圖情學背景的學者善于技術應用和數據挖掘,但很難再進一步進行“解釋”和“敘事”;歷史學者多從宏觀角度論述,雖不乏前瞻和思辨性,但缺少實證和技術支撐只能流于泛泛而談。當下計算史學的所謂“繁榮”帶有很大的虛假色彩與“泡沫”成分,我們應清醒認知計算史學所處的“初步”階段,并在深刻解析基本問題的基礎上予以匡正和不斷糾偏。
(2)計算史學技術的“度”。“計算”是計算史學有別于傳統或常規史學的內核,而計算的實現則是信息技術革新和應用的結果。計算技術對于計算史學的意義不言而喻,對于個體來說,一個最基本的感受應該是信息技術對于歷史文本信息處理效率與效力的極大提升;從學科層面看,技術最質性的作用是讓歷史學新增了一套量化方法論,即在原有的“問題驅動”之外還可以采用“數據驅動”的方式開展史學研究。當計算史學的技術與方法不斷展現出超人力的優越性與便捷感時,人們便會不自覺地忽視技術的局限性甚至“雙刃劍”的一面。任何技術皆非萬能,計算技術也是。計算史學真正的研究對象是數據,文本只有數字化才能被計算機所識別并計算,在此過程中,研究人員需花費大量時間開展數據清洗、元數據標注等工作,這是不折不扣且不能懈怠的“手工活”。同時,數據化的過程也是信息去差異化的過程,將文獻史料剝離變成結構化、同質性數據的時候必然伴隨信息的流失,這又是無法避免的“代價”。在集成數據庫后,盡管方便和簡化了史學工作對于史料的獲取,但檢索得到的資料還是要“進行人工科學鑒別篩選和分析排比”[42],這其實更需要時間和考驗功力。因此,我們在運用計算技術與方法的時候,應注意并分辨其適合的領域和擅長的方式,由此演繹而得,整個歷史學研究也應把握好技術的限度,在方法論上不應有傾向性,更不應該盲目迷信量化的力量,而是根據問題需要和資料條件有所取舍,也就是劉子健所說的“史采佳法,因題制宜”[43]。
(3)計算史學主體的“人”。計算史學豐富的數據和強大的運算邏輯促成了歷史研究的流程化、扁平化,某種程度上降低了史學領域的門檻,史學工作者不用“板凳坐得十年冷”,只需經過模型建構和軟件分析就能快速產出成果。在此情況下,以“計算”為面向的技術與方法論思維就不可避免地萌生、壯大并侵蝕傳統的人文思維,人的自然定義不斷遭受挑戰,人與術之間的倫理關系也勢必更加緊張。歷史上人們就曾因過度癡迷和推崇量化史學技術而一度掉入“量化陷阱”,如今我們更要警惕與防止計算史學中人性淡化與人文精神缺失現象的發生。令人擔憂的是,這種苗頭已有所展現。在計算風潮之下,歷史學特別是青年學者高度重視和依賴新軟件與數據平臺,對于新技術的追求要遠勝過自身理論素養和人文精神的提升。慶幸的是,已有學者有所注意,如張耀銘就直言不諱道:“某些數字人文倡導者重數據輕思想、重圖像輕文字、重印證輕發現,推崇數據中心論,從而使人文研究失去人文意義。”[44]計算史學畢竟仍屬史學范疇,應該既保持人的時刻“在場”以解釋數字背后的規律和意義,更需要人的才學和素養來對過去的“真實”進行完整、生動而優美的表述。假想一下:如果歷史研究只剩下冷冰冰的數字而變得蒼白無趣,人們還會對歷史有所期待和幻想嗎?因此好的計算史學及其技術不僅不會消解人的主體性,反而會為研究者創造良好的平臺以助其更好地發揮歷史想象力和創造力;相應地,好的史學工作者不單要提升技能,更應在史識、史智、史德方面不斷加強修煉。
3.2? ? 基于計算史學歷史與現狀的趨勢
(1)學科:融通文理科的大歷史。習近平總書記在致第二十二屆國際歷史科學大會和致中國歷史研究院成立的賀信中均強調,歷史研究是一切社會科學的基礎。該科學論斷在闡明歷史學在人文社會科學領域中的超然地位和作用的同時,也從側面揭示出歷史學廣博、通達的內在意蘊。歷史學很早就成為涉及面寬廣、流派旁支繁雜的學科之一,但基本限于人文社科領域,如今隨著計算史學分支的壯大,歷史學的邊界不僅將進一步擴張,并且開始首次真正觸及并有望打破文、理科之間的壁壘。在史學的眾多分支或流派中,計算史學的“跨學科”色彩可謂最濃厚。盡管學科性質從屬人文領域,但方法論卻是不折不扣的自然科學屬性。有學者指出:“數字人文的產生在本質上是一種方法論和研究范式的創新,核心目標是將現代信息技術融入人文領域。”[45]信息技術本身就是一類高度交叉與復合型的“方法論集合體”,它以數理為底層邏輯,包含計算機、微電子、傳感、網絡通信甚至傳媒等多項技術體系,因此真正的計算史學體系必然涵蓋文、史、理、工等多個學科領域;其次,信息技術的基礎性與強滲透性也會加快歷史學與其他文理學科的對話與互通,因為無論是人文、社會還是自然科學,當它們在引入和融合信息技術時,實質上就在共享共用同一套工具和方法。不能忽視的還有計算史學的公眾特質。借助可視化與互聯網,歷史類問題和話題可以順暢地進入公共生活中,成為民眾日常生活中關心、觀察和討論的對象,由此計算史學也不再是小部分職業研究人員的專屬領域,而是全民、全社會共襄共進的大歷史事業。
(2)學術:貫通宏微觀的整體史。歷史學按研究對象大小通常有宏、微觀之分。自近代以來的史學史,基本上可以理解為宏觀史和微觀史之間彼此交鋒、彼退我進的歷史。宏觀研究受限于史料不足和分布不均總不可避免地陷入“見林不見木”,而且往往帶有舉隅和例證;微觀研究則無法確保零碎的史料能代表整體的普遍意義,故無論如何“解釋”也很難跳出“一葉障目”的桎梏。歷史學家自然知道無論宏觀史還是微觀史都各有特點與缺陷,且都無法代替歷史的“整體”,真正的歷史應該宏微融合兼而有之,但是由于史料來源和利用方式的不同,兩者之間的溝壑很難消弭,因此只能偏重一方并不斷嘗試以之為主體來“糾正”另一方。計算史學所引發的“史料革命”讓我們看到了解決上述難題的可能性。理論上,計算史學能夠擁有無限大的海量數據,即吳玲所說的“全史料數據平臺”[46],同時通過相關軟件與智能計算可以將眾多同類證據合并融入而不顯煩瑣,從而實現對傳統史學“選精”或“集萃”的超越。更重要的是,基于大數據計算所發現的現象必然是長時段或多代際的“整體”或“宏觀”面向,通過計算分類和數據關聯后得到的“局部”或偏微觀性發現又能保持與宏觀研究的統一與互證性。這種“整體史”范式既具宏大視野、又有微觀觀察,既有解釋力又具敘事性;并且隨著持續踐行,又進一步導致研究對象、材料、范式呈良性循環式的擴增和深化。因此,我們有理由相信,李金錚設想的“不斷擴大歷史研究的全面史、普遍史”“以整體史指導具體或碎片史”[47]的愿景將會在未來真正實現。
(3)話語:匯通東西方的中國史。中國史學傳統源遠流長,很早就形成了一套有別于西方的完整而精密的治學理念、史學理論與話語體系,但自西方“文藝復興”與工業革命之后,中西歷史的“形態之分”變成了“高下之別”。近代西學東漸后至今,中國史學從思維到理論、從底層到體系的方方面面皆帶有西方史學的印跡,甚至新領域與新路徑的開辟,通常都是追隨西方史學新進展的結果。對于個體學者來說,無論中西只要有創獲即可;但當一個群體乃至全民來反思較大領域甚至整個史學架構時,中國史“話語權缺失”的弊端和焦慮感便會凸顯。史學家已普遍意識到構建具有中國特色、風格、氣象的中國史話語體系的重要性和緊迫性[48],難點在于具體操作,因為話語權的提升或掌握必須要以相關新穎、獨到或創造性理念、理論、概念、方法或范式為基礎,而中國史學已受西方史學熏陶百余年,采用西法來突破西法本就不易,更關鍵的還需得到西方主流史學界的認同。就認同感而言,計算史學具有先天優勢,西方比中國更早地設想并擁抱“數字化生存”,甚至計算人文被很多西方學者視為“解救疲軟人文學科的一劑良藥”[49],而中西方在前沿技術的研究與應用上的差距并不大,中國實現“彎道超車”相對不難。最重要的,盡管東西方共享同樣的“計算”方法和范式,但我國留存有超過任何一國規模的歷史文本,數量龐大、脈絡完整、體裁多元,堪為數據“寶礦”。沿循“從知識發現到規律揭示”的路徑,中國計算史學的研究成果既合中國國情,又能受西方認同,由此不斷累積并凝練出的中國史話語也必將匯通東西方,從而推動從“主權性的中國”邁向“主體性的中國”的實現。
總之,一個時代應該有一個時代的學術及其史學,計算史學所顯現出的“史料革命”趨勢與引發的“分析的歷史”轉向,從時代意義看不亞于人類從口口相傳向文字書寫的轉變,從歷史影響看不遜于活字印刷術所帶來的知識與社會革命。在這場思潮中,每一個歷史學人都無法置身事外,當我們對中國計算史學進行審視并抱以憧憬時,既不能忘記其百年歷程的經驗教訓,也不能忽視其繁榮表象下的“泡沫”問題,尤其是自史學可計算以來,作為計算史學兩大基本面的“計算”與“人文”一直是一對彼進我退的矛盾體。如何有效處理與融合計算史學內蘊的技術性與人文性關系,并真正實現“大歷史”學科、“整體史”學術與“中國史”話語的宏大藍圖,關鍵在于保持史學“求真”的內核和屬性。實事才能求是,求實才可證虛,歷史研究應以客觀事實為基礎,這是古今中外歷史學家不謀而和的最基本守則。盡管真實也是有限度的,我們不能完全復原絕對真實的歷史,但可以不斷趨近真實與靠近真相,這也正是當下計算史學受人推崇的根本原因,即對海量文獻的掌握和對精妙方法的運用讓人們看到了“發現更真的歷史”的可能與希望;當然,對其質疑也同樣源于此。從這個角度講,無論未來計算史學呈何種形態都無法與傳統史學相切割,因為就實操層面而言我們還是得從“史料”與“史法”等傳統史學范疇認定的底層規范去著手,特別是前者,畢竟再精進的計算技術也無法改變史學以史料為基礎與第一步的規律事實,更難以脫離人力去解決史料代表性與數據清洗等難題,正如在近代中國史學史上起過重要作用的《益世報·史學專刊》發刊詞中所指出的,“我們不愿依戀過去枯朽的骸骨,也不肯盲目地穿上流行的各種爭奇夸異的新裝,我們的目標只是求真”[50]。
參考文獻:
[1]? 梁啟超.歷史統計學[A].梁啟超全集(第十四卷)[M].北京:北京出版社,1999.
[2]? 湯象龍.《北宋的土地分配與社會騷動》附注[A].陳潤成,李欣榮.張蔭麟全集(下卷)[M].北京:清華大學出版社,2013.
[3]? (法)保爾·拉法格.中共中央馬克思恩格斯列寧斯大林著作編譯局,編譯.摩爾和將軍——回憶馬克思和恩格斯[M].北京:人民出版社,1982.
[4]? 霍俊江.計量史學研究入門[M].北京:北京大學出版社,2012.
[5]? 孫圣民.歷史計量學五十年——經濟學和史學范式的沖突、融合與發展[J].中國社會科學,2009(4):142-161,207.
[6]? 錢學森,沈大德,吳廷嘉.用系統科學方法使歷史科學定量化[J].歷史研究,1986(4):7-14.
[7]? 何順果.關于美國國內市場形成問題[J].歷史研究,1986(6):174-189.
[8]? 蔣大椿.自然科學的發展與歷史唯物主義的形成[J].歷史研究,1986(2):3-16.
[9]? 王學典.近五十年的中國歷史學[J].歷史研究,2004(1):165-190,193.
[10]? 姜錫東.微機與史學研究手段的現代化[J].史學理論研究,1992(4):137-143.
[11]? 吳承明.經濟史:歷史觀與方法論[J].中國經濟史研究,2001(3):5-24.
[12]? 路振光.因特網上史學信息資源粗探[J].史學月刊,1999(4):2-7.
[13]? 黃一農.張家山漢墓竹簡《奏讞書》紀日干支小考[J].考古,2005(10):73-75.
[14]? 謝乃和.別讓“E—考據”成為“偽考據”[N].中國社會科學報,2013-01-25(2).
[15]? 王旭東.數字世界史:有關前提、范式及適用性的思考[J].安徽大學學報,2006(6):96-101.
[16]? 周兵.歷史學與新媒體:數字史學芻議[J].甘肅社會科學,2013(5):63-67.
[17]? 焦潤明.網絡史學論綱[J].史學理論研究,2009(4):101-110,160.
[18]? 李劍鳴,王晴佳,王加豐,等.互聯網與史學觀念變革[J].史學理論研究,2011(4):4-22.
[19]? 王旭東.信息史學建構的跨學科探索[J].中國社會科學,2019(7):159-185,208.
[20]? 黃水清.人文計算與數字人文:概念、問題、范式及關鍵環節[J].圖書館建設,2019(5):68-78.
[21]? 李振,奚建武.信息化進程的前沿探索——“數字化與21世紀人文精神”研討會綜述[J].探索與爭鳴,2003(2):34-36.
[22]? 王曉光.“數字人文”的產生、發展與前沿[A].全國高校社會科學科研管理研究會.方法創新與哲學社會科學發展[C].武漢:武漢大學出版社,2010.
[23]? (法)郎格諾瓦,瑟諾博司.李思純,譯.史學原論[M].上海:商務印書館,1926.
[24]? 劉萍.“史料革命”:近十年來的史料學研究及反思[J].北方論叢,2021(5):43-53.
[25]? 梁晨,董浩,李中清.量化數據庫與歷史研究[J].歷史研究,2015(2):113-128,191-192.
[26]? 梁晨,董浩.必要與如何:基于歷史資料的量化數據庫構建與分析 以大學生學籍卡片資料為中心的討論[J].社會,2015,35(2):94-108.
[27]? 鄧君,宋先智,鐘楚依.我國數字人文領域研究熱點及前沿探析[J].現代情報,2019,39(10):154-164.
[28]? 黃水清,王東波,何琳.以《漢學引得叢刊》為領域詞表的先秦典籍自動分詞探討[J].圖書情報工作,2015,59(11):127-133.
[29]? 陳力.數字人文視域下的古籍數字化與古典知識庫建設問題[J].中國圖書館學報,2022,48(2):36-46.
[30]? 徐晨飛,包平,張惠敏,等.基于關聯數據的方志物產史料語義化知識組織研究[J].大學圖書館學報,2020,38(6):78-88.
[31]? William J Frawley,Gregory Piatesky-Shapiro,Christo-pher J.Matheus.Knowledge Discovery in Databases:An Over-view[J].AI Magazine,1992,13(1):57-70.
[32]? 陸宇杰,許鑫,郭金龍.文本挖掘在人文社會科學研究中的典型應用述評[J].圖書情報工作,2012,56(8):18-25.
[33]? 孫輝.數字人文研究框架探析與思考[J].情報理論與實踐,2018,41(7):7-13.
[34]? 劉瀏,黃水清,孟凱,等.《春秋》三傳女性人物的人文計算研究[J].圖書情報工作,2020,64(23):109-123.
[35]? 范文潔,李忠凱,黃水清.基于社會網絡分析的《左傳》戰爭計量及可視化研究[J].圖書情報工作,2020,64(6):90-99.
[36]? 劉圣嬰,王麗華,劉煒,等.數字人文的研究范式與平臺建設[J].圖書情報知識,2022,39(1):6-29.
[37]? 李明杰.數字環境下古籍整理范式的傳承與拓新[J].中國圖書館學報,2015,41(5):99-110.
[38]? 歐陽劍.面向數字人文研究的大規模古籍文本可視化分析與挖掘[J].中國圖書館學報,2016,42(2):66-80.
[39]? 王兆鵬,邵大為.數字人文在古代文學研究中的初步實踐及學術意義[J].中國社會科學,2020(8):108-129,206-207.
[40]? 趙薇.數字時代人文學研究的變革與超越——數字人文在中國[J].探索與爭鳴,2021(6):191-206,232,233.
[41]? 陳鵬.新世紀以來的史料型數據庫建設與中國近代史研究[J].國家圖書館學刊,2013,22(6):33-38,32.
[42]? 陳爽.回歸傳統:淺談數字化時代的史料處理與運用[J].史學月刊,2015(1):14-17.
[43]? 劉子健.史學的方法、技術與危機[J].新史學(臺北),1990(1):14-21.
[44]? 張耀銘.數字人文的價值與悖論[J].澳門理工學報,2019(4):26-31.
[45]? 金玲娟.我國圖書館數字人文服務現狀、障礙與對策研究[J].圖書館工作與研究,2018(9):15-20.
[46]? 吳玲.大數據時代歷史學研究若干趨勢[J].北方論叢,2015(5):68-70.
[47]? 李金錚.整體史:歷史研究的“三位一體”[J].近代史研究,2012(5):24-28.
[48]? 榮劍.論歷史觀與歷史價值觀——對中國史學理論若干前提性問題的再認識[J].中國社會科學,2010(1):17-34,221.
[49]? 王濤.“數字史學”:現狀、問題與展望[J].江海學刊,2017(2):172-176.
[50]? 發刊詞[N].益世報·史學專刊,1935-04-30(1).
作者簡介:陳加晉,男,南京農業大學馬克思主義學院師資博士后;盧勇,男,南京農業大學中國農業遺產研究室教授,博士生導師。