李斌 王東波


摘? ?要:在人工智能和信息技術飛速發展的今天,無論是古典文獻的版本、目錄、校勘,還是現代文獻的管理與研究,都發生著重大變革。紙質文獻數字化內容的計量與可視化分析,已經產生了數字文獻學和文獻計量學的研究范式,而借助自然語言處理技術,文獻內容的標注與自動分析也日益豐富。以數字化形態為基本載體,以計算模型為技術手段的文獻管理與研究已經成為學界業界的新趨勢、新常態。文章提出“計算文獻學”這一術語,以統稱信息智能時代的新型文獻學研究方法與范式。進而以古典文獻為對象,提出以人工智能技術進行字符識別、自動斷句、標點、標引,版本自動比對、征引,智能排版,形成全數字化整理出版流程,大大加快古籍的整理出版工作。在高質量數字化底本的基礎上,建設古典文獻知識庫,以大數據的知識服務方法,發揮古典文獻的社會服務功能。通過多學科協同,培養新時代的文獻整理研究的文理復合型人才。
關鍵詞:計算文獻學;文獻學;古籍數字化;計算人文;數字人文
中圖分類號:G256? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023004
Abstract Today, with the rapid development of artificial intelligence and information technology, major changes have taken place in the editions, catalogs, and collations of classical documents, as well as in the management and research of modern documents. The quantitative and visual analysis of digital content of paper documents has produced the research paradigm of digital bibliology and bibliometrics, and with the help of natural language processing technology, the annotation and automatic analysis of document content are also increasingly enriched. Document management and research with digital forms as the basic carrier and computational models as technical means has become a new trend and new normal state in the academic world. This paper proposes the concept of "computational bibliography" to name the new research method and paradigms of philology in the era of information and intelligence. Taking classical literature, we propose to use artificial intelligence technology for OCR, automatic sentence segmentation, punctuation, indexing, edition comparison, citation, and intelligent typesetting to perform a whole digital emendation and publishing process, which will greatly speed up the emendation and publishing of ancient books. Then, it is urgent to build knowledge bases of classical literature based on high-quality digital documents, and to apply the knowledge service method of big data to classical literature. Finally, through multidisciplinary collaboration, more interdisciplinary students need to be educated in the new era.
Key words computational bibliography; bibliography; ancient book digitization; computational humanities; digital humanities
文獻學是對文獻的研究,主要包括中國傳統的以版本、目錄、校勘為核心的歷史文獻學,以及從西方引入的以圖書情報領域的現代文獻學[1]。前者致力于對紙質文獻進行內容上的考證與整理,后者更注重利用數學方法進行文獻的歸類整理與計量研究。隨著電子信息技術和人工智能技術的發展,文獻學已經發展出了“數字文獻學”[2]、“文獻計量學”[3]、“E考據”[4]、“人文計算”[5]等新的研究方法和研究范式,給文獻學帶來了新的活力。本文在梳理這一發展趨勢的基礎上,指出文獻電子化之后除了保存文獻內容之外,更重要的是對文獻內容的分析和利用。數學計算方法是現代文獻學進行數字化、計量分析和計算分析的基礎,也是促進傳統文獻進行數字化考證和活化利用的支撐。但一直缺乏一個比較合適的術語來命名這種新的文獻研究方法。因此,本文明確提出“計算文獻學”這一學科術語,并論證這一新的技術方法的研究范式和應用價值。
1? ?從數字文獻學到文獻計量學
作為現代文獻學的數字化轉型,數字文獻學和文獻計量學相繼出現。我們可以將二者看作相互依存的兩個層面:第一個層面,即數字文獻學或電子文獻學,主要指用數字化技術來承載和轉換傳統文獻的研究;第二個層面,即文獻計量學,主要采用統計方法來挖掘海量文獻中隱藏的各種知識。
1.1? ? 數字文獻學
數字文獻學是隨著電子計算機的廣泛應用,以文獻的電子化為主要研究任務和方法的學科。國際上,在20世紀60年代制定了計算機字符編碼標準之后,如1963年的ASCII(美國信息交換標準代碼),以手工錄入為主的電子文獻和目錄逐步出現。1964-1969年,美國教育部就建設了教育資源信息中心(ERIC),這是一個教育引文、摘要和文本的數據庫[6]。伴隨著70、80年代數據庫技術的不斷發展,又產生了代表性的電子文獻目錄庫 OPAC(在線公共訪問目錄)[7]。90年代之后,隨著互聯網的崛起和廣泛使用,電子文本開始了爆發式增長。同時,光學字符識別技術(OCR)的興起,也使得傳統的紙質文獻得以快速掃描和識別為文字,形成電子文獻。國內外的文獻電子化研究和整理工作都不斷展開[2]。在這種趨勢下,2006年,鄭永曉明確提出了數字文獻(digital document)學,指出數字文獻學就是對數字文獻的產生、發展、演變、整理、制作、校對、使用、流通、管理等各個流程和環境進行研究的一門新興學科[8]。
從主要研究內容來看,數字文獻學就是用數字化技術,將紙質為主的文獻轉化為計算機可以存儲和處理的數字文獻,并用數據庫技術進行保存和管理。這是文獻的數字化工作,也是用計算技術和統計方法對文獻進行分析研究的基礎。
1.2? ? 文獻計量學
數字化的文獻,為“文獻計量學”提供了大量的研究資料。在計算機出現以前,已經有了一些使用計算方法對文獻進行統計分析的工作,但是過程非常艱辛,大多是依靠手工做卡片和統計。這種純人工方法,費時費力,效率低下,但是數理統計之后,依然得到了許多值得稱道的研究成果,挖掘出了文獻中的量化信息。如學界一般將1917年Cole和Eales對300多年的解剖學文獻進行的統計分析作為文獻計量學的開創性研究[9]。1922年,英國學者Hulme使用了“statistical bibliography(統計文獻學)”術語[10]。但受限于效率問題,這些純手工的文獻統計研究一直沒有大規模展開,直到20世紀60年代之后,隨著計算機的快速發展,一方面電子文獻的數量不斷增長,另一方面計算機的算力不斷增強,使計量研究有了計算機的強力支撐,效率大幅提高,文獻的計量研究正式進入了發展期。1969年,英國學者Alan Pritchard提出了新的術語Bibliometrics,意為“Biblio(圖書)+metry(計量)+cs(學)”,一般被翻譯為“文獻計量學”[11]。美國學者Eugene Garfield于1955年在美國《科學》雜志發表《引文索引用于科學》的重要論文[12],系統地提出了用引文索引檢索科技文獻的新方法,從而打破了分類法和主題法在檢索方法中的壟斷地位,60年代-80年代,逐步以手工、磁帶、軟盤、光盤、網絡等方式,發布學術文獻索引SCI、SSCI、ISTP等,并基于引文索引進行了大量的計量研究。
2? ?計算文獻學
2.1? ? 基于計算的文獻數字化
自20世紀90年代以來,基于計算技術的文獻學就已經產生。特別是在計算語言學和數字人文領域,展開了文字識別、詞法分析、文本風格分析的研究工作。以文字識別技術為例,OCR(Optical Character Recognition,光學字符識別)可以將文獻進行光學掃描后,從圖片形式轉化為字符形式。該技術改變了過去以人工錄入為主的文獻數字化模式,大大加快了紙質、金石、木刻等載體的文獻數字化進程[13]。而在數字化之后,就可以加工為數據庫,進行基于字符串的全文檢索,從而使得文獻可以被更快捷地檢索和利用。文本的檢索技術,實際上利用的也是計算技術,而且涉及到大量的自然語言處理技術。如詞法分析技術,主要可以進行英文單詞的詞形還原,從而保證檢索的完整性。具體來說,檢索“buy”這個單詞的時候,需要考慮“buys”“bought”等不同的形式。而在漢語中,雖然不需要詞形還原,卻需要進行自動分詞,以保證檢索的準確性。如檢索“和尚”時,如果文獻沒有經過詞語的切分處理,就會檢索出“和-尚未”“和-尚且”等大量的錯誤干擾項。在國際上,基于字符串和詞串的檢索技術也已經在搜索引擎和各種檢索平臺上廣泛應用。
因此,在進行漢字文獻的電子化、檢索與計量分析時,“計算”已經成了必不可少的技術和流程。但是,漢字文獻沒有詞語邊界,如果不進行詞語的切分,只能做基于字和字符串的統計,這對于基于詞和概念的很多研究來說是非常不便的。在漢字文獻的檢索上,想實現基于“詞”的檢索,就必須采用自然語言處理的計算技術進行自動分詞[14]。OCR、詞法分析、索引和檢索技術已經成了制作檢索平臺的基礎。因此,在國內外的許多研究論文中,都出現了“基于人工智能”“基于計算”“智能分析”“計算分析”“數智”等字樣的文獻學研究[15],一個新的術語呼之欲出。
2.2? ? 基于計算的文獻計量學
20世紀90年代之后,電子文本呈爆發式增長,計算機的算力也迅速提升。文獻計量學,也從簡單的數據統計、引文分析,進一步發展為對文本的詞頻進行分析,觀察出現的作家、作品、詞語的頻次與相關關系,挖掘代表人物、代表作品、研究熱點與前沿,還用于學術熱點追蹤,學科評價等,近年來也逐步拓展到醫學文獻、法律文獻等領域知識的挖掘[16]。
可以看出,文獻計量學已經越來越多地使用計算機來進行海量電子文獻的計量分析,而超越統計方法的人工智能領域的技術,諸如機器學習的分類、聚類,自然語言處理的文本自動分析、情感分析、自動摘要、機器翻譯,復雜網絡分析與可視化技術等,都不斷地被應用到文獻內容的挖掘與分析中。在這種趨勢下,已經催生出了基于“計算”的新型文獻學,但始終沒有一個合適的術語指稱。
2.3? ? 計算文獻學的提出
基于在數字時代文獻學自身的發展,和文獻內容深度研究的科學需求,本文提出“計算文獻學(Computational Bibliography)”的術語。這個新術語主要強調采用計算技術,進行文獻的掃描、錄入、數據化、索引、檢索、自動標引、自動分詞、統計分析、可視化交互、智能應用等新型的文獻學研究技術和研究范式。
在計算的視角下,文獻的數字化、計量分析、可視化,都是計算文獻學的研究內容,從而把基于計算的文獻學納入到一個整體的框架中,避免條塊分割。數字文獻學、E考據、文獻計量學、計量風格學、文獻可視化、文獻內容挖掘、文獻元宇宙等,實際上運用了大量計算技術和方法的研究,也都可以歸入計算文獻學的范疇中,不僅便于學術界和業界的指稱和交流,還可以將研究聚焦于計算技術,加強計算技術與方法的研究、教學和應用。所以計算文獻學對文獻學新形式的概念釋義,更是將古典文獻學和現代文獻學在計算框架下融合與發展的自然產物。
計算文獻學是一門以計算機科學和文獻學等多學科進行交叉研究的學科,以文獻特別是數字化文獻為研究對象,以傳統的人文學科和文獻研究法為指導,以數學模型、計算技術為代表的新方法技術為支撐,服務于信息化、智能化時代對文獻數字化、文獻內容的結構化、知識化、多模態化,滿足學術研究、知識服務等社會需求(計算文獻學的基本架構見圖1)。
計算人文以計算方法與技術對更廣闊的人文領域進行體系化、深入化和精細化的計算研究。計算文獻學是在新時代信息智能的條件下和計算人文的整體框架下針對海量的典籍文獻展開的一系列計算研究,在學科定位上更加專注,符合現有古典文獻、圖書情報等相關學科的研究、教學及未來發展。作為一門新興交叉學科,計算文獻學既可以作為圖書情報學、文獻學和計算機應用技術的子學科,從細分學科上也可以作為計算人文的分支學科內容。
3? ?計算文獻學的金字塔
我們可以把計算文獻學看作數字文獻學和文獻計量學之后的第三個層面。一般來說,計算文獻學是在文獻計量學之后,更注重采用計算技術、人工智能、復雜網絡與可視化的高技術層面。三個層面形成一個典型的金字塔結構(見圖2-A)。然而,三者現實的關系應該是貫穿式金字塔(見圖2-B)。
首先,數字文獻學提供了數字化的文獻,是計量和計算的基礎;其次,文獻計量學可以在電子文獻的基礎上,開展各種統計分析研究。但是,文獻計量的研究成果,也可以服務于數字文獻學,是可以下探到底層的。如對異體字的字頻和詞頻的統計分析,可以對古籍文獻的電子化進行規范,盡可能處理好正體字和異體字的關系,以滿足全文檢索的需求。
計算文獻學則貫穿了前面兩者。一方面,以OCR和文本糾錯技術為代表的計算技術,在文獻數字化的過程中作用巨大,可以大大提升速度與質量,大大減少人工的錄入和校對工作;另一方面,以自動分詞、自動標引、文本挖掘為代表的計算技術,大大拓展了文獻計量學的研究方法和技術,可以統計出比字面信息更多更深入的信息。甚至可以說,計算文獻學占據了整個金字塔,為數字文獻學和文獻計量學提供了基礎的技術支持和研究方法。
這個金字塔,也可以用三句話來解讀,文獻數字化需要計算技術,文獻計量與內容挖掘需要計算技術,文獻可視化與應用需要計算技術。
4? ?計算文獻學的特點與發展前景
4.1? ? 計算文獻學的兩大特色:大數據和計算
(1)大數據。在當前數字化社會的發展趨勢下,新的文獻爆炸式增長,每天都有數以億計的電子文獻在互聯網上涌現。而古籍文獻數字化的不斷推進,每年也會掃描和整理上億字的古籍。大數據是事實,是現狀,也是未來的常態。
(2)計算。計算是指的計算能力和計算模型。首先,海量的數據,靠個人的力量,是無法閱讀、整理、掌握和分析的。大數據離開計算技術,也只是一堆無用的存儲。數據越大,越需要新的算法模型作為支撐,強大的軟硬件算力作為基礎;其次,目前深度學習技術已經在OCR、自動分詞、標引等方面取得了突破性進展,將來還會有更多的智能計算技術涌現出來,不斷增強文獻的內容分析與智能應用性能;最后,量變很可能產生質變,在超大數據規模和智能算法的加持下,易于在宏觀的時空尺度上,發現語言、社會、文化的歷時演化和隱秘的關聯,也可以在微觀層面上挖掘出以往不為人們關注到的現象,從量化分析得出新的定性認識和結論。
4.2? ? 計算文獻學的交叉性
計算文獻學,既需要傳統文科的知識體系作為定性研究的支撐,又需要各種新技術作為定量與建模計算分析的基礎,因此是一門綜合性、交叉性非常強的學科。
(1)文獻內容涉及各類學科,需要大量不同領域的知識。由于文獻的基本載體是語言文字,文獻的內容包羅萬象,本身就涉及人類知識的方方面面。如傳統的人文科學,包括文學、語言、歷史、哲學、藝術、法律、教育等,都涉及其中。如果是科技類文獻,自然也包括數學、物理、化學、地理、生物、計算機等。計算文獻學自然也要以傳統文獻學和現代文獻學已有的方法為基本的指導,解決文獻學的傳統問題。
(2)文獻的數字化和計量需要各種計算技術。如前所述,數學、計算機、人工智能技術都在文獻的數字化和計量研究中扮演了重要角色。具體來說,數學中的計算數學、數學建模、微積分、線性代數、數理統計、離散數學、復雜網絡等都是基本的數學工具。計算機科學與技術中的人工智能技術(如機器學習、自然語言處理、圖像文字識別技術、知識工程、知識圖譜等)、信息檢索技術(如全文檢索、詞檢索、多模態檢索等)、程序設計(如C、PYTHON、JS等)、數據庫技術(如網絡數據庫、數據安全、多模態數據庫等)、人機交互技術(如可視化技術、用戶界面設計、用戶畫像等)、虛擬技術(如VR、AR、元宇宙等)、互聯網技術(如多終端聯動等)則是進行統計、計算和網絡檢索與可視化服務的支撐。
(3)研究方法與研究人員的交叉性。要分析和處理某個領域的文獻,既需要這個領域的專家學者,根據其專業領域的知識體系進行研究,還需要與計算技術的專家共同合作,根據具體的問題,以計算建模的方式進行定量研究,形成定性的結論和知識服務。而能夠通曉專業領域與計算技術的復合型人才,往往能更加得心應手地進行這種交叉研究。計算文獻學本身,就是給與傳統的文獻管理和研究以計算技術的加持,培養這種掌握計算技術的新型文獻學人才,已經是圖書情報學界正在開展的事業。傳統文獻學則因為要掌握大量的古代語言和文史知識,在培養文理兼通的人才方面難度較大,是將來值得發展的方向[17]。
4.3? ? 計算文獻學的發展前景
計算文獻學需要處理超大規模文獻數據,運用前沿科技,與諸多學科協同研究,其發展前景也充滿了多樣性。
對于傳統文獻學來說,可以開拓新的研究領域,將傳統的古籍進行數字化,進而計算分析與利用,還可以將古籍版本、字詞考證、點校等工作進行智能化技術升級,下一章詳述;對圖情學來說,計算文獻學對計算技術的倚重,可以更好地在文獻數字化、量化分析與智能應用方面發揮作用。特別是知識圖譜構建和知識服務領域,很可能出現諸多新的算法和應用,推進文獻內容的知識庫構建與個性化知識服務;對于語言、文學、歷史、哲學等倚重文本內容的學科來說,計算文獻學可以為之提供更為豐富的文獻數據庫、高度結構化的文史數據、文本內容智能分析技術和各種可視化分析呈現。
服務于定量與定性研究。過去人們對大數據有一種誤解,即大數據只能做定量分析,難以做定性研究。隨著回歸分析、假設檢驗、自動聚類、自動分類、復雜網絡分析等方面的算法不斷完善,在文獻大數據上進行定性研究已經成了新的趨勢[18]。如利用語言數據和貝葉斯模型來研究原始漢藏語系,已經獲得了初步的研究成果[19]。將來人們掌握了中國及周邊國家地區的多語言文獻數據,形成大規模數據庫,在計算文獻學方法指導下,可以對中國的歷史、語言、文化,以及多文化、多語言、多民族的交流歷史,在數千年的大尺度框架下,通過分類、聚類、復雜網絡等分析技術,來形成新的認識和結論。
除了學術服務之外,還可以產生較大的經濟效益和社會效益。高校和企業聯合開發,可以產生多樣的學術性、商業化文獻知識服務平臺和應用。未來的文獻內容服務,將不只是字符級別的全文檢索,而是基于內容的知識檢索和知識服務。借助ChatGPT①這樣的個性化問答服務技術,加之越來越大的文獻數據,可以進一步開發個性化的知識學習系統、文獻管理助手、實時知識獲取與分析等應用,讓海量的文獻更好地為人服務。
5? ?基于計算文獻學的中國古籍活化利用
中國古典文獻浩如煙海,是一筆取之不盡、用之不竭的文化財富。然而,古典文獻的整理工作無比艱巨,不僅包括標點、校勘、注釋等工作,還需要編制書目、索引、辭書等。我國古典文獻總數迄今尚無定論,總量估計超過20萬種、20億字。根據《古籍整理圖書目錄(1949-1991)》記載,1978-1990年,我國共整理出版古典文獻4360種。若全部以人力來進行古典文獻的整理工作,那將花費數百年時間。擁有大量漢字古籍的日本已經展開了文獻數字化的整理工作,在技術加持下形成了諸多古籍文獻數據庫[20]。
計算文獻學可以為古典文獻學研究帶來新工具、新思路。中文OCR、自動標引、專名識別等技術的應用為古典文獻的整理工作帶來重大利好。古典文獻全文庫、知識庫的建設大大滿足了學術界、大眾獲取古典文獻內容的需求。將現代科技應用到古典文獻的整理工作中,將極大提高我國古典文獻整理出版工作的效率,促進我國古典文獻在新時期持續發揮價值。
5.1? ? 以計算技術打通古典文獻全數字化整理出版流程
古典文獻整理工作往往依托歷史和“三古”專業(即古代文學、古代漢語和古典文獻學專業),主要工作有版本校勘、文字訓詁、句讀標點、注釋等工作。直至目前,古典文獻整理出版主體仍然集中在古籍出版社與高校。
目前,古籍OCR的識別正確率大幅提高,達到95%以上,自動句讀、自動標點、專名識別等技術也都可以達到90%-95%的正確率。經過計算機的處理之后,只要輔以人工校正,整理效率就能實現巨大飛躍。除此以外,古文獻的斷句、標點、分詞、詞性標注、命名實體識別都達到了實用水平[21]。在第一屆古漢語國際評測EvaHan2022上,分詞準確率達到了96%以上,詞性標注準確率達到了92%以上[22]。
在高校和出版社的探索下,目前古典文獻整理工作已經實現了數字化工具整理、人工校對的半自動化流程,出現了一些古典文獻整理平臺輔助工作。成立于2015年的古聯(北京)數字傳媒科技有限公司是中華書局的全資子公司,它建設運營的國家級古籍整理出版資源平臺“籍合網”①在2018年上線。“籍合網”中包含引文核查、專名識別、自動標點、繁簡轉換、OCR識別等服務,通過采用眾包的方法,流程化、大規模開展古籍編校工作。2018-2022年,通過“籍合網”整理的古籍文本約為14億字,極大推進了古典文獻整理的進度。浙江大學的“智慧古籍平臺”②集成了OCR識別、智能標點功能,采用眾包機制,可使古籍整理者突破地域限制,高效地完成線上整理工作。這些數字化平臺協助傳統古典文獻整理工作者完成基礎的校對、標引等工作,大大減輕了勞動量[23]。
2022年10月,全國古籍整理出版規劃領導小組發布《2021-2035年國家古籍工作規劃》(以下簡稱《規劃》),將國家古籍數字化工程作為重大工程,鼓勵古籍數字化與古籍整理出版工作同步推進、緊密結合,推動古籍整理出版數字化資源庫建設。在將來,學界和業界需投入到古典文獻全數字化整理平臺的建設中,搭建出從文本識別、標引、校對到編輯出版全數字化、智能化的整理流程。通過技術賦能,為我國古籍整理工作者減輕負擔。如文獻中包含有大量難以識別的罕用字、異體字等,未來古典文獻漢字庫建設完成后,將極大滿足古典文獻整理與出版工作中的實際需求。
5.2? ?以知識工程技術建立新型古典文獻知識庫
古籍數字平臺的演化不僅給古籍整理工作帶來了重大轉變,還推動了古典文獻知識庫的建立。傳統古典文獻整理工作的目的是將古典文獻轉化為便于當代人閱讀的文本,不僅投入人力大、耗費時間長,而且由于大多數文獻內容豐富、艱深,難以被普通大眾接受。因此,傳統的古典文獻整理工作主要服務對象為學術研究者。若想使我國古典文獻中蘊含的文化知識財富被普羅大眾接受,就必須適應時代需求,轉換古典文獻整理的成果形態。古籍全文數據庫和圖文數據庫,大多保留了古籍面貌,便于用戶檢索瀏覽。
近年來,隨著人工智能與信息技術的進一步發展,古籍數字化工作有了新理念、新方法。古籍自動分詞[14]、智能標引、專名識別[21]、地理信息[24]、知識工程和知識圖譜[25]等技術,可以將古籍的文字轉化為結構化的知識數據,構建新型的古典文獻知識庫。這樣,蘊藏在古典文獻中的深層知識可以用諸多算法技術挖掘出來,以可視化技術呈現在人們眼前。此外,知識庫革新了知識的構建方式,改變了古籍知識純文本的顯示方式,將古典文獻中的知識以可視化、可交互化的方式重組,不僅便于學術研究者更加直觀、便利地獲取古典文獻中的知識,也可以增加大眾讀者對傳統文獻的接受度。
國際上古典文獻知識庫的建設自20世紀末便已經開始,“中國歷代人文傳記資料庫(CBDB)”于20世紀90年代建立,是全球較早進行數據結構化的古籍知識資料庫[26]。目前,國內對于古典文獻知識庫的建設已經有了部分探索性工作,主要包括圖書目錄數據庫、專題知識庫、專書知識庫、綜合性知識庫等。古籍目錄數據庫主要收錄圖書的作者、年代、品級等信息,服務于題錄檢索,相對比較成熟[27];專題知識庫主要有人物傳記數據庫和歷史地理數據庫,記錄歷史人物的生平、社交關系、古代歷史電子地圖等信息;專書知識庫則專注于某部古籍,進行內容的深度標注與結構化。在這一方面的實踐中,已經有了一些較為顯著的成果,主要集中在高校的科研單位中。南京師范大學開發的“《資治通鑒》知識庫檢索平臺”引入古籍自動分析技術和GIS技術,建設了數字人文知識庫,解決了人名、地名的“異名同指”和“同名異指”問題,通過對文本進行深度加工和知識重組,提取相關信息并進行本體化處理,實現了基于語義的檢索和閱讀瀏覽功能[28]。北京大學數字人文中心開發的“《宋元學案》知識圖譜系統”將書中的人物、時間、地點等要素及它們之間的復雜語義關系提取出來構建為知識圖譜,并具備可視化展現、交互式瀏覽、語義查詢等功能[26]。古典文獻數據庫從數字化到智能化的轉變,意味其實現了功能性提升與結構性轉變。
目前我國還缺少大而全的綜合性古典文獻知識庫,這一工作在探索期過后便能提上建設議程,一旦建設完成,將會大大推動古典文獻在大眾層面的普及工作。目前已建立的古典文獻知識庫,已能夠為古典文獻研究者和整理工作者帶來了思維方式和研究范疇的新變。一方面,以“知識庫”形態為建設目標本身就是對傳統古典文獻整理工作的一次革新;另一方面,古典文獻知識庫能作為輔助研究工具,為相關研究者提供便利的知識獲取途徑。大數據帶來的數據聚類化研究,也能便于對傳統的知識進行驗證與修正。因此,建立在古典文獻數字化整理上的古典文獻知識庫,會成為信息化時代的古典文獻研究、傳播的新工具、新途徑。
6? ?結語
在數字化高速發展的信息時代,我們面臨著文獻的爆炸式增長,海量的古籍文本也亟待數字化。本文梳理了國內外的研究發展趨勢,得出無論是文獻數字化,還是文獻內容的結構化表示與內容分析挖掘,都需要計算技術和方法的基礎性支撐,并從這一趨勢出發,提出了“計算文獻學”這一學科性的術語。計算文獻學強調“計算”在當前和今后將成為文獻學研究的重要技術和方法論,明確了該學科與“數字文獻學”和“文獻計量學”的貫穿式繼承關系。本文還指出,計算文獻學具有大數據和計算的兩大特色,其學科交叉性也不只體現在學科知識和技術的交叉,更是研究方法與研究人員的交叉合作,可以將其置于“計算人文”的下位學科。最后,本文提出,要以計算文獻學為框架,打通古籍數字化整理和出版的全流程,構建新型古籍知識庫,從而活化利用中國的古代文獻。
“計算文獻學”這一術語的提出,僅僅是一個起點。我們希望這個術語能夠促進文獻學特別是傳統文獻學的技術方法升級,傳承和發掘傳統文獻中的精華;在大數據的視野下對文獻做出數千年的歷時分析與國內外多語言文獻的橫向分析;吸引更多的年輕學者加入到這個領域中來,培養更多的復合型人才,助力民族偉大復興。
致謝:馮志偉教授、鄭永曉教授和審稿人的寶貴修改意見。
參考文獻:
[1]? 王余光,汪濤,陳幼華.中國文獻學理論研究百年概述[J].圖書與情報,1999(3):12-19.
[2]? 楊清虎.數字文獻學的概念與問題[J].黑龍江史志,2013(13):203.
[3]? 趙蓉英,許麗敏.文獻計量學發展演進與研究前沿的知識圖譜探析[J].中國圖書館學報,2010,36(5):60-68.
[4]? 黃一農.從E考據看避諱學的新機遇:以己卯本《石頭記》為例[J].文史,2019(2):205-222.
[5]? 黃水清.人文計算與數字人文:概念、問題、范式及關鍵環節[J].圖書館建設,2019(5):68-78.
[6]? Ted Brandhorst.The Educational Resources Information Center(ERIC)[A].Allen Kent.Ed.Encyclopedia of Library and Information Science[C].New York:Marcel Dekker,Inc.,1993,51(S14):208-225.
[7]? Babu B Ramesh,Ann oBrien.Web OPAC interfaces: an overview[J].The electronic library,2000,18(5):316-330.
[8]? 鄭永曉.古籍數字化對學術的影響及其發展方向[J].社會科學管理與評論,2006(4):81-88.
[9]? Cole F T,Eales N B.The History of Comparative Anatomy[J].Science Progress,1917(11):578-596.
[10]? Hulme E W.Statistical bibliography in relation to the growth of modern civilization:two lectures delivered in the University of Cambridge in May,1922.author,1923.
[11]? Pritchard Alan.Statistical Bibliography or Bibliometrics[J].Journal of Documentation,1969,25(4):248-349.
[12]? Garfield,Eugene.Citation indexes for science:A new dimension in documentation through association of ideas[J].Science,1955,122(3159):108-111.
[13]? 郭利敏,葛亮,劉悅如.卷積神經網絡在古籍漢字識別中的應用實踐[J].圖書館論壇,2019,39(10):142-148.
[14]? 石民,李斌,陳小荷.基于CRF的先秦漢語分詞標注一體化研究[J].中文信息學報,2010,24(2):39-45.
[15]? 雷玨瑩,侯西龍,王曉光.數智時代古籍數字化再造的邏輯與進路[J].數字人文研究,2022,2(2):46-56.
[16]? 邱均平,段宇鋒,陳敬全,等.我國文獻計量學發展的回顧與展望[J].科學學研究,2003(2):143-148.
[17]? 楊海崢,王軍.對新時代古籍人才培養的思考[J].出版廣角,2022(12):6-10,30.
[18]? Mills Kathy A.Big data for qualitative research[J].Taylor & Francis,2019.
[19]? Zhang M,Yan S,Pan W,et al.Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic[M].Nature,2019,569(7754):112-115.
[20]? 鄭永曉.傳承與超越:數字文獻學的未來發展芻議——兼論日本文獻數字化對我國之啟示[J].中國比較文學,2019(4):2-13.
[21]? 黃水清,王東波.古文信息處理研究的現狀及趨勢[J].圖書情報工作,2017,61(12):43-49.
[22]? Bin Li,Yiguo Yuan,Jingya Lu,et al.The First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff:Overview of the EvaHan 2022 Evaluation Campaign[A].In Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages[C].Marseille,France.European Language Resources Association,2022:135-140.
[23]? 劉石.文獻學的數字化轉向[J].文學遺產,2022(6):10-13.
[24]? 張萍.地理信息系統(GIS)與中國歷史研究[J].史學理論研究,2018(2):35-47,158.
[25]? 楊海慈,王軍.宋代學術師承知識圖譜的構建與可視化[J].數據分析與知識發現,2019,3(6):109-116.
[26]? 包弼德,王宏蘇,傅君勱,等.“中國歷代人物傳記資料庫”(CBDB)的歷史、方法與未來[J].數字人文研究,2021,1(1):21-33.
[27]? 李文琦,王鳳翔,孫顯斌,等.歷代史志目錄的數據集成與可視化[J].中國圖書館學報,2023,49(1):82-98.
[28]? 常博林,萬晨,李斌,等.基于詞和實體標注的古籍數字人文知識庫的構建與應用——以《資治通鑒·周秦漢紀》為例[J].圖書情報工作,2021,65(22):134-142.
作者簡介:李斌,男,南京師范大學文學院副教授;王東波,男,南京農業大學信息管理學院教授。