李攀登
(1.河南城建學院外國語學院,河南 平頂山 467036;2.河南大學外語學院,河南 開封 475001)
數字人文也稱人文計算,是近年來人文領域掀起的一股新的學術潮流。隨著數字信息技術的高速發展和廣泛應用,以“大數據”“數字化”“語料庫”“數據庫”“數字人文”等關鍵詞為代表的數字人文研究方法正逐步改變傳統意義上以紙質媒體為主要對象、細讀為主要方法的人文學科研究范式,受到國內人文學者越來越多的關注。關于數字人文的概念,目前學界尚無統一的共識。文獻[1]認為數字人文是將計算機技術應用于人文研究的前沿學科,是一個新興的跨學科研究領域。文獻[2]認為數字人文是“一種將新的技術工具與方法運用到傳統的人文學科的教學、科研、服務以及其他創造性工作之中的新型學科”。國外也有學者如Ramsay將數字人文視為一種工具和方法。 因此,數字人文可以看作是一種把計算機技術與傳統人文研究相結合的新學科、新領域、新方法、新工具。為探索數字人文近年來在我國的發展情況,預測其未來的發展方向,本文通過構建2015—2019年數字人文類立項課題語料庫,利用Python和Excel等數據統計分析工具,采用量性研究的方法,從立項數量、學科門類、關鍵詞、研究熱點4個方面對數字人文類項目的立項情況進行統計分析。結果發現,數字人文類項目的立項數量穩步增長,其技術和方法在多個學科應用廣泛,呈現出多學科滲透的趨勢,具有廣闊的發展前景,值得深入研究。
數字人文將數字技術和數字方法引入人文學科,豐富了人文研究的問題、空間和立場。數字技術不再僅僅是一種工具,而是逐步成為一種新型的學術研究范式。近十年來,以大數據、語料庫、數據庫和數字化為代表的數字技術被逐步應用于語言學、歷史學、藝術學等人文領域,拓展了人文研究的廣度和深度,加深了人類對數字世界中人類文化的理解。
國家社會科學(以下簡稱“社科”)基金立項項目代表著我國社會科學研究的方向和水平,客觀上反映了各學科研究的現狀、重點、熱點及發展方向,具有高度的權威性、導向性和示范性[3]。通過檢索中國知網發現,目前國家社科基金數字人文類項目的研究主要涉及語言文學[4-7]、翻譯[8-10]等,基于國家社科基金的數字人文類課題立項研究尚不多見。鑒于此,本文從數字人文視角,對近五年國家社科基金數字人文類中重點、一般、青年、西部和后期資助五大類項目進行梳理統計,分析數字人文研究的現狀和熱點領域,為后續的相關研究和課題申報提供借鑒。
本文使用的語料源自國家社科基金項目數據庫和全國哲學社會科學工作辦公室官方網站,獲取的數據包括項目批準號、項目類別、學科分類、項目名稱、負責人、工作單位等。根據實際研究需要,又以“大數據”“語料庫”“數據庫”“數字化”“數字人文”為關鍵檢索詞進行規范化整理,人工篩選提取國家社科基金中重點、一般、青年、西部和后期資助五大類相關項目信息共計666條,保存為Excel文檔,并以“數字人文語料庫”命名。
采用定量研究和定性分析相結合的方法,運用Python編程工具及其擴展的自然語言工具包(Natural Language Toolkit,簡稱NLTK)模塊和Excel軟件,經過數據收集、除噪、分詞、檢索、統計等步驟,生成表格和柱形圖,以增強檢索結果與數據之間的關聯性和可比性,有助于對近五年數字人文領域立項情況進行比較分析。
2.3.1 語料采集和加工
通過分析國家社科基金項目數據庫,批量下載數據庫中近五年的項目信息,刪除其中的基金項目代碼列,增加立項年份列名,以便后期查詢;清除其中未進行分類的國家社科基金重大項目,保留重點、一般、青年、西部和后期資助五大類項目信息。由于該數據庫在更新方面會有延遲,因此通過在全國哲學社會科學工作辦公室官方網站上檢索2019年的項目信息,添加到生成的Excel表中。利用Excel的自動篩選功能,以 “大數據 語料庫 數據庫 數字化數字人文”(中間用空格隔開)為關鍵詞進行檢索,獲取了2015—2019年重點、一般、青年、西部和后期資助五大類立項信息,生成數字人文語料庫。
2.3.2 文本分詞處理
因為漢字之間沒有空格,會導致檢索軟件無法提取相關信息,需要對漢語文本做詞匯或文字切分[11],因此采用Python中的Pkuseg分詞模塊,自建分詞專用字典,確保檢索詞切分準確;對分詞結果進行人工校對,確保統計數據的準確性和有效性。
2.3.3 語料檢索統計
按檢索詞出現的頻數由高到低排列,導出至Excel表格并存為“單詞語料”。在這一過程中如果發現統計出的高頻詞異常或者沒有統計意義,則放置在停用詞表中,以避免再次統計。同時,運用Excel的統計功能,統計數字人文項目中每年的立項總數、類別匯總,生成直觀的柱形圖,為分析判斷其研究現狀和走勢提供數據支撐。
從國家社科基金項目數據庫下載相關數據,經過除噪、去重、整理后,生成數字人文立項課題語料庫,收錄各類項目共計666項,占全部國家社科基金項目的12.02%。統計出的數字人文項目立項趨勢情況如表1所示,數字人文類項目在各個子項目類別中均有涉及,其中以一般項目和青年項目立項數量最多,分別為402項和135項,且呈逐年增長趨勢。2016—2018年是數字人文項目立項的快速增長期,平均每年的立項增長率達到了7.76%以上,2018年較2017年增長17.20%。2019年國家社科基金數字人文立項總量有所下降,其增長速度放緩并趨于穩定。總體來看,數字人文立項數量持續增長,出現了利用計算機的強大數據處理和分析能力開展多元化的跨學科創新研究的諸多課題。可見,數字人文的方法和工具在近五年對人文研究產生了巨大的影響,數字人文項目對人文學科的貢獻越來越明顯。

表1 數字人文項目立項趨勢一覽表
圖1為數字人文項目立項柱形圖。從圖1中可以看出,數字人文項目的立項數在重點、一般和青年類基金項目中較多,其中青年項目立項數連年增長,一直保持穩定增長態勢。在大數據時代,青年學者在計算機和信息技術應用方面更為嫻熟,對新興工具和研究方法的學習和掌握較快,因此更能快速抓住數字人文視域下人文研究的新機遇,運用新興數字技術和數字人文方法開展創新研究。

圖1 數字人文項目立項趨勢圖
國家社科基金項目共有語言學、新聞與傳播學、中國文學、外國文學等共計24個學科類別。利用Excel的自動篩選功能,統計出近五年每一類別中數字人文類項目立項數,按照立項數由高到低,生成數字人文庫各學科類別中數字人文項目數量及比例,如表2所示。

表2 各學科類別中數字人文項目數量及比例
從表2可以看出,國家社科基金項目中出現數字人文關鍵詞最多的學科是語言學、圖書館·情報與文獻學、管理學及新聞學與傳播學。這四大學科的數字人文項目立項總數達394項,占全部數字人文立項總數的59.15%,成為與數字人文結合最為緊密的四大領域。隨著語料庫語言學的興起以及計算機信息技術的飛速發展,以數據統計為基礎的語料庫研究方法獲得學界的肯定,越來越多的人文學者開始建設各類數據庫、語料庫,意在跳出微觀數據的羈絆,利用數字人文技術對宏觀數據進行客觀性真實描寫。從表2中可以看到采用語料庫方法進行語言學研究的項目達152項,占數字人文項目的22.82%。隨著數字化浪潮的來臨,各類文本、圖片、音頻和視頻等資源的數字化存儲和查詢已經成為一種趨勢,推動了圖書館和文獻研究與數字人文的融合發展,近五年相關立項達97項,占全部數字人文立項總數的14.56%。同時,管理學及新聞學與傳播學領域的數字人文立項數分別為85項和60項,各占12.76%和9.01%,這是由于隨著數字閱讀日益成為一種時尚,數字技術被用于大數據的組織、整理和分析,為管理學和傳播學學者提供了差異化、規律性、宏觀性、趨勢性研究的可能和線索[12]。
數字技術在外國文學和中國歷史中的應用還處在較低水平,五年內僅各有1項和4項有關數字人文的項目,與語言學和中國文學兩大學科形成了鮮明的對照。出現這種情況的原因是文學研究者一直對技術持有排斥心理,認為科技的過份利用會扼殺創造性[13],對于新技術的利用重視不夠,數字人文意識不強。事實上,學科交叉是學術思想的重要營養[14],未來知識的創新和人文的研究不僅需要內省式的文本細讀,更需要計算機輔助下的文學分析,新的技術和方法將為未來的文學研究帶來革命性的變化。
數字化、數據庫、語料庫、大數據和數字人文等五大關鍵詞,體現了數字科技與人文學科的結合,代表著數字人文這一學術潮流的特征。表3為2015—2019年國家社科基金中數字人文關鍵詞立項數目。從表3可以看出,隨著“讀屏時代”的到來,含有“數字化”的研究項目逐年遞增,越來越多的人文學者看到了人文資源數字化帶來的機遇。近五年數據庫、語料庫相關數字人文項目的立項數目雖有起伏,但總體仍呈穩中有升的態勢。帶有“數字人文”的項目數量增長迅速,從2015年、2016年的0項,到2017年、2018年的3項和1項,2019年達到6項。但近五年立項總量所占比例僅有1.5%,說明數字人文方法在國內仍處在起步階段,因此值得學界進一步深化對數字人文理念的認知,持續推進更多與數字人文相關的跨學科研究。

表3 2015—2019年國家社科基金中數字人文關鍵詞立項數目
分析有關語料庫和大數據的立項清單,發現語料庫的方法更多地被應用于語言研究,而大數據的方法通常被應用于信息管理、風險把控、質量評估等方面。可見,越來越多的學者意識到了數字人文這一跨學科手段在人文學科中應用的必要性,正逐步把數字人文的大數據、數字技術和數字工具應用范圍擴展到各個學科。
國家社科基金各學科類別中數字人文關鍵詞下各項目數量情況如表4所示。從表4中可以看出語言學、圖書館·情報與文獻學等學科中數字人文類項目總量較多,尤其是“數據庫”“語料庫”和“數字人文”關鍵詞表現突出,涉及語料庫的項目有114項,這是因為語料庫最早被用來對語言特征進行量化描寫和解釋,基于語料庫和語料庫驅動的研究范式已經成為觀察語言現象、總結語言規律的常用方法。值得注意的是,涉及數字化的項目(59項)主要集中在圖書館·情報與文獻學,而在其他學科的應用較少,可見數字人文的研究集中在數字圖書館、文獻數字化等領域,與其他學科的交叉和融合還很有限,僅僅處在發展初期,未來需要開展更多跨學科的量化研究,加速數字人文的應用進程,拓展其研究范圍。語料庫的相關項目主要局限在語言學 (109項)學科中,采用語料庫的方法進行跨學科協作性的研究還比較少見,因此未來其他人文學科應順應時代的潮流,引入數字人文的研究方法,開辟人文研究的新路徑,尤其是中國歷史、外國文學等對技術持懷疑態度的傳統學科。

表4 國家社科基金各學科類別中數字人文關鍵詞下各項目數量
對數字人文數據庫中的項目名稱信息進行分詞,去除停用詞并加載字典后,取排名前30的高頻詞如表5所示,并按照各關鍵詞的相關屬性進行分類如表6所示。

表5 國家社科基金數字人文類項目關鍵詞頻次表

表6 國家社科基金數字人文類項目關鍵詞分類表
從表5和表6可以看出數字人文項目中,大數據、語料庫、數據庫和數字化四大高頻詞依次排列,突顯出數字人文視域下大數據的應用較語料庫、數據庫和數字化更為廣泛和普遍,在網絡安全、輿情控制和資源管理方面發揮著不可替代的作用。數字人文的應用主要體現在宏觀管理、國家治理、網絡技術和語言教育4個方面,為機制、模式、體系、服務等宏觀概念的構建提供技術和數據支持,促進了相關理論的創新和服務的提升;擴展到國家治理、資源管理、金融服務、理論創新等服務層面;數字人文的發展離不開網絡技術和數字技術的支持,基于網絡和數據的人文研究一直是熱點;數字人文在語言教學和教育文化領域也有相當大的應用空間。
本文依據數字人文領域具有代表性的5個關鍵詞:“數字化”“大數據”“數據庫”“語料庫”和“數字人文”,檢索近五年國家社科基金重點、一般、青年、西部和后期資助五大類項目,生成數字人文語料庫,進行立項數量、學科分類、關鍵詞和研究熱點分析,結果表明:從宏觀分析,數字人文的研究呈現出穩定發展、多學科滲透的特征,五大關鍵詞中“大數據”和“語料庫”等數字技術在各學科應用最為廣泛,“數字化”和“數據庫”方面的研究立項較少,比例相對失衡;從微觀分析,數字人文在各學科的應用表現出明顯的差異性,在語言學、圖書館·情報與文獻學領域應用較多,而在外國文學、中國歷史領域的應用較少,突顯出數字人文在文學、歷史學等領域具有較大的發展潛力;從應用范圍分析,數字人文的方法在各個學科的交叉應用還有一定局限性,主要應用在宏觀管理、國家治理、網絡技術和語言教育4個方面。本研究從國家社科基金項目的立項情況考察數字人文在國內的發展,由于收集的樣本有限,無法完全代表當前數字人文的發展情況,因此其結果還有一定的局限性,期待后續研究可以繼續拓展深入。