

摘? ?要:文章討論計算人文視閾下計算語言學的定位問題,主要涉及三個問題:計算人文視閾下計算語言學的定位、研究范式,以及它與其他計算人文研究方向的關系。“計算人文”這一術語明確了數字人文的研究以計算技術解決人文學科的研究問題這一研究范式。我們認為,當前計算語言學的工作顯示出明顯的工程特征,將語言作為數據進行處理,很少有回答語言學研究問題的工作。盡管很多學者認為計算語言學是語言學的研究方向之一,但目前并無很多利用計算技術來進行語言學研究的案例。因此,以文本可讀性工作為例,提出一個利用計算技術進行語言學研究的計算語言學研究范式。研究認為,計算語言學在工作方式上與其他計算人文研究方向并無二致,應在統一的研究范式下工作;作為研究工具的計算語言學,則需要在有效性和可解釋性間獲得平衡,推動數字人文各分支領域的發展,這是計算語言學在“以人文為核心,以計算為工具”這一研究框架中的準確定位。
關鍵詞:計算語言學;計算人文;數字人文;語言學;自然語言處理
中圖分類號:H085.2? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023002
Abstract In this article, we discuss the positioning of computational linguistics in the context of computational humanities. We focus on three main issues: the position of computational linguistics in the context of computational humanities, the research paradigm, and its relationship with other research fields in computational humanities. The term "computational humanities" clarifies the research paradigm in which the study of digital humanities solves research problems in the humanities with computational technologies. We find that current work in computational linguistics shows distinctly engineering character, treating language as data, with little work answering the research questions of linguistics. Although many scholars consider computational linguistics as one of the research directions in linguistics, we do not see many cases of using computational technology for linguistic (especially for Chinese language) research at present. Therefore, this paper proposes a computational linguistics research paradigm that uses computational techniques for linguistic research, using text readability work as an example. We believe that computational linguistics is no different from other research fields in computational humanities and should work under a unified research paradigm. Computational linguistics as a research method requires a balance between validity and interpretability. This is the positioning of computational linguistics in the framework of "humanities as the core and computation as the tool".
Key words computational linguistics; computational humanities; computational humanities; linguistics; natural language processing
1? ?從數字人文到計算人文
數字人文將人文研究的成果用數字化手段呈現出來,如可視化的數據檢索在地圖上表示。隨著近年來計算技術作為研究工具應用到學術研究的各個領域,人文研究也逐漸接受并嘗試使用這些工具來更新研究方法、拓展研究視野乃至提出新的研究問題。“計算人文”這一術語強調將計算技術運用成研究工具,改變現有的研究范式。簡單來說,是將基于數據(data based)和數據驅動(data driven)這兩種方法運用到傳統上依賴研究者個人經驗的人文研究中。
在數字人文提出之前,較有影響力的術語是人文計算。人文計算源于羅伯特·布薩對于著作索引的研究[1],早期的人文計算的研究也主要圍繞著詞語索引的構建,借助計算機對詞語進行計量,以此完成索引資源的建構[2]。人文學科在研究過程中引入了計算技術,開拓新的研究視角[3]。黃水清認為,人文計算的核心框架與數字人文沒有本質區別[4]。通過文本編碼、數據庫、計量分析等技術將人文內容以及研究成果以數字化的形式呈現。數據可視化為人文研究提供了全局圖景,得以進行“遠讀”研究[5]。
“計算人文”術語的提出,體現了計算技術作為研究方法融入人文科學的趨勢,“人文”是研究問題和研究對象,通過計算技術的方法發現、回應人文學科的研究問題。一方面,計算技術作為人文科學的研究方法,在各人文子領域中應該擁有統一的研究范式、系統的研究流程。黃水清在針對人文計算的困窘以及規范化的研究中提出了問題定義、數據集構建、技術實現、問題求解、結果評價及呈現的五階段范式[6];另一方面,科學研究不僅是對材料進行計量統計,得到統計數據,更重要的是利用數據,對其中的研究問題進行解釋,通過計算技術在人文學科研究中發現問題,解釋問題,甚至對已有結論進行再論證。
本文討論計算語言學與計算人文的關系。首先,介紹計算語言學的概況、發展歷程以及主流研究范式;其次,介紹計算語言學中一些典型的語言學問題。目前計算語言學的主要研究問題不是語言學研究問題,其主流方法與計算人文提出的研究框架并不兼容;第三,展示一項文本可讀性的研究,提出計算人文框架下計算語言學的研究范式;最后,討論計算語言學作為計算人文的研究工具的問題。
2? ?計算語言學的發展
2.1? ? 計算語言學的定義
計算語言學致力于自動化處理自然語言,如語音與文字的相互轉換、專有名詞的識別、文本分類、回答問題、文本摘要的生成、翻譯等。其研究成果的運用使數字人文研究的重點逐漸轉向了對文本知識的挖掘。如劉瀏等通過對《春秋》三傳中的女性人物知識以及諸侯國聯姻關系進行量化分析,為《春秋》三傳中的女性人物的解讀提供了新的角度[7]。于純良等利用機器學習算法對稷下學重要文獻資料中的知識信息進行自動識別、細粒度的語義知識深度標引以及知識單元提取,以支持文獻資源的知識挖掘[8]。
計算語言學至少在語言學和計算機科學兩個領域得到系統性關注,與之并列,還有“自然語言處理”這一常見術語。關于這兩個術語,我們列舉學界一些有代表性的說法:
計算語言學是利用電子數字計算機進行的語言分析[9]。
計算語言學是通過建立形式化的計算模型來分析、理解和處理語言的學科[9]。
計算語言學,也稱自然語言處理或自然語言理解,是一門以計算為手段對自然語言進行研究和處理的學科[10]。
自然語言處理就是利用計算機為工具對人類特有的書面形式和口頭形式的語言進行各種類型處理和加工的技術[11]。
(計算語言學是)語言學的一個分支,用計算技術和概念來闡述語言學和語音學問題[12]。
自然語言處理要研制表示語言能力和語言應用的模型,根據這樣的語言模型設計各種實用系統,并探討這些實用系統的評測技術[13]。
計算語言學包括以語音為主要研究對象的語音學基礎及其語音處理技術研究和以詞匯、句子、話語或語篇及其詞法、句法、語義和語用等相關信息為主要研究對象的處理技術研究[14]。
從上述定義和描述可以看出,“計算語言學”強調使用計算技術對語言進行研究,“自然語言處理”則關注語言處理技術,但二者的定義在很大程度上是重合的,難以做出涇渭分明的區分。目前學界對計算語言學的認識是:其研究對象是人類語言,研究手段是計算技術,研究目的是對語言進行自動化處理,其研究過程涉及對語言的建模和對模型的評價。
2.2? ? 計算語言學方法論的變遷
計算語言學研究的方法論經歷了三個階段:基于規則的方法、基于統計機器學習的經驗主義方法和基于深度神經網絡的方法。
2.2.1? ? 基于規則的方法
基于規則的方法是理性主義(rationalism)方法,基于喬姆斯基關于語言是人腦內在功能(faculty)的假設。它主張用人工整理和定義的語法規則,通過推理程序,對自然語言進行自動處理。根據規則構造出來的語言處理系統解釋力很強,因為規則來自于語言學家對語言的觀察和總結。然而,在多數情況下,系統中的規則并不能覆蓋所有語言現象。當某條規則在計算過程中碰到例外,需要對這條規則做出修正。
以詞性標注(POS tagging)為例,假設一個詞性標注系統由一百條語法規則組成,對其中任何一條規則進行變動,都可能會帶來其他規則變化的連鎖反應。語法學研究顯示,自然語言是復雜系統,幾乎沒有一套規則可以涵蓋所有可能的語言現象。基于規則的方法需要不斷地對規則系統做出調整,隨著所要處理的語言現象增多,規則系統面臨崩潰。
2.2.2? ?基于統計機器學習的方法
基于統計機器學習的方法是經驗主義(empiricism)方法。它與認知語言學的假設一致,認為語言能力的獲取是語言輸入的結果。人們通過已有的語言數據對統計模型進行訓練(training),將語言現象在語料庫中的分布轉化為統計模型的參數,然后用帶有參數的統計模型去處理新的語言現象。相較于基于規則的方法,該方法更加健壯(robust),具有較好的預測性。從應用的角度說,基于統計的方法比基于規則的方法更加簡單,適應性更強。基于統計的方法需要將自然語言轉換為恰當的表示(representation),并根據具體任務抽取特征(features),所以,特征工程(feature engineering)是非常重要的工作。
2.2.3? ?基于深度神經網絡的方法
基于統計機器學習的方法結果的好壞很大程度上取決于數據的規模和標注質量。語料庫的規模、標注深度、標注質量、標注內容等問題都會對機器學習模型的結果產生影響。進入21世紀,互聯網上積累了海量數據,這為深度神經網絡(deep neural network)算法的實現提供了數據基礎。深度神經網絡的輸入端和輸出端之間有n層神經網絡,每層神經網絡上有若干個節點(node,又稱為神經元),每個節點是一個參數,數據進入網絡后經過計算(如激活函數、求導等操作)進行逐層的向前/向后傳播,最終得到輸出值,在此期間,網絡中的節點(參數)不斷更新,以優化輸出值。深度神經網絡方法又稱為深度學習(deep learning)。
深度神經網絡技術在語言處理中代表性的算法主要有詞嵌入(Word Embedding)、長短時記憶(Long-Short Term Memory)和預訓練語言模型(Pre-trained Language Models)。詞嵌入是文本表示方法,與統計機器學習算法常用的獨熱表示(One-hot Representation)相比,詞嵌入表示將高維空間的詞匯向量投射到低維空間,得到低維高稠密的詞匯向量。LSTM是一種循環神經網絡(Recurrent Neural Network),RNN是一類處理序列數據的神經網絡,適用于語言,LSTM通過門結構(Gate)的設計彌補了RNN無法處理長距離依存信息的問題,成為處理語言數據的典型算法。預訓練模型提供“預訓練+微調”的模式,研究者使用開源預訓練模型,用自己的數據對模型進行微調后,即可開展研究工作。深度神經網絡方法已成為計算語言學的主流方法,其在各項NLP任務上的表現均優于基于統計的機器學習方法。
2.3? ? 計算語言學的主流研究范式
從20世紀40年代機器翻譯工作開始,計算語言學逐漸形成了一個主流的研究范式獲取數據、訓練模型、評測模型。這三個部分是目前進行計算語言學研究工作的必要環節。
2.3.1? ?獲取數據
數據是用來訓練模型的。對于不同的方法,獲取數據的方式和難度是不同的。對于基于統計的機器學習方法來說,需要從語料庫中獲取信息,對模型進行訓練。而標注是必要的工作,如分詞、詞性標注、句法剖析、語義角色標注等。不同任務需要標注的類型和深度是不一樣的。
對于深度神經網絡的方法,數據主要來自互聯網語料,包含了很多信息。如果使用預訓練模型,研究者只需要準備少量的、簡單標注的數據對預訓練模型進行微調即可將模型轉移(transfer)到自己的工作上。
2.3.2? ?訓練模型
本質上,模型是(一些)數學公式,訓練模型就是利用語料庫將公式中的參數估計出來的過程。如最簡單的一元線性回歸模型y=a+bx,訓練模型的過程就是利用語料庫中(x,y)信息對參數a、b進行估計。對于預訓練模型來說,訓練模型是對網絡上的參數進行估計。在實際工作中,模型參數的規模可能非常龐大,當前的大語言模型(Large Language Models)參數規模往往超過億個,如Bert、GPT-1的參數規模是1億多,GPT-2的參數規模是15億,Google的PaLm參數規模5400億,ChatGPT(GPT-3.5)參數規模1750億,而GPT-4達到百萬億的參數規模。
2.3.3? ?評測模型
模型訓練完成后需要對其表現進行檢測,以判斷其是否有效,稱為評測(evaluation)。一般來說,用于評測模型的數據是訓練語料中的一部分,在實際工作中,研究者會按一定的比例將語料庫分為訓練數據和測試數據,也就是說,測試數據是模型在訓練階段沒有“見過”的,這個比例往往是7:3或者8:2,取決于語料庫規模。
用于評測模型的指標對不同的任務是不同的。如準確率(accuracy)、召回率(recall)和調和平均值(f-score)適合用于分類、序列標注等模型的評測,而BLEU、標注一致性等指標適用于機器翻譯、自動文摘模型的評測。
在這個研究范式中,研究目標是最大程度優化模型算法在語言處理任務中的表現,研究問題則是通過模型改進、開發新的數據集以在特定任務上達到最佳的評測結果。
3? ?計算語言學與語言學的關系
通過引入其他學科的研究方法,當代語言學衍生出相應的研究方向。如認知語言學使用認知科學中的“象似性”原理解釋語法化過程中某些語法現象的演變,心理語言學使用眼動儀和行為實驗記錄人眼對語言材料的“刺激-反應”數據,從而對多義詞義項選擇進行解釋。同樣,學者們認為計算語言學是當代語言學的研究方向之一。但仔細觀察計算語言學的發展及其研究范式,我們并不認為計算語言學與認知語言學、心理語言學一樣,是典型的語言學研究方向。本節羅列一些曾在計算語言學中被關注的語言問題,藉此來討論計算語言學與語言學的關系。
3.1? ? 分詞(Segmentation)
漢語書面語沒有詞邊界,相較于英語這類語言,計算機處理漢語首先要識別詞邊界,詞邊界隔開的單位被稱為分詞單位。在具體研究中,分詞單位的定義往往不是語言學意義上的詞。如果我們要從語料庫中統計常用詞,那么分詞單位應當是語言學意義上的詞,即“獨立運用的最小音義結合體”,所以,“中華人民共和國”就應該被切分為三個分詞單位“中華”“人民”和“共和國”。如果要做一個搜索系統,那么分詞單位應當是表達一個完整概念的單位,“中華人民共和國”就應該被視為一個分詞單位。用于進行分詞的方法有三種:基于詞典的規則方法、基于統計模型的方法和基于分類模型的方法。
3.2? ? 詞性標注(Part-of-speech Tagging)
句子中的每個詞都有其語法類別,稱為詞性,詞性標注就是在句子中確定每個詞詞性的任務。相較于印歐語系形態屈折變化豐富的語言,對漢語進行詞性標注存在一些困難[15]:無法從詞形推斷詞性;詞的語法兼類現象普遍;詞性標注標準不統一。進行詞性標注的方法主要有基于統計的方法、基于規則的方法和統計與規則相結合的方法。
3.3? ? 句法分析(Parsing)
句子是層次性結構,所以句子中的詞不總是與相鄰的詞有直接句法關系,句法分析就是自動識別句子中詞與詞之間的句法關系并進一步確定句法結構的任務。
句法分析主要分為短語結構分析(constituent parsing)和依存分析(dependency parsing)兩種路徑。前者以賓州樹庫(Penn Treebank)為代表,后者以哈工大依存樹庫(dependency treebank)為代表。這兩種路徑反映了不同的語法理論,對于計算語言學來說,這是兩種不同的句子表示方法。
句法分析是計算語言學中一項基礎工作,曾被認為是機器翻譯必經之路。用于句法分析的訓練語料庫開發成本非常大,而且不同學者對同一個句法現象該如何標注也會有爭議。
3.4? ? 語義分析
常見的語義分析工作有詞義消歧和語義角色標注。
3.4.1? ?詞義消歧(Word Sense Disambiguation)
一詞多義是詞匯語義中最常見的現象,詞匯學往往會區別多義詞和漢語中的同音同形詞,但對計算機而言,這兩個現象是一回事,都是一個詞形對應多個義項。如“吃”在“我吃餃子”和“吃俺老孫一棒”中是不同的意思,詞義消歧的目標就是把“吃”在不同句子中的義項標注出來。
3.4.2? ?語義角色標注(Semantic Role Labeling)
語義角色描述了句法上所說“論元”與謂語中心的語義關系,來源于Fillmore(1968)提出的格語法。如“我吃了一碗飯”,謂語中心是“吃”,它轄制兩個論元:“我”和“一碗飯”。論元“我”的語義角色是謂語中心的“施事(agent)”,而“一碗飯”則是謂語中心的“受事(patient)”。SRL就是要在“論元-謂語中心”的框架中將論元的語義角色自動識別出來。
3.5? ? 計算語言學和語言學的關系
上述問題并不能算是語言學的研究問題,換言之,計算語言學的相關研究沒有回答相關的詞匯學、句法學和語義學的問題。上述問題只是在特定任務中計算語言學需要解決的障礙。如計算語言學需要識別漢語文本的詞邊界,因為統計模型需要使用詞分布的數據進行訓練。對于語言學,分詞問題的本質是回答“漢語中什么是詞”的問題,而詞性標注的本質則是“對于缺乏屈折形態變化的漢語,如何對詞劃分句法類別”的問題。可以看到,計算語言學在分詞、詞性標注方面的工作并沒有推動解決相關語言學問題。
從評價的角度來看,評價一個計算語言學工作優劣的標準是某個機器學習模型在標準數據集上是否能夠取得評測指標的提升。如預訓練語言模型能夠比支撐向量機模型在同一個漢語分詞數據集上取得更好的調和平均值,那使用預訓練語言模型進行分詞的工作就是更好的。但是,預訓練語言模型依然沒有能夠回答語言學問題。
總體而言,在目前主流計算語言學的研究范式中,研究目的不是對語言現象進行研究解釋,而是解決具體的工程問題。計算語言學還沒有發展出一套以解決語言學研究問題為中心的研究范式。以句法為例,計算語言學所說的句法研究與語言學所說的句法研究不是一回事,計算語言學的句法研究工作是在現有句法分析體系(一般是短語結構文法或依存句法)框架下,探討如何將線性的句子自動解析為層次性的樹狀結構,語言學的句法研究工作則是構建句法規則體系,并且用句法體系來解釋句法現象。現有的計算語言學研究范式與“人文為問題,計算為方法”的框架不兼容。計算語言學研究應當有一個以“語言/語言學研究”為核心,回應語言和語言學研究問題的研究范式。
4? ?計算人文視閾下計算語言學研究范式:以文本可讀性計算為例
計算語言學應形成一個以語言學問題為中心的研究范式,在這個范式中對語言學問題進行討論。這里我們以一項文本可讀性計算(text readability assessment)的工作為例,來演示我們如何通過計算語言學中的自動分類技術,對比評價各項語言學特征對文本可讀性的影響[16],并嘗試提出一套以語言問題為核心研究范式。
4.1? ? 文本可讀性計算(Text Readability Assessment)
文本可讀性指文本易于閱讀和理解的程度,是對文本的難易程度進行評估的核心指標,是分級閱讀研究關心的核心問題之一。前人研究將文本可讀性計算看作分類問題,使用基于統計的自動分類模型為研究方法。
4.2? ? 研究問題
研究者在文本可讀性計算這個問題上,主要關心兩方面的問題:一是哪些計算模型和方法可以用來解決這個問題;二哪些因素影響了文本的可讀性。前一個問題是關于如何構造文本可讀性計算系統,以達到自動判斷的目的。后一個問題是文本中有哪些特征影響了可讀性,這是關于文本可讀性的理論問題。顯然后一個問題是語言學的研究問題,在計算人文的框架中,應以此為研究問題。文本可以分解為若干語言學特征:詞匯、句法、篇章。這些特征如何影響文本的可讀性,從而可以指導應用語言學的相關工作,如語言教學。所以,研究問題具體為:詞匯、句法和篇章這三種語言特征對文本可讀性的影響如何。
4.3? ? 構建語料庫和獲取語言學特征
語料庫是此項研究的材料,選取了“統編版語文教材語料庫”[17]共計31.5萬字(不包括標點)。由于語料整體規模較小,語料庫以學段為分級單位,根據教育部頒布的《義務教育語文課程標準》(2022版)對學段的劃分將四個學段的課文對應為四個可讀性級別,作為類別標簽。然后,對語料庫標注了三個層面的語言學特征:詞法(25種)、句法(6種)和篇章(44種)。
4.4? ? 自動分類實驗
工程研究不同,本文不以提高分類器的分類結果為目標,而是把分類器作為工具,用來測試文本語言特征對可讀性的影響。以文本在教材中所處的學段作為可讀性類別標簽,以語言特征作為參數,實現特征與類別的關聯,最后利用該模型判定該文本的所屬類別。對文本可讀性級別影響較大的特征,當它出現的時候,分類模型的結果必然比它不出現的時候更好。我們可以通過觀察某類特征是否出現對于分類結果的影響,來評估該特征對文本可讀性的影響。
4.5? ? 實驗結果
實驗結果顯示了不同種類的語言特征對文本可讀性的影響(見表1)。使用支撐向量機分類器,我們可以對“語言特征對文本可讀性的影響”這一問題進行量化分析。在單一特征模型中,篇章特征模型的分級準確率為65.21%,優于詞匯模型和句法模型,句法特征模型的準確率最差。所以,篇章特征對文本可讀性的影響最大,詞匯特征次之,句法特征最次。
4.6? ? 計算人文視閾下計算語言學的研究范式
以語言和語言學問題為核心,計算技術為研究手段,通過上述文本可讀性的工作,可以總結出一個計算人文視閾下計算語言學的研究范式。它包含四個部分:提出語言學研究問題;與研究問題相關的語言學特征的獲取;將研究問題轉換為計算語言學任務,設計實驗;分析實驗結果,回應研究問題。
5? ?作為研究工具的計算語言學
語言是人類文明的重要載體,人類文明大多以語言形式(語音和文字)保留下來。人文學科(如文學、歷史、文獻學等)大部分的研究對象(如檔案、文獻等)以文本形式呈現,所以文本是必不可少的研究材料。在研究中,不僅要對個體材料有精深的理解和把握,也需要對大規模材料有整體上的認識,這在依賴研究者個體經驗的情況下是難以實現的。計算語言學的快速發展為處理大規模文本數據,以及在文本中進行知識發現等研究活動提供了工具。我們認為,計算語言學作為研究工具,有三方面的工作可為相關研究所用:語言資源建設、文本分析技術、基于深層神經網絡和預訓練模型的技術。
5.1? ? 語言資源建設
語言資源分為語料庫和語言知識庫。
語料庫是對真實語言材料進行各類標注的結果,它為統計模型提供數據。語料庫可以做如下分類:根據語料庫的用途可分為通用語料庫(如人民日報語料庫、BCC語料庫、臺灣中研院語料庫)和專用語料庫(如口語語料庫、中介語語料庫);根據所搜集語料的時間跨度可分為共時語料庫(如LIVAC語料庫、人民日報語料庫)和歷時語料庫(如古代漢語語料庫);根據語料庫的加工類型和深度可分為詞法標注語料庫(如人民日報語料庫、國家語委平衡語料庫)、句法樹庫(如賓州樹庫、清華樹庫)、句法依存樹庫(如哈工大漢語依存樹庫)、命題庫(如賓州命題樹庫)、篇章樹庫(賓州篇章樹庫)、抽象語義表示庫。語料規模、采集范圍、標注規范,這些問題決定了語料庫的質量并進一步影響后續的研究,相關研究催生了一個專門的研究方向:語料庫語言學。
語言知識庫是確定的語言知識的集合,它往往以詞典和數據庫的形式出現。語言知識庫的建立依賴專家知識,是語言處理系統的基礎設施。根據語言知識庫的基本元素,可分為概念知識庫(如WordNet、FrameNet、HowNet、同義詞詞林)、詞匯知識庫(如北大語法信息詞典)。
語言資源相關的工作對于計算人文依然具有重大的意義和價值,一方面現有的語言資源可以直接用于計算人文的研究,另一方面其方法論可以指導未來語料庫和數據庫的開發和建設。
5.2? ? 文本分析技術
計算語言學在文本分析方面的成果可以運用在從詞到篇各層面的數據挖掘。文本分析產生的數據,如詞匯、語法關系等,對于文學、語言學、歷史學等人文社會科學研究領域是非常有用的材料。目前研究者可以通過開源的形式獲得大部分的文本分析工具。這里簡單介紹一些可以對漢語文本進行分析的開源工具。
5.2.1? ?詞法分析工具
詞法分析是對文本進行挖掘和處理的第一步,目前大多數面向現代漢語的詞法分析工具可以達到高于90%的調和平均值(f-score),即使不能直接用于研究,也可以極大地簡化相應的工作負擔。古文分詞的工具比較少見,這主要是因為古代漢語的時間跨度很大,不同時代、文體、題材的文本都稱為古代漢語文本,其內部的詞法分布規律非常不均衡,故打造一個通用的古文分詞工具難度很大。古漢語分詞與詞性標注國際評測是專門面向該問題的工作[18]。
詞法分析主要包括:分詞、詞性標注、各類命名實體識別等。命名實體識別可以看作是一類特殊的詞性標注,目前大部分的詞法分析工具都把這三個部分集成在一起(一些開源詞法分析工具見表2)。
5.2.2? ?句法分析工具
句法分析工具將句子中詞的關系進行顯性標注一般有短語結構分析和依存分析兩種。短語結構分析將句子表示為一個樹狀結構,依存分析將句子表示為一個有向圖的結構。盡管這兩種分析方法基于不同的句法學理念,但是二者間在技術上是可以相互轉換的。本文僅對部分開源句法分析工具簡單列舉(見表3)。
5.2.3? ?語義分析工具
語義分析主要是對句中詞的語義角色關系進行顯性標注。語義分析需要在句法分析的基礎上進行,非常依賴句法分析的結果。目前主要是LTP和suPar提供語義角色標注和語義依存分析。需要指出的是,suPar是一款若干句法分析工具的集成,很難看作是原創性的工作。
以上列舉的各項文本分析工具,大多以語言處理平臺的方式出現,專門針對某一語言單項的分析工具(除了結巴分詞)不多。從效果上來看,從高到低依次排序為:分詞、句法分析、語義分析。分詞和句法分析工具的結果基本上可以直接使用,但是需要根據具體研究做一些適應性改造。而語義分析的結果較差,如suPar報告的語義依存分析結果的調和平均值最高為71%。
就計算語言學本身而言,對文本內容進行挖掘是其工作流程中的中間環節,如果下游的任務不再需要某種文本數據,那么對這種數據的挖掘就不再重要,如上文所提及的句法分析工作。所以計算人文領域需要在句法語義等“傳統的”文本處理分析工具方面投入研究。
5.3? ? 基于深層神經網絡和預訓練模型的技術
深層神經網絡和預訓練模型技術是目前計算語言學的主流技術,已經應用在各個研究方向上。深層神經網絡技術又稱為端到端(end-to-end)的技術,即研究者只需選擇模型、調整參數、輸入數據即可,而不再需要從頭開發。而這種端到端的模式也使得很多任務,如機器翻譯、人機對話等,不再依賴對文本的詞匯、結構、語義等分析的結果,所以上面提到的各種文本分析技術不再是(計算機科學視閾下)計算語言學研究的重點①。學界和工業界相繼開源了一批深層神經網絡學習框架,如PyTorch[28]、TensorFlow[29]等,這些框架的核心是各種預訓練模型,預訓練模型是在深層神經網絡框架中使用大規模數據訓練得到的神經語言模型,這些框架和預訓練模型使得研究者可以訓練自己的預訓練模型。目前開源的中文預訓練模型如中文BERT[30-31]、ELECTRA(現代漢語)、SiKuBert[32](古代漢語)等,還有Hugging Face[33]這樣的模型框架。
開源的深層神經網絡框架和預訓練模型極大簡化了研究者對深層神經網絡技術的使用,研究者不必從頭去開發極為復雜的模型,甚至不用去準備大量數據,而是直接調用開源工具,結合小規模數據對預訓練語言模型進行微調。當然,目前開源的預訓練模型大多是通用性的,人文研究還需要結合具體研究,開發特定用途的預訓練模型,如史學模型、文學模型、文獻模型等。
5.4? ? 技術的有效性和可解釋性
相比統計機器學習模型,基于深層神經網絡的預訓練模型能夠更好地完成語言處理的各項任務。但也帶來一個問題,預訓練模型的解釋力不及統計機器學習模型,盡管學術界提出“可解釋的深度學習”,但是預訓練模型為何能夠取得很好的結果,哪些因素對模型產生了積極影響。對于人文研究來說,需要在技術的有效性和可解釋性間達到平衡,在計算機科學無法使得預訓練模型更加“透明”的情況下,研究者可以將預訓練模型作為在研究的中間層,而不是直接輸出最終結果,這樣可以做到一定程度的平衡。如在文本可讀性的研究中,我們使用基于預訓練模型的句法分析器輸出了高質量的句法分析結果,然后用統計機器學習模型構造文本可讀性分類器,以評估不同語言學特征對文本可讀性的影響。
6? ?結論
本文首先介紹了計算人文的概念,提出這一術語是數字人文進一步發展、對研究方法的認識進一步明確的結果。隨后討論了計算語言學在計算人文中的定位,介紹了計算語言學的發展,計算語言學與語言學的關系,以及計算語言學作為研究工具在計算人文領域中的作用。認為當前計算語言學的研究范式屬于計算機科學。計算人文視閾下的計算語言學研究范式與計算機科學的研究范式應有所不同。由此展示了一項文本可讀性計算的工作,利用自動分類實驗考查不同的語言學特征對文本可讀性的影響,借此提出了一個與計算機科學研究范式不同的、以語言和語言學研究問題為核心的計算人文研究范式,這個范式與計算人文所提出的研究框架是契合的。
在新一代互聯網技術爆發的背景下,計算語言學研究應順勢而上,把握好國家建設“新文科”的機遇,在計算人文這一大的框架下,將本體研究與計算技術充分結合,開辟出具有中國特色的學科體系、學術話語。在以深層神經網絡為代表的新一代計算語言學技術蓬勃發展的今天,利用開源框架和模型,人文研究已經完全可以將計算技術融入自己的研究,使用基于數據和數據驅動的方法推動人文研究的進一步發展。
計算語言學今后的發展,一方面需要以語言和語言學研究為核心,利用計算技術推動語言學研究;另一方面,應在文本分析、預訓練模型等方面深入研究,以人文學科的問題為研究問題,為計算人文領域其他研究方向提供研究工具。計算語言學應找準定位,推動計算人文的進一步發展,助力“新文科”發展戰略。
參考文獻:
[1]? Busa R.The Annals of Humanities Computing:The Index Thomisticus[J].Computer and the Humanities,1980,14(2):83-90.
[2]? 黃水清,劉瀏,王東波.計算人文的發展及展望[J].科技情報研究,2021,3(4):1-12.
[3]? 黃水清,劉瀏,王東波.國內外數字人文研究進展[J].情報學進展,2022,14(0):50-84.
[4]? 黃水清.回歸人文:從人文計算到計算人文[N].社會科學報,2021-09-09(5).
[5]? 王軍.從人文計算到可視化——數字人文的發展脈絡梳理[J].文藝理論與批評,2020(2):18-23.
[6]? 黃水清.人文計算與數字人文:概念、問題、范式及關鍵環節[J].圖書館建設,2019(5):68-78.
[7]? 劉瀏,黃水清,孟凱,等.《春秋》三傳女性人物的人文計算研究[J].圖書情報工作,2020,64(23):109-123.
[8]? 于純良,吳一平,白如江,等.數字人文視域下稷下學語義計算平臺建設研究[J].圖書館建設,2022(2):141-149.
[9]? 翁富良、王野翊.計算語言學導論[M].北京:中國社會科學出版社,2015.
[10]? 劉穎.計算語言學[M].北京:清華大學出版社,2014.
[11]? 馮志偉.自然語言的計算機處理[M].上海:上海外語教育出版社,1996.
[12]? (英)戴維·克里斯特爾.沈家煊,譯.現代語言學詞典[M].北京:商務印書館,2002.
[13]? Manaris B.Natural Language Processing:A Human-computer Interaction Perspective[J].Advaced in Computers,1999,47:1-66.
[14]? 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2016.
[15]? 劉開瑛.中文文本自動分詞和標注[M].北京:商務印書館,2000.
[16]? 柏曉鵬,吉伶俐.篇章結構特征對文本可讀性的影響[J].語言文字應用,2022(3):62-72.
[17]? 柏曉鵬,吉伶俐.部編版小學語文教材語料庫建設:目的和原則[J].新疆教育學院學報 ,2020,36 (1):11-17.
[18]? Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018.
[19]? HanLP官網[EB/OL].[2023-01-14].https://www.hanlp.com/index.html.
[20]? JUNYI S.jieba[CP/OL].[2023-01-14].https://github.com/fxsjy/jieba.
[21]? 語言技術平臺(Language Technology Plantform | LTP )[EB/OL].[2023-01-14].http://ltp.ai/.
[22]? THULAC:一個高效的中文詞法分析工具包[EB/OL].[2023-01-14].http://thulac.thunlp.org/.
[23]? YAN J.甲言Jiayan[CP/OL].[2023-01-14].https://github.com/jiaeyan/Jiayan.
[24]? stanfordnlp/stanza[CP].Stanford NLP,2023.
[25]? supar·PyPI[EB/OL].[2023-01-14].https://pypi.org/project/supar/.
[26]? DDParser[CP].Baidu,2023.
[27]? Overview[EB/OL].[2023-01-14].https://stanfordnlp.github.io/CoreNLP/.
[28]? PyTorch[EB/OL].[2023-01-14].https://www.pytorch.org.
[29]? ABADI M,AGARWAL A,BARHAM P,et al.TensorFlow,Large-scale machine learning on heterogeneous systems[EB/OL].[2023-01-14].https://github.com/tensorflow/tensorflow.
[30]? BERT[EB/OL].[2023-01-14].https://github.com/google-research/bert.
[31]? Li B,Yuan Y,Lu J,et al.The First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff:Overview of the EvaHan 2022 Evaluation Campaign[C].Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages,2022:135-140.
[32]? 王東波,劉暢,朱子赫,等.SikuBERT與SikuRoBERTa:面向數字人文的《四庫全書》預訓練模型構建及應用研究[J].圖書館論壇,2022,42(6):31-43.
[33]? Hugging Face-The AI community building the future[EB/OL].[2023-01-14].https://huggingface.co/.
作者簡介:柏曉鵬,華東師范大學中文系副教授,研究方向:計算語言學、語言數字資源、詞匯學、漢語語言學。