數(shù)字人文視域下話語文本時空場景語義資源框架研究

2020-12-08 08:40:52關琳

無線互聯(lián)科技 2020年19期

關琳

(1.江蘇警官學院公安管理系，江蘇南京 210031；2.南京大學中國智庫研究與評價中心，江蘇南京 210093)

0 引言

世界各國政治領導人在官方和半官方場合的話語(以下簡稱“話語”)，對于本國社會經(jīng)濟發(fā)展和國際關系局勢都有著深遠的影響。以美國為例，特朗普總統(tǒng)每一次Twitter發(fā)文都會引起國內外媒體轉發(fā)轉載和廣泛討論，并對美國內外局勢產(chǎn)生影響，因此有媒體稱這位總統(tǒng)是推特治國。從這一側面也體現(xiàn)了領導人話語的重要性和研究價值。CNKI中收錄的單以Twitter一種信息源研究特朗普總統(tǒng)話語的知識成果就達300余項。這些研究幾乎全部是以爬蟲為收集工具，通過實時采集數(shù)據(jù)獲取話語文本的。這種研究方式，由于缺乏專題知識庫的支撐，無法整合更多數(shù)據(jù)來源渠道，因而很難持續(xù)開展。

就我國而言，目前收錄領導人話語文獻的權威數(shù)據(jù)庫有3個。分別是由中央網(wǎng)信辦指導、人民網(wǎng)·中國共產(chǎn)黨新聞網(wǎng)建設的“學習路上——習近平總書記系列重要講話大型網(wǎng)絡數(shù)據(jù)庫”(2014年建成)；由人民出版社開發(fā)建設的“中國共產(chǎn)黨思想理論資源數(shù)據(jù)庫”(2010年建成)；以及由中宣部(2018年建成)推出的“學習強國”學習平臺。就學術研究而言，由于產(chǎn)品定位的原因，從功能上看這些產(chǎn)品都缺乏基本的文本統(tǒng)計、計量、分析手段；從信息的組織形式上看也都僅完成了文獻的分類、歸納和保存，因此檢索功能以全文檢索為主，所支持的語義查詢也僅包括事物性狀和表達形式兩類，無法支持基于時空場景語義的內容分析應用需求。受限于此，學界和宣傳部門無法利用該系統(tǒng)開展定量研究和知識場景重塑。因此，這3個數(shù)據(jù)庫系統(tǒng)與本研究存在著系統(tǒng)功能、數(shù)據(jù)內容和知識組織形式上的顯著差異。

1 基于語義的知識組織助力話語傳播

話語文獻作為思想和政治領域的專題文獻，其知識組織與其他領域的專題文獻有著相似之處。從數(shù)據(jù)挖掘和高效利用的角度出發(fā)，通過構建領域本體和關系數(shù)據(jù)庫的方式，在文本內容分析過程中加入時間、空間、場景、主題等多個維度，可以大大豐富內容分析的內涵[1]。

同時，此類基于時空場景語義的數(shù)據(jù)庫和本體將有力支撐數(shù)據(jù)可視化、關系網(wǎng)絡分析以及文本計算等研究。按照類似思路建設的數(shù)據(jù)庫有ProQuest，Hein On Line，West law，Lexis Nexis，CNKI政府公報數(shù)據(jù)庫以及北大法寶等。但就其數(shù)據(jù)內容而言，多集中在政策和法律領域，沒有收錄話語和其他相關資源；就其數(shù)據(jù)維度而言也并未突出表達文獻產(chǎn)生的時空場景。

話語的表達方式和側重點與時間、空間和場景密切相關[2]。從帝王起居注到領袖文集、語錄，古今中外以話語為主題的知識組織成果不勝枚舉。隨著數(shù)字人文的興起，以篇章、句子甚至是詞語為單元開展針對話語文獻的單一維度研究，已不能滿足大數(shù)據(jù)背景下用戶的知識需求。采用語義技術對文獻做細粒度加工并添加時空場景維度，從語義層面還原知識產(chǎn)生的時空場景，將為學習和研究話語文獻創(chuàng)造良好條件，也為在該領域內應用數(shù)據(jù)可視化、內容分析以及文本計算等方法開展定量研究奠定數(shù)據(jù)基礎[3]。本文以話語文獻為研究對象，探索建立基于時空場景語義的話語文本數(shù)據(jù)構建框架。

2 話語文本時空場景語義資源框架設計

按照文獻資源原始數(shù)據(jù)集、資源組織、資源描述和資源應用將話語文本時空場景語義資源框架劃分成4個層次，如圖1所示。

圖1 話語文本時空場景語義資源框架

第一層為文獻資源原始數(shù)據(jù)集。話語文獻原始數(shù)據(jù)集中，包含不同類型、不同時期、不同來源、不同場景的包含話語的文獻資源。這些文獻較為零散地存儲在網(wǎng)絡、書籍和各種專題庫中，按照不同類型對應傳統(tǒng)的元數(shù)據(jù)格式組織和檢索。由于各種元數(shù)據(jù)之間存在規(guī)范上的差異，并不能完全兼容，也無法完全對元素語義進行形式化和明確的定義，因此無法利用，因此需要集中收集使其成為一個專題文本數(shù)據(jù)庫，便于進一步后續(xù)整合、開發(fā)和利用。

第二層為基于本體的知識組織層。鑒于前述當前主流話語文獻資源庫保存和利用的局限性，本框架擬在文獻資源原始數(shù)據(jù)集基礎上建立本體，以期實現(xiàn)不同類型和格式間話語文獻資源的語義互通。具體來說以半自動化方式構建本體；設計實用的本體驗證機制保障本體的科學性；將該領域不斷涌現(xiàn)的新話語、新概念完善到本體中保障本體的完備性。根據(jù)OWL本體定義對承載話語的存量文獻進行RDF資源標注，并添加時間、空間、主題、事件標簽存儲在關系數(shù)據(jù)庫中。

第三層為基于關系數(shù)據(jù)庫映射的數(shù)據(jù)關聯(lián)層。本體的建立使得在語義層面上描述話語文獻資源成為可能。這種描述方式，可以透析話語文獻間的顯性關聯(lián)關系。為深層次拓展研究場景，還需要以關聯(lián)數(shù)據(jù)的形式將資源再組織，并保存在關系數(shù)據(jù)庫中。基于時空場景的關系數(shù)據(jù)庫設計，既要將時間信息、地點(含地理位置、行政區(qū)劃等)信息、場景(含活動主題、類型、與會人員等)信息等進行數(shù)據(jù)庫融合建模，又要保證本體RDF三元組屬性能夠映射到數(shù)據(jù)庫中，并關聯(lián)到時空場景數(shù)據(jù)。針對基于時空場景語義的數(shù)據(jù)庫建模(擬采用MySQL)，將OWL本體映射到關系數(shù)據(jù)庫中，利用關系數(shù)據(jù)庫技術采用屬性表的方式將具有相同屬性的RDF三元組存儲在一個表中，每個三元組占一行，表后若干列為時間、地點、主題、事件等相關屬性標簽，以此實現(xiàn)基于時空場景的RDF存儲。

第四層為資源應用層。將增量文獻文本化(紙質文獻電子化、網(wǎng)絡文獻文本化，文本預處理包括清洗網(wǎng)頁中的鏈接、圖片等冗余內容，這一部分可借助自動化工具)并與存量文獻集中，實例化保存到關系數(shù)據(jù)庫中，持續(xù)地從增量文獻中提取新概念、屬性和關系完善本體；利用關系數(shù)據(jù)庫開展針對話語語義的文本計量研究，并以時空場景大數(shù)據(jù)展現(xiàn)、重塑話語的發(fā)展歷程。

3 話語文本時空場景語義資源框架的應用

本文應用話語文本時空場景語義資源框架對前期研制的“話語思想文本數(shù)據(jù)庫”進行了優(yōu)化和升級，并開展基于時空場景語義的多維分析，可以將前期收集到的話語文本進行語義級分析，較之原有系統(tǒng)基于文獻計量的統(tǒng)計分析方法，其分析結果與前期基本吻合。應用該框架后系統(tǒng)分析顆粒度更小，分析維度更豐富，如圖2所示。

圖2 話語文本時空場景語義資源框架應用

除用于項目團隊自有文本數(shù)據(jù)庫外，該框架還可廣泛用于其他現(xiàn)有文獻數(shù)據(jù)庫的二次升級，有效擴充后者的語義、時間、空間、場景分析維度，進一步拓展文獻價值。

4 結語

本文提出的話語文本時空場景語義資源框架，為國內外政治領導人話語數(shù)據(jù)庫平臺提供了新的改進和建設思路，將有助于后者進一步提升知識組織水平，并推進話語文本的深度挖掘和智能理解，也為我國話語研究提供一個新的基于語義技術的視角，從而促進話語的研究和闡釋。