關 琳
(1.江蘇警官學院 公安管理系,江蘇 南京 210031;2.南京大學 中國智庫研究與評價中心,江蘇 南京 210093)
世界各國政治領導人在官方和半官方場合的話語(以下簡稱“話語”),對于本國社會經(jīng)濟發(fā)展和國際關系局勢都有著深遠的影響。以美國為例,特朗普總統(tǒng)每一次Twitter發(fā)文都會引起國內外媒體轉發(fā)轉載和廣泛討論,并對美國內外局勢產(chǎn)生影響,因此有媒體稱這位總統(tǒng)是推特治國。從這一側面也體現(xiàn)了領導人話語的重要性和研究價值。CNKI中收錄的單以Twitter一種信息源研究特朗普總統(tǒng)話語的知識成果就達300余項。這些研究幾乎全部是以爬蟲為收集工具,通過實時采集數(shù)據(jù)獲取話語文本的。這種研究方式,由于缺乏專題知識庫的支撐,無法整合更多數(shù)據(jù)來源渠道,因而很難持續(xù)開展。
就我國而言,目前收錄領導人話語文獻的權威數(shù)據(jù)庫有3個。分別是由中央網(wǎng)信辦指導、人民網(wǎng)·中國共產(chǎn)黨新聞網(wǎng)建設的“學習路上——習近平總書記系列重要講話大型網(wǎng)絡數(shù)據(jù)庫”(2014年建成);由人民出版社開發(fā)建設的“中國共產(chǎn)黨思想理論資源數(shù)據(jù)庫”(2010年建成);以及由中宣部(2018年建成)推出的“學習強國”學習平臺。就學術研究而言,由于產(chǎn)品定位的原因,從功能上看這些產(chǎn)品都缺乏基本的文本統(tǒng)計、計量、分析手段;從信息的組織形式上看也都僅完成了文獻的分類、歸納和保存,因此檢索功能以全文檢索為主,所支持的語義查詢也僅包括事物性狀和表達形式兩類,無法支持基于時空場景語義的內容分析應用需求。受限于此,學界和宣傳部門無法利用該系統(tǒng)開展定量研究和知識場景重塑。因此,這3個數(shù)據(jù)庫系統(tǒng)與本研究存在著系統(tǒng)功能、數(shù)據(jù)內容和知識組織形式上的顯著差異。
話語文獻作為思想和政治領域的專題文獻,其知識組織與其他領域的專題文獻有著相似之處。從數(shù)據(jù)挖掘和高效利用的角度出發(fā),通過構建領域本體和關系數(shù)據(jù)庫的方式,在文本內容分析過程中加入時間、空間、場景、主題等多個維度,可以大大豐富內容分析的內涵[1]。
同時,此類基于時空場景語義的數(shù)據(jù)庫和本體將有力支撐數(shù)據(jù)可視化、關系網(wǎng)絡分析以及文本計算等研究。按照類似思路建設的數(shù)據(jù)庫有ProQuest,Hein On Line,West law,Lexis Nexis,CNKI政府公報數(shù)據(jù)庫以及北大法寶等。但就其數(shù)據(jù)內容而言,多集中在政策和法律領域,沒有收錄話語和其他相關資源;就其數(shù)據(jù)維度而言也并未突出表達文獻產(chǎn)生的時空場景。
話語的表達方式和側重點與時間、空間和場景密切相關[2]。從帝王起居注到領袖文集、語錄,古今中外以話語為主題的知識組織成果不勝枚舉。隨著數(shù)字人文的興起,以篇章、句子甚至是詞語為單元開展針對話語文獻的單一維度研究,已不能滿足大數(shù)據(jù)背景下用戶的知識需求。采用語義技術對文獻做細粒度加工并添加時空場景維度,從語義層面還原知識產(chǎn)生的時空場景,將為學習和研究話語文獻創(chuàng)造良好條件,也為在該領域內應用數(shù)據(jù)可視化、內容分析以及文本計算等方法開展定量研究奠定數(shù)據(jù)基礎[3]。本文以話語文獻為研究對象,探索建立基于時空場景語義的話語文本數(shù)據(jù)構建框架。
按照文獻資源原始數(shù)據(jù)集、資源組織、資源描述和資源應用將話語文本時空場景語義資源框架劃分成4個層次,如圖1所示。

圖1 話語文本時空場景語義資源框架
第一層為文獻資源原始數(shù)據(jù)集。話語文獻原始數(shù)據(jù)集中,包含不同類型、不同時期、不同來源、不同場景的包含話語的文獻資源。這些文獻較為零散地存儲在網(wǎng)絡、書籍和各種專題庫中,按照不同類型對應傳統(tǒng)的元數(shù)據(jù)格式組織和檢索。由于各種元數(shù)據(jù)之間存在規(guī)范上的差異,并不能完全兼容,也無法完全對元素語義進行形式化和明確的定義,因此無法利用,因此需要集中收集使其成為一個專題文本數(shù)據(jù)庫,便于進一步后續(xù)整合、開發(fā)和利用。
第二層為基于本體的知識組織層。鑒于前述當前主流話語文獻資源庫保存和利用的局限性,本框架擬在文獻資源原始數(shù)據(jù)集基礎上建立本體,以期實現(xiàn)不同類型和格式間話語文獻資源的語義互通。具體來說以半自動化方式構建本體;設計實用的本體驗證機制保障本體的科學性;將該領域不斷涌現(xiàn)的新話語、新概念完善到本體中保障本體的完備性。根據(jù)OWL本體定義對承載話語的存量文獻進行RDF資源標注,并添加時間、空間、主題、事件標簽存儲在關系數(shù)據(jù)庫中。
第三層為基于關系數(shù)據(jù)庫映射的數(shù)據(jù)關聯(lián)層。本體的建立使得在語義層面上描述話語文獻資源成為可能。這種描述方式,可以透析話語文獻間的顯性關聯(lián)關系。為深層次拓展研究場景,還需要以關聯(lián)數(shù)據(jù)的形式將資源再組織,并保存在關系數(shù)據(jù)庫中。基于時空場景的關系數(shù)據(jù)庫設計,既要將時間信息、地點(含地理位置、行政區(qū)劃等)信息、場景(含活動主題、類型、與會人員等)信息等進行數(shù)據(jù)庫融合建模,又要保證本體RDF三元組屬性能夠映射到數(shù)據(jù)庫中,并關聯(lián)到時空場景數(shù)據(jù)。針對基于時空場景語義的數(shù)據(jù)庫建模(擬采用MySQL),將OWL本體映射到關系數(shù)據(jù)庫中,利用關系數(shù)據(jù)庫技術采用屬性表的方式將具有相同屬性的RDF三元組存儲在一個表中,每個三元組占一行,表后若干列為時間、地點、主題、事件等相關屬性標簽,以此實現(xiàn)基于時空場景的RDF存儲。
第四層為資源應用層。將增量文獻文本化(紙質文獻電子化、網(wǎng)絡文獻文本化,文本預處理包括清洗網(wǎng)頁中的鏈接、圖片等冗余內容,這一部分可借助自動化工具)并與存量文獻集中,實例化保存到關系數(shù)據(jù)庫中,持續(xù)地從增量文獻中提取新概念、屬性和關系完善本體;利用關系數(shù)據(jù)庫開展針對話語語義的文本計量研究,并以時空場景大數(shù)據(jù)展現(xiàn)、重塑話語的發(fā)展歷程。
本文應用話語文本時空場景語義資源框架對前期研制的“話語思想文本數(shù)據(jù)庫”進行了優(yōu)化和升級,并開展基于時空場景語義的多維分析,可以將前期收集到的話語文本進行語義級分析,較之原有系統(tǒng)基于文獻計量的統(tǒng)計分析方法,其分析結果與前期基本吻合。應用該框架后系統(tǒng)分析顆粒度更小,分析維度更豐富,如圖2所示。

圖2 話語文本時空場景語義資源框架應用
除用于項目團隊自有文本數(shù)據(jù)庫外,該框架還可廣泛用于其他現(xiàn)有文獻數(shù)據(jù)庫的二次升級,有效擴充后者的語義、時間、空間、場景分析維度,進一步拓展文獻價值。
本文提出的話語文本時空場景語義資源框架,為國內外政治領導人話語數(shù)據(jù)庫平臺提供了新的改進和建設思路,將有助于后者進一步提升知識組織水平,并推進話語文本的深度挖掘和智能理解,也為我國話語研究提供一個新的基于語義技術的視角,從而促進話語的研究和闡釋。