潘 俊,吳宗大
(1. 浙江科技學院理學院大數據科學系,杭州 310023;2. 紹興文理學院計算機系,紹興 312000;3. 南京大學信息管理學院,南京 210093)
詞匯是語言系統中具有明確語義的基本單位,詞匯的語義表示屬于自然語言處理領域的基礎研究,在詞義消歧、智能檢索、機器翻譯、自動問答、 知識工程等領域具有廣泛的應用價值[1]。 然而,隨著時間的推移,詞匯的語義會因政治、經濟、科技和文化等因素的影響而發生擴大、縮小或遷移等現象。例如,“跳水” 最初指的是一項水上體育運動,隨著社會經濟的發展,“跳水” 的詞義得到擴大,產生了新的含義,是指金融領域股票或基金價格的大幅下跌。又如,“云”“收官”“雙簧”“催化劑”“接軌”“旗艦”“軟件”“防火墻” 等詞匯,分別從自然、圍棋、戲曲、化學、交通、軍事、計算機、建筑等領域,逐漸擴展到其他領域,并形成新的意義。如何從歷時的角度獲得時序敏感的詞匯語義表示,對優化現有的語義處理系統,具有十分重要的意義[2]。 此外,詞匯語義的歷時變化,與人類社會的發展息息相關,其中記錄著人類認識世界、改變世界的過程,蘊含著反映社會生活整體變化的方方面面的知識,是計算社會學和知識工程研究的重要課題[3]。
詞匯語義歷時研究的基礎是歷時語料,其來源主要包括圖書、報紙、期刊、網絡文本等具有明確時序標注的語料數據。早期,相關工作主要集中在對歷時語料的詞頻分析上[4-10],這些研究的思路是統計詞匯在特定文本或語料中的使用頻率,根據詞頻隨時間變化的情況,探討語言演變與社會變遷的關聯,已經取得許多重要的發現。詞頻模型雖然直觀、簡單,但是難以刻畫詞匯語義內涵的變化,也不能反映詞匯之間語義關系的變化情況,在追蹤深層次的詞匯語義歷時變化時效果有限。
近年來,隨著深度學習等技術的研究進展,分布式表示逐漸成為詞匯表示的主流[11]。這類方法旨在將符號形式的詞匯表示成數學形式的向量,并具有語義可計算的特點:一方面,向量表示可以作為自然語言處理多種任務的輸入;另一方面,利用向量的一些幾何性質,可以度量詞匯的語義相關性,或進行語義推理等,已經在知識組織和語言智能等領域得到廣泛應用。本質上,詞匯分布式表示是對語料使用模式和偏好的反映[12],因此,若將語料打上時間戳標記,用不同時期的語料分別訓練詞向量模型,則可以得到反映時代特征的時序敏感的歷時詞向量。對此,信息科學領域的學者已經給出了一些有效的學習模型[13-19]。同時,基于詞匯的歷時詞向量,研究者在詞匯語義演變規律[16,20-21]、詞匯歷時語義關系抽取[22-24]、社會文化變遷[3,19]、輿情事件預測[25-26]等方面也取得了許多的成果。
然而,縱觀現有研究,針對中文詞匯的歷時語義研究數量較少,僅有的工作主要集中在對詞頻的歷時考察上[9-10,27-28],對分布式歷時詞向量的研究還極少。此外,已有的詞匯歷時語義表示學習主要針對學習模型,沒有從知識發現的角度考慮歷時詞向量的應用價值問題。隨著信息技術的迅速發展,數據獲取方式日益便捷,語料數據的積累速度也在不斷加快,如何有效地對各類語料數據進行整理和挖掘,實現從文本到數據再到知識的轉化,已成為需要迫切解決的任務。在此背景下,本研究嘗試建立一個通用的詞匯歷時語義挖掘框架,將語料預處理、歷時詞向量訓練、語義計算等封裝成服務的形式以供業務邏輯調用,并提出基于XML (extensi‐ble markup language) 配置的數據定制和分析方法,以支撐詞匯歷時語義計算和知識挖掘的實際需求。基于該框架,本研究以1946 年5 月—2003 年12 月的《人民日報》 文本為數據來源,構建了一個多維度、深層次的知識發現和語義計算平臺,以展示詞匯歷時詞向量在數字人文和社會計算研究中的可能應用模式。本研究提出的方法框架具有較好的通用性,通過二次開發,能靈活構建面向知識發現的各類應用,并可方便推廣到對其他歷時語料的知識挖掘,從而為人文學者根據學術興趣和研究關注點展開具體的應用研究提供輔助。
研究詞匯歷時演變最直接的方法是計算詞頻隨時間變化的情況,通過對詞匯使用頻次、分布等變化的統計,可以測量詞匯的穩定性,發現語言的使用規律,觀察語言變化與社會文化、科學技術、政治經濟發展的歷時聯系等。相關工作主要涉及三類歷時文本:①圖書文本。例如,谷歌公司于2011 年發布全球圖書詞頻統計數據庫①http://books.google.com/ngrams,可對1800—2000年出版的共5195769 本圖書的單詞和詞組進行歷時頻次統計,研究者利用該數據庫和詞頻工具進行定量分析和知識挖掘,取得了一系列發現[4-6];歐陽劍[27]搜集大規模中國古籍文本并建立歷時語料庫,以詞頻分析統計為核心,構建了古籍詞頻歷時統計分析平臺,獲得了若干基于量化分析的結果。②報紙期刊。例如,金觀濤等[28]整理近代報紙期刊文獻,通過分析不同時期表達相同觀念的不同詞匯的詞頻變化,考察中國現代政治術語的形成和演變;荀恩東等[9]搜集了約60 年的同質新聞語料,開發了現代漢語歷時檢索系統,通過可視化技術直觀顯示詞頻的歷時變化。 ③網絡文本。 例如,Leskovec等[8]從互聯網上采集海量新聞和博客文章,抽取其中的熱門短語和短句,跟蹤這些短語短句的歷時頻率變化,為美國政治文化的發展潮流和變遷研究提供新的視角。
基于上述詞頻模型的研究,主要關注海量語料中詞匯的頻次、頻率、頻序、分布等經典表征形式,直觀簡單,但難以刻畫詞匯語義內涵的變化,也不能表達詞匯間的語義關聯。要表達詞義,有一種方式是使用分布式表示[11,29],即將詞匯表示成稠密實向量,用詞匯之間的向量距離來表示語義相關度。如何通過歷時語料獲得時序敏感的詞向量,研究人員已經給出了不少有效方法,大致可分為以下三類。
(1) 基于共現統計的方法,使用詞匯的歷時性上下文語境來表達詞義。例如,Gulordava 等[30]使用詞匯的2-gram 來刻畫歷時詞義,并使用了局部互信息(local mutual information,LMI) 來構建共現矩陣。Zou 等[31]使用詞匯所在子句的其他詞匯來刻畫語義,并使用點互信息(pointwise mutual informa‐tion,PMI) 來構建共現矩陣。這一類方法的缺點是,所構建的共現矩陣存在高維稀疏問題,且缺乏概率意義上的解釋。
(2) 基于概率的動態主題模型,其思想是利用詞匯在主題上的分布來刻畫詞義,進而挖掘詞匯語義的歷時變化[26,32-34]。將主題模型應用于詞匯聚類,能有效識別聚類中詞匯的語義變化,但在追蹤單個詞匯語義的變化時效果有限。
(3) 基于預測的動態詞向量模型,將歷時語料按時期劃分為不同的數據集,采用詞匯表示學習模型來學習詞義[13-15,17-18]。這些工作的基礎可追溯到Bengio 等[35]于2003 年提出的神經網絡概率語言模型(neural probabilistic language model,NPLM),即把詞向量作為神經網絡模型的參數來訓練,通過對語言模型(預測一個詞出現在給定詞序列之后的概率) 的學習,得到詞匯的向量表示。
基于預測的神經網絡模型的參數是隨機初始化的[36],在不同時期數據集上訓練得到的詞向量,并不處于同一個語義空間,因此,不能直接計算語義相關度。對齊語義空間的思路,主要有兩種。一種思路是在模型訓練時保持詞向量的連續性。例如,Kim 等[13]采用了遞增迭代更新的SGNS (skip-gram with negative sampling) 模型,用前一個時間周期的訓練結果作為下一時間周期的輸入;Peng 等[14]和Kaji 等[15]的工作均借鑒這一迭代更新的思想來訓練歷時詞向量。另一種思路是假設大部分詞匯的語義具有一定的穩定性,通過線性變換將不同時期的詞向量對齊到同一個語義空間。例如,Kulkarni 等[17]采用正交分解法,通過最小化t時刻和t-1 時刻相同單詞之間的距離,將t時刻的向量空間轉變到t-1 時刻的向量空間;Yao 等[19]進一步提出t時刻的向量空間不僅受前后時刻的影響,還與其他時刻的向量空間有關,并據此對齊語義空間。
建立在歷時語料上的歷時詞向量兼具語義可計算性和時序敏感性,其應用目前主要有兩方面。一方面,是通過觀測詞匯語義變化,研究詞匯語義演變的規律,例如,文獻[16]通過對4 種語言歷時200年語料的分析,總結出語義變遷的兩條規律:一致性規律表明高詞頻詞匯語義傾向于穩定,革新性規律表明多義詞的語義變化更為劇烈。另一方面,是挖掘分析詞匯語義變背后隱藏著的社會、政治、文化等方面變遷的知識[37-38],例如,Garg 等[37]以十年為單位,通過歷時詞向量探討了近百年來美國社會在性別和種族兩方面的社會偏見趨勢,研究結果表明特定的偏見存在隨著時間推移而減少的趨勢,也展示了其他類型的刻板印象隨時間增加的現象。此外,通過實時分析短時期內詞匯語義的變化,國外相關研究人員還對民眾騷亂,以及政治抗議集會預測進行了研究[25-26]。
綜上所述,針對歷時語料的詞匯語義表示及其應用研究,已經取得許多成果。研究人員對歷時詞向量的訓練模型進行了研究,有些模型已被應用于詞匯語義變化規律發現、社會事件監測等領域。同時,相關工作還存在一些不足:①目前歷時詞向量研究多針對英文,而漢語詞匯的歷時語義研究主要集中在詞頻模型上,這限制了更深層次的知識發現;②現有工作主要針對具體而分散的領域主題,沒有形成一個通用完整的模型框架,難以支撐對各類學術問題的知識挖掘需求;③雖然研究者已提出多種歷時詞向量的訓練方法,但在應用方面,還未發現面向中文詞匯知識發現的歷時語義計算研究。
針對上述不足,本文重點從兩方面展開研究:①設計一個通用的詞匯歷時語義挖掘框架,建立松耦合的可配置的服務式架構,底層提供數據清洗、數據規范化、歷時詞向量訓練等服務,中間層通過XML 配置制定基礎數據的抽取策略并完成界面映射,上層通過對服務的組合,實現知識發現、可視化等業務邏輯,框架應具有高可擴展性,能夠即插即用地通過維度篩選和服務組合來構建具體應用。②以《人民日報》 歷時語料為數據源,構建一個支持多維挖掘并可快速定制的詞匯歷時語義計算平臺,以展示本文框架的落地應用。
本文提出的面向知識發現的詞匯歷時語義挖掘框架如圖1 所示。主要步驟為:①收集歷時語料數據并按照規范進行清洗和標注;②構建歷時詞向量訓練和詞匯語義計算等關鍵服務,并生成面向主題的數據集;③依據研究主題選擇歷時詞向量數據集,完成知識挖掘與可視化。具體處理過程描述如下。
(1) 深加工歷時語料庫的建立。首先,確定語料庫類型和數據來源,語料數據應具備相當規模,并有明確的時間信息。其次,制定加工規范,并對語料進行加工。以報紙語料為例,對每一則語料,可提取版面、欄目等信息,打上刊發日期時間戳標記;再次,對語料進行清洗,去掉冗余噪音數據(如聲明、符號、亂碼或無關字符);最后,完成分詞和詞性標注,并通過統計TF-IDF (term frequen‐cy-inverse document frequency)值或利用TextRank等關鍵詞抽取算法,從語料中提取關鍵詞,最終得到規范化的加工歷時語料庫。
(2) 關鍵服務的實現和管理。將歷時詞向量訓練、歷時語義相關度計算、詞向量聚類、詞向量類比推理等計算任務,封裝為服務的形式并提供外部調用。利用配置文件定制數據抽取策略,建立各類主題數據集:①通過時期、版面欄目、關鍵詞等各個維度篩選得到所關注的熟語料;②通過對時間粒度、詞向量訓練模型、訓練參數的不同設置,在同一語料數據集上訓練得到不同的歷時詞向量;③通過詞性、命名實體類型等維度配置和映射,建立各類面向主題的歷時詞匯數據集。
(3) 知識發現與可視化模塊的構建。根據研究者的學術興趣,選擇相關歷時詞向量數據集或主題數據集,調用數據語義計算服務,實現歷時語義近鄰詞、語義變遷、歷時關系類比等知識發現任務。
從圖1 的系統架構可以看出:①通過將語料加工、詞向量訓練、語義計算等任務分解為各個獨立的細粒度服務,能夠實現業務邏輯的松耦合,便于任務類型的擴展。②采用XML 作為熟語料庫和歷時詞向量數據集的維度配置元數據描述語言,能支持研究者根據學術關注點進行數據定制。③通過配置文件和數據語義計算服務的組合,在提供知識挖掘及可視化的同時,提供底層語料級別的循證數據,使得知識發現有語料級別的數據支撐。

圖1 面向知識發現的歷時詞匯語義挖掘系統架構
綜上所述,本文框架具有可熱插拔的優點,表現在對深加工語料各種維度的配置,以及對歷時詞向量各種特征維度的篩選定制上,研究者可根據研究興趣建立各類數據集,為上層的可視化知識發現定制基礎數據。
基于第3 節提出的系統框架,本文以《人民日報》 歷時語料為例進行實證研究,構建面向知識發現的現代漢語詞匯歷時語義計算平臺,一方面從共時角度分時段展示特定時期詞匯語義的相關度情況,另一方面從歷時角度分析詞匯語義的時序變遷過程。
報紙是構建歷時語料的理想來源,報紙語言具有規范、簡潔的特點,與社會生活息息相關,并具有明確的時序信息。《人民日報》 作為中國共產黨中央委員會機關報,自創辦以來一直承擔著宣傳黨的理論和路線方針政策以及中央重大決策部署等的使命,完整地記錄了不同時期中國政治、經濟、文化和社會生活等方方面面的變遷,其語料具有重要價值,圖情文獻領域的許多研究就是建立在《人民日報》 語料的基礎上的,但從歷時角度切入的研究工作還較少,尤其缺少對歷時詞向量的研究。為此,本研究選用了1946—2003 年刊出的《人民日報》 文本作為語料數據源(其中1946 年5 月15 日至1948 年6 月15 日為晉冀魯豫《人民日報》),并展開實證研究。
在數據預處理階段,首先構建停用詞表,去除標點符號、拉丁字母、數學符號、特殊符號及其他停用詞,并使用NLPIR (natural language processing and information retrieval) 漢語分詞組件和命名實體抽取組件對語料庫進行分詞、詞性標注和命名實體識別[39]。由于部分專題研究需要觀察特定詞組的語義演變,因此,在分詞時使用自定義詞典供用戶構建特定分詞與短語,例如,“中國人民的老朋友”“不受歡迎的人” 等屬于《人民日報》 話語體系的自定義短語詞匯。
為了方便研究者根據學術興趣從各個維度篩選歷時語料并訓練詞向量,本研究從每一則語料中,抽取版面、專欄、標題、關鍵詞等信息作為維度,其中,語料關鍵詞的識別采用TF-IDF 算法。歷時語料需要時間戳標記,并要對原始歷時語料作單位分割,一般來說,較高的粒度(十年甚至百年) 更容易發現語言的變化規律,較小的粒度則多用于分析社會文化的變遷。早期,不少研究都采用了較大的粒度[4,7,30],近年來的一些工作開始以低粒度(如以年為單位) 考察詞匯語義變遷,更關注實際問題[13,17,19,22]。本研究為每一則語料打上時間戳標記,方便后續研究根據具體需要,按不同粒度將所篩選的語料劃分為不同的片段并進行訓練。表1 給出了經過預處理后的標注結果的一則樣例。

表1 經過預處理的一則語料
4.2.1 歷時詞向量訓練服務
歷時詞向量的學習過程可以形式化表示為:令D={d1,d2,…,dn}表示歷時文本數據集,每一則文本di∈D具有時間戳tdi∈T,文本數據集D中的詞匯集合記為W={w1,w2,…,wk},學習目標是從D中為W中的詞匯學習時序敏感的詞向量。
本研究采用三種歷時詞向量的代表性方法,并提供服務調用:①使用word2vec 中基于負采樣的Skip-Gram 模型(SGNS) 模型[36],對每個時間周期的語料進行詞向量訓練;②使用顯式的正向點互信息(positive pointwise mutual information,PPMI) 表示[40],即為詞匯wi∈V構建一個高維稀疏的詞-上下文共現矩陣,上下文定義為目標詞左右窗口內的詞,使用PPMI 值作為矩陣元素;③使用增量訓練方式的Skip-Gram 模型,即將語料數據按時期分割后,用時期t語料上訓練得到的詞向量來初始化時期t+ 1 的詞向量,依次訓練直至收斂[13]。三種訓練方法采用python 編寫并提供調用,python 服務器維護一個輪詢進程與Web 客戶端進行socket 通信,接到請求后開啟處理線程服務計算,并返回結果,服務調用界面如圖2 所示。Hamilton 等[16]研究表明,不同訓練方式得到的歷時詞向量,在不同任務上的性能存在差異。因此,研究者可針對專題研究特點,選用不同的時間粒度和詞向量訓練方式,并將訓練后的歷時詞向量數據集存儲到關系型數據庫中以作進一步分析。

圖2 歷時詞向量訓練的服務調用
4.2.2 語義相關度計算服務
基于預測的方法訓練得到的詞向量,通常不能直接計算其歷時語義相關度,這是由于詞向量算法具有隨機性,即使是在同一語料上的同一個算法,也會得到不同的向量表示。這意味著一個詞的歷時語義即使非常穩定,其向量距離仍可能相隔很遠。為此,對采用傳統SGNS 訓練得到的詞向量,在計算不同時段詞匯的語義相關度時,可通過計算相關詞的交集來判定兩個詞的語義相關度。若某個詞在兩個不同時期的近鄰詞的交集越小,則可認為詞義的變化程度越大,定義時期tm的詞匯wi和時期tn的詞匯wj的語義相關度為

由于KNN (k-nearest neighbors) 算法時間開銷較大,本研究采用近似近鄰的隨機投影方法[41]將每個節點中的數據投影到一維子空間,然后在子空間中進行近鄰詞的劃分。
對另外兩種歷時詞向量訓練方式,即正向點互信息(PPMI) 和增量訓練Skip-Gram 模型,所得到的詞向量是自然對齊的。其中,PPMI 的詞向量每一列都顯式地對應于特定上下文,而增量訓練方式每一次迭代,均保持了上一階段詞向量的信息,使得每個時期訓練所得的詞向量處于可比較的語義空間內,因此,兩者均可直接使用余弦距離或歐幾里得距離來計算不同時期詞匯的語義相關度。
4.2.3 維度配置與數據映射
“維” 是觀察數據的視角,本研究提供的維度挖掘主要有兩方面。一方面,研究者根據研究興趣和關注內容,在訓練歷時詞向量之前,依據年代、專欄、版面、關鍵字等標注特征,從深加工語料庫中篩選出相關語料,進行歷時詞向量訓練,建立各種面向主題的數據集。例如,要考察《人民日報》 政治話語體系的變遷和建構,可根據版面和專欄特征,從語料庫中抽取《人民日報》 社論、評論員文章等語料,分時期訓練歷時詞向量以構建專題詞匯數據集。另一方面,對于特定主題數據集,可以通過XML 文件來配置多維數據集,并自動生成可視化界面,以方便研究者從多個維度深入觀察數據,進行知識發現與挖掘。 例如,對 “人民日報社論專題數據集” 的一個多維配置描述如圖3 所示。

圖3 XML數據集多維配置
該配置定義了 “詞性”“命名實體類型”“起止日期” 等維度作為知識挖掘所需數據的過濾條件,并提供詞匯、詞向量、命名實體類型、詞頻、對應語料、所在句子等普通列供選擇,通過配置文件與界面邏輯的映射,可以靈活高效地完成主題數據集的構建,并通過向導式界面獲得所需數據(圖4),使領域學者從技術細節中解脫出來,將精力投入于問題本身。

圖4 XML配置映射成的數據集維度過濾界面
通過對關鍵語義服務的調用,可以定制針對各項研究專題的知識發現和可視化模塊,并展開定量分析。本節通過三個實際主題的知識發現實例,介紹可視化分析及應用的構建方法。
4.3.1 詞匯歷時近鄰關鍵詞可視化
詞匯歷時近鄰詞可視化的目的在于直觀、快速地觀察詞匯的語義變遷情況,其依據是詞匯語義的分布式假設[42],即認為詞匯的語義由其上下文確定,相似的概念在空間中的距離也相近,通過詞匯的近鄰詞可以表達其語義。通過統計詞匯在某一語料中的詞頻及總語料中的詞頻(即TF-IDF 值),能篩選得到關鍵詞匯。因此,通過對詞匯近鄰關鍵詞的可視化展現,可以直觀地觀察詞匯的語義演化趨勢,進而對一些社會現象進行分析。
《人民日報》 的詞匯與中國社會政治生活密切相關,各個版面均記錄了中國每個時期在社會、政治、經濟、科技、文化等領域的變化和進步,具有強烈的時代色彩。本研究參照中國現代史重大事件[43],將1946 年5月15日至2003年12月21日的《人民日報》 全庫語料,分為四個時期:時期一為1946—1965 年,時期二為1966—1976 年,時期三為1977—1992 年,時期四為1993—2003 年,并采用傳統Skip-Gram 的訓練方式,訓練得到每個時期的詞匯語義向量。圖5 以詞匯 “經濟”“農業” 為例,展示了詞匯近鄰關鍵詞隨時間變遷而變化的可視化過程。

圖5 詞匯歷時近鄰關鍵詞
由圖5 可以看出:①1946—1965 年,這一時期是社會主義建設的過渡和探索時期,“經濟” 的近鄰關鍵詞包括 “國民經濟”“合營”“購銷”“公營企業”“棉紗”“計劃調節” 等反映經濟領域的三大改造和高度集中的計劃經濟體制的詞匯;“農業” 的近鄰關鍵詞則有 “互助組”“初級社”“自給性”“飛躍發展”“全力” 等,反映了這一時期集體農業建設的面貌以及對增收增產的迫切需求。②1966—1976 年,“經濟” 的近鄰關鍵詞包括 “經濟主義”“唯生產力論”“多快好省”“三自一包” 等,在這一時期,經濟與政治緊密關聯,與經濟建設直接相關的詞匯比較少見;“農業” 的近鄰詞包括 “春播”“大寨”“國防”“備荒” 等,反映了這一時期農業建設停滯的狀況以及農業學大寨運動的時代特征。③1977—1992 年,這一時期是改革開放建設時期,“經濟” 的近鄰關鍵詞有 “資金”“市場經濟”“生產力”“生產關系”“按勞分配”“市場調節”“經濟效益” 等一系列具有改革開放典型時代特征的詞匯,反映了改革開放后我國經濟蓬勃興旺的發展態勢?!稗r業” 的近鄰關鍵詞則包括 “開荒”“高產”“雙季稻”“商品糧”“科學種田”“科技興農”“農副產品” 等詞匯,反映了這一時期開荒造田以及科技發展農業的趨勢。④1993—2003 年,這一時期是改革開放的深化期,“經濟” 的近鄰關鍵詞包括 “交易所”“股票”“利用外資”“擴大開放” 等,表明隨著市場經濟地位的確立,我國經濟建設進入一個新的歷史階段?!稗r業” 的近鄰關鍵詞包括 “農業投入”“支農”“信息化”“精準”“觀光農業”“綠色食品”“無公害” 等詞匯,表明了農業管理隨著現代農業的發展變得更為精細化,“三農” 問題提上日程,綠色環保成為熱點主題。
4.3.2 詞匯語義變遷考察
根據詞匯的歷時詞向量,可以計算出不同時期單個詞向量與初始詞向量的相關度,若相關度變化不顯著,則表明該詞匯的語義相對穩定。本研究以每三年為時間分片,從深加工《人民日報》 語料庫中,構建語料訓練集,并選擇增量Skip-Gram 模型進行訓練,得到詞匯在每一階段的向量。部分詞匯特別是一些后期出現的新詞,在早期的文本中沒有或很少出現。例如,“軟件” 一詞在《人民日報》中最早出現的時間是1976 年2 月,在74-76 時間分片(即1974—1976 年) 中僅出現了2 次,如果按正向時間周期訓練會帶來語義失真的問題。為此本研究采用文獻[44]的方法,訓練時采用從后向前訓練的方式,即從2001—2003 年開始訓練,并反向初始化,最后,計算每個階段詞匯與起始階段詞匯的語義距離,以觀察詞匯的語義變化程度。在圖6 中,以 “井噴”“縮水”“防火墻”“孵化” 等12 個具有代表性的詞匯為例,展示了選定詞匯的詞義變化趨勢圖。

圖6 詞匯語義變化歷時曲線圖
從總體上看,詞匯在語義空間中的位置會隨著時間的推移而發生偏移,若偏移程度較大,則表明在這個時期詞匯的語義發生了變化。例如,“下海”“眼球” 的語義變化曲線分別在1989-91 時期(即1989—1991 年),以及1995-97 時期(即1995—1997年) 有顯著下降,則表明這段時間語義發生了較為劇烈的變化。通過查詢詞匯轉義期前后的近鄰關鍵詞,可以觀察具體的詞義變化情況(表2)。

表2 部分詞匯的近鄰關鍵詞詞變遷
結合圖6 和表2 可以發現,第一,隨著社會的發展和時間的推移,有些詞匯從各個學科和行業中表示具體概念的本義,逐漸泛化為表示抽象概念的隱喻義,涉及的學科既包括戲曲、軍事、醫藥、物理等領域,也包括金融、計算機、互聯網等新興行業。通過檢索詞匯所在語料,可以分析詞匯語義變遷的具體語境。以 “旗艦” 為例,其原意是指載有海軍將官或艦隊、分艦隊司令官并懸掛旗幟的軍艦,例如,“去年九月二日在東京灣的密蘇里旗艦上舉行了日本投降的簽字典禮(1946-08-11) ”;在1998 年之后,“旗艦” 逐漸泛化到商業領域,比喻同類中起主導作用的產品或機構,例如,“由我國軟件旗艦企業浪潮軟件為北京市民政局開發的‘北京市城鄉居民最低生活保障管理服務系統’一期工程開通(2003-07-18) ”。 第二,在詞義變化過程中,有些詞的色彩意義發生了變化。在20 世紀90年代之前,“策劃” 的近鄰關鍵詞主要包括 “陰謀”“ 蓄 謀”“ 幕后 操縱” 等貶 義 色彩 的 詞,例 如,“ (亞洲人民) 反對國際戰爭勢力在任何幌子下策劃新戰爭的罪惡陰謀(1955-02-26) ”;而隨著改革開放的不斷深入,其近鄰關鍵詞逐漸轉為中性,出現了“ 營銷”“ 品牌”“ 文案” 等中性詞,例如,“該中心將與新聞界廣泛聯系,代理策劃各類公關和廣告宣傳活動(1992-11-01) ”。第三,隨著科技的發展,有些詞匯的語義逐漸遷移到專業領域。1996 年之前,“防火墻” 還是建筑學術語,其關鍵近鄰詞包括 “火災”“通風洞”“隔離墻” 等建筑領域詞匯,例如,“該公司擅自在防火墻上鑿開7 個通風洞(1994-03-01) ”; 在1996 年之后,“ 防火墻” 一詞開始轉移到網絡領域,其近鄰詞包括 “安全漏洞”“主動防御” 等隨著互聯網飛速發展而出現的詞匯,例如,“通過一種稱為‘防火墻’的多種軟硬件防護體系即可保護自己的計算機不受侵犯(1995-02-18) ”。由此可見,通過計算詞匯的歷時語義變化和觀察其近鄰關鍵詞的變遷,可以有效輔助對詞匯語義的具體變化及其背景進行分析并舉出例證。
4.3.3 特定詞匯的歷時標簽演變
《人民日報》 詞匯系統與時代話語體系密切相關,通過對一些人名、地名、機構名、歷史事件的近鄰詞的變遷的考察,可以窺見特定歷史時期的時代特征和觀念的變化過程。例如,要觀察時代背景制約下《人民日報》 中 “孔子” 的形象變遷,可通過其近鄰詞中標簽類詞匯(近鄰名詞、動詞、形容詞、命名實體) 的歷時變化來觀察(圖7)。

圖7 “孔子”形象歷時演化
作為儒家文化的創始人,孔子對中國社會產生了深遠影響。以圖7 中的 “孔子” 為例,①1946—1965 年,“孔子” 的近鄰詞主有兩類,第一類是將孔子視作中國古代的學者,如 “哲學”“君子”“周禮”“六藝”“學說” 等,與其相關的人名則有 “老子”“孟子”“墨子”“荀子”“子貢” 等;第二類是視孔子為封建秩序的維護者,如 “封建”“貴族”“地主階級”“奴隸主” 等。這一時期孔子的形象塑造主要集中在孔子的哲學思想和孔子的階級屬性上,反映了當時對孔子學術教育貢獻的客觀評價,以及對孔子的階級屬性的討論。②1966—1976 年,“孔子” 的近鄰詞主要包括 “孔老二”“批林批孔”“孔家店”“復辟”“反動”“上智下愚” 等,表明在這一時期,孔子及其思想受到大面積的批判,孔子形象跌入低谷。③1977—1992 年,孔子的近鄰詞為“儒家”“傳統”“教育家”“學術”“哲學” 等,這一時期對孔子的評價已經較少有政治上的定性,而主要突出其思想家、教育家的定位。④1993—2003年,孔子的近鄰詞出現了 “夫子廟”“國際”“海內外”“文化節” 等詞匯,反映了隨著國家經濟和文化的發展,孔子的形象兼具了旅游文化乃至對外交流的功能。需要說明的是,圖7 中孔子形象的 “標簽” 詞,是從歷時語料中由詞向量算法自動學習得到的,其本質是對語料使用的反映,因此,可以為觀察不同時代的孔子形象提供一種新的視角。
在信息技術飛速發展的背景下,歷時文本數據正以前所未有的速度增長,試圖從浩瀚的文字海洋中人工觀察社會變遷的整體面貌,已超出了一般分析理解所能處理的范疇;而機器學習和大數據技術的興起,則為文本處理和挖掘提供了更大的研究空間和新的研究可能。在此背景下,本研究提出了一個面向知識發現的詞匯歷時語義挖掘框架,該框架基于服務式體系架構,通過語料預處理、歷時詞向量訓練、詞匯語義計算等服務,可實現從文本到數據再到知識的轉化。同時,本研究以《人民日報》歷時語料為基礎,實現了中文詞匯歷時語義知識挖掘平臺,通過數據集定制和服務組合,構建了詞匯語義知識發現的若干應用。本研究工作的特色與優勢有:①具有高可擴展性,在松耦合的面向服務的架構下,開發者可根據業務邏輯靈活構建特定的知識發現應用模塊;②具有高可配置性,通過定義或修改配置文件,可與數據集建立映射,實現即插即用功能;③具有高可用性,人文學者可根據學術興趣,定制或選擇現有的面向主題的歷時詞匯數據集,從多個維度觀察數據,從而發現線索或得出結論。
本文的意義在于展現了數據驅動的知識生產范式的潛力,不同于傳統研究主要依賴于對文獻的辨析、思考和領悟得出相關結論,本文所取得的若干結果是通過大量數據的匯集而自動涌現的,具有精確、可復現等自然科學研究的特點。然而,本研究還需要進一步完善和深入。第一,本文采用了三種主流的歷時詞向量訓練方法,但沒有討論不同訓練方法得到的詞向量特征的差異。第二,本文的實證部分使用了《人民日報》 歷時語料,而沒有使用微博等新興社交媒體語料,主要是因為時間跨度較長的大規模語料的獲取較為困難,處理較為煩瑣,而《人民日報》 語料用詞規范,與社會生活聯系緊密,適合作為詞匯歷時語義挖掘的基礎語料。未來我們將進一步采集《人民日報》 的語料數據,以及《人民文學》《新聞聯播》 報道等記錄中國社會生活變遷的歷時語料,對詞匯系統進行更深入的知識挖掘。