熊回香 陳子薇 葉佳鑫
華中師范大學信息管理學院 武漢 430079
科技文獻主要包括題名、關鍵詞、摘要、全文等重要內容,其中關鍵詞是最常用的表示科技文獻內容特征的知識單元,相較于題名來說關鍵詞能表示文本內容特征的不同側面,與摘要相比關鍵詞表示的知識則更為濃縮,相較于全文來說關鍵詞則具有利用便捷、高效的特點[1-3]。由此關鍵詞成為目前應用范圍最廣、最受關注的科技文獻知識單元。
對于關鍵詞的開發利用,主要是在關鍵詞間相關性挖掘的基礎上,借助關鍵詞來表征文本、資源或者使用關鍵詞的用戶的特征,進而通過關鍵詞之間的關聯來建立文本間、資源間以及用戶間的聯系,實現知識關聯、資源推薦等工作。早期,關鍵詞間相關性的挖掘主要依賴于對詞典資源的利用,但因詞典存在更新速度慢、覆蓋面有限等問題,關鍵詞間相關性的挖掘逐步轉向于從大規模的語料庫中學習并構建關鍵詞特征,通常采用向量特征來計算關鍵詞間相似度[4]。然而,關鍵詞間存在著同義、上下義、反義、同形異義等多種關系,目前的研究常將這些復雜的關系以單一的相似度數值來度量,例如基于關鍵詞共現關系的詞間相似度挖掘,這種方法并未對不同關系進行區分,缺少對關鍵詞語義信息的深入挖掘,也導致在效果上存在一定不足[5-6]。筆者從科技文獻價值開發的角度出發,在關鍵詞共現分析的基礎上結合對詞本身分布特征的分析,建立能反映關鍵詞間研究范圍上下位關系的關鍵詞層次結構,以更好地對關鍵詞進行挖掘利用,推動相關研究進展。
(1)基于詞典的挖掘?;谠~典對詞語進行相關性挖掘主要是依據構建詞典時的分類規則來挖掘詞語之間的語義聯系。WordNet是最常見的用于挖掘英文詞語間相關性的語義詞典,通過WordNet可有效挖掘詞語之間概念關系,并用于文檔或圖像等資源間相似度的計算[7];同義詞詞林是一本包含詞語間同義關系的語義詞典,其按照詞語概念的遞進分為5層樹狀結構,基于詞林的樹狀結構能對詞語關系進行挖掘[8];HowNet也是常見的用于挖掘中文詞語相關性的詞典,區別于應用詞林時基于詞典結構,在利用HowNet進行詞語間相關性挖掘時主要是依據描述詞語概念的義原[9];此外,同時借助多種詞典進行詞語相關性挖掘,相較于借助單一詞典能在一定程度上擴大可計算詞語的范圍并提升相關性挖掘的準確性[10]。
(2)基于大規模語料的挖掘。相較于基于詞典的方法,基于大規模語料的挖掘效果主要取決于文本特征的學習與表示方法,且其囊括的詞語范圍遠高于基于詞典的范圍。目前,文本特征的學習與表示,主要是將文本特征經過訓練轉換為詞向量,常見的主要有基于CBOW、Skip-gram等算法訓練得到Word2vec詞向量[11],以及目前較為流行的基于CNN、LSTM與BERT等模型訓練得到詞向量或挖掘文本特征[12-13]。田星等將Jaccard與Word2vec相結合,在訓練得到Word2vec詞向量后,將詞向量融入到Jaccard方法中,進行短文本間相關性挖掘,有效提升了挖掘效果[14];E. L. Pontes等使用CNN解析單詞的局部上下文,使用LSTM分析句子的全局上下文,對文本信息進行有效保留以提高相關性挖掘效果[15];M. M. Sanjeev等借助BERT實現詞、句子間語義相關性的挖掘,并將其應用于郵件查找工作中[16]。
在詞語相關性挖掘方法中,基于詞典的方法對詞語之間關系的挖掘較為全面,詞語相關性挖掘的效果通常較好,但存在詞典更新困難、計算范圍有限的問題;而基于大規模語料的方法,雖然能顯著提升計算范圍,并能實現對詞語關系的自動挖掘,但這類方法通常對語料的質量要求較高,且對部分詞語如低頻詞、凸現詞的挖掘效果較差[17]。
詞語層次關系挖掘主要是對詞語之間的上下位關系進行挖掘與呈現,即在詞語相關性挖掘的基礎上進一步得出詞語之間的上下級關系并建立相應的詞語結構,目前常見的挖掘對象主要為社交網絡上的標簽類詞語以及學術文獻中的關鍵詞類詞語。G. Tibély等以蛋白質功能標簽與電影標簽為對象,基于復雜網絡理論,通過網絡加權與共現關系從網絡中提取出了標簽層次關系[18];S. Li等基于學術關鍵詞的共現關系以及詞組中詞的組合順序建立了關鍵詞層次結構[19];熊回香等依據圖書標簽的概念范圍及共現關系進行了標簽層次關系建立[20-21]。
在詞語層次關系構建研究中,以往的研究多以共現關系為基礎進行詞語之間層次關系的挖掘,但在挖掘時僅考慮了詞語是否共現,沒有對詞語的語義類型與功能進行區分,因而難以說明層次關系是按照何種規則進行層次遞進,也導致了構建的層次關系在應用上存在一定的局限。
為了更好地挖掘詞語相關性,筆者借助詞典的思想,對詞語間共現情況進行深入挖掘來半自動地構建能反映詞語間上下位關系的詞語層次結構,并將建立好的層次結構與基于語料的方法結合,以拓展相關性挖掘的范圍,提高挖掘結果質量。因學術關鍵詞具有規范、精煉、語義明確等特點,筆者選擇研究的詞語為學術關鍵詞,其按語義類型及功能的不同可以分為研究方法類、研究主題類、研究范圍類等不同類型的關鍵詞[22]。其中,研究方法類關鍵詞反映的是科技文獻所用研究方法,通過挖掘不同科技文獻在研究方法上存在的異同之處可以較好地挖掘文獻之間的聯系,并且通過研究方法之間的關聯可以有效擴充研究方法的適用范圍。因此,筆者在挖掘詞語相關性時以研究方法類學術關鍵詞作為主要研究對象,通過挖掘研究方法類關鍵詞與其他類型關鍵詞間的共現關系來構建研究方法類關鍵詞層次結構,若某一研究方法類關鍵詞與多種研究主題或研究范圍類關鍵詞具有共現關系,則可推斷該方法適用于多種主題,具有較為廣泛的應用范圍,以此為基礎構建研究方法類關鍵詞的層次結構,則可按關聯的主題與研究范圍大小進行關鍵詞層次遞進,使構建的層次結構具有更好的應用價值。按此思路構建的研究框架共分為數據收集與預處理、關鍵詞相似度計算、建立關鍵詞層次結構3個步驟,如圖1所示:

圖1 基于共現關系的研究方法類關鍵詞層次構建框架
3.2.1 數據收集與預處理
從文獻數據庫中采集相關科技文獻關鍵詞數據,對采集到的關鍵詞數據進行篩選與統計工作之后,按照參考文獻[3]與參考文獻[22]所述標準將關鍵詞劃分為研究方法類關鍵詞與非研究方法類關鍵詞。然后,對于非研究方法類關鍵詞,按照詞頻排序,選擇詞頻數較高的部分研究主題類與研究范圍類關鍵詞作為特征項關鍵詞,用以在后續研究中描述研究方法類關鍵詞的特征。
3.2.2 關鍵詞相似度計算
基于關鍵詞共現矩陣計算關鍵詞間相似度。關鍵詞間的共現可分為直接共現情況與間接共現情況兩種,在本文中直接共現情況是指兩個研究方法類關鍵詞出現在同一科技文獻中,即在該科技文獻中兩個研究方法類關鍵詞被用于同一研究;間接共現情況則是指兩個研究方法類關鍵詞被用于同一個研究主題或者研究范圍中。筆者構建研究方法類關鍵詞之間的共現矩陣用以反映研究方法類關鍵詞間的直接共現情況,構建研究方法類關鍵詞與特征項關鍵詞之間的共現矩陣用以反映研究方法類關鍵詞間的間接共現情況,并在共現矩陣的基礎上利用余弦相似度算法計算研究方法類關鍵詞之間的向量余弦距離,得到研究方法類關鍵詞之間的直接共現相似度與間接共現相似度,此外,考慮到本文研究重點為關鍵詞層次結構的構建,故直接對兩種相似度進行加權整合得到研究方法類關鍵詞綜合共現相似度。
3.2.3 建立關鍵詞層次結構
研究方法類關鍵詞層次結構的建立主要可以分為概念范圍度量、確立根節點、選定概念范圍閾值、確立子節點與層級遞進5個步驟。
(1)概念范圍度量。研究方法類關鍵詞概念范圍是通過其與特征項關鍵詞之間的共現關系度量,在本文中特征項關鍵詞是反映文獻研究主題、研究對象等特征的詞,若相關的特征項關鍵詞越多,則表明研究方法類關鍵詞可適用于更多的研究主題或對象,具有較大的概念范圍。
(2)確立根節點。根節點概念范圍越大,則與其相關的關鍵詞層次結構也能具有更大的適用范圍,因此在度量研究方法類關鍵詞概念范圍之后選擇概念范圍較大的關鍵詞作為層次結構的根節點。
(3)制定概念范圍閾值。為使概念范圍接近的關鍵詞盡可能位于同一層級,其處于上下層級的關鍵詞間概念范圍存在一定差異,使得概念范圍隨著層級遞進呈現逐層遞減,需要控制不同層級中關鍵詞的概念范圍。故在建立層次結構時,應在對關鍵詞概念范圍進行度量的基礎上,分析關鍵詞概念范圍的分布,并以此制定每個層級的概念范圍閾值。
(4)確立子節點。確立根節點并制定概念范圍閾值之后,按照根節點關鍵詞與其他關鍵詞之間的關系確立可加入層次結構的子節點關鍵詞。首先,加入層次結構的子節點應與根節點具有一定的相關性,在本文中即子節點與根節點之間的綜合共現相似度應達到一定值;其次,子節點應與某一父節點具有一定的相關性,在本文中即子節點與父節點之間的直接共現相似度或間接共現相似度應達到一定值;最后,子節點的概念范圍應達到對應層級的概念范圍閾值。
(5)層級遞進。確立根節點后,為根節點加入子節點作為層次結構的第二層級;隨后,將加入的子節點作為第三層級關鍵詞的父節點并為其加入對應的子節點,并通過衡量關鍵詞之間的相似度以及關鍵詞概念范圍是否達到對應的閾值來向層次結構中逐漸加入新的節點,每個關鍵詞僅能加入層次結構1次,若子節點同時與多個父節點間的相似度達到閾值,則將其與相似度最大的父節點建立層次關系,且子節點概念范圍應低于父節點。
考慮到學科內的研究方法在較短年限內不會發生太大變化以及期刊在選題上具有一定的連貫性,因此選取《圖書情報工作》《情報理論與實踐》《情報雜志》 《情報科學》《情報學報》《數據分析與知識發現》6種與研究方法較為相關的期刊[23]作為數據來源期刊,選擇“實驗法”“實證研究”“統計分析”等55個使用頻次最高的研究方法類關鍵詞[23]作為研究對象。
在中國知網上構造檢索表達式,設置源期刊為《圖書情報工作》等6種情報學核心期刊,包含關鍵詞為“實驗法”或“實證研究”等55個關鍵詞,發表時間為2016年7月至2021年6月,共檢索到相關文獻1 489篇,如表1所示(僅展示關鍵詞與題名信息):

表1 科技文獻數據
收集數據后,對關鍵詞進行標準化與篩選等工作。首先將關鍵詞進行同義詞標準化,例如將“K-means”“k-means聚類”與“K-means算法”統一表述為“K-means”;隨后進行詞頻統計,由于詞頻數較低的詞構建層次關系時會使得關鍵詞相關性難以挖掘,因此去除詞頻數在5以下的研究方法類關鍵詞;最后根據詞頻選擇作為特征項的關鍵詞,選取詞頻數達到9的非研究方法類關鍵詞作為特征項。對關鍵詞進行篩選與選擇后共有40個研究方法類關鍵詞、48個特征項關鍵詞,分別如表2和表3所示:

表2 研究方法類關鍵詞詞頻
對關鍵詞進行詞頻統計與篩選后,應用Co-Occurrence6.7(COOC6.7)[24]構建關鍵詞共現矩陣。根據表1構建表2中研究方法類關鍵詞之間的共現矩陣;基于表1并依據表2中研究方法類關鍵詞與表3中的特征項關鍵詞間的共現關系,構建研究方法類關鍵詞與特征項關鍵詞共現矩陣。

表3 特征項關鍵詞詞頻
基于研究方法類關鍵詞的共現矩陣,以余弦相似度算法計算研究方法類關鍵詞向量之間的余弦距離,通過余弦距離來度量關鍵詞之間的直接共現相似度,結果如表4所示:

表4 研究方法類關鍵詞直接共現相似度
根據研究方法類關鍵詞與特征詞的共現矩陣,以余弦相似度算法計算研究方法類關鍵詞向量之間的余弦距離,通過余弦距離來度量關鍵詞之間的間接共現相似度,結果如表5所示:

表5 研究方法類關鍵詞間接共現相似度
得到直接共現相似度與間接共現相似度后,通過調整加權平均的權值進行多次實驗,當權值均為0.5時實驗效果最好,故對表4與表5中的相關性矩陣進行求和并取均值,得到研究方法類關鍵詞綜合共現相似度,如表6所示:

表6 研究方法類關鍵詞綜合共現相似度
按照3.2.3小節所述步驟進行研究方法類關鍵詞層次結構的建立。根據研究方法類關鍵詞與特征項關鍵詞的共現矩陣,若關鍵詞與特征項共現次數在1及以上則認為其具有相關性。由此,統計與研究方法類關鍵詞有關的特征項關鍵詞個數,以表示該研究方法類關鍵詞的概念范圍,結果如圖2所示:

圖2 研究方法類關鍵詞概念閾值分布
依據圖2所示結果,“知識圖譜”具有較大的概念范圍,因此筆者選擇“知識圖譜”作為根節點進行研究方法類關鍵詞層次結構的構建。此外,考慮到層級中關鍵詞數量以及關鍵詞概念范圍的分布情況,筆者構建了具有4層層次關系的層次結構。對圖2中關鍵詞的概念范圍分布情況進行分析,發現概念閾值在22、15、8等值附近波動較為明顯,同時考慮到每一層級中的關鍵詞節點數,設置第一層級的概念范圍閾值為22,第二層級的概念范圍閾值為15,第三層級的概念范圍閾值為8,第四層級的概念范圍閾值為1。
在加入子節點時基于對表6中相似度結果的分析,設置與根節點“知識圖譜”綜合共現相似度達到0.15,即與根節點具有一定相關性的關鍵詞能加入層次結構;基于對表4與表5中相似度結果的分析,設置與父節點間直接相似度或間接相似度達到0.5,即與父節點具有較強相關性的關鍵詞作為其子節點加入層次結構?;诒?中的結果,可以發現在39個研究方法類關鍵詞中與根節點“知識圖譜”綜合共現相似度達到0.15,可以加入層次結構的關鍵詞共有24個。基于此,從根節點“知識圖譜”開始依次向層次結構中加入子節點,根節點“知識圖譜”作為層次結構的第一層級共有3個子節點,第二層級的3個節點共有6個子節點,第三層級的6個節點共有5個子節點,即可以加入層次結構的24個關鍵詞中共有14個關鍵詞加入層次結構,另有10個關鍵詞與所有父節點均不滿足相似度條件,故未加入層次結構。最后構建的以“知識圖譜”為根節點的層次結構如圖3所示:

圖3 “知識圖譜”層次結構
為了與筆者提出的關鍵詞層次結構構建方法進行對比,以“知識圖譜”為根節點,分別基于方法類關鍵詞間直接共現相似度和間接共現相似度構建層次結構。結果如圖4所示:

圖4 基于直接共現相似度和間接共現相似度的層次結構
比較圖3和圖4可以看出,基于單一共現指標的構建效果并不太理想,基于綜合共現相似度的層次結構更為豐富,子節點較多,有利于建立完善的關鍵詞層次結構。同時,圖3所構建的層次結構將研究范圍相似度較高的關鍵詞聯系起來,并且與同一研究主題相關度較高的關鍵詞也聚集到一起,各關鍵詞被分入到了合適的等級結構中。
筆者以研究方法類關鍵詞為研究對象,綜合考慮關鍵詞直接共現關系和間接共現關系,在關鍵詞共現關系挖掘的基礎上,分析與關鍵詞關聯的研究范圍大小,建立了關鍵詞層次結構。通過實例數據證明,筆者所提出的方法相較基于單一共現指標的方法,能夠構建更為完善、關聯更為緊密的關鍵詞等級結構。但是,本文仍具有以下局限性:①關鍵詞間間接共現存在多種情況,而本文僅考慮了兩個研究方法類關鍵詞應用于同一研究主題或研究范圍的情況,未來將進一步探索多種間接關系的特點及其對關鍵詞層次結構構建的影響;②受限于數據量,本文僅選用具有代表性的實例進行論證,如果選擇的樣本數據量較大,則更能充分體現關鍵詞間的相互關系,那么層次結構構建的效果可能會更好。未來,筆者將在較大數據集合中對此層次結構構建方法予以驗證。