999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義文本圖的論文摘要關鍵詞抽取算法

2021-09-09 03:18:18王曉宇王芳
情報學報 2021年8期
關鍵詞:語義單詞文本

王曉宇,王芳

(1.東北財經大學管理科學與工程學院信息管理系,大連 116025;2.南開大學商學院信息資源管理系,天津 300071)

1 引言

關鍵詞是一組用于描述文檔重要信息的名詞集合,可幫助讀者形成對文本內容的初步印象,常被用作文獻檢索入口。基于關鍵詞的文獻主題標引極大地節省了人們從數據庫或互聯網查找信息所花費的時間和精力。由于科學論文包含了大量可重復利用的人類科學知識,關鍵詞也成為文獻信息計量最常用的分析單元。通過對文獻主題分析,可以對文本進行聚類,并在此基礎上形成對特定領域知識關聯的清晰認識。目前,科學文獻的關鍵詞主要由作者在投稿時賦予,但是受作者知識結構和研究興趣的局限,由作者賦予的主題詞常常存在覆蓋面不足、檢索效率不高等問題,因此,CNKI(China National Knowledge Infrastructure)等文獻數據庫均會采用機標關鍵詞進行補充。可以說,高效的關鍵詞抽取是實現大規模文獻檢索以及分析的技術前提,故吸引了眾多學者的關注[1-3]。

關鍵詞抽取是信息抽取領域的重要研究內容,可被理解為從非結構和/或半結構化機器可讀文檔中自動提取結構化信息的自然語言處理任務。常見的關鍵詞抽取算法可分為基于統計和基于機器學習兩大類。基于統計方法的詞語重要性通常由詞頻的統計量構成,如詞頻(term frequency,TF)[4-5]、詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)、互信息[6-7]、頻率分布[8-10]等,且主要遵循“在文本中頻繁出現的詞語是重要的,因而也更可能與其他重要術語相關聯”這一假設[11-12]。基于統計的方法具有易于理解和操作簡便的特點,在文獻計量、競爭情報、科技創新等領域具有廣泛的應用[13-16]。但該方法的應用以采集特定類型文本集合為前提,是一種文本集合依賴的方法,無法用于動態數據的關鍵詞抽取任務。

基于機器學習的關鍵詞抽取方法是當前信息抽取領域的研究熱點,可進一步分為有監督的學習[17-20]、無監督的學習[21-23]和半監督或弱監督的學習三個類別。有監督的學習方法需依賴標注語料完成模型的參數估計(即訓練過程),通常訓練語料規模越大,質量越高,則模型的抽詞效果越好,但也意味著更大的前期語料標注工作。得益于電腦計算能力的大幅提升和互聯網環境下規模級語料更易獲得,標注語料對有監督學習方法的限制在逐步減小,這使得以復雜人工神經網絡為代表的深度學習方法發展迅速,結合長短期記憶網絡[24-26]、門控機制、注意力機制的卷積神經網絡、循環神經網絡[27]等深度網絡模型成為主流。雖然深度模型在函數逼近、參數精簡、模型泛化等方面具有更明顯的優勢,但網絡規模的增大也令前期的模型訓練更為耗時。此外,模型強大的學習能力也帶來穩健性(ro‐bustness)不足的問題,訓練數據中較小的擾動就可導致預測錯誤;而為了克服這一問題,更大的訓練樣本和語料標注工作仍然是必要的。

相較于有監督學習方法對語料的依賴性,無監督方法則更為靈活,可通過預設詞典[28-29]、上下文[30-31]、語義[32-34]及其他統計學方法[35-36]完成候選詞篩選,再根據淺層關系、淺層主題、低排名假設等預設條件確定詞語的重要性。基于圖的方法是將文本內容以文本圖表示,再根據單詞節點的圖結構特征進行詞加權的無監督抽取方法,其中,最為熟知的是2004年Mihalcea等[23]在經典網頁排名算法PageRank基礎上提出的TextRank。此類方法通常將候選關鍵字表示為節點,詞間關系表示為節點連接邊,根據特定的圖屬性設計加權函數完成候選詞的排序,因而算法效果受到文本預處理、圖構建方法和加權函數三方面的影響。在文本圖構建方面,多數方法以詞語在固定滑動窗口的共現關系確立節點連接邊,但在最優窗口長度的問題上卻難以達成共識,需要用戶結合文本和算法特征進行反復調試后確定,增加了算法效果的不確定因素。此外,由于文本圖的連接邊只能夠表示詞共現關系,在此基礎上設計的詞加權方法同樣忽略了其他詞間語義關系對詞語重要性判斷的作用。

鑒于已有研究的不足,本文提出了一種基于語義文本圖的關鍵詞抽取算法,該算法著重對文本圖構建和詞加權方法進行改進。其主要貢獻在于:以句法解析中的詞間依存關系確定實體關系類別,并作為圖中詞節點的連接依據,省去以往圖生成方法中所需要的窗口長度參數設定;以包含豐富語義信息的文本圖為基礎,提出融合關鍵詞位置信息、概念層級和連接強度的詞權重計算方法,并在四個開放語料的實驗中證明該方法的優越性。

2 相關研究概述

基于圖的關鍵詞抽取屬于無監督信息抽取方法,其基本思路是先將文本內容表示為由單詞節點和詞間關系構成的文本圖,再根據圖特征確定節點的重要性與權重計算方法,最后提取高得分節點作為文檔的關鍵詞集。該類方法的抽詞效果主要受圖結構和詞的加權方式兩方面的影響,其中文本圖是候選詞特征提取的重要依據,不同的構圖方式會導致文本圖在節點基數和邊屬性方面存在較大差異。例如,經過詞干提取(stemming)操作的候選詞,通常會組成節點數更少的文本圖,而主流的文本圖構建方法多采用單一的詞共現關系邊連接,通過共現窗口大小和滑動位移控制文本圖密度和連接邊方向。通常窗口設置的越大、位移量越小,圖密度越高,可提取的特征也就越多。

在詞權重計算方面,經典的加權方法包括Pag‐eRank、TextRank和HITS,均是以特征向量的中心性為基礎,將節點權值作為其在網絡內部影響力的度量方法。PageRank是一種用于解決網頁排名的有向圖節點權重計算方法,將節點權重定義為與其相鄰且指向該點的節點權重之和;同時,節點又將其自身權重的一部分分配給其指向的節點,因此,被高質量節點所指向的節點會得到更高的權重[37]。Mihalcea等[23]將文本圖的拓撲結構與PageRank進行整合,并提出了TextRank,在借鑒其節點加權方法的同時,將詞語在滑動窗口內的共現頻次作為邊的權值,并表示節點間連接邊的重要程度。

在其他PageRank相關變體中,SemanticRank將詞間語義相關性賦值于節點連接邊的權重,且相關性由詞語在WordNet中的連接路徑長度和Wikipedia中共同指向詞語鏈接數量共同決定[38]。PositionRank是由Florescu等[39]提出的,將單詞在文本中的位置信息融入權值計算的關鍵詞提取方法。該方法假定越重要的單詞會越早地出現在一段文字當中,因此,如果一個單詞在文本中出現的越頻繁且位置越靠前,那么其應被賦予更高的權重。Liu等[40]的研究證明了先驗知識對抽詞效果的積極影響,并提出以TF-IDF、位置和主題三種權值作為先驗知識的Biased-PageRank算法。此外,作為TextRank的變體,SingleRank將文檔集合與單個文檔中的詞共現頻率作為邊權重的計算方式[41]。TopicRank則對由主題節點構成的文本圖進行加權,依據主題的重要性將高得分節點中的詞語集合作為文本的關鍵詞集[42]。

與PageRank將相鄰節點權重納入到權重計算中不同,HITS[43]定義了兩類重要節點:多個節點共同指向的權威節點和指向多個節點的中心節點。權重計算通常會融入節點中心度[39,44]或k-degeneracy[45-46]等社會網絡指標。在相關研究中,Boudin[47]比較了度數中心度、接近中心度、中介中心度和特征向量中心度四個中心度計算方法在基于圖的關鍵詞抽取算法中的效果,在三個不同語言和領域數據集上的實驗表明,簡單的中心度計算方法就能達到與Tex‐tRank相似的結果。Biswas等[48]在度數中心度、選擇中心度等多參數組合節點權重計算基礎上,依據點-邊排序法(node-edge rank)[49]完成關鍵詞節點的提取。Vega-Oliveros等[50]發現9個不同的中心度權重計算方法,雖然能夠獲得相似的關鍵詞提取結果,但是不同方法的組合同樣能夠達到提高抽詞效果的目的。

部分研究還采用k-core、k-truss等圖分解法將主核(core)或主束(truss)節點作為關鍵詞進行提取。例如,Rousseau等[45]使用節點核,即文本子圖中節點所具有的最小度數對網絡層級進行劃分,并進行權重計算,且當k值較高、主核數越少時,該算法顯著優于TextRank。這類方法的實質是對圖內聚性的計算,且認為高內聚性節點具有更高的影響力,因而將其作為文本的關鍵詞具有合理性[46]。另外,Ohsawa等[51]提出的KeyGraph將文本圖分割成若干個聚類,并以此表示特定的概念,詞語與其所在聚類的緊密程度則為詞語重要性的判斷依據。Matsuo等[22]在證明文本圖具有小世界網絡特性的基礎上,提出了基于網絡特征貢獻度的KeyWorld權重指標。Litvak等[21]則在此基礎上將節點度融入權重指標中,并提出了關鍵詞抽取效率更高的De‐gExt。Duari等[52]通過相鄰句子滑動窗口構建文本圖,并提出整合單詞網絡層級、位置信息、語義連接性和語義強度四類維度特征的詞加權方式。

從上述研究中可發現,基于圖的關鍵詞抽取算法具有應用簡便的特點,但也存在一定的局限性。首先,以單詞作為節點,以固定窗口內的詞共現關系確立連接邊仍是目前普遍采用的圖構建方法。雖然具有操作簡便、運算速度快的優勢,但共現窗口的長度卻是一個超參數,算法的抽詞效果直接受到參數設定合理性的影響。較小的窗口會使得網絡的連通性較差;反之,則會使得邊的權重差異過小,對詞節點的圖結構特征提取造成困難。因此,窗口長度通常需要根據抽取算法和語料特征進行調整,無法給出一個統一的取值范圍,需要研究者通過反復實驗得出。其次,在論文摘要的關鍵詞抽取任務中,雖然摘要包含了對文章主要內容的精簡表述,卻也存在短文本可用信息過少的問題。此時,無論采用單詞或是句子長度的滑動窗口,均會出現由文本圖稀疏所導致的算法效率降低的問題。最后,文本圖中的連接邊表示詞語在文本中的共現關系,忽略了詞間存在的多種語義關系,此時的文本圖僅能說明詞語在指定窗口內共同出現過,卻無法解釋為何共現,而缺失的語義信息則是對詞間關系最好的補充,如基于主謂賓(subject-verb-object,S-V-O)結構的文本內容表示和相似性計算。

3 基于語義文本圖的關鍵詞抽取算法

為了彌補上述方法中的不足,本文提出一種基于語義文本圖的關鍵詞抽取算法,框架如圖1所示,由文本預處理、語義文本圖構建(第3.1節)和詞權重計算(第3.2節)三個主要部分構成。

圖1 算法整體框架

3.1 語義文本圖構建方法

3.1.1 基于依存句法解析的詞間關系提取

根據Vo等[53]的定義,從句(clause)可被狹義地定義為“句法解析和依存關系解析所形成的樹結構”。為了讓文本圖盡可能多地保留摘要中的語義和結構信息,本節重點介紹基于語義依存關系的詞間關系抽取框架,特別是英文語法中,從句中不完整元組結構的補全規則,以及介詞短語修飾成分的關系提取。

從句是用于修飾名詞或充當名詞功能的語法結構(如在句子中充當主語成分的主語從句),包括主語(subject,S)、謂語(verb,V)、直接賓語(direct object,DO)、間 接 賓 語(indirect object,IO)、補語(complement,C),以及充當修飾成分的狀語(adverbials,A)等結構。傳統基于句法解析的關系提取方法,通常以句子中的動詞或動詞性短語作為關系提取的依據,再使用形如的元組對其實體關系進行表示,其主要局限在于:如果句子中缺少足夠的信息幫助明確主語、謂語或賓語實體間的聯系,算法就無法提取完整的元組結構。例如,圖2的題目中“Three-dimensional objects”和“scale invariances”之間沒有動詞或動詞性短語連接,傳統方法無法提取這一關系元組。

因此,為了更多地保留摘要文本中的詞間關系并生成較大的連通圖,本文將狀語修飾成分及其連接的名詞結構也作為關系的提取對象,并將其稱為“修飾關系”。此外,為了減少句法解析器對復合長句進行解析時可能引發的解析錯誤,在關系提取時按照如下原則進行處理:首先確定句子中的名詞性短語及根詞(head),再根據句法解析結果獲得兩個名詞短語根詞之間的最短依存路徑。以圖2的第二個句子為例,采用Spacy工具包對句子進行解析,共識別5個名詞短語(3-D information,object,de‐formed fringe patterns,Fourier transform profilometry technique,classical convergent correlator)及其依 存關系,結果如圖3所示。

圖2 論文題目與摘要實例

在圖3中,箭頭從head指向依存其詞語①SpaCy中Dependency Parse標簽釋義見https://spacy.io/api/annotation#dependency-parsing。在路徑搜尋時,除了主語與句子根成分(root)之間的路徑搜索與箭頭方向相反,其余的搜尋方向均與箭頭相同。對于“3-D(information)”和“classi‐cal convergent(correlator)”兩個短語(括號中的單詞為head),根據上述原則,可在短語的根詞之間得到內容為的最短路徑。

圖3 句子依存路徑解析實例

對于路徑中由“conj”(連詞)連接的兩個動詞,需要對路徑進行拆解,并將動詞與路徑中的兩個實體分別進行組合,以此繼承動詞節點的依存關系。在上述例子中,根據該原則可提取到“infor‐和“in‐兩個子路徑。在第一個路徑中,codified和using間的依存關系繼承了correlated與using之間的關系,而第二個路徑中的correlated和information則繼承了codified和information間 的關系。

在關系抽取時,除了要獲得最短路徑上的全部詞語之外,還需將只與這些詞語建立依存關系的介詞修飾語和be動詞一起提取,最終可獲得實體關系的完整形式是:<3-D information,is correlated us‐ing,classical convergent correlator>和<3-D informa‐tion,is codified using,classical convergent correlator>。類似地,可以從句子中抽取剩余的實體關系:<3-D information,of,objects>、<3-D,is codified in,de‐formed fringe patterns>、

3.1.2 名詞實體間關系類別

在明確名詞實體間的關系提取方法后,要對關系進一步分類:首先,使用Python編程語言對第3.1.1節的抽取規則進行技術實現;其次,從Web of Science數據庫中隨機選擇100篇學術論文摘要,每篇任選2個句子進行句法解析;最后,得到731條有效實體關系,平均每條句子抽取3.6條,涉及17個依存類別,詳細的解析結果如表1所示。

在此基礎上,作者邀請兩名博士研究生共同對表1中的依存類別進行分類,過程如下:第一步將編號為1的依存類別直接作為分類I;第二步,選取編號2的類別請博士研究生對其是否能夠歸入分類I進行判斷并陳述理由,若認為不能夠歸入,則將其作為分類II獨立出來,并在第三步選取編號3的類別后重復執行第二步,判斷其是否能夠歸入分類I或II;若能夠歸入,則需先將其并入分類II,再重復第二步直至完成分類。當二人意見不能達成一致時,由作者進行判斷,并根據少數服從多數的原則進行操作。上述分類過程結束后,共得到四個用于文本圖生成的關系類別,并將其命名為:概念連接關系、等價隸屬關系、功能屬性關系、修飾限定關系,具體結果如表2所示。

表1 200條句子的解析結果

表2 實體關系及其對應的依存類別

1)概念連接關系(conceptual connection,CO)

該類實體關系包含名詞性短語中各形容詞和名詞之間的依存關系,實際上,這是一種名詞短語內的詞共現關系。在上一節的關系抽取方法中,第一步為確定句子中的名詞性短語,故構成名詞短語的單詞間均具有該實體關系類別。

2)等價隸屬關系(equal subjection,ES)

等價隸屬關系包括同一句子實體間的同義、隸屬和指代依存關系。最簡單的隸屬關系可以定義為由介詞“of”連接的名詞實體,同義關系則多對應具有“is-a”、名詞短語縮寫,或同位語關系連接的實體關系。指代關系可以是代詞與其指代實體之間的關系,亦可是定義模糊和定義明確實體之間的概念,例如,在示例文本中“two different approaches”和“Mellin radial harmonic decomposition”與“loga‐rithmic radial harmonic filter”之間的關系。

3)功能屬性關系(functional property,FP)

這一關系與Altshuller在其發明問題解決理論(theory of the solution of inventive problems,TRIZ)中所提出的“物質(substance)-場(field)”模型類似。在該模型中,所有的功能都可以分解為兩種物質和一種場,并構成了一個用于表示產品功能的三元組。在過去的研究中,學者們通常將句子中通過動詞建立語義聯系的兩個名詞短語作為具體功能的表示[53-56],類似地,本類別中的依存關系多由動詞及動詞結構參與構成。

4)修飾限定關系(modification and restriction,MR)

修飾限定關系特指狀語修飾成分與其修飾對象之間的依存關系。由于狀語通常在句子中作為動詞、形容詞、副詞和其他句子修飾成分,因此,可以將其理解為對特定的實體對象添加更多的限制條件,例如,時間狀語是對實體在時間范圍內的限定,地點狀語是在地理空間內的限定,條件從句是其他實體所表示的狀態空間上的限定。

在上述類別基礎上,對圖2中的文本進行關系抽取,結果如表3所示,6個句子共獲得22個實體關系。再對關系元組中實體和其關系充當的句子成分進行分析,如主語(S)、謂語(V)、賓語(O)、補語(C)和狀語(A),得到包括主謂賓(S-VO)、主謂補(S-V-C)、主謂狀語(S-V-A)等在內的多種句法模式,并據此生成文本圖用于后續的節點權重計算,如圖4所示。

圖4 文本圖樣例

表3 關系抽取結果

3.1.3 文本圖特征比較分析

為了進一步說明本文提出的方法所生成文本圖的特點,本文選擇四種文本圖構建方法與之進行比較,分 別 為Graph-of-Word、TextRank、DegExt、Context-of-Aware,并以圖2的摘要為例進行可視化,結果如圖5和表4所示。

表4 不同圖構建方法的圖特征比較

從節點數量上看,本節提出的圖構建方法包含了最多的節點,TextRank和DegExt由于構成了多個互不連接的子圖,其子圖中的節點數也最小。從邊屬性和網絡密度來看,圖5中的連接邊均表示詞語的共現關系,不同長度的滑動窗口會產生不同的孤立節點,如圖5b和圖5c存在互不連通的文本圖。此外,DegExt的連接邊最為稀疏,而Context-Aware的圖密度最高。經分析,邊集合數量差異主要受預設共現窗口大小的影響。雖然DegExt和Context-Aware均以長度為2窗口內的詞語共現確立連接邊,但是前者的單位為細粒度更高的單詞,而后者則為句子。

圖5 不同算法所生成的文本圖

與其他方法相比,本節的文本圖雖然不具有最高的密度,但是通過多種實體關系保留了更多的語義信息。在詞共現關系方面,方法并沒有將窗口大小作為超參數,轉而采用更為靈活的名詞短語內共現作為詞語共現的連接方式,即根據語法解析器得到的名詞塊(chunk)的實際長度在短語間建立連接邊,因而第3.1.2節的四種實體關系確立同樣無需相關參數的設定。與Context-Aware相比,本節生成的圖密度更低,降低了后續圖計算的復雜性。與此同時,多樣的邊屬性也使得節點組合表達的內容更為豐富,含義更為明確。

3.2 面向多維語義連接的詞加權方法

圖的結構特性變化在詞語打分中起著重要作用[52]。在第3.1節生成的文本圖的基礎上,本節提出了一種整合單詞位置信息、構成名詞實體數量、實體語義連接強度特征的圖節點加權方法,并將權重得分作為詞語重要性的判斷依據。對于文本圖中的任意單詞節點vi,其權重計算方法為

其中,ωi表示單詞vi在文本中的位置權重;ConceptScore為單詞在文本圖中的概念連接權重;SemanticScore為語義連接權重。概念連接權重由概念層級(λ)、概念連接偏好(α)、概念連接強度(CC)組成,由公式

展開計算。語義連接權重由語義層級(γ)、語義連接偏好(β)、語義連接強度(SC)組成,計算公式為

本節后續內容將對各權重值的含義與應用基礎進行詳細闡述。

3.2.1 詞語位置權重的計算

一個詞語的位置權重由該詞在文本中出現的相對位置決定,重要的關鍵詞更傾向于出現在文本前半部分[17,57],并得到Florescu等[39]方法的驗證。因此,本文以單詞在文本中出現的相對位置(次序)的倒數作為該權重的計算方式。對于單詞重復出現的情況,需先對其在文中的相對位置取倒數再求和,計算公式為

其中,ni表示單詞在文本中出現的頻次;pj表示第j個單詞在文中的位置。此外,本文在位置權重計算時將題目和摘要整合成為一個短文本,且題目在前,摘要在后,即賦予題目中出現的單詞更高的權重。

3.2.2 概念連接權重的計算

在第3.1節的文本圖中,任一單詞既可以與其他單詞組成名詞短語,并建立詞共現連接(CO和ES屬性邊),也可根據句法解析后識別到的實體關系與其他節點建立語義上的連接(FP和MR屬性邊)。其中,詞語共現是以單詞的有意義組合為前提所建立的詞間聯系,單詞及其共現連接邊所組成的子網絡構成了文本中的概念空間,而子網絡中包含的n階完全圖則代表了概念空間中的每一個實體概念。由于重要的單詞可以和不同的單詞進行組合,形成表達形式多樣卻具有同種特征的名詞短語,在這種情況下,特定單詞參與組合的概念數量越多,在句子中出現的越頻繁,該單詞就越重要。因此,概念連接權重反映了單詞參與構成重要概念的能力。

1)概念層級

在基于圖的詞加權方法中,單詞的概念層級是對網絡進行分解和判定節點重要性的關鍵,且通常認為單詞的概念層級與其重要性呈正相關關系。在已有研究中,Rousseau等[45]和Tixier等[46]分別采用基于核(k-core)和基于束(k-truss)的同質網絡分解法來計算單詞的概念層級。其中,基于束的層級權重由節點所在邊參與構成的3階完全圖數量決定,方法應用以適當的網絡密度為前提。這意味著當生成的文本圖密度較低或子圖無法形成完全圖結構時,單詞權重的得分差異不明顯,容易導致大量單詞位于較低的概念層級,即權重失效。由于本文方法生成文本圖具有低密度特征,且密集子圖主要由概念連接屬性邊構成(如圖4、圖5所示),因此,本文采用以網絡中節點度數為基礎的k-core方法對單詞參與的共現屬性子圖進行分解,并將概念層定義為節點與其相鄰節點共同具有的核數,并采用Batagelj等[58]提出的算法用于節點v的核數core(v)計算。

定義1:在基于詞共現所生成的加權無向同質網 絡 圖G'中(G'?G),H是G'的 一 個 子 圖,deg(H)表示H中的最小度數,即H中的每一個節點至少與deg(H)個節點相鄰。如果H是G'中的一個最大連通子圖,且滿足deg(H)≥k,那么H是G'的一個k-core。

定義2:節點v的核數core(v)為包含這一節點的核的最高序,最高序的核也被稱為圖的主核,表示為core(H)。

2)概念連接偏好

本文在第3.1節共定義了單詞節點間的四類連接邊,因而,采用本文方法構成的文本圖實際上包含了非單一邊屬性的異質網絡圖。不同于單一屬性邊和節點構成的同質網絡,此時網絡中節點的度數由兩方面因素決定,分別是節點間的詞共現連接和語義連接邊數量。而本文將概念連接偏好定義為詞共現連接在節點度數中所占的比例,其反映的是在一段文本中,某個單詞傾向于與其他單詞組成不同概念的程度。

定義3:圖G'中節點vi的概念連接偏好被定義為節點通過詞共現方式與其他節點建立連接的數量與文本圖G中的最大連接數量的比值,表示為

3)概念連接強度

單詞在文本中的概念連接強度可以表示為一個關于單詞概念層級與其連接強度的函數,其中單詞vi(vj∈G')的連接強度表示為其在詞共現網絡圖G'中的共現頻率,即網絡中邊eij的權重。

定義4:在詞共現網絡圖G'中,節點vi具有鄰接節點集合Ni,vi的概念連接強度被表示為

其中,cwij為邊eij的權重;core(vi)為節點在詞共現子圖中的概念層級。當兩個單詞所組成的短語越多時,共現頻率越高,詞語間的概念連接強度也就越高。

3.2.3 語義連接權重的計算

重要的單詞不僅可以組成重要的概念,更應與其他單詞或概念組成豐富且有意義的語義功能關系。一個文檔包含了語義相關的多個概念,Ohsawa等[51]認為,重要的單詞是那些在文本圖概念聚類間建立連接且將整個文檔整合起來的單詞;Duari等[52]將這一概念進行了延伸,認為一個單詞的語義連接性可以通過該單詞參與構成概念的數量進行量化,并將網絡中的層級束作為概念的近似表示。因此,如果一個詞語的相鄰節點屬于多個概念類型,那么當移除這個節點時,勢必會在概念之間產生一個缺口。類似地,如果一個詞語所有的相鄰節點都屬于同一概念,那么該節點的移除會導致較少的語義的損失。

在上述研究基礎上,本文對語義連接權重的概念進一步擴展,除了考慮單詞連接的概念子圖數量,還涵蓋單詞間的連接屬性特征。在一段文本中,某些單詞雖然沒有參與表示過多的概念,但其卻頻繁地在不同概念間建立語義聯系。因此,本節將單詞節點間由依存句法解析建立的連接定義為語義連接。此時,如果一個單詞的相鄰節點屬于不同的詞共現網絡,那么當移除這個節點時,勢必會在概念之間產生一個缺口;反之,如果一個詞語所有的相鄰節點都屬于同一概念(詞共現網絡),那么該節點的移除會導致較少的語義的損失,因為概念中剩余的詞語都相對完整。因此,單詞的語義連接權重反映的是單詞參與建立實體間關系的能力。

1)語義層級

與詞共現網絡中概念層級的定義類似,本文將單詞的語義層級定義為其在語義連接子網絡中的kcore。

定義5:在基于實體間語義關系所生成的加權網絡圖G″中(G″?G),節點v的語義層級為包含這一節點的核的最高序。

2)語義連接強度

與概念連接強度類似,單詞在文本中的語義連接強度是一個關于單詞語義層級和其對應語義連接邊權重的函數,其中邊的語義連接權重可以表示為連接頻次。因此,對于在圖G″中具有Ni個相鄰節點的節點vi,其語義強度可由公式

計算得到。其中,swij為語義連接邊eij的權重;score(vi)為節點在語義連接網絡中的概念層級。當一個單詞的語義層級越高時,其通過語義建立的詞間表示修飾、方法或其他功能屬性關系連接越多且越頻繁,則該詞語的語義連接強度也就越高。

3)語義連接偏好

語義連接偏好顯示了節點的語義連接在節點度數中所占的比例,其反映的是在一段文本中,某個單詞傾向于與其他單詞結合,以表達不同語義的程度。

定義6:圖G″中節點vi的語義連接偏好被定義為節點通過語法依存與其他節點建立連接的數量與文本圖G中的最大連接數量的比值,表示為

4 算法比較與評估

4.1 Baseline與評估語料

本節選取經典的TextRank[23]、PositionRank[39]和最新的sCAKE[52]三種基于圖的關鍵詞提取方法作為baseline與本文方法比較,并在關鍵詞抽取任務中較為熟知的四個公開語料Hulth2003[17]、Krapiv‐in2009①語料下載地址:http://disi.unitn.it/~krapivin/、SemEval2010②語料下載地址:http://semeval2.fbk.eu/semeval2.php?location=data和KP20k③語料下載地址:https://github.com/memray/OpenNMT-kpg-release上進行實驗。其中,Hulth2003收錄了Inspec數據庫中的2000篇英文期刊論文摘要及其標題,關鍵詞集合分為依照數據庫敘詞表標注的受控關鍵詞集和自由添加的非受控關鍵詞集,本文將非受控詞集中未在摘要出現的關鍵詞剔除后用于評估。類似地,SemEval2010包含由作者和讀者分別添加的兩類關鍵詞集合,在對其進行整合和剔重后進行實驗。四個語料的其他信息如表5所示,不同長度文本的關鍵詞標注比例如圖6所示。

圖6 語料關鍵詞標注比例

表5 算法評估數據集描述

4.2 等量抽取策略下的算法評估

本節的主要內容是比較不同算法以相等數量進行關鍵詞抽取時的效果。根據文獻[59]、文獻[52]和文獻[17]的實驗結果,分別以k=25、10、30和10在Hulth2003、Krapivin2009、Semeval2010、KP20k語料上進行實驗。同樣使用查準率、查全率和F1值三個指標對抽取效果進行評估,結果如表6所示。

表6 等量關鍵詞抽取的多語料算法評估結果

在測試語料中,本文方法均取得了最高的查全率,評估指標在Hulth2003、Semeval2010和KP20k數據集上的得分均高于其他三個baseline,而Tex‐tRank在三個語料上測試結果均最差,其次為Posi‐tionRank。結合表5的語料信息進一步分析可知,在摘要文本平均單詞數量較少的Hulth2003數據集中,四個方法均取得了最好的效果。從正確抽取的關鍵詞數量上看,該語料中摘要的平均關鍵詞數量約為20個,本文方法平均正確抽取了12個關鍵詞,PositionRank和sCAKE為11個,而TextRank僅 為1個。與Hulth2003和Krapivin2009相比,Semeval2010和KP20k擁有更長的文本,但關鍵詞比例卻更低,在以k=30和k=10進行抽取時,本文方法在三個指標上均得到了高于baseline的結果。而對于平均長度最短的Krapivin2009,本文算法在以k=10進行關鍵詞抽取時的優勢并不明顯,sCAKE方法的查準率和F1值得分高于本文方法,且本文方法的查全率也僅比前者高出0.08。結合上述語料特征能夠發現,本文方法在抽詞數量k大于語料平均關鍵詞數量時的抽詞效果最好。例如,當以k=25和k=30對Hulth2003和Semeval2010的文本關鍵詞進行抽取時,k值分別高于兩個語料中的平均關鍵詞量19和16。而在Krapivin2009語料中k=10的設定要低于平均關鍵詞數量15,此時sCAKE的效果更好。

此外,表6的結果顯示,四個算法的查準率均低于查全率。經分析,造成這一結果的主要原因在于測試語料中文本長度的非均衡分布。圖7中繪制了四個語料文本剔除停用詞后的長度分布,而當分別以k=10、25、30進行關鍵詞抽取時,部分文本的關鍵詞數量大于或等于候選詞集,例如,在Krapiv‐in2009語料中,約有6%的文本長度在區間[0,10]內,且超過53%的樣本分布在區間[50,80]上。在采用等量策略抽取時,較短文本的關鍵詞查全率可為1;但對于長文本而言,算法抽取的關鍵詞數量與文本長度之比卻又低于語料的平均關鍵詞占比。具體而言,Krapivin2009中長度超過60的文本約占全部樣本的4%,相同區間上實際抽取關鍵詞的平均比例僅為13.62%。類似地,Hulth2003在相同區間上的樣本約占2.9%,關鍵詞比例為33.54%;SemEval2010在大于70區間上的百分比則分別為36.89%和36.2%。這意味著在采用固定長度進行關鍵詞抽取時,一方面,看似較高的查全率得益于語料中包含了較多的短文本(如Hulth2003);另一方面,則需要設定較大的k值,令長文本的抽詞比例接近或超過語料的關鍵詞比例,然而后者往往以犧牲中長文本的準確率為代價,因此,在所有的實驗結果中查準率最大值也未超過50%。

圖7 測試語料的文本長度分布

本節進一步比較了不同權值組合對算法抽詞效果的影響,具體實驗結果如表7所示。在三個權重指標中,單獨使用位置權重就能夠得到超過0.2的正確率,且在Krapivin2009數據集上最高為0.369。而概念和語義權重在Hulth2003和SemEval2010中的測試結果并不理想,查準率在0.1附近徘徊,F1值也并未超過0.2。此外,雖然位置權重與概念權重的組合在Krapivin2009和KP20k數據集上獲得了0.394和0.358的查準率,但也并未超過本文方法實驗結果的0.412和0.368,且在另外兩個數據集的實驗結果更明顯低于本文方法。

表7 不同權值組合的抽詞效果

4.3 等比抽取策略下的算法評估

考慮到現實中的語料標注并沒有對關鍵詞數量進行嚴格的限定,并且隨著文本長度的增加,關鍵詞的標注比例呈現下降趨勢,加之多數文本的關鍵詞標注比例穩定在30%~50%(見圖6),因此,本節進一步評估以固定比例抽取關鍵詞時的算法效果。文獻[52]已指出,本文的兩個baseline方法對實驗語料進行等量關鍵詞抽取時效果最好,因此,本文不再對其進行重復實驗,只探討抽詞比例對算法的影響,具體結果如表8所示。

表8 關鍵詞抽取比例對算法效果的影響

本節在三個語料中各進行了7輪抽取,總體的實驗結果表明,本文方法的關鍵詞等比抽取效果優于等量抽取效果,各評估指標均具有較為明顯的提高。特別地,當以20%的比例對Krapivin2009語料進行抽取時,算法效果最佳,且查準率、查全率和F1值均超過在等量抽詞實驗中具有較好效果的sCAKE。在指標變化方面,隨著抽取比例的增加,算法在Krapivin2009中的查準率和F1值逐漸降低,查全率則逐漸增加。類似地,Semeval2010和Hulth2003語料的指標得分在小幅波動后,也呈現相似的變化趨勢,但前者的變化更為明顯,并且在抽取比例為30%時,算法的查準率取最大值。結合圖6和圖7的語料特征可知,若要算法保證較高的準確率,則抽詞比例應接近語料中多數長度文本的關鍵詞標注比例。例如,Krapivin2009中長度在區間[50,70]上的文本數量最多,相同區間上文本的關鍵詞標注比例約為20%,此時,以相同比例進行抽詞時效果最好。此外,若期望算法抽取的關鍵詞更為全面,只需將抽詞比例盡可能調大即可。

5 結論

本文提出了一種基于圖的關鍵詞抽取算法,該算法重點改進了文本圖的生成和關鍵詞的加權方式。為了讓從文本中生成的文本圖盡可能地保留多的語義和結構信息,該算法根據單詞在句子中的語義依存關系為單詞建立不同屬性的連接邊,除了最為常見的共現關系外,還通過最短依存路徑的搜索策略確立了單詞間具有的等價隸屬、功能屬性和修飾限定三種關系。在關鍵詞的加權方法上,該算法提出了一種整合單詞在文本中位置信息、參與構成的實體概念數量和實體間建立語義關系的三個維度特征的權重計算指標,并與兩個基于圖的baseline算法在開放語料上進行比較,證明了該算法的優越性。

同時,本文的研究也存在一定的局限性:首先,提出的關鍵詞抽取算法以句法解析為前提,因此無法用于缺乏句法解析工具的語言文本中;其次,本文僅根據當前任務需要在公開的論文摘要語料中進行算法評估。未來的工作可以進一步增加算法評估的語料類型和baseline數量,使得算法能夠適用于更多信息檢索情境和任務。

猜你喜歡
語義單詞文本
語言與語義
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
主站蜘蛛池模板: 成人国产精品2021| 污污网站在线观看| 精品亚洲欧美中文字幕在线看| 亚洲欧洲日韩久久狠狠爱| 一本久道久综合久久鬼色| 99精品热视频这里只有精品7| 国产粉嫩粉嫩的18在线播放91 | 亚洲av日韩av制服丝袜| www亚洲天堂| 韩国福利一区| 女人一级毛片| 色天天综合| 亚洲黄色成人| 日本91视频| 伊在人亞洲香蕉精品區| 人妻无码中文字幕一区二区三区| 亚洲精品第五页| 97在线视频免费观看| 日韩高清在线观看不卡一区二区| 九色在线视频导航91| 国产小视频a在线观看| 亚洲中字无码AV电影在线观看| 亚洲一区二区三区中文字幕5566| 国产九九精品视频| 国产精品第一区在线观看| 久久公开视频| av在线人妻熟妇| 国产成人凹凸视频在线| 日本亚洲成高清一区二区三区| 国产黄色免费看| 国产粉嫩粉嫩的18在线播放91| 久久9966精品国产免费| 狂欢视频在线观看不卡| 精品国产美女福到在线不卡f| 九九久久精品免费观看| 国产超碰在线观看| 在线播放精品一区二区啪视频| 狠狠做深爱婷婷综合一区| 无码日韩人妻精品久久蜜桃| 久久精品视频一| 97在线碰| 一级毛片免费观看久| 暴力调教一区二区三区| 亚洲一级色| 中文无码影院| 精品伊人久久大香线蕉网站| 亚洲国产综合精品中文第一| 精品超清无码视频在线观看| 91九色国产在线| 中文字幕中文字字幕码一二区| 亚洲欧美成人综合| 日韩欧美国产精品| 欧美69视频在线| 亚洲熟女偷拍| 天天综合网色中文字幕| 国产久操视频| 久久久久免费看成人影片| 少妇人妻无码首页| 一本综合久久| 一级毛片网| 欧美日韩国产在线人| 国产精品自拍露脸视频| 日本成人福利视频| 色哟哟国产精品一区二区| 日韩欧美中文在线| 992Tv视频国产精品| m男亚洲一区中文字幕| www.亚洲一区| 成年A级毛片| 亚洲伦理一区二区| 久久77777| 极品国产一区二区三区| 免费网站成人亚洲| 欧美成人第一页| 国产精品亚洲一区二区三区z| 精品一区国产精品| 国产内射一区亚洲| 99在线观看国产| 亚洲国产天堂久久九九九| 午夜精品福利影院| 国产亚洲欧美在线视频| 亚洲精选无码久久久|