999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合位置特征的關鍵短語集合抽取模型

2023-02-27 09:49:40于子健孫海春
智能計算機與應用 2023年2期
關鍵詞:關鍵語義特征

于子健, 孫海春, 李 欣

(中國人民公安大學 信息網絡安全學院, 北京 100038)

0 引 言

關鍵詞(Keyword)是篇章內容的高度概括,關鍵短語(Keyphrase)是關鍵詞的拓展,內容包含關鍵詞,能夠簡潔地表達更多主題信息,在英文領域中關鍵短語抽取是更常見任務。關鍵短語摘要作為自然語言處理的一項基礎任務,是文本檢索、文本摘要等文本挖掘任務的基礎性的工作,可分為關鍵短語抽取技術(Extractive Keyphrase Extraction)與關鍵短語生成技術(Abstractive Keyphrase Generation)[1]。準確的專業領域文獻關鍵短語簡潔的呈現了文章涉及的領域和關鍵技術點,不僅有利于文獻快速閱讀,而且對相關文獻推薦和領域研究現狀掌握也能起到促進作用。

目前關鍵短語抽取常用的方法包括基于無監督的特征建模方法和監督序列標注任務方法等。其中特征建模方法需要專家知識確定候選詞、打分方式,不同領域的遷移成本較高;序列標注任務方法在訓練過程中側重考慮關鍵短語的整體信息,邊界處與內部權重相同,導致關鍵短語邊界處容易出現預測錯誤,限制了抽取效果。

為了提高關鍵短語抽取效果,針對邊界抽取準確率較低問題,應強化位置特征,增加針對關鍵短語邊界的訓練,并且依據全文位置對文本中每個詞增加全局特征,從而增加低頻詞、關鍵字的特征表示。據此提出一種基于預訓練語言模型的編碼器-解碼器(encoder-decoder)關鍵短語預測模型,該模型根據位置信息預測關鍵短語中關鍵字的位置,并將關鍵字的位置特征與全局語義信息融合,通過提示學習微調預訓練語言模型完成文檔關鍵短語的抽取。

本文提出融合預訓練語言模型與位置特征的關鍵短語抽取模型,強化關鍵短語邊界預測,提高邊界抽取準確率,且增加低頻詞的全局位置特征信息,緩解低頻詞訓練樣本、語義表示不豐富的問題;通過序列到序列模型實現端到端的從原文本預測關鍵短語,減少對專家知識的依賴,在針對新領域、新文本風格時能夠通過機器學習的方式自動調整遷移模型;以集合方式得到預測關鍵短語,通過無序的方式對模型預測值與真實值進行對應訓練,使模型在訓練過程中排除預定序列順序的影響。

在Inspec、SemEval2017、KP20k數據集上的F1@5、F1@10、F1@M結果平均提升1.2%,4.7%,1.5%,驗證了位置特征在優化此任務的可行性。

1 相關工作

關鍵短語抽取常用的方法可分為兩大類:基于無監督或有監督的特征建模方法、基于深度學習模型的關鍵短語抽取算法。

1.1 無監督方法

無監督方法通過量化表示詞的重要度抽取關鍵詞,無須標注語料并具有較高普適性,分為基于統計的方法、基于主題模型的方法和基于圖的方法[2]。無監督方法常對文本特征建模,先通過詞性、詞頻—逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)等規則從文章篩選出候選詞;之后根據定義的指標得到每個候選詞的分數,選擇高分預測作為模型的輸出結果[3]。此類候選關鍵短語-排序方法,需對文檔中的關鍵短語特征進行充分調查研究后,制定篩選候選詞的規則與對候選詞打分排序的方法,此過程會使用較多的專家知識,效果相較于傳統的統計方法有一定的提升。

Luhn[4-5]在1957年提出最早的基于統計思想的關鍵短語抽取方法,并在1958年指出利用位置特征抽取關鍵信息的可行性;Ricardo Campos等[6]提出了一種基于文章詞頻、出現位置等多種統計文本特征的無監督關鍵短語抽取方法,取得了更優的效果。在基于圖思想的TextRank算法基礎上,Xiong等[7]針對常見關鍵短語提取算法中低頻詞易被忽略的問題,在TextRank算法的基礎上,根據單詞之間的語義差異進行聚類分析,并利用聚類結果計算詞圖中邊緣的權重并調整過渡概率矩陣,迭代計算單詞的最終權重,并執行排序以獲得關鍵短語;Wu[8]將詞的頻率特征和位置特征合并為字節點的初始權重,對TextRank進行改進。

無監督方法基于特征建模,制定候選短語篩選規則、打分規則,對關鍵短語的不同特征充分建模,可解釋性較強,但對專家知識依賴程度較高,且針對不同領域需要相應調整規則,模型遷移的成本較高。

1.2 深度學習方法

隨著深度學習模型的發展,相關研究將深度學習方法應用于文本關鍵短語抽取任務。利用深度學習模型提取關鍵短語,首先得到文本段的語義向量表示,輸入定義的深度學習模型,根據模型預測的關鍵短語結果與真實關鍵短語的差異對模型調整優化[3]。利用深度學習模型可以減少對專家知識的依賴,讓定義的模型根據數據樣本,自動學習關鍵短語在文本中的隱藏含義,端到端預測文本關鍵短語?;谏疃葘W習方法實現關鍵短語抽取有兩種經典方法,一是將文本關鍵短語抽取視為序列標注任務,二是構建原文的詞字典,逐詞抽取文本關鍵短語。

序列標注模型能夠充分獲取文檔上下文的相鄰語義,在命名實體識別任務上取得了較好效果,將其應用到關鍵短語抽取任務,提高了抽取效果,但序列標注模型存在邊界錯誤問題,與命名實體相比,關鍵短語定義標準不統一,不具有明顯自然邊界特征,因此序列標注模型在抽取關鍵短語時邊界處準確率較低,限制了整體抽取效果[9]。而且關鍵短語預測需要綜合全局語義,對上下文語義依賴距離較長,應用序列標注模型預測時,會將文本每個單詞分割,標注時關注局部語義信息,降低全局的語義信息在預測關鍵短語時的權重,影響關鍵短語抽取效果。

逐詞抽取文本關鍵短語方法將關鍵短語抽取任務轉換為文本生成任務。此類方法構建文檔的總詞表,通過對文本整體建模,采用序列到序列(seq2seq)等模型從總詞表中逐詞抽取,訓練過程中將每一次預測結果作為約束條件,動態生成、組合得到關鍵短語,提升關鍵短語預測效果,此方法打破了原文的固定順序,能夠預測原文中不存在的關鍵短語,解決了傳統技術只能抽取原文存在的關鍵短語這一問題。Meng[10]首先提出CopyRNN模型,將此方法應用到此任務中;Zhang[11]在此基礎上將RNN替換為訓練速度更快的CopyCNN模型;Chen[12]在CopyRNN基礎上增加限制機制,提出CorrRNN模型,降低預測重復率,提升了模型效果。隨著預訓練語言模型的發展,Ding[13]將Bert預訓練模型和對抗生成網絡結合,應用在關鍵短語抽取任務中,通過預訓練模型Bert獲得高質量的文本表示,對抗性神經網絡的應用緩解了監督算法需要大量注釋數據的缺點;Wu[14]基于提示學習方法,充分利用預訓練模型的優勢,降低訓練成本的同時提升了關鍵短語預測效果。

將關鍵短語抽取任務視為文本生成任務,提高了預測效果,但是由于候選詞表維度較大,難以預測到低頻的專業詞匯;且訓練生成模型所需要的資源較多,訓練時間較長。在模型逐詞抽取的過程中會產生一個預定順序的關鍵短語序列,即訓練過程中模型預測的結果與真實值的損失會受到關鍵短語預定順序的影響。關鍵短語應是無序的集合,關鍵短語的順序不應成為必須施加于模型的限制,而傳統的生成方法并未去除此影響因素。

2 文本關鍵短語抽取模型

關鍵短語應具備以下特征:

(1)關鍵短語出現的位置具有一定規則,可以通過位置特征抽取關鍵短語;

(2)關鍵短語的內容中更容易包含低頻詞,且原文中會明確出現該特定詞匯;

(3)關鍵短語彼此間有聯系,但無固定順序,是無序集合的形式。

根據以上特征,將抽取關鍵短語任務拆解為以下步驟:

(1)根據文本語義特征預測文檔中關鍵短語中的關鍵字所在位置,關鍵短語為待預測的最終結果,關鍵字為關鍵短語中的特征邊界位置,如首字、尾字等;

(2)根據關鍵字前后的位置視野,融合其在全文的位置特征與語義信息,判斷該關鍵字所在關鍵短語的范圍,通過預訓練語言模型對關鍵短語進行預測輸出。

模型結構如圖1所示,首先通過位置特征對預訓練語言模型生成的語義向量表示進行注意力加權,得到融合位置與語義的文本向量表示,將其輸入seq2seq模型中transformer編碼器層,得到文本的隱含狀態,再將全文隱含狀態輸入transformer解碼器層,端到端得到文本關鍵字位置;最后基于預訓練語言模型的提示學習,利用得到的位置特征以及對應的關鍵字文本語義信息,構建提示學習模板,對原文本內容進行注意力加權,預測對每個關鍵字位置所對應的關鍵短語內容,通過微調訓練優化預訓練語言模型,完成關鍵短語預測。

圖1 模型結構圖

2.1 文本位置特征表示

預訓練語言模型在對文本建模時會將輸入文本中帶有連字符的詞、部分過長專業詞匯以及超出預設詞典的詞匯,進行分解拆分,破壞原有的位置結構,例如:將“unwanted”分解成“un”、“##want”以及“##ed”,并不是按照自然分詞輸入,得到的語義表示長度往往會大于原文,導致每個詞的語義表示不能與原文的詞匯一一對應,無法直接得到對于原文每個位置單詞的語義表示。

由于專業領域文本中存在較多專業特定詞匯,經典預訓練語言模型的訓練語料中該樣本數量較少,導致領域專業詞匯的特征表示效果不理想,甚至超出其預設字典。而專業詞匯更能反映文本的領域特征,因此關鍵短語中更傾向于出現這些專業詞匯、低頻詞。針對專業詞匯表示不充分問題,模型通過融合位置特征增強預訓練模型對文本的向量表示。

本文使用Beltagy[15]在科學文獻數據集預訓練過的Sci-Bert模型,提供768維的預訓練詞向量,該預訓練模型在專業領域更具針對性、更廣泛的詞匯字典,減少了模型未知詞的數目,對于專業領域低頻詞的表示比經典模型更好。為了保證文本從預訓練語言模型中得到的預訓練語義表示適應此任務,模型訓練過程微調(Fine-tuning)預訓練語言模型,提供的文本的語義表示記為embplm。

在此基礎上增加基于全文位置的可學習位置特征,具體對文本中的每個詞以及每個詞在全文中的位置特征進行建模,將未經預訓練的自然分詞后的詞向量embword與位置特征positionemb結合,得到文本中每個位置的全文特征信息,記為embdoc,式(1):

embdoc=embword+positionemb

(1)

通過構建的全文位置特征,利用該位置向量對預訓練語言模型提供的語義信息進行注意力加權結合,得到融合語義與位置特征的全文位置特征。首先,融合位置特征的embdoc與預訓練語言模型分詞得到的embplm,利用Vaswani A[16]提出的注意力機制獲得全文位置特征對Bert等預訓練向量的注意力,從而得到經過位置注意力加權的向量表示,獲得融合預訓練語言模型的語義特征的原文本的位置向量,通過公式(2)~公式(5)獲得的文本位置向量表示embposition,融合了位置特征及預訓練語言模型的語義,且文本每個位置的向量表示,不僅會得到預訓練模型中對應位置的注意力加權表示,還會獲得語義相似位置的向量表示信息,拓展了全局的位置特征、語義特征,從而增加每個位置的特征關注視野,能夠獲取更長的語義依賴信息。

Q=embdocWquery

(2)

K=embplmWkey

(3)

V=embplmWvalue

(4)

(5)

其中,Wquery,Wkey,Wvalue為待學習的參數矩陣,生成的embposition與預訓練語言模型向量embplm的維度相同,d為詞向量維度。

2.2 序列到序列預測模型

將預測關鍵短語起始位置視為序列生成任務,將此任務視為序列標注問題,采取如BiLSTM-CRF模型對文本中元素進行逐個標注,往往存在邊界不準確的問題,即整體的損失值較低,在邊界處錯誤導致預測與實際不符?;趯Υ藛栴},將該任務視為類似閱讀理解、摘要抽取任務,預測關鍵短語出現的起始位置與結束位置,將總體的損失轉為具有邊界針對性的損失。

構建序列到序列預測模型,輸入為文檔的向量表示embposition,輸出為文檔的關鍵字位置。有3種位置采樣規則:關鍵短語的首字、尾字以及中位字。為簡化模型采用首、尾字的策略進行實驗,模型接收embposition后輸出預測關鍵短語起始、終止位置集合,輸出的取值范圍為總文本長度空間。

以首字為例,將預測關鍵短語結束位置任務轉換為根據關鍵短語起始位置預測關鍵短語長度任務。生成關鍵短語起始位置后,基于預訓練語言模型,融合關鍵字位置特征與語義信息,從原文中預測關鍵字對應的整體關鍵短語。

預測關鍵字位置任務采用seq2seq模型,由編碼器與解碼器兩層組成,由編碼器層獲得完整文本的隱含狀態,將隱含狀態傳遞給解碼器層;解碼器層根據前面隱含狀態的向量表示與當前輸出情況,得到預測的關鍵短語起始位置或終止位置。

模型編碼器層由6層transformer組成,隱藏層維度為512,分為8頭注意力機制,輸入為原文本的embposition,該向量表示經過全連接層轉化為隱藏層維度,融合可學習的位置權重,將融合預訓練語言模型語義與位置特征的向量表示輸入編碼器層,得到文本隱藏狀態。

解碼器層主體與編碼器層結構相同,在transformer層的輸出后增加全連接層,用于得到預測值。對于解碼器層第i時刻的輸入di公式(6):

(6)

seq2seq模型得出的結果為有序輸出,該順序代表了模型預測的先后邏輯。傳統方法中將seq2seq模型輸出的關鍵短語直接對應匹配原文的關鍵短語順序、或原文中關鍵短語出現的順序,得到預測的損失,以此進行模型的反向傳播學習。 Ye[17]指出文章的關鍵短語應是無序集合,目前通過序列生成模型預測關鍵短語額外要求機器學習該真實值的序列順序,令模型的預測增加了預定順序的影響,不符合關鍵短語為無序集合的特征,可能影響模型預測結果。針對此問題,訓練過程中使用模型預測值與真實值的對應關系序列中最優期望序列,以此對應序列計算模型預測值與真實值的損失,更新模型參數。

首先,利用定義的seq2seq模型生成一組關鍵短語起始點的概率分布Prediction。構建圖G(V,E),其中V由兩個獨立的空間組成,分別為預測值Prediction與真實值Y,E代表每個預測值與真實值對應的代價矩陣,對任意pn∈Prediction,yn∈Y的關系代價記為Cost(pn,yn),維度為預測數目N×真實數目|Y|,式(7):

E={Cost(pn,yn)}N∏|Y|

(7)

(8)

計算過程采用匈牙利算法,匈牙利算法是一種在多項式時間內求解任務分配問題的組合優化算法。

構建匈牙利算法時,結合CrossEntropy損失函數的計算方式,該損失L經典計算公式為公式(9)、公式(10):

L(Prediction,y)=L={l1,…,lN}┬

(9)

(10)

其中,Prediction={p1…pN},表示模型預測的輸出;y={y1,…yN},表示每個輸出值對應的真實值;C表示每個為類別總數;N表示預測總數。

(11)

(12)

通過匈牙利算法得到總代價最小的預測值對應情況,將預測值排序,排序得到的順序變化通過矩陣變換方法逆向應用于真實值,得到最接近預測值的真實值序列,計算起始點的損失函數。預測數目多于真實數目時,將真實值補零填充至兩者相同,令每個預測值對補零填充的真實值的Cost遠大于平均值,使模型優先分配非補零填充的真實值,獲得最優分布;真實數目多于預測數目時,對預測值補零填充至兩者相同,令每個補零填充的預測值對應每個真實值的概率相同,即Cost值相同,對補零填充的預測值額外增加遠大于平均值的損失,則模型在計算分布序列Cost時,排除多余預測值對總體的影響。

Ye[17]率先提出了以集合方式預測文本的關鍵短語。本文基于其預測分布序列計算方法,根據交叉熵損失函數計算方式,在計算模型預測分布序列的Cost值之前增加了Softmax操作,計算時對每個預測與真實的損失值求負對數,使分布序列Cost值能更好地體現該序列在交叉熵損失函數中的表現,令每個控制節點對應下的預測值與真實值有更高的期望,在迭代過程中始終保持對應,緩解了模型訓練初期的預測值與真實值對應混亂問題,提高了模型訓練的收斂速度。本方案對于模型預測數目沒有要求,預測的數目可以少于真實數目,減少特異樣本的干擾,更靈活地控制模型預測的關鍵短語數目,減少模型訓練時間、降低學習成本。

2.3 提示學習模型

模型的訓練過程采取了多任務訓練思路,分為兩部分:第一部分是預測關鍵字位置,第二部分是每個關鍵字位置對應關鍵短語的預測。

對于前文得到的文本關鍵字,可以獲取每個關鍵字在全文中的位置,通過此位置特征對每個關鍵字對應的關鍵短語預測。本模型基于提示學習(Prompt Learning)的思想,將前文得到的關鍵字位置作為特征,構建提示學習模板(Prompt),通過預訓練語言模型的微調,優化獲得每個關鍵字對應的預測關鍵短語。

Wu[14]通過Bert類預訓練語言模型的MLM(Mask Language Model)任務構建預測關鍵短語模板,即“phrase of kw is [MASK] [MASK] kw [MASK] [MASK]”,其中kw為輸入的關鍵信息。本模型基于Liu[18]提出的離散提示學習模板,采用Raffel[19]提出的更適合文本生成任務的T5預訓練模型,該模型為編碼器-解碼器結構的文本到文本(text-to-text)模型。融合Wu[14]和Gao[20]構建的提示學習模板策略,構建本模型提示學習模板為“Keyword : DOC The phrase of pf is ”,其中pf為預測的文本關鍵字位置,DOC為原文本內容,篩選其中存在pf對應文字的句子作為輸入,以此構建生成預測結果的模板。設置最大預測長度為6,解碼時不考慮特殊符號,對預測結果去除停用詞并進行詞干提取,得到輸出內容。在以上條件下構建提示學習模板,對預訓練模型T5-base進行提示學習微調,得到最優預測結果。

3 實驗

3.1 數據集

實驗使用的數據集為Inspec,SemEval2017,KP20K等,實驗數據集為互聯網上公開獲取。Inspec數據集由2 000篇期刊論文摘要及其關鍵詞組成,包含1998年~2002年中計算機與控制、信息技術學科等領域論文;KP20K由567 830篇計算機科學領域的論文組成,選取其中20 000篇作為驗證集,20 000篇作為測試集;SemEval2017由493篇科學領域論文組成,為國際語義評測大賽(Semantic Evaluation)2017年任務10提供的關鍵短語識別數據集。

數據集均可分為兩部分,完整文檔以單個字符串存儲,對應的若干關鍵短語字符串以列表形式存儲,關鍵短語中包含原文本中直接存在的以及原文本中不存在的關鍵短語,本文僅對原文本中直接存在的關鍵短語進行抽取。每個數據集均篩選存在原文出現關鍵短語的樣本,隨機采樣50%計算數據集特征,數據集的基本情況見表1。

表1 數據集情況

3.2 數據處理與評估標準

本文使用NLTK(Natural Language Toolkit)工具集對數據集進行預處理,具體包括:去除占位符等無實意符號,對文章進行分詞,分句,英文文本全部轉換為小寫等。

針對完整文本段與關鍵短語,利用NLTK分詞工具得到單詞級別的原文本內容,利用正則表達式匹配等方法得到關鍵短語在文章中單詞級別的位置特征;將關鍵字位置與對應關鍵短語存于抽取關鍵短語列表中,得到分詞后的完整文本段、抽取關鍵短語列表(關鍵字位置與對應關鍵短語內容)。

數據預處理過程參照Meng[21]的處理方式,將文本中數字統一用替換、使用Porter Stemming策略對結果提取詞干,在評估矩陣(Evaluation Metrics)上選擇F1@5、F1@10、F1@M作為評估標準,F1@5與F1@10分別為計算前5個預測結果、前10個預測結果的MicroF1-score,當預測數不足5或10時填充錯誤答案,F1@M為計算所有預測結果的MicroF1-score。MicroF1-score的計算如式(13)~式(15):

(13)

(14)

(15)

其中,TP為將正例預測為正類的數目;FN為將正例預測為負類的數目;FP為將負例預測為正類的數目;C為所有待預測關鍵短語集合。

本文模型輸出的關鍵短語為無序結果,在計算F1@5、F1@10時,按照控制節點依次選取作為預測結果順序。

3.3 對比實驗

實驗環境GPU為Rtx 3060 12 G,Pytorch版本1.7.0。批處理大小設置為16,最大訓練步設置為100 000步,熱身學習步數設置為3個Epoch,學習率為從10-7增加至10-4后開始降低,優化器為AdamW,本模型采用關鍵短語首字位置特征,控制節點數目設置為20。

KP20k訓練集經過去除重復樣本、去除超過預訓練語言模型允許文本長度樣本,去除空關鍵短語樣本,訓練集共421 970條,模型隨機選取其中100 000條數據進行訓練,在各個數據集取驗證結果最好的模型進行測試。

KP20k驗證集為15 849條,測試集為15 937條;Inspec數據集去重、去除空關鍵短語樣本后共1 956條,選取1 500條作為驗證集,456條作為測試集;SemEval2017數據集經處理共478條,選300條作為驗證集,178條作為測試集。測試時對輸入文本中超出預訓練模型最大允許長度的文本內容,采取截斷措施。

論文的對比模型為深度學習模型CatSeq、CatSeqD[22]與ExHiRD-h、ExHiRD-s[23],對比模型與本文模型均在相同條件下進行訓練,訓練集、驗證集與測試集設置相同。

對比實驗結果見表2,本模型相較于目前的關鍵短語抽取模型,在Inspec、SemEval2017、KP20k數據集上的F1@5、F1@10、F1@M結果平均提升1.2%,4.7%,1.5%。

表2 實驗結果

3.4 位置特征選擇與全局控制節點數目

關鍵字位置表達了關鍵短語位置特征,全局控制節點能夠提供額外限制特征減少預測重復,同時也能控制預測輸出的數目。實驗過程中對不同位置特征的選擇與全局控制節點數目進行測試,以確定更優設置。

數據集中的某樣例的節選如圖2所示,文中加粗的內容為關鍵短語,下劃線為關鍵短語的首字在文中出現的情況。由圖2可知關鍵短語中的首字、尾字在原文中出現的位置不僅是關鍵短語中,且該關鍵字出現的位置周邊為關鍵短語相關內容的概率較大,因此通過對全文所有關鍵字的位置特征進行特征建模,能夠構建全文中關鍵短語的位置、相鄰語義等特征信息,更好的獲得關鍵短語的隱含特征向量。

圖2 關鍵字在文章中的分布(首字)

實驗過程中對關鍵短語的首字與尾字位置抽取效果進行對比,針對全局控制節點的數目進行實驗,考慮到更多控制節點會引入更多錯誤預測結果,根據數據集中每篇文章關鍵短語數量選擇控制節點候選數目為10與20,評價指標為關鍵字位置抽取的召回率,召回率越高,則代表此時位置特征的獲取效果越好。

在KP20K數據集下以不同參數設置實驗,尋找最佳模型,模型訓練過程中對KP20K驗證集進行關鍵字位置抽取的結果如圖3所示,示例S-10、E-20中,S代表首字,E代表尾字,數字代表全局控制節點數目,S-10表示以首字為關鍵字,全局控制節點數目設置為10。由圖3可知,全局控制節點數目對于預測召回率影響較大,能顯著提升抽取效果;在控制節點數目取20時,驗證集中首字與尾字的抽取效果差距不大;雖然KP20K驗證集差距不大,但測試集中效果差距明顯,可知尾字特征的普適性不如首字。

圖3 KP20K驗證集關鍵字位置預測

再針對不同數據集對關鍵短語預測模型進行測試,實驗結果見表3,R@10為控制節點數目為10時對應關鍵字位置抽取結果的召回率,R@20為控制節點數目為20時相應的召回率,召回率反映了覆蓋全文關鍵位置特征的程度。3個數據集在對首字作位置特征抽取、控制節點數目取20時關鍵字位置抽取結果召回率最高,此時能夠獲取更廣泛覆蓋全文的位置特征,從而更好的抽取文中存在的關鍵短語。

表3 關鍵字位置特征抽取結果

4 結束語

目前文本關鍵短語抽取任務的結果受限于邊界準確率,且模型訓練過程受到真實值預定序列影響。本文模型融合預訓練語義信息與位置特征,構建針對關鍵短語邊界關鍵字的編碼器-解碼器模型,強化對關鍵短語邊界的抽取訓練,緩解了邊界抽取效果限制問題,提升了整體準確率。以集合的方式抽取關鍵短語,通過匈牙利算法獲得預測值-真實值鍵值對的無序集合,排除了預定序列對抽取結果的影響。在與CatSeq、ExHiRD-h等模型的對比實驗中,本模型抽取結果F1值有提高,驗證了將位置特征與預訓練語言模型結合進行關鍵短語抽取方法的有效性。

實驗過程中發現,基于位置特征的關鍵短語預測模型在面對長文本數據時效果不佳,在面對詞數超過1 000的文本時準確率降低明顯。經分析,在提取位置特征時,長文本會增加過多關鍵字相鄰語義與關注的信息,降低位置特征的信息密度,且預訓練模型允許的長度有限,不能完整獲取過長文本的語義信息,導致影響特征獲取質量。下一步將研究長文本位置特征表示方法,以提高模型對長文本數據的抽取效果;研究自動化構建關鍵短語抽取任務的提示學習模板以提升模型的可遷移性。

猜你喜歡
關鍵語義特征
高考考好是關鍵
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
生意無大小,關鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
主站蜘蛛池模板: 精品免费在线视频| 小13箩利洗澡无码视频免费网站| 国产极品粉嫩小泬免费看| 精品无码人妻一区二区| 国产精品极品美女自在线| 国产高清在线精品一区二区三区| 欧美成人区| 亚洲视频黄| 国产主播在线一区| 亚洲国产中文综合专区在| www精品久久| 亚洲国产成人久久77| A级毛片高清免费视频就| 99草精品视频| Jizz国产色系免费| 亚洲无码37.| 精品乱码久久久久久久| 亚洲国产成人久久精品软件 | a网站在线观看| 色九九视频| 毛片最新网址| 亚洲人成色在线观看| 亚洲IV视频免费在线光看| 91精品国产91久久久久久三级| 美女国产在线| 国产成人精品日本亚洲| 狠狠色狠狠色综合久久第一次| 狠狠色噜噜狠狠狠狠色综合久| 欧美成人午夜视频| 亚洲天堂.com| 国产成人艳妇AA视频在线| 熟妇无码人妻| 国产欧美在线观看视频| 亚洲成人网在线观看| 亚洲精品在线影院| 亚洲国语自产一区第二页| 欧美日韩一区二区三区四区在线观看 | 久久综合AV免费观看| 狠狠亚洲五月天| 97成人在线观看| 88国产经典欧美一区二区三区| 亚洲国产精品成人久久综合影院| 精品国产免费观看一区| 国产极品美女在线播放| 第一页亚洲| 中文毛片无遮挡播放免费| 无码有码中文字幕| 久久婷婷国产综合尤物精品| 亚洲人成影院在线观看| 999国内精品视频免费| 成人小视频在线观看免费| 国产精品欧美在线观看| 99久久国产综合精品2023| 国产亚洲精品精品精品| AV不卡无码免费一区二区三区| 国产区网址| 热九九精品| 成色7777精品在线| 污网站在线观看视频| 亚洲黄色片免费看| 日韩视频精品在线| 日韩成人午夜| 国产在线精彩视频论坛| 国产成人福利在线| 国产精选自拍| 久久久久亚洲精品成人网| 亚洲国产欧美国产综合久久 | 免费又黄又爽又猛大片午夜| www.日韩三级| 午夜福利在线观看入口| 久久国产V一级毛多内射| 国产精品xxx| 高清欧美性猛交XXXX黑人猛交| 精品久久久无码专区中文字幕| 一级毛片免费高清视频| 少妇精品久久久一区二区三区| 欧美亚洲国产日韩电影在线| 人妻丰满熟妇AV无码区| 亚洲精品男人天堂| 91成人免费观看| 91蜜芽尤物福利在线观看| 精品少妇三级亚洲|