999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合詞和文檔嵌入的關(guān)鍵詞抽取算法

2021-02-05 18:10:52劉嘯劍
計(jì)算機(jī)與生活 2021年2期
關(guān)鍵詞:語義單詞實(shí)驗(yàn)

祖 弦,謝 飛+,劉嘯劍

1.合肥師范學(xué)院計(jì)算機(jī)學(xué)院,合肥 230061

2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230009

隨著文本數(shù)據(jù)的日益增多,如何快速、高效、全面地分析及挖掘文本,從中獲取用戶所需信息是當(dāng)前自然語言處理領(lǐng)域面臨的一大挑戰(zhàn)。關(guān)鍵詞是最能反映文檔主旨的詞匯詞組,簡明扼要地概括并表達(dá)文檔核心內(nèi)容。因此關(guān)鍵詞自動抽取技術(shù)能幫助人們迅速從海量數(shù)據(jù)中篩選出有用信息,從而有效提高文檔檢索效率。目前,關(guān)鍵詞自動抽取技術(shù)已廣泛應(yīng)用于推薦系統(tǒng)、自動文摘[1]、文本分類[2]、信息檢索[3]等領(lǐng)域。然而Web 中絕大多數(shù)文檔都沒有提供相應(yīng)關(guān)鍵詞,人工標(biāo)注、手動編輯不僅繁瑣費(fèi)力,還極具主觀性,因此需要研究出高效有用的關(guān)鍵詞自動抽取方法。

目前,主流的關(guān)鍵詞自動抽取方法分為有監(jiān)督和無監(jiān)督兩類,有監(jiān)督算法需要大量人工標(biāo)注語料庫,并預(yù)先訓(xùn)練好抽取模型,不僅耗費(fèi)人力時間,同時標(biāo)注的主觀性也將直接影響抽取模型的效果。無監(jiān)督算法主要基于以下幾種思想:依賴統(tǒng)計(jì)特征信息(如詞頻特征、長度特征、位置特征等)的方法、依賴詞圖模型的方法、依賴Topic Model(主題模型)的方法,其中基于統(tǒng)計(jì)的方法忽略了文檔中詞語之間的相互聯(lián)系,局限于僅通過統(tǒng)計(jì)相關(guān)特征來抽取關(guān)鍵詞,導(dǎo)致抽取效果不好。基于詞圖模型的方法雖然充分考慮了詞語間的相互關(guān)聯(lián),但缺乏語義層面的支持。而基于主題模型的抽取方法試圖通過對文本潛在主題信息的挖掘來提高抽取效率,但實(shí)際應(yīng)用中發(fā)現(xiàn)自動抽取的關(guān)鍵詞主題分布較為廣泛,并不能較好反映單篇文檔本身的主題,另外主題模型需要事先構(gòu)建,也增加了計(jì)算成本及問題復(fù)雜性。無論上述哪一種算法,都忽略了候選詞語和文檔本身的語義關(guān)聯(lián)性,從而導(dǎo)致自動抽取的關(guān)鍵詞準(zhǔn)確度不高。

為了提高算法抽取效率,考慮融入語義信息,傳統(tǒng)的如利用詞共現(xiàn)特征、WordNet 知識庫、wiki 語料庫等語義知識,均可表示詞語和文檔的語義信息。近年來,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,利用深度學(xué)習(xí)模型表示語義信息的思想已被大量運(yùn)用到自然語言處理中,如BERT 語言模型、長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、嵌入(embedding)技術(shù)等。這些模型可以準(zhǔn)確地獲取文檔語法和語義信息,較好表現(xiàn)處理對象的語義特征,避免了數(shù)據(jù)離散稀疏、語義鴻溝等問題。

本文提出一種新的關(guān)鍵詞抽取方法,綜合考慮了以下兩點(diǎn)核心思想:首先,從單篇文檔中抽取的關(guān)鍵詞理應(yīng)與文檔本身有著密切的語義聯(lián)系,因此與文檔本身語義更接近的詞語更有可能成為關(guān)鍵詞。其次,傳統(tǒng)的PageRank 算法認(rèn)為圖中所有的單詞都有機(jī)會成為關(guān)鍵詞,因此給每個節(jié)點(diǎn)具有相同的初始權(quán)重,但考慮不同的單詞應(yīng)該分配不同的起始權(quán)重,重要的詞語理應(yīng)獲得更高的初始值。因此,較傳統(tǒng)方法而言,本文方法能更好地反映文檔中不同詞語的重要程度。

本文的主要貢獻(xiàn)有如下三點(diǎn):

(1)在抽取算法中融合了深度學(xué)習(xí)模型,準(zhǔn)確獲取單詞和文檔語義層面的關(guān)聯(lián)信息,通過集成語義信息和圖模型,設(shè)計(jì)出一種關(guān)鍵詞抽取的新算法。

(2)提出了一種有偏向的隨機(jī)游走策略,利用單詞與文檔的語義相似度信息改變圖中各節(jié)點(diǎn)分值計(jì)算的初始權(quán)重。從而解決了在傳統(tǒng)的基于詞圖模型方法中,由于忽略單詞語義信息導(dǎo)致抽取效率差的難題。

(3)通過兩個通用的公開數(shù)據(jù)集,驗(yàn)證了該關(guān)鍵詞抽取算法的準(zhǔn)確性和有效性。

1 相關(guān)工作介紹

1.1 有監(jiān)督的關(guān)鍵詞抽取方法

在關(guān)鍵詞自動抽取方法中,通常根據(jù)算法是否需要人工預(yù)先標(biāo)注語料庫進(jìn)行判斷類別,主要劃分為有監(jiān)督提取方法和無監(jiān)督提取方法。有監(jiān)督方法將抽取過程看成一個二分類問題,通過預(yù)先標(biāo)注好的語料庫,利用不同的單詞特征選擇,選取相應(yīng)的分類器進(jìn)行關(guān)鍵詞抽取。例如經(jīng)典的有監(jiān)督KEA(keyphrase extraction algorithm)抽取算法采用的是樸素貝葉斯分類器,其他如決策樹、遺傳算法、支持向量機(jī)等分類器,均被應(yīng)用于有監(jiān)督方法中。2014 年,Haddoud 等人[4]采用邏輯回歸分類器進(jìn)行關(guān)鍵詞抽取工作,通過定義文檔詞語極大性指數(shù),來區(qū)別相互重疊的候選關(guān)鍵詞,實(shí)驗(yàn)結(jié)果證明該算法要優(yōu)于其他分類器抽取效果。2016 年,Sterckx 等人[5]基于決策樹分類器提出一種有效且適用性強(qiáng)的有監(jiān)督抽取算法,適用于從多用戶標(biāo)注的語料庫中進(jìn)行關(guān)鍵詞抽取工作,該方法解決了在傳統(tǒng)有監(jiān)督抽取方法中,人工預(yù)先標(biāo)注的訓(xùn)練集語料庫具有主觀性較強(qiáng)、含有較多噪音和錯亂數(shù)據(jù)的問題。Gollapalli 等人[6]通過融合文檔標(biāo)簽特征、結(jié)構(gòu)信息等專家知識特征,基于條件隨機(jī)場(conditional random field,CRF)策略提高關(guān)鍵詞抽取效果。2017 年,Xie 等人[7]提出基于序列模式及不同間隙約束條件的有監(jiān)督抽取算法,通過靈活通配符約束和one-off 條件來提高序列模式挖掘效率,從而提升關(guān)鍵詞抽取性能。2019 年,Alzaidy 等人[8]提出融合LSTM 技術(shù)和條件隨機(jī)場策略,使用序列標(biāo)記方法進(jìn)行關(guān)鍵詞抽取工作。Santosh等人[9]提出在使用Bi-LSTM(bi-directional long short-term memory)和CRF 策略時,融合文檔級的注意力增加機(jī)制,更好地捕捉同一篇文章中上下文相關(guān)信息,從而提高關(guān)鍵詞抽取效果。

總體來說,有監(jiān)督方法的抽取效率要優(yōu)于無監(jiān)督方法,但其抽取成本較高,需要預(yù)先人工標(biāo)注并訓(xùn)練大量語料庫,因此應(yīng)用范圍存在局限性。

1.2 無監(jiān)督的關(guān)鍵詞抽取方法

較早的無監(jiān)督方法是基于統(tǒng)計(jì)的關(guān)鍵詞抽取方法,如TF-IDF(term frequency-inverse document frequency)方法,利用統(tǒng)計(jì)詞頻來計(jì)算單詞的重要性,2010 年,El-Beltagy 等人[10]提出KP-Miner 系統(tǒng)模型,通過提高統(tǒng)計(jì)單詞的TF(詞頻)值和IDF(逆向文檔頻率)值要求,并融入了單詞出現(xiàn)的位置等信息提高抽取質(zhì)量。2017 年,Emu 等人[11]在抽取算法中融入了更多的統(tǒng)計(jì)信息,如單詞在整個語料庫中出現(xiàn)的頻次、語料庫中包括候選詞的文檔個數(shù)等。基于統(tǒng)計(jì)的算法較為簡單,普適性強(qiáng),但忽略了單詞間的共現(xiàn)關(guān)系、文檔及詞語的基本語義關(guān)系,因此存在抽取單詞的局限性,容易忽略詞頻低卻較為重要的單詞。

因此,自從2004年Mihalcea等人提出TextRank[12]后,開始涌出大批學(xué)者研究基于圖的方法進(jìn)行關(guān)鍵詞抽取工作,并在抽取效果上得到了大幅度提升。TextRank 方法通過構(gòu)建圖模型,將文檔中每個單詞作為圖頂點(diǎn),根據(jù)詞共現(xiàn)窗口添加邊,借助Google 傳統(tǒng)的PageRank 隨機(jī)游走算法,計(jì)算每個頂點(diǎn)分值并進(jìn)行排序。Wan 和Xiao[13]在此工作基礎(chǔ)上進(jìn)行了優(yōu)化及改進(jìn),對于一篇文檔,不僅借助文檔本身的信息,還需要從與該文檔相似的幾篇文檔中獲取信息,繼而從這些文檔中算出詞共現(xiàn)總數(shù)作為邊的權(quán)重。Bellaachia 等人[14]針對推特文章的非正式及噪音多等特點(diǎn),提出一種基于圖的無監(jiān)督關(guān)鍵詞排序方法,認(rèn)為在計(jì)算圖中節(jié)點(diǎn)排序權(quán)重時應(yīng)該同時考慮本節(jié)點(diǎn)權(quán)重和邊的權(quán)重。2017 年,F(xiàn)lorescu 等人[15]則通過加入單詞在文檔中出現(xiàn)的位置信息,改進(jìn)了PageRank算法,使出現(xiàn)位置越靠前,且出現(xiàn)次數(shù)較多的詞語,更有可能成為關(guān)鍵詞。Yan 等人[16]認(rèn)為已有的基于圖算法僅僅考慮文檔中單詞間聯(lián)系,忽略了句子的作用,而實(shí)際上如果一個單詞出現(xiàn)在重要的句子中,則該單詞也更重要。因此作者提出一種充分利用詞和句子關(guān)系的算法,在構(gòu)造圖模型時,由單獨(dú)的詞圖擴(kuò)充為單詞-單詞圖模型、句子-句子圖模型和句子-單詞圖模型,融合三種圖模型同時計(jì)算單詞分值,并采用聚類方法,最終選擇簇中心位置的詞作為關(guān)鍵詞。Biswas 等人[17]提出一種融合多方面節(jié)點(diǎn)權(quán)重的方法,認(rèn)為關(guān)鍵詞的重要性是由若干不同的影響因素決定,如:詞頻、離中心節(jié)點(diǎn)的距離、詞語位置、鄰居節(jié)點(diǎn)重要性程度等。實(shí)驗(yàn)結(jié)果表明,節(jié)點(diǎn)的每一種特征都對抽取效果有影響。

另外,除上述抽取方法以外,隨著主題模型的出現(xiàn),很多學(xué)者嘗試通過對文檔中融入主題信息,來提高關(guān)鍵詞抽取效率。Liu 等人[18]提出TPR(topical PageRank)關(guān)鍵詞抽取算法,通過LDA(latent Dirichlet allocation)主題模型對文檔進(jìn)行主題建模,首先根據(jù)詞共現(xiàn)窗口構(gòu)建詞圖,該圖在不同主題下邊的權(quán)重值不一樣,每個主題分別利用PageRank 算法計(jì)算單詞的重要性,最終融合文檔的主題分布信息計(jì)算每個單詞的最終得分。但上述方法的運(yùn)行復(fù)雜度較高,為改進(jìn)該算法,2015 年,Sterckx 等人[19]提出單詞分值計(jì)算依賴于單篇文檔本身的單詞-主題概率向量和文檔-主題概率向量的余弦相似度,從而僅運(yùn)行一次PageRank 算法,以達(dá)到提高性能的目的,但該算法僅僅考慮了主題特異性,卻忽略了主題模型的語料庫特異性。2017 年,Teneva 等人[20]為上述問題提出了新算法,使得主題和語料庫兩方面特異性達(dá)到平衡,且同樣只需要運(yùn)行一次PageRank 算法。另外,Bougouin 等人[21]提出一種依賴于文檔主題表示的無監(jiān)督抽取方法TopicRank,其利用HAC(hierarchical agglomerative clustering)聚類算法將候選詞分成主題簇,每個簇包含了相同主題的候選詞,利用主題簇構(gòu)建圖模型,其中圖頂點(diǎn)是單個主題簇,而兩個簇中所有候選詞的距離之和作為邊的權(quán)重,使用PageRank算法計(jì)算每個主題簇的分值,并從每個簇中選取唯一的候選詞作為代表,從而取出前N個分值較高的關(guān)鍵詞。2018 年,Boudin[22]對上述TopicRank 方法進(jìn)行了改進(jìn),在圖模型中同時表示候選詞和主題,只有不同主題的候選詞才會連接一條邊,作者利用兩者互相增強(qiáng)的關(guān)系來提高候選詞排名,性能上獲得了較大的提升。2018 年,Li等人[23]對微博帖子這類短文本提出一種無監(jiān)督的關(guān)鍵詞抽取方法,將話題標(biāo)簽作為主題的計(jì)算指標(biāo)進(jìn)行處理,認(rèn)為主題分布應(yīng)該更偏向于帖子相關(guān)的標(biāo)簽,該算法不僅能發(fā)現(xiàn)較為準(zhǔn)確的主題,還能抽取與標(biāo)簽相關(guān)的關(guān)鍵字。Mahata等人[24]在對科技文章提取關(guān)鍵詞時,同時計(jì)算主題詞和候選詞的向量表示,利用候選短語之間的語義相似性及共現(xiàn)頻率計(jì)算圖中邊的權(quán)重,算法通過融合詞語Embedding 技術(shù)和主題加權(quán)的PageRank 算法,提高對科技文章關(guān)鍵詞抽取的效率。

1.3 Embedding 技術(shù)

近年來,隨著Embedding 技術(shù)如Word2Vec[25]、Glove[26]廣泛應(yīng)用于自然語言處理領(lǐng)域,越來越多的學(xué)者開始采用深度學(xué)習(xí)技術(shù)提高關(guān)鍵詞抽取效率,基于降維思想,利用詞嵌入技術(shù)在同一個低維連續(xù)的向量空間上,將文檔中所有單詞表示成詞向量,充分挖掘單詞間的語義關(guān)系。詞嵌入向量可以有效表達(dá)詞語特征,每一維都代表單詞的一個語義或語法上的潛在特征表示,Word2Vec[25]在利用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練詞向量的過程中包含連續(xù)詞袋(continuous bag of words model,CBOW)和Skip-gram 兩種模型。前者通過中心詞周圍的所有詞來預(yù)測中心詞的出現(xiàn)概率,后者則通過中心詞來預(yù)測周圍詞的出現(xiàn)概率,通過訓(xùn)練得出神經(jīng)網(wǎng)絡(luò)隱藏層的權(quán)重參數(shù)。不論上述哪一種訓(xùn)練模型,訓(xùn)練時都是考慮詞語間的共現(xiàn)信息,因此訓(xùn)練出的詞向量保留了詞語間特別是同義詞之間較強(qiáng)的相關(guān)性。相較于傳統(tǒng)的one-hot 等詞向量表示,Word2Vec 能較好地獲取自然語言中單詞語義特征,重點(diǎn)反映了兩個詞語間的語義相關(guān)性。但詞向量的使用存在局限性,主要用來計(jì)算單詞之間的語義相似度。此時利用Word2Vec 技術(shù)計(jì)算句子的向量表示時,一般是對句子中每個單詞的向量表示取平均所得,但該方法忽略了整個文檔的有序性,易丟失上下文相關(guān)信息。因此,隨著學(xué)者對句子表示學(xué)習(xí)的深入研究,開始出現(xiàn)對段落或句子的嵌入技術(shù),常見的有Sen2Vec模型[27]和Doc2Vec[28]模型。Sen2Vec模型[27]可看成是詞向量Word2Vec中CBOW 模型的擴(kuò)展,該算法充分考慮了詞序信息,訓(xùn)練時采用FastText模型對輸入的文本序列加入n-gram 特征信息處理,利用CBOW 訓(xùn)練得到單詞嵌入向量和n-gram 嵌入向量。具體來說,將句子看成一個完整窗口,同時結(jié)合窗口中的詞和窗口中所有的n-gram 來預(yù)測中心詞,句子向量就是對所有n-gram 向量表示求平均。因此,Sen2Vec 模型可同時融合單個詞語和其上下文相關(guān)信息,能同時對單詞和句子進(jìn)行有效的向量表示。文獻(xiàn)[29]中使用Sentence Embedding 技術(shù)融入語義信息提高了關(guān)鍵詞抽取效果。2019年,Wang等人[30]將Sentence Embedding 方法應(yīng)用于對專利文檔的關(guān)鍵詞抽取中,獲得了較好的抽取效果。其算法順利解決在傳統(tǒng)專利文本的關(guān)鍵詞抽取過程中,由于專利文檔的專用詞匯術(shù)語僅出現(xiàn)于對特定領(lǐng)域的描述中,因此依靠統(tǒng)計(jì)詞頻等特征,或是借助詞語間相關(guān)性進(jìn)行關(guān)鍵詞抽取時,效率都不理想的問題。

本文提出的關(guān)鍵詞自動抽取算法,屬于一種基于圖的無監(jiān)督方法,首先利用Sentence Embedding 思想將詞語和文檔同時映射成同一高維向量空間上的向量,通過計(jì)算向量間語義相似度,利用圖排序思想,借助隨機(jī)游走策略,獲取候選詞在同一篇文檔中的重要性分值,通過排序計(jì)算獲得關(guān)鍵詞。本文算法通過在圖排序中加入語義相關(guān)信息,能使抽取的關(guān)鍵詞從語義層面上較好地體現(xiàn)文檔主旨信息。

2 基于詞和文檔嵌入的關(guān)鍵詞抽取算法

本文提出的基于詞和文檔嵌入的關(guān)鍵詞抽取算法,主要包括以下幾個步驟:(1)文檔預(yù)處理,選取滿足規(guī)定詞性和構(gòu)詞規(guī)則的候選詞;(2)單詞和文檔的語義向量化,即在同一個高維向量空間上,將單詞和文檔映射成向量表示,并計(jì)算兩者的語義相似度;(3)抽取關(guān)鍵詞,首先對文檔構(gòu)造圖模型,在該圖上使用帶語義偏好的PageRank 算法,進(jìn)而計(jì)算候選詞得分,篩選出得分最高的前N個作為關(guān)鍵詞。基于詞和文檔向量的關(guān)鍵詞抽取算法的詳細(xì)流程如圖1所示。

2.1 文檔預(yù)處理

Fig.1 Flow chart of algorithm圖1 算法流程圖

文檔預(yù)處理階段的主要目的是從文檔中選出符合條件的候選詞。首先,本文選擇斯坦福大學(xué)提供的自然語言處理工具Stanford CoreNLP(https://nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip),對文檔進(jìn)行分句,以句子為單位進(jìn)行分詞,并對每個單詞進(jìn)行詞性標(biāo)注。接著對文檔刪掉停用詞后,參照文獻(xiàn)[13]中Wan 和Xiao 的選詞方法,篩選出只有形容詞和名詞組合的最大長度詞組,即0 個或n個形容詞加上1 個或m個名詞的詞組,作為文檔的關(guān)鍵詞候選詞組。本階段的另一個任務(wù)是選出符合規(guī)定詞性的單詞,即選擇具有名詞詞性及形容詞詞性的所有單詞,作為后續(xù)構(gòu)建詞圖模型時的單詞圖節(jié)點(diǎn)。

2.2 語義向量表示及相似性計(jì)算

本階段的主要任務(wù)是在算法中導(dǎo)入語義信息,即同時獲取單詞和文檔本身的語義向量表示,并計(jì)算兩者的語義相關(guān)性。首先,將上一階段篩選的符合詞性的單詞映射成高維向量空間上的向量表示;接著,在同一維度空間,將文檔也映射成相應(yīng)的語義向量表示;最后,計(jì)算單詞向量和文檔向量的語義相關(guān)性。

為了在同一維度的向量空間同時表示單詞和文檔,本文采用了Sentence Embedding 中公開可用的語言模型工具——Sent2Vec 預(yù)訓(xùn)練模型(https://github.com/epfml/sent2vec)。該模型利用英文維基百科語料庫,基于詞向量和n-grams 向量,生成600 維的高維向量表示空間,可同時在該600 維向量空間上將單詞、句子、文檔訓(xùn)練生成語義向量。因此,通過Sent2Vec模型,本文算法可同時計(jì)算出單詞和文檔在600 維空間的向量表示。最后,利用式(1)計(jì)算每一個單詞wi同文檔d的余弦相似度。

其中,wi表示某一個單詞i的向量表示,d表示該文檔本身的向量表示,m表示語義向量空間的維度,此處為600 維。通過式(1)計(jì)算出的某一個單詞向量和文檔向量的余弦相似度越高,說明兩個向量越相似,即該單詞同文檔的語義相似度越高。

2.3 關(guān)鍵詞抽取

2.3.1 構(gòu)造圖模型

根據(jù)文獻(xiàn)[12]中所述,構(gòu)造詞圖模型時,有向圖和無向圖兩種類型不會顯著影響關(guān)鍵詞抽取的效果,因此本文構(gòu)造帶權(quán)無向圖G=(V,E),V表示圖的頂點(diǎn)集合{v1,v2,…,vn},其中n代表圖中單詞頂點(diǎn)的個數(shù),在預(yù)處理階段中詞性標(biāo)注為名詞或者形容詞詞性的單詞可作為圖的頂點(diǎn)。E代表圖中邊的集合,同一個共現(xiàn)窗口下出現(xiàn)的兩個單詞之間連一條邊,邊的權(quán)重是指兩個頂點(diǎn)單詞在同一個共現(xiàn)窗口下的共現(xiàn)次數(shù),如單詞i和單詞j在同一個共現(xiàn)窗口下出現(xiàn)時,就給圖中代表單詞i的頂點(diǎn)vi和代表單詞j的頂點(diǎn)vj連一條無向邊。

2.3.2 帶語義偏好的PageRank 算法

以往需要在圖模型中計(jì)算各單詞節(jié)點(diǎn)分值的時候,會采用隨機(jī)游走策略即PageRank 算法,在傳統(tǒng)的PageRank 算法中,默認(rèn)每個單詞在文檔中是處于同等地位,都有機(jī)會成為最終的關(guān)鍵詞,因此賦予了每個單詞相同的歸一化初始權(quán)重。然而在本文算法中,與文檔有更高語義聯(lián)系的詞語,更有可能成為文檔的主旨關(guān)鍵詞,因此提出一種帶語義偏好的Page-Rank 算法。具體來說,就是給每個單詞賦予了不同的初始權(quán)重,該初始權(quán)重即為2.2 節(jié)計(jì)算出的單詞與文檔之間語義相似度大小,與文檔語義更接近的詞語,語義相似度的值越高,因此分配給該候選詞中單詞的初始權(quán)重也越大。在計(jì)算過程中,首先需要對初始權(quán)重進(jìn)行歸一化處理,由式(2)所示,從而獲得每個單詞頂點(diǎn)vi的初始權(quán)重值mi。

接下來,利用上述帶語義偏好的PageRank 算法,來計(jì)算圖中每個單詞節(jié)點(diǎn)vi的分值,如式(3)所示:

其中,S(vi)表示單詞i的得分,α是阻尼系數(shù),大小一般設(shè)為0.85,vj是無向圖中與頂點(diǎn)vi相連的所有頂點(diǎn),wvj,vi是頂點(diǎn)vj和vi間邊的權(quán)重值,out(vj)是與頂點(diǎn)vj相連的所有邊的權(quán)重之和,由式(4)計(jì)算所得,vk是無向圖中與頂點(diǎn)vj相連的所有頂點(diǎn),wvj,vk表示頂點(diǎn)vk和vj間邊的權(quán)重值。

在下文具體的實(shí)驗(yàn)中,利用式(3)遞歸計(jì)算單詞節(jié)點(diǎn)分值的時候,終止條件是兩次迭代計(jì)算的誤差不超過0.000 1 或者最大迭代次數(shù)為100 次。

2.3.3 抽取關(guān)鍵詞

對于每一個在2.1 節(jié)生成的候選詞,需判斷有無冗余,若兩個候選詞相同,則只留下一個。接著,累計(jì)每個候選詞中包含的所有單詞在2.3.2 小節(jié)計(jì)算的得分S(vi)總和,即作為該候選詞的最終得分,排序后,選擇分值最高的前N個候選詞作為最終的關(guān)鍵詞。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

為了保證本文算法實(shí)驗(yàn)結(jié)果的有效性和公正性,采用了公開數(shù)據(jù)集Hulth2003 和DUC2001(https://github.com/snkim/AutomaticKeyphraseExtraction/)作為測試數(shù)據(jù)集。Hulth2003 由2 000 篇科技論文文獻(xiàn)的摘要文檔組成,分成了包含500 篇文檔的測試集語料庫和包含1 500 篇文檔的訓(xùn)練集語料庫,因本文算法屬于無監(jiān)督方法,無需預(yù)先訓(xùn)練語料庫,因此選擇了測試集中的500 篇文檔作為本文的測試數(shù)據(jù),人工標(biāo)注的正確關(guān)鍵詞結(jié)果在后綴為“.uncontr”的文檔中列出,在實(shí)驗(yàn)中作為本文結(jié)果比對的依據(jù)。DUC2001語料庫由308 篇報(bào)紙文章組成,共分為30 個主題,由Wan 和Xiao[13]創(chuàng)建并手動標(biāo)注,直接選擇該語料庫的所有文檔作為本次實(shí)驗(yàn)測試數(shù)據(jù)。

3.2 實(shí)驗(yàn)評估標(biāo)準(zhǔn)

為了評價該關(guān)鍵詞抽取算法的有效性,本文選擇了在機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘領(lǐng)域中常用的評測指標(biāo):準(zhǔn)確率P(Precision)、召回率R(Recall)和綜合評價指標(biāo)F值(F-measure)。具體計(jì)算如式(5)~式(7)所示。

實(shí)驗(yàn)在對算法自動抽取的關(guān)鍵詞和人工標(biāo)注的關(guān)鍵詞進(jìn)行比對前,將兩集合中的關(guān)鍵詞都提取了詞干以及轉(zhuǎn)換大小寫,采用的是Python自然語言處理工具NLTK(natural language toolkit)提供的詞干提取算法LancasterStemmer,比對時采用了完全匹配的原則,例如在文件名為“26.abstr”的文檔中,人工標(biāo)注的單詞為“quasi-weighted means”,如果算法抽取的關(guān)鍵詞為“Quasi-weighted means”,則匹配對比正確,但如果抽取的關(guān)鍵詞為“weighted means”或“means quasiweighted”,均匹配對比失敗。

3.3 實(shí)驗(yàn)參數(shù)及變量調(diào)節(jié)

實(shí)驗(yàn)過程中,參數(shù)和變量的不同取值,可能會產(chǎn)生不同的關(guān)鍵詞抽取結(jié)果。因此對本文算法在構(gòu)造詞圖模型時的詞共現(xiàn)窗口(window)大小、隨機(jī)游走算法中的阻尼系數(shù)α、抽取的關(guān)鍵詞個數(shù)N,在兩個數(shù)據(jù)集上分別進(jìn)行了對比實(shí)驗(yàn)。

3.3.1 詞共現(xiàn)窗口

在構(gòu)造詞圖模型時,詞共現(xiàn)窗口的大小,決定了圖中每個單詞節(jié)點(diǎn)間的邊權(quán)重,因此通過調(diào)節(jié)詞共現(xiàn)窗口大小,觀察實(shí)驗(yàn)抽取結(jié)果。在實(shí)驗(yàn)過程中,統(tǒng)一選擇抽取的關(guān)鍵詞個數(shù)N為10,阻尼系數(shù)α為0.85,詞共現(xiàn)窗口大小分別取值為1、2、3、4、5、6、7、8、9、10,得出不同詞共現(xiàn)窗口下,關(guān)鍵詞抽取結(jié)果P值、R值和F值的對比情況,圖2和圖3是實(shí)驗(yàn)結(jié)果的折線圖。通過觀察,在Hulth2003 和DUC2001 兩個語料庫中,隨著詞共現(xiàn)窗口大小的增加,算法抽取性能總體都呈下降趨勢,這說明詞共現(xiàn)窗口的參數(shù)調(diào)節(jié)對實(shí)驗(yàn)結(jié)果有著一定的影響。但是,當(dāng)詞共現(xiàn)窗口大小取4 到10 之間的值時,衡量性能的F值變化幅度不大,這意味著此時詞共現(xiàn)窗口的大小取值對算法抽取結(jié)果并沒有產(chǎn)生決定性的影響,原因在于利用本文算法提高關(guān)鍵詞抽取效率的初衷,主要源自融合語義信息以及圖排序算法的思想,因此詞共現(xiàn)窗口的大小對結(jié)果的影響遠(yuǎn)沒有語義信息及圖排序策略對結(jié)果的影響高。

Fig.2 Experimental results under different window sizes in Hulth2003圖2 Hulth2003 中不同窗口大小下的實(shí)驗(yàn)結(jié)果

Fig.3 Experimental results under different window sizes in DUC2001圖3 DUC2001 中不同窗口大小下的實(shí)驗(yàn)結(jié)果

3.3.2 阻尼系數(shù)α

利用隨機(jī)游走策略計(jì)算圖中每個單詞節(jié)點(diǎn)的分值時,為了確保PageRank 算法不會陷入圖循環(huán)的誤區(qū),因此增加阻尼系數(shù)α。在傳統(tǒng)的TextRank 中,按照經(jīng)驗(yàn)值將阻尼系數(shù)α設(shè)為0.85,但在本文算法中,計(jì)算單詞節(jié)點(diǎn)分值時,對傳統(tǒng)的TextRank 分值計(jì)算公式進(jìn)行了修改,因此需要通過調(diào)節(jié)阻尼系數(shù)α的值來查看實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)中,選擇抽取的關(guān)鍵詞個數(shù)N為10,詞共現(xiàn)窗口為10 的情況下,α分別取0.2、0.4、0.6、0.8、1.0,觀察所得到的抽取結(jié)果P值、R值和F值,具體對比情況如圖4 和圖5 的折線圖所示。從兩個語料庫的實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),隨著阻尼系數(shù)α的增大,算法抽取效果呈下降趨勢,當(dāng)α取0.2時,本文算法效果最好。實(shí)際上,在傳統(tǒng)PageRank 圖計(jì)算算法中,賦予圖中所有節(jié)點(diǎn)的初始權(quán)重均一致。而阻尼系數(shù)的作用是用于折衷考慮某節(jié)點(diǎn)的初始權(quán)重和相鄰節(jié)點(diǎn)對該節(jié)點(diǎn)的貢獻(xiàn),阻尼系數(shù)越大,初始權(quán)重對某節(jié)點(diǎn)分值計(jì)算的作用越小。本文算法中,當(dāng)阻尼系數(shù)為1.0 時,忽略式(3)中賦予單詞的初始權(quán)重值,此時算法效果最差,而當(dāng)阻尼系數(shù)設(shè)為0.2時,充分考慮了單詞的初始語義信息,與文檔語義更接近的詞語,初始權(quán)重越大,分值計(jì)算過程中更占優(yōu)勢。實(shí)驗(yàn)結(jié)果證明,此時的算法效果最好,提升了關(guān)鍵詞抽取性能。這也進(jìn)一步證實(shí)了引入單詞向量語義信息的重要性。

Fig.4 Experimental results under different damping factors in Hulth2003圖4 Hulth2003 中不同阻尼系數(shù)下的實(shí)驗(yàn)結(jié)果

Fig.5 Experimental results under different damping factors in DUC2001圖5 DUC2001 中不同阻尼系數(shù)下的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中在遞歸計(jì)算圖中每個節(jié)點(diǎn)分值的時候,參考了文獻(xiàn)[12]和文獻(xiàn)[15]中對迭代終止條件的設(shè)置,前者將終止條件設(shè)為兩次連續(xù)迭代計(jì)算結(jié)果不超過給定閾值0.000 1,而后者對終止條件的設(shè)置是最大迭代次數(shù)不超過100 次,因此在實(shí)驗(yàn)過程中分別對這兩個條件進(jìn)行了測試,當(dāng)閾值設(shè)為0.000 1 時,算法F值為0.276 2,當(dāng)最大迭代次數(shù)為100 次時,算法F值為0.276 6,可以發(fā)現(xiàn)兩者性能差別不大。因此綜合考慮,實(shí)驗(yàn)中將終止條件設(shè)定為兩次迭代計(jì)算的誤差不超過0.000 1 或者最大迭代次數(shù)為100 次,當(dāng)計(jì)算時滿足以上任一種條件時即終止迭代。

3.3.3 關(guān)鍵詞抽取個數(shù)N

本文算法將語義信息融入圖排序算法中,從理論上來說,跟文檔語義關(guān)聯(lián)越接近的詞語排名越靠前,盡管這種從語義角度出發(fā)的思想確實(shí)提高了關(guān)鍵詞抽取效果,但可能會帶來一定程度上的語義相近的相似單詞,如在Hulth2003 語料庫中,文件名為“26.abstr”的文檔中,人工正確標(biāo)注的詞語有“quasiweighted means”,而利用本文算法抽取的前10個關(guān)鍵詞中,有如下3 個相似結(jié)構(gòu)的詞語“quasi-weighted means”“weighted means”“guasi-weighted mean”,明顯看出此處存在了語義冗余的關(guān)鍵詞,導(dǎo)致理應(yīng)被抽取出來的候選詞反而排名靠后。因此在實(shí)驗(yàn)中,通過設(shè)置不同的關(guān)鍵詞抽取個數(shù)N,來觀察實(shí)驗(yàn)結(jié)果,N分別取值為1 到20 范圍內(nèi)的所有正整數(shù),實(shí)驗(yàn)得到不同N值下的抽取結(jié)果P值、R值和F值,如圖6 和圖7 所示。在圖6 中綜合評價指標(biāo)F值在關(guān)鍵詞個數(shù)N取17 的時候最高,在圖7 中F值在關(guān)鍵詞個數(shù)N取13 的時候最高,這也證實(shí)了對數(shù)據(jù)冗余的猜想。

3.4 與基本算法的對比實(shí)驗(yàn)

Fig.6 Experimental results under different keyphrase extraction numbers in Hulth2003圖6 Hulth2003 中不同關(guān)鍵詞抽取個數(shù)的實(shí)驗(yàn)結(jié)果

Fig.7 Experimental results under different keyphrase extraction numbers in DUC2001圖7 DUC2001 中不同關(guān)鍵詞抽取個數(shù)的實(shí)驗(yàn)結(jié)果

為了證明本文算法的有效性,在兩個公開數(shù)據(jù)集Hulth2003 和DUC2001 上,與目前主流關(guān)鍵詞抽取算法進(jìn)行了對比實(shí)驗(yàn)。由于本文算法是一種基于圖的無監(jiān)督方法,因此選取了3 個基于圖的經(jīng)典抽取算法TextRank[12]、TopicRank[21]、SingleRank[13]。另外,還選取了一個基于統(tǒng)計(jì)的經(jīng)典算法TF-IDF,以及一個基于Embedding 思想的EmbedRank 算法[29],實(shí)驗(yàn)中TextRank、SingleRank 以及本文算法中圖的節(jié)點(diǎn)均為名詞或形容詞,TopicRank 的圖中節(jié)點(diǎn)為主題簇,實(shí)驗(yàn)中選擇每個簇中最中心的詞語作為關(guān)鍵詞,本文算法的阻尼系數(shù)α取0.2,詞共現(xiàn)窗口設(shè)置為1,詳細(xì)的實(shí)驗(yàn)結(jié)果如表1 和表2 所示,詳細(xì)列出了抽取的關(guān)鍵詞個數(shù)分別為5、10、15 時,各算法的抽取結(jié)果。

根據(jù)表1 和表2 在兩個公開數(shù)據(jù)集中的對比實(shí)驗(yàn)結(jié)果,不難看出,在抽取的關(guān)鍵詞個數(shù)不同的各類情況下,本文算法的關(guān)鍵詞抽取效果均優(yōu)于其他典型算法。

實(shí)驗(yàn)中TF-IDF 算法屬于經(jīng)典的基于統(tǒng)計(jì)的方法,僅靠詞頻特征提取關(guān)鍵詞,忽略了文檔中詞語之間的相互聯(lián)系,導(dǎo)致實(shí)驗(yàn)中抽取效果最差,而本文算法充分考慮了詞與詞、詞與文檔間的相互聯(lián)系,以Hulth2003 語料庫上的實(shí)驗(yàn)結(jié)果為例,在表1 中,當(dāng)抽取的關(guān)鍵詞個數(shù)為10 時,本文算法較TF-IDF 而言,綜合評價指標(biāo)F值提高了26.13 個百分點(diǎn)。實(shí)驗(yàn)中TextRank、TopicRank、SingleRank 均屬于基于圖的方法,其中TextRank 利用詞共現(xiàn)窗口計(jì)算邊的權(quán)重,SingleRank 在此基礎(chǔ)上加入了文檔關(guān)聯(lián)信息,而TopicRank 在圖方法基礎(chǔ)上加入詞語主題信息。盡管這3 種方法都充分考慮了詞語間的相互關(guān)聯(lián),但都缺乏語義層面的支持,而本文算法利用詞嵌入技術(shù)充分考慮了單詞和文檔語義層面的關(guān)聯(lián)信息,從而大幅度提高了抽取效率。在表1 中,當(dāng)關(guān)鍵詞抽取個數(shù)為10 時,本文算法的F值較TextRank 而言提高了20 個百分點(diǎn),較TopicRank 而言提高了13.63 個百分點(diǎn),較SingleRank 而言提高了10.76 個百分點(diǎn)。實(shí)驗(yàn)中EmbedRank 雖然基于Embedding 技術(shù)獲取詞語與文檔的語義信息,卻忽略了兩個詞語之間的語義關(guān)聯(lián),而本文算法不僅考慮了詞語與文檔的語義信息,還充分利用圖模型融入了詞語間的語義關(guān)聯(lián),因此提高了抽取效果。在表1 中,當(dāng)關(guān)鍵詞抽取個數(shù)為10時,本文算法的F值較EmbedRank 而言提高了2.95個百分點(diǎn)。

Table 1 Experimental results comparison in Hulth2003表1 Hulth2003 中對比實(shí)驗(yàn)結(jié)果

Table 2 Experimental results comparison in DUC2001表2 DUC2001 中對比實(shí)驗(yàn)結(jié)果

4 結(jié)束語

本文提出了一種基于詞和文檔嵌入的關(guān)鍵詞抽取算法,將詞語和文檔本身同時映射成同一空間維度的高維向量,并計(jì)算詞語與文檔間的語義相似度,從而對圖排序算法的初始權(quán)重進(jìn)行賦值,通過帶偏向的隨機(jī)游走策略,計(jì)算圖中每個節(jié)點(diǎn)的分值,候選詞的最終分值通過圖中各節(jié)點(diǎn)分值計(jì)算得出,并選擇排名較高的前N個候選詞作為最能代表文檔主旨的關(guān)鍵詞。該關(guān)鍵詞自動抽取算法通過在圖排序中加入語義信息,改善了關(guān)鍵詞抽取效率。實(shí)驗(yàn)結(jié)果表示,本文算法效果大大優(yōu)于目前其他主流關(guān)鍵詞抽取算法。

下一步的工作主要考慮以下兩點(diǎn):(1)在利用Sentence Embedding 思想構(gòu)建向量模型時,易造成抽取的候選詞冗余情況發(fā)生,如何通過消除語義相近的冗余單詞來提高效率,是未來重點(diǎn)研究方向;(2)在圖排序中考慮能否結(jié)合更多的候選詞特征,以提高圖排序效率。

猜你喜歡
語義單詞實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
語言與語義
單詞連一連
做個怪怪長實(shí)驗(yàn)
看圖填單詞
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 亚洲视频黄| 日韩国产一区二区三区无码| 日韩人妻无码制服丝袜视频| 伊人久热这里只有精品视频99| 国产玖玖视频| 日韩一区精品视频一区二区| 黑人巨大精品欧美一区二区区| www中文字幕在线观看| 欧美成人精品欧美一级乱黄| 欧美爱爱网| 一本大道视频精品人妻 | 国产精品开放后亚洲| 伦精品一区二区三区视频| 成人午夜天| 成人无码一区二区三区视频在线观看 | 免费女人18毛片a级毛片视频| 亚洲最大福利网站| 亚洲一区二区三区麻豆| 国产门事件在线| 蜜臀AV在线播放| 欧美一级在线看| 国产69囗曝护士吞精在线视频| 亚洲欧美另类中文字幕| 精品一区二区无码av| 亚洲欧美日韩色图| 福利在线一区| 精品国产一区91在线| 麻豆精品在线| 色精品视频| 日本人又色又爽的视频| 亚洲欧洲日产国产无码AV| 日本一本正道综合久久dvd| 57pao国产成视频免费播放| 韩日午夜在线资源一区二区| 怡红院美国分院一区二区| 亚洲国产欧洲精品路线久久| 天天色天天操综合网| 在线国产三级| 亚洲色图欧美视频| 人妻无码中文字幕一区二区三区| 免费毛片全部不收费的| 国产视频 第一页| 国产一二视频| 亚洲成人网在线播放| 亚洲人成在线精品| 伊人狠狠丁香婷婷综合色| 亚洲三级色| 日韩无码白| 青青草原国产精品啪啪视频| 国产精品福利尤物youwu | 精品国产免费观看| 亚洲无码A视频在线| 国产国语一级毛片在线视频| 找国产毛片看| 中国黄色一级视频| 少妇极品熟妇人妻专区视频| 亚洲床戏一区| 亚洲人成网站观看在线观看| 色综合久久无码网| 欧美一区福利| 亚洲精品国产精品乱码不卞| 国产在线精彩视频论坛| 亚洲成人免费看| www.狠狠| 欧美成人二区| 国产精品视屏| 99青青青精品视频在线| 91在线免费公开视频| 国产色图在线观看| 国产精品99一区不卡| 色婷婷成人| 毛片基地美国正在播放亚洲 | 99久久人妻精品免费二区| 亚洲激情99| 欧美曰批视频免费播放免费| A级全黄试看30分钟小视频| 国产一级α片| 中文字幕va| 国产精品福利社| 国产精品亚洲综合久久小说| 美女免费精品高清毛片在线视| 四虎永久免费地址|