999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文關鍵短語自動提取方法研究*

2019-09-14 07:12:58榮垂田李銀銀
計算機與生活 2019年9期
關鍵詞:關鍵特征文本

榮垂田,李銀銀,王 琰

1.天津工業大學 計算機科學與技術學院,天津 300387

2.廈門理工學院 計算機與信息工程學院,福建 廈門 361024

1 引言

隨著計算機技術、互聯網技術以及傳感器技術的提高與應用,數據產生的速度與規模得到了極大的提高,數據的類型呈現多樣化,人們進入大數據時代[1]?;ヂ摼W平臺、移動終端、社交網站、新聞媒體平臺等網絡媒體持續性快速增長,每天產生的網頁內容與傳統的數據文檔構成了一個廣泛的、分布式的、異構的數據倉庫,大量的社會動態信息以網頁的形式在網上迅速傳播。各大門戶網站能夠報道實時新聞消息,廣大網民也能夠獲取實時新聞消息,了解社會事件的動態。互聯網在帶來便利的同時也帶來了很多挑戰。每天產生的網頁文檔數量巨大,使人們被數據湮沒。常常為了搜索到有用的信息而不停地在各個網站之間檢索,這嚴重影響了信息檢索的效率。因此,在大數據時代,對文檔進行主題分析有重大的研究意義和應用價值。通過對文本主題的分析,將各類文本、新聞等進行分類,能夠幫助人們快速獲取關鍵信息,提高信息檢索的效率[2-3]。同時,基于主題的新聞分類與推薦能夠為用戶提供精準的信息服務。但現存的針對主題分析的方法大部分都是基于關鍵詞的,缺乏豐富的上下文語境來表達文檔的主題思想,不便于用戶快速理解文檔的主題,而關鍵短語則具有豐富的上下文信息,能夠相對清晰直接地表達文檔的主題意義。因此,對關鍵短語提取方法的研究,成為文本分類、新聞推薦等相關領域的研究熱點之一。

目前國內外已經有很多學者和科研機構投入到文檔主題研究與分析[2-5]中來,并且在中文分詞、命名實體的抽取、關鍵詞的提取等方面[6-11]都有一定的成果。但是在主題提取方面,大部分研究工作都是基于詞的主題分析,無法準確表達文檔的主題信息,尤其是中文更為復雜。中文包括很多的同義詞、近義詞、一詞多義,同樣的詞在不同語境中表達的意思可能是截然相反的。而關鍵短語,在一定程度上,具有相對豐富的語義語境信息,短語是詞與上下文結合的表達,富含一定的語法句法規則,能夠更清晰準確地表達文檔主題信息。然而,目前對關鍵短語的提取方法基本都是基于單一的文本特征,例如根據TFIDF(term frequency-inverse document frequency)[4]、互信息或者KL 距離[11](Kullback-Leibler divergence)等。這難以解決上下文語義語境相關的問題,并且難以對結構多樣化的網頁文本數據進行有效的關鍵短語提取。因此,對關鍵短語提取方法的研究,是對文檔主題進行分析的重要前提工作。

綜上所述,本文從實際應用出發,對已有的關鍵短語提取方法進行了改進,并將提取的關鍵短語應用于主題分析研究,目的是通過提取表意清晰、語義語境相對完整的關鍵短語,對網頁文檔主題進行分析,幫助網絡用戶快速獲得自己感興趣的主題,從而提高獲取有價值信息的效率。

本文的主要研究工作有三點:

(1)針對SegPhrase 方法在產生短語候選集的過程中僅利用關鍵詞的統計信息的缺點,本文通過使用詞串之間的互信息等特征,來提取出低頻但關鍵的短語,以提高關鍵短語的召回率。

(2)針對SegPhrase 方法在短語評估的過程中沒有充分利用短語的不同特征對其質量評估結果的差異性,本文利用OOB(out-of-bag)袋外數據誤差方法對短語的不同特征進行了分類處理,通過賦予不同的特征不同的權重對短語進行綜合質量評估,提高關鍵短語的準確率。

(3)針對基于關鍵詞的主題分析方法存在的缺乏上下文語境,無法解決一詞多義等問題,本文提出了一種基于關鍵短語的文檔主題分析方法。

本文的組織結構安排如下:第2章介紹相關的研究工作;第3 章介紹相關的定義以及背景知識;第4章介紹改進的關鍵短語的提取方法;第5章介紹關鍵短語在主題分析中的應用;第6章對本文提出的算法進行了實驗,并與已有的算法進行了對比和分析;第7章總結本文的研究工作以及對未來研究的展望。

2 相關工作

關鍵短語的提取和主題分析被廣泛應用于各個領域,例如文本分類、信息檢索、新聞推薦等。由于文本數據的多源、異構等非結構化數據特征,對文本數據的挖掘和利用依然存在許多難點。近年來,基于主題的文本分析受到國內外研究人員的重視,同時由于短語具有相對豐富的語義語境信息,越來越多的研究開始利用關鍵短語來對文檔主題進行提取分析。

2.1 基于統計的關鍵短語抽取

文獻[6-7]利用統計的方法對關鍵短語進行提取,周而重[4]利用統計的方法對文檔進行預處理,用詞頻TF、詞權重TF-IDF以及首位置信息等作為統計特征,對候選短語進行評估,從而提取出文本中關鍵短語。在統計的方法中,對短語權重的計算公式為:

Pi=A×Valuei+B×Loci

其中,Pi是對短語i的權重評估,value是對候選短語TF-IDF值的非線性加權計算的方法,即:

Loci是對首位置進行歸一化之后的特征值,即:

其中,L表示文檔數據的總行數,linei表示候選短語Pi首次出現的文檔行數。對TF-IDF和首位置Loc采用非線性處理的目的是使候選短語的權重隨著統計值的改變呈非線性變化,當TF-IDF特征值很大時,候選短語權重能基本穩定。

2.2 基于混合統計模型的關鍵短語抽取

條件隨機場(conditional random fields,CRF)是在隱馬爾科夫模型和最大熵模型的基礎上提出的一種無向圖學習模型。支持向量機(support vector machine,SVM)模型是一種有監督的學習模型,是一個二分類模型,它的主要思想是建立一個超平面當作分類曲面,使得正例和負例之間的隔離最大化。

李珩等[12]利用SVM 對文本組塊進行分析,譚魏璇等[8]提出一種基于SVM 模型、CRF 模型混合統計模型的基本名詞短語識別方法用于提取名詞短語,并通過實驗證明CRF 和SVM 的組合模型可以提高中文名詞短語識別的準確率。

2.3 基于決策樹的關鍵短語的抽取

韓艷[9]利用決策樹進行中文文本關鍵短語的自動抽取,并通過實驗證明,基于決策樹算法的關鍵短語提取,能夠識別出大部分的關鍵短語,比傳統的統計方法提高了短語識別的準確率和召回率。

除了以上提到的常用短語提取方法外,現有的關鍵短語提取方法還有基于圖的無監督N元短語提取方法[13],基于混合策略的短語識別方法[10],基于最大熵的短語提取方法[11]等。文獻[14-15]提出從文檔題目自動抽取短語,并且能夠對短語排序的方法。隨著近幾年神經網絡和機器學習的快速發展,有些研究者也提出了一些基于機器學習的方法[2,16],基于加權復雜網絡的方法[17],基于空間向量模型的方法[3]等進行關鍵短語的提取。

2.4 基于詞的文檔主題分析

文獻[18]介紹了主題模型在自然語言處理中的應用,其中LDA(latent Dirichlet allocation)模型及其擴展模型在文本主題分析方面有著廣泛的應用,能夠對大規模語料庫進行基于詞的主題分析。呂品等提出了TMPP(topic model based on phrase parameter)主題模型[19],該模型是基于短語進行參數學習的,能夠抽取出高質量的在線評論文本的摘要。徐佳俊等基于LDA模型挖掘論壇語料熱點話題詞[5],并通過對話題詞在時間上建模,追蹤熱點話題的發展趨勢。

綜合以上分析,已有的關鍵短語的提取方法存在許多問題。大多數方法基于單一的文本特征,這容易造成提取的短語的準確率偏低;對短語質量的評估方式缺乏多樣性。同時,已有的對文本進行主題分析的方法,大多數是基于詞的,而詞結構較短,表意不清晰,可能會導致主題信息不明確。因此,本文的研究重點是在SegPhrase 方法的基礎上,改進候選集產生的方式及短語質量評估的方法,來提高關鍵短語的召回率和準確率;為了使主題分析的結果更能清晰地表達文檔主題信息,提出了基于關鍵短語的主題分析方法。

3 相關定義和背景知識

關鍵短語的提取是從大量文檔中提取一些候選短語,并對候選短語進行質量評估,將短語按照評分由高到低排序,從而獲得高質量的關鍵短語。本章將介紹關鍵短語提取和主題分析研究中的相關定義以及相關知識。

3.1 相關定義

定義1(詞串)給定一個長度為n的中文詞序列C=W1W2…Wn,將詞串定義為按照分詞之后,不同個數的詞組成的N(N>1)元詞片段。

例1詞序列為:中國互聯網違法不良信息舉報中心。分詞:中國/互聯網/違法/不良/信息/舉報/中心??山M成的詞串有“中國 互聯網”“互聯網 違法不良”等。

定義2(詞元素)中文文本經過分詞系統切分以后形成的單字、詞項等元素,如例1中的“中國”“互聯網”等。

定義3(左、右鄰集合)真實文本中,當前詞左邊或者右邊詞元素的集合,如例1中“違法”的左鄰集合為{“中國”,“互聯網”}。

3.2 文本特征

(1)互信息

文本特征表示主要是將文本信息轉換成相應的數學表達式,從而對文本進行量化處理,便于計算機進行計算處理。常用的文本特征包括互信息、相對熵、TF-IDF 等特征。本節主要介紹在候選短語產生階段所使用的互信息特征。

在信息論中,香農提出互信息的概念,表示對兩個隨機事件相關性的度量標準,主要是用來衡量兩個隨機事件之間的相關性。假定兩個隨機事件為X和Y,它們的互信息定義如下:其中,P(x,y)表示時間x與y同時發生的概率,當事件X與Y完全相關時,互信息I(X;Y)取值為1,相反取值為0。在自然語言處理中,對于一個短語V的兩個分割片段V1和V2,只要語料庫足夠大,就很容易計算V1和V2之間的點互信息(pointwise mutual information,PMI):

在文本處理過程中,經常用PMI(V1,V2)作為文本的一致性特征,PMI(V1,V2)值越大,說明V1和V2相關性越大,能夠組合成一個短語。反之,PMI(V1,V2)值越小,說明V1和V2關聯性越小,不能組成一個短語。

(2)相對熵

相對熵又叫作交叉熵或KL 距離[9],在信息論中相對熵是用來量化兩個取值為正數的函數的相關性,定義如下:

兩個函數差異越大,相對熵越大;相反,兩個函數差異越小,相對熵越小,如果兩個函數完全一致,則它們的相對熵取值為0。相對熵在自然語言處理領域應用廣泛,例如可以用相對熵量化兩個詞在不同文本中的分布,從而查看這兩個詞是否同義,也可以根據兩篇文檔不同詞的概率分布,檢查內容是否相似,從而將它們歸為一類等。

(3)IDF逆向文檔頻率

僅僅依靠詞頻來衡量詞的權重是不符合語言學的,因為像“是”“的”等沒有實際意義的功能詞出現的頻率很高,但它們卻沒有實際意義。因此,在衡量一個詞的重要性時,經常采用IDF來量化一個詞的權重[4],詞w的IDF值定義如下:

其中,|C|表示總文檔數。分母表示包含詞w的文檔數,在信息檢索中,經常利用詞的IDF 值量化該詞對文檔的重要性,在關鍵短語提取的應用中,高質量短語的IDF值應該不會太小。

3.3 文檔主題生成模型

由Blei等在2003年提出的LDA主題生成模型[20]經常用來挖掘大規模文檔集中潛在的主題信息。LDA模型基本思想是一篇文章由K個主題按照一定的概率分布構成,每個主題是由N個詞匯根據相應的概率分布構成,利用MCMC(Markov chain Monte Carlo)中的Gibbs 抽樣方法近似估算模型超參數[21]。如圖1 所示,本文利用LDA 的三層模型對文檔進行主題分析。LDA主體模型的基本思想是將每篇文檔可以看作由文檔、主題、詞三層構成。

Fig.1 Three layers model of LDA圖1 LDA三層模型

LDA文檔主題模型可以快速地對大規模語料庫或文檔進行主題分析,在新聞分類、文本信息提取、信息檢索等領域都有著重要的應用。

4 關鍵短語的提取方法

對中文關鍵短語進行提取的框架如圖2所示,大致分為5個階段:

(1)文本抓取。文本抓取就是從互聯網中獲取需要的文本文檔。目前存在很多開源的網絡爬蟲框架,例如基于Java 的爬蟲Nutch(http://nutch.apache.org),基于Python 的爬蟲Scrapy(https://scrapy.org)等。由于Scrapy爬蟲能夠對網頁進行定向信息抓取,并且能夠將抓取到的內容直接存入數據庫,便于下一步進行文本處理。因此,本文主要是利用Scrapy 爬蟲框架,對國內各大新聞門戶網站進行新聞定向抓取。

Fig.2 Key phrase extraction framework圖2 關鍵短語提取框架

(2)預處理。由于中文文本具有豐富的非結構化形式,對中文進行關鍵短語提取,首先要進行的就是對文本文檔進行預處理,中文詞序列之間沒有明顯的界限,相比于英文復雜。對中文文本預處理主要分為以下幾步:①分詞,中文分詞是對中文文檔進行自然語言處理的基礎和關鍵,分詞的結果直接影響了后續處理工作。因此,本文采用中科院計算所開發的NLPIR(natural language processing&information retrieval)中文分詞系統對文檔進行分詞。②去停用詞,停用詞是指沒有實際意義的功能詞、虛詞、復合名詞等,例如中文“的”“是”“也”等。為了避免停用詞對提取關鍵短語的影響,在文本處理時,需要構建一個停用詞表,把助詞、功能詞等無意義的詞清洗掉。

(3)產生候選集。利用頻率、互信息等特征,設置閾值Q,若詞串出現的頻率或者互信息大于設定的閾值Q,則將該詞串視為候選短語,否則拋棄。

(4)文本特征抽取。特征的抽取對關鍵短語提取的結果影響很大,文本特征抽取的效率與準確度直接影響到短語的質量。本文主要對產生的候選集抽取IDF、互信息、KL 距離等文本特征,作為短語質量評估的參考因素。

(5)短語質量評估。利用預測模型對候選短語集合中包含的文本特征進行質量評估,并按照最終評估結果從高到低排序,獲得關鍵短語。

本文使用的提取關鍵短語的方法是改進的SegPhrase 算法,下面將首先簡單介紹SegPhrase 算法,接著介紹本文改進的SegPhrase算法。

4.1 SegPhrase算法

SegPhrase算法[22]是目前提取文本關鍵短語最新技術,相對于傳統的關鍵短語提取方法,SegPhrase算法在提取關鍵短語過程中使用的不再是單一文本特征。在產生頻繁短語候選集時,利用頻率篩選,若詞串頻率大于設定閾值,則該詞串被添加到候選短語集中,否則將該短語舍棄。SegPhrase 在對候選短語進行質量評估分類時,采用的是隨機森林算法,抽取了短語的互信息、相對熵、IDF等特征作為文本特征,利用標簽數據對隨機森林進行訓練,最后利用隨機森林模型對候選短語進行評估。SegPhrase方法的優點是考慮到了關鍵短語提取的上下文環境,能夠識別大部分高質量短語,比傳統方法提高了短語識別的準確率和召回率。

SegPhrase 算法也有自身的缺點,例如在產生頻繁候選短語集的時候,僅僅依靠頻率選擇候選短語,有些低頻但具有豐富語義的高質量短語可能被忽略;另外,在對候選短語評估時,將各個文本特征的權重均一化處理,沒有充分考慮不同特征對于短語質量貢獻的差異性。因此,基于以上SegPhrase 存在的缺陷,本文對SegPhrase算法進行了改進。

4.2 改進的SegPhrase算法SegPhrase*

(1)候選詞串集的產生

本文在候選短語集的產生過程中,考慮到實際語言應用環境中,有些短語雖然低頻但卻是關鍵的,因此在產生短語候選集過程中,不僅利用詞串的頻率單一特征,同時還考慮了詞串之間的互信息特征。同時,根據中文短語實際應用情況,本文設定短語最大長度L為6,幾乎能夠涵蓋所有的中文短語。

算法1提取候選短語

輸入:語料庫C,最小支持度f,短語最大長度L。

輸出:候選短語Candidates集。

sequence為詞序列,|C|為語料庫總詞數。

若詞串產生過程中遇到逗號、句號、分號等句點符號,但詞串長度未達到設定值L,則將標點之前的詞串作為候選詞串,例如對于詞序列“學習黨的章程,學習系列講話精神”,詞串“學習黨的章程”之后遇到逗號,則可將其看作一個候選詞串。

在產生候選詞串時,設定詞串頻率閾值為f,詞串互信息閾值為ψ。如果候選詞串頻率大于設定的閾值f,則將該詞串放入候選詞串集中;若該詞串頻率小于閾值f,則考查詞串互信息大小,如果互信息值I大于設定閾值ψ,則輸出該詞串為候選詞串,否則該詞串被拋棄。

(2)中文短語的界定

與英文相比,中文文本主要以句為分割單位,中文詞與詞之間沒有明顯的界限,對中文處理首先要進行文本分詞切割,以增加詞與詞之間的界限。此外,中文短語組合結構更加復雜,容易引起語義組合歧義、結構層次歧義等語法結構問題。例如,結構層次歧義“許多同學送來的賀卡”兩種層次關系:

①許多‖同學送來的賀卡

②許多同學‖送來的賀卡

第一種表達的意思是賀卡多,第二種意思是同學多,從而可以看出,中文短語提取過程中需要解決短語界定的歧義問題。

在候選短語產生過程中,僅僅依靠統計信息篩選候選短語集,可能導致有些候選短語不符合實際的中文語言環境。因此,本文針對中文短語進行了界定。在中文語言結構中,主要包含語素、詞、短語、句子等成分,它們之間是組成關系,界限模糊無法明確區分。與英語相比,漢語是語義型語言,更加講究上下文意合,受潛在的語義語境制約較多,因此對中文關鍵短語的界定,比英語短語分割更加復雜。簡單來說,關鍵短語是能夠鮮明表示文本主題思想、中心意義等的特征短語。例如,常見的無實義成分(如“綜上所述”“簡而言之”)表示文本的功能較弱,而一些指向性強的實義詞成分(如“京津冀一體化”“雄安新區規劃”)等能夠鮮明地表示文本特征。劉華[23]從以下三個角度對中文關鍵短語進行了界定:

①結構上:結構相對穩定,具有較強的凝固性。

②語義上:表意完整單一、指向性強,在語義上有較強的專指性和完整性。

③統計上:在真實文本中流通性、可重用性強,并非臨時性的組合結構,具有一定的統計意義。

左右鄰信息熵[24]是指多字詞表達的左邊界的熵和右邊界的熵,是反映短語內部結構與其外部語境的重要統計度量標準。因此,本文利用左右鄰統計信息熵對中文短語進行界定,左右鄰信息熵的計算公式如下:

式中,A和B分別表示字符W左邊和右邊字符集,字符W的左熵HL(W)值越大,說明這個字符極有可能是一個詞的開端;同樣,當一個字符W的右熵HR(W)值越大,則說明這個字符極有可能是一個詞的末尾。

(3)候選短語的質量評估

圖3是本文研究中改進的SegPhrase方法對短語質量評估的架構圖,本文首先利用隨機森林的OOB[25]袋外數據誤差計算方法,計算單個特征變量的重要性。隨機森林算法在構建決策樹過程中,用Bootstrap 隨機采樣方法獲得的訓練集,只包括原始數據集的大約63%個體,而有37%的數據未被采用[26]。OOB 袋外數據是指沒有參加決策樹構建的數據,可以用于計算不同特征的重要性,其計算方法如下[27]:

①計算隨機森林中決策樹的袋外誤差,記為OOBerr1。

②隨機對所有OOB 數據樣本的某一特征F加入噪聲干擾,再次計算袋外誤差,記為OOBerr2。

③如果隨機森林共有Sum棵樹,則特征F的重要性為:

Fig.3 Phrase quality estimation圖3 短語質量評估

Weight(F)=∑(OOBerr2-OOBerr1)/Sum

該公式說明,給某一特征F隨機加入噪聲之后,袋外數據準確率明顯降低,則說明特征F對分類結果影響很大,重要性就很高,因此可以利用袋外數據誤差來衡量不同特征的重要性。

中文文本引號、破折號等主要用于對文本某些內容進行解釋說明,因此對文本重要性相對較小,而相對熵、IDF 等則包含文本主要信息,對文本重要性較大。因此,根據文本特征重要性的不同,將短語特征集分為兩個特征矩陣,然后利用隨機森林算法對短語的兩個特征矩陣分別進行評估。第一個特征矩陣M1包含互信息、相對熵、IDF等對短語質量影響較大的特征,第二個特征矩陣M2包括引號、破折號等對短語質量影響較小的特征。最后按照不同權重對兩個隨機森林的結果進行合并作為短語的質量評估標準,即:

Q=A×R1+B×R2

其中,Q表示候選短語的最終評估得分,R1和R2分別是隨機森林利用M1和M2特征矩陣對候選短語進行評估的結果,A和B分別代表特征矩陣M1和M2的權重。在關鍵短語輸出之前,本文根據中文短語特殊的復雜性,增加了對短語的Clear階段,主要是對提取到的短語進行清洗,例如將以“》”開頭和以“《”結尾的不符合短語結構的垃圾詞串清除,從而提高關鍵短語提取的準確率。

(4)算法復雜度分析

候選短語提?。汉蜻x短語提取使用的是哈希表,無沖突情況下哈希表的復雜度為O(1),短語最大長度為L,則時間和空間復雜度為O(L|C|),其中|C|為語料庫大小,該階段復雜度與語料庫大小線性相關。

特征矩陣抽?。憾陶Z特征抽取的難點在于如何快速在原始語料中定位候選短語,文中利用AC(Aho-Corasick automation)自動機算法從語料庫中提取所有的短語頻繁項集,提取的頻繁短語個數為|P|,則AC自動機的時間復雜度為O(|C|+|P|),空間復雜度為O(|P|),每個短語受最大長度L限制,則O(|P|)=O(|C|),因此時間和空間復雜度都是O(|C|)。

短語質量評估:在評估階段,時間和空間復雜度與特征矩陣維數和標簽短語集大小相關。本文使用的標簽集很小,且隨機森林中決策樹個數和深度都是常數,因此分類器訓練時間是非常短的,時間和空間復雜度是O(|C|)。

通過對復雜度的分析,時間和空間復雜度都是O(|C|),復雜度和語料庫大小是線性相關的。

5 基于關鍵短語的主題分析

主題分析是對文本數據進行處理的關鍵技術,在文本分類、搜索引擎、新聞推薦等領域有著廣泛的應用。隨著互聯網的快速發展,每天產生的網頁文檔數以千萬計,各類新聞報道、熱點事件等都會實時在網絡中傳播,因此要對不同的文檔進行分類,按主題信息進行分類歸并,方便用戶檢索。目前常用的主題分析方法都有基于關鍵詞的主題分析法、基于名詞串的主題分析法等,這些方法有一個缺陷就是,對文檔進行主題分析時,沒有考慮關鍵詞上下文環境對文檔信息的影響,對文檔主題信息表達不清晰。而關鍵短語富含豐富的語義信息,充分考慮了上下文環境對主題信息的影響,能夠相對清楚地表達文檔主題。

本文提出了基于關鍵短語的文檔主題分析方法,其框架圖如圖4所示。與傳統的基于關鍵詞的文檔主題分析相比,本文在文檔預處理階段,增加用戶詞典層,把改進的SegPhrase 方法提取到的關鍵短語作為用戶詞典,對文檔進行分詞處理,從而把原來基于詞表示的文檔轉換成基于短語表示的文檔。對文檔進行分詞以及去停用詞等清洗之后,利用LDA 模型提取文檔潛在的主題信息。

Fig.4 Topic analysis based on key phrases圖4 基于關鍵短語的主題分析

對文檔進行主題分析的過程中,不再是簡單地以詞為單位對文檔進行處理,而是對文本進行了基于關鍵短語的分詞等預處理,將LDA 第三層詞匯層改變為關鍵短語層,因此每篇文檔可以看作由文檔、主題、關鍵短語三層構成,如圖5所示。

Fig.5 Three layers model of LDA based on key phrase圖5 基于關鍵短語的LDA三層模型

從而,根據已有的文檔數據可獲得第一層文檔和第三層關鍵短語信息,通過利用3.3節介紹的LDA概率模型提取文檔隱藏的第二層主題信息,從而對文檔進行基于關鍵短語的主題分析。

6 實驗

本章將會通過對不同短語提取方法進行實驗分析對比,展示改進的SegPhrase方法的優點。此外,本章還將對基于關鍵短語的主題分析進行實驗,與傳統的基于關鍵詞的主題分析方法進行對比,從而驗證文中提到的基于關鍵短語的主題分析方法。為了方便表示,實驗中將改進的SegPhrase 方法稱為Seg-Phrase*。

6.1 實驗數據

本文研究中所采用的實驗文檔數據是從國內主流門戶網站持續一個月抓取的文檔,為了對實驗結果進行交叉驗證,將實驗數據分為10份,每份文檔包含2 000 多行數據,每行數據表示一個網頁文檔,并對這些中文文檔進行分詞等預處理。由于Wiki詞典和百度詞條包含相對完整的短語結構和語義語法信息,且部分短語是經過人工篩選的,因此可以看作是高質量的短語,實驗中需要的標簽數據選自Wiki 詞典和百度詞條。

6.2 實驗中采取的比較方法

為了對比展示改進的SegPhrase方法以及基于關鍵短語的主題分析方法的優點,在提取關鍵短語和主題分析實驗中分別采用了不同的對比方法,從而驗證提出方法的合理性。

(1)HanLP:HanLP(https://github.com/hankcs/HanLP)是一款常用于自然語言處理領域的開源工具,利用互信息和信息熵提取短語。

(2)SegPhrase:SegPhrase 方法采用多文本特征,利用隨機森林算法作為分類器,能夠區分大部分短語。

(3)SegPhrase*:針對原SegPhrase 方法在候選短語集的產生和對短語質量評估方面存在的缺陷進行了改進。

6.3 實驗結果分析

在對關鍵短語提取時,常用的評估標準是提取短語的召回率和準確率。召回率被定義為提取出的短語個數和文檔中總短語數的比率,準確率被定義為提取出的短語中是準確的短語和提取出的短語總數的比率。

圖6 是對短語的不同特征的重要性進行的評估。圖中Prob 是短語出現的頻率特征,PMI 是互信息特征,PKL(phrase Kullback-Leibler divergence)是短語詞串的KL距離,其計算方式就是相對熵的計算方法,Outside為單詞頻率特征,Stopword為短語停用詞特征,First_stop 和Last_stop 分別表示短語開頭和結尾是停用詞的特征。從圖中可以明顯看出,不同的特征對短語的影響是有差異的,因此將不同文本特征對短語質量的影響賦以不同的權重是有實驗依據的,更符合短語的實際應用情況。

Fig.6 Importance of different features圖6 不同特征的重要性

在實驗中,由于對每份網頁文檔缺乏中文關鍵短語數據集,利用人工篩選成本太大,因而無法直接給出關鍵短語提取的召回率和準確率,分別利用召回率增益Δrec.和準確率增益Δprec.作為實驗結果的評估標準。實驗中,利用Wiki 中文詞典和百度詞條對提取出的短語進行驗證,把出現在Wiki 詞典和百度詞條中的短語視作高質量的短語。

在驗證不同特征對短語的重要性不同之后,對改進的SegPhrase方法進行了實驗驗證。

6.3.1 SegPhrase*方法與HanLP方法對比

表1 是利用SegPhrase*方法與HanLP 方法在提取關鍵短語的召回率增益和準確率增益上的對比結果。從表1 中可以看出,通過對10 份文檔進行獨立實驗,SegPhrase*方法在提取關鍵短語時,比利用開源工具HanLP 提取短語在召回率上提升了20%到40%,在準確率方面提升了40%到50%,并且基本保持穩定。從而可知,利用SegPhrase*方法提取短語在一定程度上優于HanLP方法。

Table 1 Comparison between SegPhrase*and HanLP表1 SegPhrase*與HanLP對比

6.3.2 SegPhrase*方法與SegPhrase對比

表2 是利用SegPhrase*方法與原方法進行中文關鍵短語提取的對比。從表2 中可以看出,Seg-Phrase*方法在提取中文短語時,在召回率方面比原方法提升了6%至12%,準確率卻比原方法提升了23%至25%。驗證了SegPhrase*方法在提取中文短語時具有更高的準確率和召回率,更合適對復雜的中文文本進行關鍵短語提取。

Table 2 Comparison between SegPhrase*and SegPhrase表2 SegPhrase*與原方法SegPhrase對比

6.3.3 在英文數據集上的對比

由于SegPhrase 方法不能很好地支持中文,為了更好地展示SegPhrase*方法的優點,本文在實驗中利用了DBLP(http://arnetminer.org/citation)中包含的5 000 條英文數據進行兩種方法的實驗對比,每行數據表示一個文檔,實驗對比結果如表3所示。從表中可知,SegPhrase*方法比原方法在對英文文本進行關鍵短語提取時,準確率提升了7%左右,召回率提升了6%左右。

Table 3 Comparison between SegPhrase*and SegPhrase on DBLP表3 SegPhrase*與SegPhrase在DBLP數據集上進行對比

綜上所述,通過改進SegPhrase 算法的短語產生方法,使得低頻但關鍵的短語得以保留;通過改進SegPhrase 算法的短語質量評估的方法,賦予不同特征不同的權重來對短語進行綜合評估,使得選擇的短語更符合實際應用語境。因此本文提出的方法能夠更好地支持中文關鍵短語的提取,在對文本進行關鍵短語提取時,準確率和召回率方面均比原SegPhrase方法有一定的提升。

6.3.4 基于關鍵詞短語的主題分析

本實驗中對基于關鍵詞的主題分析與基于關鍵詞短語的主題分析進行了實驗對比。表4 和表5 分別是兩種不同方法的主題分析結果。

通過表4 可以看出,關鍵詞沒有豐富的語義語境,關鍵詞之間可能是近義詞或者同義詞,無法清晰表明文檔的主題,用戶無法直接判斷出文檔的主題意思,需要多個關鍵詞才能推測出主題的中心思想。相對于表4,表5 是對文檔進行基于關鍵短語的主題分析??梢灾庇^地比較表4 中的Topic1 和表5 中的Topic2,可以更直接地看出表5中的Topic2所表達的主題意思是“京津冀協同發展”。比較表4 中的Topic3與表5 中的Topic4,以及表4 中的Topic5 與表5 中的Topic3,可以發現關鍵短語具有豐富的語境信息,語義和結構相對完整,能夠相對清楚地表達文檔主題。

Table 4 Topic analysis based on keywords表4 基于關鍵詞的主題分析

Table 5 Topic analysis based on keyphrase表5 基于關鍵短語的主題分析

通過實驗表明,相對于關鍵詞,利用較少的關鍵短語就可以直接判斷出文檔描述的主題信息,以及與主題相關的中心內容,從而能夠輕易地對文檔做進一步歸檔、分類等操作,這將在一定程度上節省對大規模文檔或語料庫進行主題挖掘所需的時間和空間。

7 結束語

針對SegPhrase 方法存在的一些缺陷,在候選短語集的產生和短語質量評估方法進行了改進,充分考慮了不同特征對短語影響的差異性,提升了關鍵短語抽取的準確率和召回率。同時,文中利用富含語義語境信息的關鍵短語對文檔主題分析,能夠更直接清晰地表明文檔的中心思想。下一步工作計劃:(1)結合多種深度學習、機器學習算法進行關鍵短語提取,優勢互補,提高關鍵短語提取的準確率和效率;(2)由于文檔主題分析沒有進一步對文檔的情感趨向進行分析,而對文檔主題進行情感極性分析,需要在主題子數據集上分別進行情感分類,并行化處理很適合解決這類問題。因此,下一步工作中計劃對主題分析進行并行化修改,以提升文檔主題分析的豐富性。

猜你喜歡
關鍵特征文本
高考考好是關鍵
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 青青草原国产一区二区| 永久免费无码日韩视频| 欧美性天天| 五月婷婷伊人网| 午夜限制老子影院888| 国产精品久线在线观看| 欧美一区国产| 激情乱人伦| 国产在线拍偷自揄观看视频网站| 中文字幕亚洲乱码熟女1区2区| 国产青榴视频在线观看网站| 亚洲精品午夜天堂网页| 国产成人综合亚洲欧美在| 国产精品无码作爱| 日韩国产亚洲一区二区在线观看 | 欧美激情一区二区三区成人| 免费a级毛片视频| 成人看片欧美一区二区| 欧美日本一区二区三区免费| 欧美日韩成人在线观看 | 国产精品夜夜嗨视频免费视频| 国产裸舞福利在线视频合集| 无码中字出轨中文人妻中文中| 91视频免费观看网站| 最新国产精品第1页| 国产精品免费电影| 亚洲三级成人| 日韩精品成人在线| 亚洲动漫h| 欧美成人一级| 91色在线视频| 综合人妻久久一区二区精品| 高清无码一本到东京热| 99在线免费播放| 青青草一区| 日本亚洲国产一区二区三区| 2020国产在线视精品在| 在线免费亚洲无码视频| 亚洲欧美另类专区| 国产亚洲精久久久久久无码AV| 国产精品制服| 欧美日韩精品综合在线一区| 国产高清无码第一十页在线观看| 欧美黑人欧美精品刺激| a毛片免费看| 国产精品浪潮Av| 四虎永久在线| 亚洲欧洲免费视频| 国产视频久久久久| 亚洲色无码专线精品观看| 99热这里只有精品免费| 久久久无码人妻精品无码| 国产精品第页| 国产福利微拍精品一区二区| 永久在线精品免费视频观看| 自偷自拍三级全三级视频 | 广东一级毛片| 人妻21p大胆| 欧美日韩国产在线人成app| 亚洲美女高潮久久久久久久| 国产美女在线免费观看| 亚洲天堂2014| 欧美激情福利| 激情乱人伦| 亚洲第一成年免费网站| 国产男女免费视频| 国产主播在线观看| 亚洲第一区欧美国产综合| 精品视频福利| 国产成人欧美| 精品三级网站| 日韩成人高清无码| 91精品啪在线观看国产91| 久久99精品久久久大学生| 黄色a一级视频| 亚洲视频一区| 色偷偷一区| 97成人在线观看| 国产精品香蕉在线观看不卡| 国产成人综合日韩精品无码首页 | 亚洲天堂高清| 亚洲va欧美ⅴa国产va影院|