999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA與TextRank結合的多文檔自動摘要研究

2018-05-15 08:31:14張波飛李成城
軟件導刊 2018年4期

張波飛 李成城

摘 要:大數據時代信息量急劇增長,伴隨而來的是大量冗余信息的出現。為快速、準確、全面搜索到所需信息,提出一種LDA主題模型與TextRank算法相結合的算法。首先通過對預處理后的文檔建立主題模型,得到句子的概率模型即文檔中句子的重要性,然后考慮運算節點權重時的主題概率,得到新的迭代公式,通過對同一主題下的多篇新聞報道進行處理得到這些文檔的文摘。實驗結果表明,該方法生成的文摘較單一算法效果顯著。

關鍵詞:冗余;LDA主題模型;TextRank算法;文摘

DOIDOI:10.11907/rjdk.172842

中圖分類號:TP301

文獻標識碼:A 文章編號:1672-7800(2018)004-0013-03

Abstract:Information explosion leads to a large number of redundant information in the big data era. In this paper, we propose an algorithm to combine the LDA theme model with the TextRank algorithm. Firstly, we build a thematic model of the preprocessed document set to get the probability model of the sentence, that is, the sentence in the document. And then we take the subject probability into account and get the new iterative formula. The experimental results show that the method is more effective than the single algorithm.

Key Words:redundancy; LDA theme model; Textrank algorithm; summary

0 引言

隨著互聯網上信息的日益豐富,人們從網絡上搜索到的新聞大多呈現數量多且信息雜亂的現象,即使在文本理解會議(DUC),對大量數字語言質量問題和內容進行手動評估摘要,也需要3 000多小時的人力,非常耗時[1]。多文檔自動文摘的主要任務就是將同一主題下多篇文檔組成的集合中多次重復的信息一次出現在文摘中,將與主題相關的信息根據重要性及壓縮比依次抽取[2-3],因此進行文摘提取尤為重要。

1 相關研究

本文實驗流程如圖1所示。

1.1 Textrank算法

TextRank是基于網頁算法PageRank而來的,只是將page替換成詞語、句子,以完成關鍵詞抽取與自動文摘工作[4]。TextRank算法是用于文本的基于圖的排序經典算法,主要應用在關鍵詞提取、自動文摘等領域。TextRank算法將文檔劃分為由若干文本單元(詞項或句子)構成的節點,文本單元間的相似度構成節點間的邊,形成圖模型,利用PageRank算法對圖模型進行迭代直至收斂,然后對所有節點進行排序,輸出文摘句。TextRank算法作為一種無監督方法,無需訓練語料,該方法已在多個領域得到應用。

1.2 LDA主題模型

LDA主題模型是目前比較流行的模型算法,LDA由Blei、David M、Ng、Andrew Y、Jordan等于2003年提出,是一種典型的詞袋模型。一篇文檔由一組詞構成,詞與詞之間沒有先后的順序關系。另外,一篇文檔可以包含多個主題,其中每一個詞都由其中的一個主題生成。同時,它是一個3層的生成性貝葉斯網絡,將詞與文檔通過潛在的主題相聯系。LDA概率如圖2所示。

圖2中,φ表示主題-詞語的概率分布,θ表示文檔-主題的概率分布,α和β分別表示θ和φ所服從的Dirichlet 先驗分布的超參數,空心圓圈表示隱含變量——主題,實心圓圈表示可觀察到的變量——詞語。

2 LDA與TextRank結合算法

楊瀟等[5]提出的基于主題模型LDA的多文檔自動摘要,張明慧[6]提出的LDA主題驅動的中文多文檔自動文摘方法,根據LDA模型中主題的概率分布和句子的概率分布,得到句子權重計算模型。LDA模型所使用的詞袋假設不能很好地考慮單詞和句子的位置,以及句子、文檔和文檔集合之間的結構關系[7]。

基于圖排序算法的自動文摘方法[8-10],主要思想是將文本單元(句子、詞匯等)作為圖的節點,該方法優點是可以結合圖的全局信息進行判斷和計算圖節點權重,而不僅僅依賴于其中幾個節點有限的信息。將這種排序算法思想應用到自動文摘中,利用文本中的詞匯或語義信息,構建無向加權圖,對語句進行排序。

基于圖排序算法的自動文摘,可將這種考慮全局信息的排序算法應用到自動文摘中,且在計算句子權重過程中充分考慮詞項之間、句子之間或詞與句子之間的全局關系。將兩種算法相結合,恰好可以彌補LDA模型的不足,更好地對句子排序。

改進算法步驟如下:

(1)主題模型生成中,詞匯、句子的概率可由下式得到:

結合過程分為3步:①基于LDA主題模型對文檔集合進行文本建模,利用公式(1)實現詞語的主題影響力;②根據公式(2)得到句子重要性; ③把句子重要性帶入公式(3),結合TextRank算法實現節點的重要性計算,以此得到句子最終的權重結果。

3 實驗

由于目前沒有一個標準的實驗語料用于中文多文檔自動文摘,為便于實驗,本文選用哈工大信息檢索研究中心多文檔自動文摘語料,共40個主題,每個主題下有5篇左右的新聞報道,圖3為其中一篇文章示例。

本文采取單文檔自動文摘的生成思路,首先將同一主題下的多個txt文檔合并為一個大的文檔,然后進行實驗。

3.1 文檔預處理

文檔預處理分為文本的分詞、去停用詞以及詞性標注。

(1)分詞:英文是以詞為單位的,詞和詞之間有空格隔開,而中文是基本單位是字,句子中所有的字連起來才能描述一個意思。因此,尋找一個好的分詞工具對中文語料進行分詞處理至關重要。加之新聞語料的特點,本文采用jieba分詞,在傳統的基于統計分詞方法之上加入未登錄詞識別及詞性標注,在一定程度上提高了分詞效果。

分詞部分結果如圖4所示。

(2)停用詞相當于過濾詞,這些詞往往數量較大且沒有實際意義,同時會產生大量噪音。這里采用中科院停用詞表,得到圖5結果。

(3)詞性標注:即給每個詞標注上詞性,見圖6。

3.2 候選文摘句生成

(1)對其中一個文檔集單一txt文檔進行處理,得到打分靠前的幾個句子如圖7所示。

(2)對其中一個文檔集合并后的文檔進行處理得到句子打分,按一定比例抽取分值靠前的幾個句子如圖8所示。

3.3 文摘評價

自動文摘的評價方法大致分為兩類:①內部評價(Intrinsic),它可以直接分析摘要的質量[11];②外部評價(Extrinsic),它是一種間接評價方法,將自動文摘應用于某個特殊任務中,依據文摘完成這項任務的效果進行評價。目前比較熱門的評價方法是將專家根據原文生成的文摘作為標準文摘,判斷生成的自動文摘中所包含的標準文摘信息程度。

使用3種方法生成的候選摘要句與語料所提供的已標注好的人工摘要作對比試驗,利用計算句子相似度算法中的TF-IDF算法進行計算:

R= 機器摘要與標準摘要句共有關鍵詞個數標準摘要句中關鍵詞總數(5)

依據式(5),得到圖9結果。

從圖9可以看出,利用LDA與Textrank相結合的算法得到的準確率稍優于兩種算法單獨生成的結果。3種結果中LDA最差,其原因在于本文使用的新聞語料較短,在建立主題模型時主題數目設置為1,數目偏少。而主題模型效果一般會隨著主題數目增多其混亂度減小,這樣就導致LDA產生的文摘句準確率偏差。

4 結語

本文采用LDA主題模型與TextRank算法相結合的算法,得到了同一主題下的多篇新聞報道文摘。但由于目前中文多文檔語料庫缺乏,加之還沒有一個完整的中文文摘評價系統,因此本文實驗使用的數據語料量稍顯不足。下一步可使用搜狗語料庫等大規模語料進行實驗,同時構造一個完整的評價系統。

參考文獻:

[1] 秦兵,劉挺,李生.多文檔自動文摘綜述[J].中文信息學報,2005(6):15-22,58.

[2] 胡立.基于語義層次聚類的多文檔自動摘要研究[D].廣州:華南理工大學,2014.

[3] 蘭希.基于篇章修辭結構的多文檔自動文摘系統的設計與實現[D].廈門:廈門大學,2014.

[4] 陳萬振.TextRank關鍵詞提取算法與SOM文本聚類模型的優化研究[D].南寧:廣西大學,2016.

[5] 楊瀟.基于主題模型LDA的多文檔自動摘要[C].第五屆全國信息檢索學術會議論文集,2009.

[6] 張明慧.LDA主題驅動的中文多文檔自動文摘方法[C].第五屆全國青年計算語言學研討會論文集,2010.

[7] 曹洋.基于TextRank算法的單文檔自動文摘研究[D].南京:南京大學,2016.

[8] ANTIQUEIRA L,JROLIVEIRA O.Complex network approach to text summarization[J]. Information Science,2009(179):584-599.

[9] WAN X J,YANG JW.Multi-document summarization using cluster-based link analysis[C].Proc of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Sheffield,UK,2008:299-306.

[10] JONES K S. Automatic summarizing factors and directions advance in automatic text sum-marization[M]. Cambridge MA:MIT Press:1998.

[11] 顧益軍,夏天.融合LDA與TextRank的關鍵詞抽取研究[J].現代圖書情報技術,2014(1):41-47.

(責任編輯:杜能鋼)

主站蜘蛛池模板: 97亚洲色综久久精品| 免费福利视频网站| 麻豆精品在线播放| 国产免费羞羞视频| 国产又黄又硬又粗| 国产精品区视频中文字幕| 亚洲人成网18禁| 40岁成熟女人牲交片免费| 夜色爽爽影院18禁妓女影院| 亚洲 欧美 偷自乱 图片| 亚洲伊人久久精品影院| 国产欧美日韩91| 亚洲男人天堂久久| 日韩国产欧美精品在线| 日韩免费毛片| 欧美成a人片在线观看| 91在线激情在线观看| 欧美国产日韩在线| 亚洲专区一区二区在线观看| 99草精品视频| 日本不卡在线播放| 99久久精品美女高潮喷水| 国产亚洲高清视频| 爱做久久久久久| 国产成人亚洲无吗淙合青草| 亚洲视频免费在线| a级毛片毛片免费观看久潮| 精品国产自在在线在线观看| 99热这里只有精品国产99| 91色在线观看| 少妇极品熟妇人妻专区视频| 久久综合五月| 欧美亚洲国产日韩电影在线| 久青草免费视频| 国产精品性| 国产毛片片精品天天看视频| 亚洲第一区欧美国产综合 | 亚洲精品国产日韩无码AV永久免费网 | 免费人成视网站在线不卡| 中文字幕 欧美日韩| 22sihu国产精品视频影视资讯| 国产福利不卡视频| 久久先锋资源| www.youjizz.com久久| 国产综合精品日本亚洲777| 美女内射视频WWW网站午夜| 在线观看精品国产入口| 国产精品极品美女自在线网站| 丝袜美女被出水视频一区| 精品夜恋影院亚洲欧洲| 狠狠综合久久久久综| 99视频国产精品| 久久久久88色偷偷| 欧美色综合网站| 91在线精品麻豆欧美在线| 91精品视频网站| 亚洲高清无码久久久| 亚洲欧美日韩久久精品| 2020国产精品视频| 国产欧美日韩va另类在线播放| 亚洲第一在线播放| 日本爱爱精品一区二区| 国产欧美在线观看视频| 国产日本一区二区三区| 国产成人高清精品免费| 国产精品成人免费视频99| 欧美亚洲国产视频| 97人妻精品专区久久久久| 老司国产精品视频91| 久久久黄色片| 国产内射一区亚洲| 国产成人一区在线播放| 无码aaa视频| 蜜桃臀无码内射一区二区三区 | 色视频国产| 日韩精品一区二区三区中文无码 | 人妻一区二区三区无码精品一区| 99er精品视频| 欧美综合一区二区三区| 制服丝袜 91视频| 天天综合天天综合| 国产95在线 |