999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文微博自動文摘生成方法

2016-05-14 22:04:23李方馨李成城
軟件導刊 2016年5期

李方馨 李成城

摘要:微博已經成為廣大用戶發布和獲取信息的重要渠道之一,微博平臺上集聚著大量的用戶群體和文本信息資源,如何從大量的微博信息中準確、有效獲取微博事件關鍵內容至關重要。提出一種基于VSM和LDA主題模型相結合的方法,對微博文本生成自動文摘。實驗結果表明,該方法能夠比較準確地抽取微博文本的文摘內容,從而實現用戶對實時消息的搜索。

關鍵詞:LDA主題模型;中文微博;自動文摘;VSM

DOIDOI:10.11907/rjdk.161596

中圖分類號:TP319

文獻標識碼:A 文章編號:1672-7800(2016)005-0160-03

0 引言

隨著互聯網的普及和計算機信息技術的高速發展,社交網絡平臺迅速興起,并逐漸滲透到社會各用戶群體,極大提高了人們交流的頻率。如今,微博已經成為廣大用戶發布和獲取信息的重要渠道之一,微博平臺上集聚著大量的用戶群體和文本信息資源。研究如何從大量微博文本中快速、準確找到他們感興趣的內容具有重要意義[1]。

1 微博的文本特性

本文以新浪微博的文本內容作為背景語料進行話題文摘研究,其主要特征有:①篇幅短小,信息量小。每條微博輸入文本的字符數限定在140個字符以內,微博所表達的信息量有限;②數據類型多,包含大量噪聲。微博上內容包含文本、圖片、視頻、表情、網絡用語和超鏈接等,由于用戶在平臺上的表達以快捷、及時為主,因而文本的精確性不高,包含縮寫、不規范詞匯、錯誤詞匯等多種噪音數據[2];③傳播速度快,實時性強。微博文本的更新速度與傳播速度很快,一條有價值的消息被公布之后,往往會在很短的時間內被大量轉發。

2 相關工作

2.1 語料獲取及預處理

本實驗選用新浪微博的文本數據作為實驗語料。通過新浪微博開放平臺的API接口獲取微博文本數據,實現微博數據自動爬取。

由于微博文本字數少,大多微博是一個句子或者一個短語。這就導致文本處理時的數據稀疏問題。所以,在預處理階段首先去除微博長度小于20字的內容;其次,根據正則表達式,除去內容中含有視頻和語音的超鏈接;最后過濾掉“@”及后面的用戶名部分。通過中國科學院的漢語詞法分析系統ICTCLAS進行中文分詞。按照停用詞表中的詞語將語料中對文本內容識別意義不大但出現頻率很高的詞、符號、標點、副詞、助詞等頻度高的詞及亂碼等去掉。在已有停用詞表的基礎上,統計微博中出現頻率過高且無意義的詞語和符號,如“轉發”等,構建出適用于中文微博文本的停用詞表,對中文分詞后的詞語進行停用詞過濾。

2.2 基于向量空間模型的微博文本建模

3 LDA主題模型介紹

LDA(Latent Dirichlet Allocation)主題模型由Blei提出,是一個針對離散數據集建模的主題生成模型,用一個服從Dirichlet分布的K維隱含隨機變量表示文檔話題混合比例,模擬文檔產生過程,通過變分方法推斷話題隱變量[4]。

LDA模型是一個三層貝葉斯網絡結構的有向概率圖模型,分別為詞層、主題層和文檔層。它將每個文檔表示為一個主題混合,每個主題是固定詞匯表上的一個多項式分布。首先,假設文檔與文檔之間順序無關,文檔中單詞與單詞之間順序無關,僅考慮文本的詞頻,而不考慮單詞在文本中出現的先后順序及其約束關系。然后,根據單詞在文檔中的分布建立文檔單詞矩陣,再將該矩陣分解為文檔主題與主題單詞矩陣,相應的單詞即會聚類到特定的主題中去。通過對LDA模型中參數的調節,可以使特定的單詞分配到對應的主題[5]。

LDA的概率模型圖如圖1所示。其中,θm表示第m篇文檔的主題分布;zm,n表示第m篇文檔的第n個單詞的主題編號;φk表示主題編號為k時的單詞分布;wm,n表示第m篇文檔的第n個單詞;α和β分別為θm和φk的先驗參數;K表示主題個數,M表示文檔篇數。

4 微博文摘句抽取

在生成微博文摘時,考慮多種因素衡量句子的權重值,如主題重要度、句子中含有的關鍵詞覆蓋度、句子詞頻、句子長度、評論數和轉發數等。

4.1 主題重要度

在微博文本中,敘述一件事或描述一個事物時,都會圍繞一個中心主題,同時每一條微博文本會從不同的角度來介紹與主題背景相關方面的內容。根據句子的LDA主題特征,考慮句子主題與抽取到的微博話題的相似度。

4.2 句子中含有的關鍵詞覆蓋度

句子中出現關鍵詞的次數越多,則進一步說明該句子的重要性也就越大。所以它也將有一定的優先權被選入到文摘句子當中。

4.3 句子長度

5 實驗與結果分析

實驗選用新浪微博的文本數據作為實驗語料,經過預處理最終得到的中文微博語料,選定5 625條微博數據,分為訓練數據3 612條和測試數據1 013條。將VSM和LDA主題模型相結合,對中文微博短文本進行劃分類簇。通過對微博的文本分類進行挖掘,構建特征句子中特征詞文檔和詞頻文檔。設置Gibbs采樣的主題數目為6,迭代次數初始值設為100進行反復迭代,得到主題和關鍵詞概率如表1所示。

從實驗結果可以看出存在6個潛在主題。根據各個主題的高頻關鍵詞可以看出6個主題分別是經濟、體育、軍事、旅游、健康和教育。由此可見,基于LDA主題模型挖掘得到的主題和關鍵詞不僅準確率較高,而且各個主題之間的獨立性強,很容易根據關鍵詞得出相關主題。

模型中存在3個可變量:超參數α和β,以及主題個數K值。令α=50/K,β=0.01,迭代次數均為2 000次。在本實驗環境下,經過不同主題數進行多次實驗,得出:當主題數K=50時,聚類效果最佳,F值達到最高。抽取到的熱門話題語句如表2所示。

實驗結果表明,在中文微博語料中生成文摘,相對于單獨使用空間向量模型VSM或LDA模型生成微博文摘,VSM和LDA模型的恰當結合可以明顯地提高效果。對比空間向量VSM模型,準確率、召回率、F值分別提高了6.9%、11%、9.07%;對比LDA主題模型,分別提高了3.3%、4.1%、3.71%。實驗結果如表3所示。

實驗證明,VSM和LDA主題模型相結合的方法,能夠比較準確地抽取微博文本的文摘內容,進一步挖掘主題和關鍵詞,從而實現用戶對實時消息的搜索。

6 結語

本文提出一種中文微博自動文摘方法,在LDA模型的基礎上,提出了LDA和VSM結合的自動摘要算法,同時考慮句子特征和由重要主題產生的句子的LDA特征,從而提高摘要的準確率。后續將研究如何利用重要主題自動確定LDA模型的主題個數。

參考文獻:

[1]李志清.基于LDA主題特征的微博轉發預測[J].情報雜志,2015(9):158-162.

[2]文坤梅,徐帥,李瑞軒.微博及中文微博信息處理研究綜述[J].中文信息學報,2012,26(6):27-37.

[3]SHARIFI B,HUTTON M, KALITA J.Experiments in microblog summarization[C].Washington, DC: IEEE Computer Society,2010.

[4]鄭影,李大輝.面向微博內容的信息抽取模型研究[J].計算機科學,2014(2):270-275.

[5]姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發現與排序方法[J].計算機研究與發展,2013(1):179-185.

(責任編輯:陳福時)

主站蜘蛛池模板: 伊人久久福利中文字幕| 日本a级免费| 国产欧美亚洲精品第3页在线| 国产在线观看第二页| 精品無碼一區在線觀看 | 中文字幕波多野不卡一区| 国产亚洲高清视频| 无码粉嫩虎白一线天在线观看| 日韩欧美视频第一区在线观看| 色综合综合网| 日韩二区三区| 成人在线综合| 四虎在线观看视频高清无码| 欧美第九页| 九九视频免费在线观看| 国内精品久久久久鸭| 五月天综合婷婷| 中文无码毛片又爽又刺激| 日韩精品免费在线视频| a亚洲视频| 精品亚洲麻豆1区2区3区| 少妇精品网站| a毛片在线播放| 国产99视频精品免费观看9e| 国产伦精品一区二区三区视频优播 | 久久美女精品| 国产一区二区三区免费观看| 成人午夜久久| 国产精品免费福利久久播放 | 亚洲av无码专区久久蜜芽| 91网址在线播放| 91精品综合| 色综合激情网| 国产凹凸视频在线观看| 色综合激情网| 日韩av资源在线| 国产精品综合久久久| 激情无码字幕综合| 亚洲欧美人成人让影院| 国内毛片视频| 免费一级全黄少妇性色生活片| 高清不卡一区二区三区香蕉| 天天综合亚洲| 女人毛片a级大学毛片免费| 毛片视频网| 黄色不卡视频| 天天综合天天综合| 色窝窝免费一区二区三区| 欧美一级视频免费| 国产精品综合久久久| 四虎免费视频网站| 美女无遮挡免费网站| 亚洲AV成人一区国产精品| 国产一区二区丝袜高跟鞋| 国产精品私拍99pans大尺度| 亚洲日韩精品无码专区97| 国产男女免费完整版视频| 99在线视频精品| 国产成人亚洲综合A∨在线播放| 国产在线98福利播放视频免费| av手机版在线播放| 精品欧美一区二区三区久久久| 青青草原国产| 青青操视频在线| 99爱视频精品免视看| 午夜无码一区二区三区| 99热免费在线| 國產尤物AV尤物在線觀看| 午夜久久影院| 国外欧美一区另类中文字幕| 久久久久免费看成人影片| 国产玖玖视频| 欧美笫一页| 青青青视频蜜桃一区二区| 久久久精品国产SM调教网站| 欧美国产综合色视频| 啪啪国产视频| 久久久波多野结衣av一区二区| 一级成人a做片免费| 久久久久亚洲Av片无码观看| 久久天天躁夜夜躁狠狠| 亚洲黄色视频在线观看一区|