999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向短文本的網絡輿情話題

2019-06-20 10:31:23龍永深彭沖陳衛彌
電子技術與軟件工程 2019年5期

龍永深 彭沖 陳衛彌

摘要??? 本文的目的即是自動從海量社交短文本中,自動發現熱點事件或熱點話題,利用Python編程對短文本中的詞語進行處理,進一步提取出候選詞組,最后再進行話題的話題精篩,從而可以挖掘出相關人群重點關注的內容。

【關鍵詞】網絡輿情 話題分析 貝葉斯平均 注意力機制

隨著社交網絡的發展和積累,內容的產生、傳播、消費等已經根深蒂固地融入在人們的生活里。隨之內容分析的工作也就走進了人們的視野。信息的流動不再是單方向的,報紙的信息流動是從報紙到讀者,而在互聯網應用中,可以方便地通過“評論”、“回復”等技術手段,使信息流動變成雙向的,甚至評論和回復成為信息中的有機組成部分,進一步地豐富原有信息的內容。因此,從互聯網上主動地收集信息,用數據挖掘方法或者自然語言處理的方法來分析信息中用戶的觀點,成為當前輿情分析的一種非常重要和直接的手段,也就是“網絡輿情分析”。

1 熱詞處理

本文從以下的一些方面進行熱詞提取工作。首先是文本的預處理,這里主要包括文本去重、廣告識別等方法,對數據進行一些去躁的工作。

其次進行熱度分數計算:利用貝葉斯平均對梯度分數進行修正。貝葉斯平均的典型應用包括用戶投票排名,產品評分排序,廣告點擊率的平滑等等。以用戶投票排名為例,用戶投票評分的人很少,則算平均分很可能會出現不夠客觀的情況。這時引入外部信息,假設還有一部分人(C人)投了票,并且都給了平均分(m分)。把這些人的評分加入到已有用戶的評分中,再進行求平均,可以對平均分進行修正,以在某種程度或角度上增加最終分數的客觀性。容易得到,當投票人數少的時候,分數會趨向于平均分;投票人數越多,貝葉斯平均的結果就越接近真實投票的算術平均,加入的參數對最終排名的影響就越小。

再通過頻繁項集、word2vector等方法,發現出共現詞語的關系。利用共現詞語的信息,對熱詞進行一輪篩選,提取出最有價值的熱詞,避免信息冗余。通過對詞頻進行時間序列分析,可以更詳細地區分短期、長期與周期性熱點;對一些更有價值的熱詞做熱度預警;對熱詞的增長趨勢進行分析等。

綜上,本文在周期時間間隔內,通過貝葉斯平均修正的詞語梯度分數來分析詞語熱度,并利用語料中詞語的共現信息,進一步篩選得出熱詞。通過時間序列分析,得出熱詞的特性和增長趨勢等。

2 話題提取

話題提取的工作也分為兩步,第一步先找出一些候選的話題詞組;第二步利用Attention的思想,從候選詞組中找出一個包含的詞語更加重要的詞組,作為輸出話題。

2.1 候選詞組提取

信息熵是用來衡量一個隨機變量出現的期望值,一個變量的信息熵越大,表示其可能的出現的狀態越多,越不確定,也即信息量越大。互信息可以說明兩個隨機變量之間的關系強弱。定義如下:

公式

對上式做變換可以得到:

公式

則可知表示由X引入而使Y的不確定度減小的量。越大,說明X出現后,Y出現的不確定度減小,即Y很可能也會出現,也就是說X、Y關系越密切。反之亦然。在實際應用中,詞組的內部聚合度即為詞語間的內部聚合度。對于一個詞組,選取使不確定性減少的程度最多的一種詞語組合,來說明詞組的內部聚合度。

2.2 話題精篩

對于某一個熱詞,挑選出來一批候選詞組后,每個詞組所含的詞語不同,包含的信息量也不同。篩選的主要依據或思想,其實和Attention機制是一樣的,關鍵是要找出重要的詞語。比如與“巴黎”的搭配,“巴薩”、“逆轉”、“時裝周”比“球迷”、“球員”、“心疼”、

“法國”包含的信息更多,意義更大??梢韵氲剑鞍退_”、“逆轉”、“時裝周”這些詞語在其他無關語料中不常出現,“球迷”、“球員”、“心疼”、“法國”在不同語料中都常會出現,信息不明確。所以,可以通過TF-IDF的思路來確定Attention。

熱詞的候選詞組s的事件或話題表示能力分數可由以下公式求得:

公式

其中,N為候選詞組中的詞語個數,為候選詞組中包含的第i個詞語,Corpus(w)表示含有詞語w的相關語料。另一方面也需要考慮詞組出現的頻次,詞組出現的次數越多,說明事件越重要。

綜上所述,本文通過候選詞組的事件或話題表示能力分數以及出現頻次,精篩出熱詞的相關話題。

3 結論

近年來,各種公眾趨勢分析類產品涌現,各大公司都利用自身資源紛紛搶占一席之地。公眾趨勢分析平臺利用自然語言處理、機器學習方法對數據進行分析,給用戶提供輿情分析、競品分析、數據營銷、品牌形象建立等幫助。其中,熱點發現問題是公眾趨勢分析中不可或缺的一部分。本文集中在文本數據方面進行分析,挖掘相關人群重點關注的內容。

參考文獻

[1]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現代圖書情報技術,2016(12).

[2]劉紅兵,李文坤,張仰森.基于LDA模型和多層聚類的微博話題檢測[J].計算機技術與發展,2016(06).

[3]葉成緒,楊萍,劉少鵬.基于主題詞的微博熱點話題發現[J].計算機應用與軟件,2016(02).

主站蜘蛛池模板: 熟妇无码人妻| 波多野结衣一级毛片| 54pao国产成人免费视频| 欧洲免费精品视频在线| 偷拍久久网| 538国产视频| 亚洲第一黄片大全| 欧美亚洲日韩不卡在线在线观看| 性69交片免费看| 26uuu国产精品视频| 午夜激情福利视频| 欧美日韩第三页| 久草中文网| 黄色一及毛片| 玖玖免费视频在线观看| 凹凸精品免费精品视频| 天天激情综合| 香蕉视频在线观看www| 欧美中文一区| 欧美一区二区三区香蕉视| 九九热精品免费视频| 日本三级精品| 国产精品v欧美| 亚洲丝袜第一页| 亚洲综合精品第一页| 国产剧情无码视频在线观看| aⅴ免费在线观看| 日本精品视频| 中文字幕免费视频| 国产一二三区在线| 91成人在线免费视频| 香蕉久人久人青草青草| 欧美精品一二三区| 亚洲成综合人影院在院播放| 亚洲区第一页| 9久久伊人精品综合| 国产粉嫩粉嫩的18在线播放91| 国产精品冒白浆免费视频| 色香蕉网站| 亚洲热线99精品视频| 在线看片免费人成视久网下载| 国产粉嫩粉嫩的18在线播放91 | 99re精彩视频| 91无码人妻精品一区| 久久狠狠色噜噜狠狠狠狠97视色 | 久草中文网| 亚洲乱码视频| 久久人人爽人人爽人人片aV东京热| 免费A级毛片无码免费视频| 日韩精品无码免费一区二区三区| AV无码无在线观看免费| 亚洲色成人www在线观看| 国产91全国探花系列在线播放 | a级毛片毛片免费观看久潮| 又爽又大又光又色的午夜视频| 亚洲男人的天堂久久香蕉网| 精品福利网| 91po国产在线精品免费观看| 国产午夜精品一区二区三| 国产高清精品在线91| 国产精品30p| 无码AV高清毛片中国一级毛片| 国产青榴视频在线观看网站| 99人妻碰碰碰久久久久禁片| 漂亮人妻被中出中文字幕久久| 亚洲综合天堂网| 成人午夜视频网站| 亚洲最新在线| 亚洲美女一级毛片| 欧美精品啪啪一区二区三区| 伊人精品视频免费在线| 日韩天堂视频| 久久精品视频一| 天天综合网亚洲网站| 999在线免费视频| 2021精品国产自在现线看| 国产激情无码一区二区三区免费| 国产av剧情无码精品色午夜| 亚洲成人一区二区三区| 2021天堂在线亚洲精品专区 | 无码又爽又刺激的高潮视频| 一级毛片在线播放免费|