999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對網絡心理的相似性分析新聞聚類算法研究

2021-10-10 23:28:04蘇曉雨
科教導刊·電子版 2021年22期
關鍵詞:信息方法

蘇曉雨 吳 笛

(武警警官學院 四川·成都 610200)

0 引言

互聯網心理是指展示多方向的定期行動,以影響某些領域的社會輿論導向。內容聚焦于對新聞媒體的分析,研究新聞發布的模式,找出不同的熱門話題,以及在網絡上是否發生了任何類型的價值判斷。本文提出一種對網絡中大眾媒體新聞進行聚類的算法。在組成聚類后分析其參數,以了解大眾媒體的新聞傳播過程,最終獲得相應的新聞主題分布。

1 聚類算法

本文采用的聚類算法庫分為:向量空間模型、k-means變化、生成算法、光譜算法、降維方法和基于短語的方法。向量空間模型是一種經典的方法,在同質主題上顯示出更好的效果,并且需要知道聚類的數量。K-means算法及其擴展是歷史上最流行的分層和分區聚類的方法。上述算法缺點在于,在大型數據體上的有效性下降,并且依賴于隨機初始化。此外,易受到異常值和噪聲的影響,并且需要知道聚類的數量。生成算法對離群值也很敏感,這使得它們在異質數據上的效果較差,并且有集群數量作為輸入。當數據的向量模型可以被呈現為二叉圖時,頻譜聚類顯示出很高的準確性。這一組的優點是它不需要聚類的數量,可以在處理過程中找到這個值。降維方法最初是為計算機視覺應用而開發的,已被有效地用于文檔聚類。其主要缺點是,它們依賴于隨機初始化,導致在同一數據上產生不同運行結果。然而,它們有高的性能,其中一些可以估計出集群的最佳數量。句子庫方法通過編碼詞序信息得到改進。然而,它并不能保證比其他聚類方法有更高的準確性。在短文和新聞聚類方面,有人提出了一些具體的方法。文獻[2]提出了鑒別性的雙項主題模型,以進行基于新聞標題的聚類。文獻[3]提出用于對社交網絡中的主題進行聚類的社會網絡分析。文獻[4]提供了特殊的核函數來測量短文的語義相似性,應用于搜索引擎查詢分析。在文獻[5]中,使用維基百科的特征生成也可以提高短文的聚類精度。在文獻[6]中,聚類技術可以用來實現以事件為中心的新聞聚類算法。同時,基于余弦相似度的聚類也被應用于提出一種新聞收集和聚類的方法。

2 新聞相似度估計

本文目的是通過估計基于本體的新聞數據之間的相似度來提高聚類的準確性。使用本體論可以更好地理解信息的傳播和影響。本文目標是獲得新聞集群,每個集群包含關于一個主題的信息,或者是關于這個主題的一個觀點。

本文使用WordNet(英語詞匯數據庫)中的詞整合到同義詞集中,這些同義詞集通過概念-語義和詞匯關系相互聯系在一起。這種結構可以快速估計單詞和句子的相似性。有文獻提出使用信息內容值和本體結構的測量方法,此方法與人主觀相似性判斷切合度較高。為此,本文使用JCN相似度指標表示兩個詞義的相似程度,其表達式如公式1所示。

其中,res(c1,c2)表示測量的相似性,IC(c)表示信息含量值。

由于社交網絡的新聞信息常是由一個或幾個句子組成。算法第一步是了解哪些消息與同一主題有關。根據文獻[2,3,4]算法步驟如下:

(1)句子標記化和刪除停頓詞。此步驟將每個文本信息表示為標記向量由單詞組成,同時刪除停頓詞。

(2)語義部分歧義化。每個詞都有兩個標簽:第一個標簽表示該詞的句法角色(賓語、主語等),第二個標簽表示該詞的語義。詞的句法角色(賓語、主語等),第二個標簽則指向功能角色(動詞、名詞等)。估計名詞之間的相似性,旨在通過討論的主題揭示出相似的新聞。

(3)去除詞干。詞干是指去除詞的共同形態和詞尾。提高聚類準確性。

(4)詞義辨析。既分析哪種詞義在當前語境中更有價值。采用文獻[6]算法。詞的消歧是基于對包含每個詞義的詞匯表的比較。最有可能的詞義是與句子中大多數其他詞在同一詞匯表中得出的詞義。

(5)計算句子相關度。首先,構建相似性矩陣。矩陣元素Ri,j是第一個句子對應的標記vi和第二個句子對應的標記wj之間的相似度估計值。相似性矩陣是雙子圖,而句子相似性計算任務是計算這個雙子圖的最大最大總匹配權重。因此,所得到的相似性可以被計算為平均值:

其中,N、M是標記向量,Match(N,M)是通過匈牙利方法計算的標記匹配。在定義了句子的相似性計算方法后,必須估計所有收集的數據之間的相似性,并找出相關信息的聚類。

3 對數據進行聚類

來自社交網絡的大眾媒體新聞數據特點如下:

(1)新聞是以平均18個字的短文形式出現的。

(2)文本庫可能包含數十萬條新聞,甚至更多且新聞集總是在不斷擴充。

圖1:2016年12月至2017年5月期間的主題集群分布

(3)聚類的數量是未知的,而且在不同的時間段會有所不同。

基于上述特點,本文采用光譜聚類算法對新聞數據進行聚類。

4 實驗結果及分析

本文使用網易新聞的官方大眾媒體頁面作為新聞來源。收集來自關注頻道、視頻新聞、娛樂新聞、體育新聞、財經新聞、科技新聞和文化新聞信息。檢索的數據量為2014年1月至2017年5月期間的415000條新聞信息。根據JCN相似性指標計算了新聞信息之間的相似性,而后估計給定的新聞信息之間的相似度,并為新聞組成相似度矩陣S。使用矩陣進行劃分和合并聚類,共發現174個聚類。

由于每個聚類代表了一部分主題,將聚類的大小解釋為主題流行度,從而構成主題流行度在時間上的分布。這個結果顯示所研究的大眾媒體是如何積極討論不同的主題的。即在給定的時間段內,將所有討論過的主題都以每個主題的新聞信息數量進行比較。最終可以觀察到每個主題的新聞信息數量是如何隨時間變化的,并將這些指數相互比較。圖1中對174個集群中的20個集群進行比較。通過這種方式,有可能了解該主題在不同的媒體來源中是否有相似或不同的覆蓋面,并以此作為工具來尋找主題討論的增長和下降的關聯性。

5 結論

本文提出了一種對新聞數據進行聚類的方法,通過基于本體的相似性估計對特定大眾媒體新聞數據進行預處理。此方法能夠得到隨時間變化的新聞集群分布。實驗表明,消息可以被分組為主題集群,每個集群代表一個主題。根據新聞信息的數量組成了主題的分布。同時可以觀察到在所觀察的時間段內,所選的大眾媒體對某一集群所代表的主題的討論的活躍度。

猜你喜歡
信息方法
學習方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 亚洲第一成年免费网站| 高h视频在线| 国产成人艳妇AA视频在线| 蜜臀AV在线播放| 亚洲激情区| 人人艹人人爽| 亚洲品质国产精品无码| 伊人国产无码高清视频| 亚洲午夜福利精品无码不卡| 成色7777精品在线| 亚洲精品久综合蜜| 伊在人亚洲香蕉精品播放| 免费观看成人久久网免费观看| 毛片免费高清免费| 久久精品丝袜| 色成人亚洲| 亚洲天堂自拍| 亚洲欧美综合另类图片小说区| 国产精品嫩草影院av| 色屁屁一区二区三区视频国产| 美女免费黄网站| 日本三级欧美三级| 71pao成人国产永久免费视频| 国产亚洲视频在线观看| 欧美精品成人一区二区在线观看| 久久国语对白| 亚洲欧美自拍中文| 亚洲日韩国产精品无码专区| 99ri精品视频在线观看播放| 无码内射在线| 欧美a级在线| 午夜国产精品视频| 亚洲视频免费播放| 999国产精品| 欧美色伊人| 精品国产Av电影无码久久久| 国产农村1级毛片| 国产一区二区三区日韩精品 | 亚洲不卡影院| 51国产偷自视频区视频手机观看| 亚洲中文在线视频| 国产内射在线观看| 久久久四虎成人永久免费网站| 凹凸国产分类在线观看| 色综合婷婷| 香蕉久久国产超碰青草| 久久美女精品| 99热这里只有精品久久免费| 精品一区二区三区四区五区| 波多野结衣AV无码久久一区| 美女内射视频WWW网站午夜| 日本黄色不卡视频| 一级毛片免费的| 色天堂无毒不卡| 国产国产人成免费视频77777| 特级做a爰片毛片免费69| 国内丰满少妇猛烈精品播| 国产亚洲高清视频| 亚洲av中文无码乱人伦在线r| 人妻精品久久无码区| 99re这里只有国产中文精品国产精品| 日本五区在线不卡精品| 国产精品网曝门免费视频| 99re在线观看视频| 亚洲午夜片| 亚洲精品成人福利在线电影| 国产精品第一区在线观看| 国产91九色在线播放| 国产自视频| 午夜精品久久久久久久2023| 福利片91| 精品综合久久久久久97超人该| 国产欧美日韩91| 9久久伊人精品综合| 蝴蝶伊人久久中文娱乐网| 精品小视频在线观看| av午夜福利一片免费看| 成人亚洲视频| 欧美在线视频不卡| 日本少妇又色又爽又高潮| 毛片免费高清免费| 欧美在线视频不卡|