999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark技術的新聞信息聚類與熱點研究

2020-06-19 08:50:42杜文杰
科學與信息化 2020年10期
關鍵詞:大數據

杜文杰

摘 要 近年來,互聯網技術的快速更新迭代與智能終端的大規模應用,使互聯網中的資訊平臺飛速增加,新聞信息的報道量呈指數式增長,從而導致互聯網新聞資訊逐漸變得雜亂和臃腫。對于用戶來說,雖然能夠從新聞平臺的個性化推薦中獲取熱點新聞,但是這些推薦信息存在同質化嚴重、無法追蹤此類新聞發展趨勢等困難。因此,如何應用大數據技術來處理和分析海量新聞數據,為用戶提供并分析各個領域的新聞熱點分類,具有重要的研究意義。

關鍵詞 新聞;大數據;Spark;聚類;熱點

引言

隨著大數據時代的到來,各式各樣的新聞內容呈爆炸式增長[1]。面對海量的互聯網新聞資訊,用戶獲得了大量內容重復、雜亂無章的新聞信息。如何利用新聞內容聚類分析系統幫助用戶對各個領域的新聞信息進行分類并分析新聞熱點,從而使用戶快速地獲得有價值的信息,就具有了重要的研究意義。

Spark是一個開源的大數據分布式處理的平臺,是基于內存計算的大數據并行計算框架,主要用于大規模數據的分布式存儲和計算,具有高效、方便、可交互、可擴展性的特點,同時又可以保證系統的高容錯性和高可靠性[2]。如今,Spark架構已經在很多大型企業中得到了廣泛的應用,并取得了非常良好的效果。因此,基于Spark技術來構建新聞內容聚類及熱點研究系統,可以有效減少新聞大數據的處理分析時間。

1相關理論與技術基礎

1.1 Spark

Spark最初誕生于美國加州大學伯克利分校(UC Berkeley)的AMP實驗室,是一個可應用于大規模數據處理的快速、通用引擎。2013年,Spark加入Apache孵化器項目后,開始獲得迅猛的發展。Spark最初的設計目標是使數據分析更快一一不僅運行速度快,也要能快速、容易地編寫程序。為了使程序運行更快,Spark提供了內存計算,減少了迭代計算時的開銷;雖然,Hadoop已成為大數據的事實標準,但其MapReduce分布式計算模型仍存在諸多缺陷,而Spark不僅具備Hadoop MapReduce所具有的優點,且解決了Hadoop MapReduce的缺陷[1]。

1.2 Scrapy爬蟲技術

Scrapy是利用Python語言實現的一個爬蟲框架,用于抓取網頁內容,提取結構化數據并存儲,它基于Twisted實現異步網絡通信,并且擁有多個中間件接口,可以接收用戶的個性化爬蟲需求,靈活度高。同時,它利用布隆過濾器實現URL去重,防止因URL數量不斷增加而出現運行效率下降的問題;還提供多種數據輸出格式,如JSON、XML等,能夠和不同的存儲系統連接;能夠自動獲取網頁中的視頻、圖片等多媒體數據。基于這些優勢,Scrapy框架在各類數據挖掘任務中被廣泛應用。

1.3 K-Means聚類算法

K-Means是一種聚類算法,其中的K 值代表的是類別的數目,Means 代表均值。因此可以將K-Means算法理解為通過求均值對于數據進行聚類的算法。K-Means算法對于K值進行預先的設定,之后進行文本之間的相識度計算,主要是樣本與中心之間的計算,最后達到將相似性最高的文本都劃分到同一集合的效果。此算法需要不停地進行迭代操作來產生最優的結果。

2系統總體設計

此次研究目標是挖掘與追蹤各個新聞領域內的熱點信息,因此系統需要首先利用Scrapy網絡爬蟲技術來獲取新聞數據,并將獲取到的新聞數據集進行分詞和去停用詞等預處理操作,其次利用K-Means聚類算法對各個領域的新聞進行聚類劃分,以形成不同領域的新聞數據聚類集,然后對各個新聞聚類進行話題挖掘并追蹤熱度以便用戶能夠更加便捷地了解新聞資訊。

根據上述流程的描述,此分析系統主要分為4個模塊,即新聞數據獲取模塊、新聞數據預處理模塊、新聞數據聚類模塊和新聞熱點提取模塊。系統架構如圖1所示[2]。

3系統設計實現

3.1 新聞數據獲取

首先需要利用Scrapy網絡爬蟲技術抓取源新聞數據,數據獲取模塊被設計為僅收取新聞標題、發布的時間、新聞內容、用戶點贊數和評論數等有用信息,會過濾掉外部鏈接、廣告等與無關內容,以便后續的模型訓練。

3.2 新聞數據預處理

在完成新聞數據源的采集后,雖然此時的數據集中已沒有和系統目標無關的文本內容,但是由于計算機無法直接理解句子的內容,還需要對文本數據進行預處理操作,預處理操作分為分詞和去停用詞。分詞主要是針對新聞標題和新聞的正文內容,將其中的段落內容按照規則切分為單個詞語,切分后的詞語是文本向量化的基礎。經過分詞操作之后,會出現很多與表征文本內容不相關的詞語,如語氣詞、關聯詞和標點符號等,這些詞被統一稱作停用詞,他們的存在會模糊各個文檔之間的分類界限,因此在下一步操作之前還需要將停用詞去除。

預處理得出的結果存儲到MySQL數據庫中[3]。

3.3 新聞數據聚類

從MySQL數據庫中讀取預處理后的數據,使用TF-IDF函數來計算詞條的權值,使用向量空間模型(VSM)將預處理后的數據集向量化,向量空間模型將文檔映射為一個特征向量,式中是不同的詞條項,為在中的權值,其取值為在的出現頻率,具體公式為:

式中,是詞條在中出現頻率的函數,是含有詞條的文檔數目,是所有文檔的數目。文檔中詞條出現的頻率越高,則文檔對內容屬性的區分能力越強,其權值也越大。

文檔與文檔的相似度計算公式為:

根據文檔間相似度,再利用K-Means聚類算法對數據進行數據聚類分析。有數據集D,從D中任意選擇k個點作為初始聚類中心,記為,聚類算法步驟如下所示:

對剩余的每個樣本,分別對每個樣本與聚類中心的相似性進行計算,計算公為。若通過計算公式得到的結果越小則表明兩者間的相似性越強,這樣把樣本劃分入與之相似性最強的聚類里。再次聚對類中的樣本相似度利用公式進行計算,并求出其平均值,其中代表第類含有樣本的數量。

反復進行步驟(1)中的操作過程,當準則函數趨于穩定之后停止聚類算法的迭代[4]。

3.4 新聞熱點提取

(1)新聞話題熱度值計算

在獲得各領域新聞信息聚類后,需要對各個新聞聚類的熱度值進行計算,本系統按照話題相關報道數量、話題相關報道集中度和話題相關報道來源數量三個維度來計算新聞資訊的熱度值,計算公式為:,式中,n與m分別表示與話題C相關的報道與來源的數量;與分別表示與話題C相關的最終報道與首次報道的時間;N與M分別代表在特定期限至內獲得到的所有報道與來源的數量。

(2)熱點話題標題抽取

熱點話題詞指能較大程度地代表本條新聞的詞語,是能夠反映出新聞報道所闡述的主題。因此,熱點話題詞語的提取不僅僅要考慮詞頻、文檔頻率以及詞共現等方法,還要從語義方面對詞的權重進行考量,熱點話題詞提取計算公式如下:,式中,表示在新聞中不同的詞匯合集,對處于新聞聚類內的每一條新聞按照上述計算公式提取出關鍵詞后統計詞頻,生成前個關鍵詞即可作為該新聞聚類的熱點話題[5]。

4結束語

綜上所述,本文通過Scrapy網絡爬蟲技術抓取海量新聞稿件并進行預處理操作后,利用基于Spark系統架構和K-Means聚類算法對所抓取的各個領域的新聞熱點進行分析與追蹤,并對每一類新聞資訊進行實時分析。最終能夠使用戶自主選擇關注不同領域的熱點話題,并有效提升了新聞熱點挖掘與追蹤的性能。

參考文獻

[1] CNNIC.第41次中國互聯網絡發展狀況統計報告[R].北京:中國互聯網信息中心,2018.

[2] 肖劍楠,劉夢塵,劉世霞.新聞數據可視分析系統[J].計算機輔助設計與圖形學學報,2016,28(11):1863-1870.

[3] 萬曉霞,趙佳.基于聚類的網絡新聞熱點發現研究[J].現代計算機,2015(26):36-39.

[4] 武永亮,趙書良,李長鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學報,2017,31(5):138-145.

[5] 李洪利,王箭.基于用戶關聯的熱點話題檢測方法[J].計算機與現代,2015(4):20-25.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 亚洲swag精品自拍一区| 国产精品99久久久久久董美香| 高清码无在线看| 日韩精品一区二区三区大桥未久| 露脸真实国语乱在线观看| 日本a级免费| 2022国产无码在线| 久久精品国产亚洲麻豆| 91破解版在线亚洲| 亚洲欧洲日韩综合色天使| 国产超碰一区二区三区| 国产乱肥老妇精品视频| 成人国产小视频| 亚洲综合婷婷激情| 999国产精品永久免费视频精品久久 | 亚洲欧洲国产成人综合不卡| 国产精品自拍露脸视频 | 国产精品30p| 亚洲 日韩 激情 无码 中出| 欧美高清视频一区二区三区| 精品国产www| 国产高清免费午夜在线视频| 伊人色综合久久天天| 欧美www在线观看| 亚洲高清中文字幕在线看不卡| 欧美日韩成人在线观看| 亚洲AⅤ综合在线欧美一区| 狠狠操夜夜爽| 成人毛片免费观看| 天堂在线亚洲| 91精品福利自产拍在线观看| 四虎国产在线观看| 首页亚洲国产丝袜长腿综合| 亚洲国产理论片在线播放| 91精品国产无线乱码在线| 911亚洲精品| 国产成人在线小视频| 国产福利不卡视频| 色噜噜久久| 欧美综合一区二区三区| 亚洲精品无码人妻无码| 日韩小视频在线观看| 欧美福利在线观看| 激情视频综合网| 秋霞国产在线| 99福利视频导航| 亚洲最大看欧美片网站地址| 欧美第九页| 亚洲欧美色中文字幕| 色哟哟国产精品一区二区| 国产免费福利网站| 日本黄色a视频| 九色91在线视频| 国产一区亚洲一区| 成人在线观看一区| 在线观看精品自拍视频| 超碰aⅴ人人做人人爽欧美 | 国产91透明丝袜美腿在线| 免费国产小视频在线观看| 伊人查蕉在线观看国产精品| 亚洲精品第一在线观看视频| 国产精品自在线拍国产电影| 无码国产伊人| 香蕉在线视频网站| 69综合网| 亚洲色大成网站www国产| 99人体免费视频| 国产黄色片在线看| 97国产精品视频人人做人人爱| 久久无码高潮喷水| 88国产经典欧美一区二区三区| 99这里只有精品免费视频| aaa国产一级毛片| 玩两个丰满老熟女久久网| 一区二区三区四区在线| 91区国产福利在线观看午夜| 草草线在成年免费视频2| 久久精品日日躁夜夜躁欧美| 国产精品视频第一专区| 九九热精品在线视频| 亚洲色图欧美激情| 一本大道视频精品人妻|