999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于無(wú)監(jiān)督的熱點(diǎn)話題發(fā)現(xiàn)研究

2022-02-17 00:29:53聞彬,熊飛,陳薇
電腦知識(shí)與技術(shù) 2022年35期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

聞彬,熊飛,陳薇

摘要:高校“百度貼吧”經(jīng)常會(huì)有用戶發(fā)表一些討論帖,這些信息對(duì)于學(xué)校來(lái)說(shuō)是非常有用的。但是未經(jīng)處理的信息無(wú)法實(shí)時(shí)給當(dāng)局者提供幫助。因此,文章提出一種利用自然語(yǔ)言處理方法獲取“貼吧”信息,并實(shí)時(shí)發(fā)現(xiàn)熱點(diǎn)話題的方法。本文首先獲取網(wǎng)絡(luò)文本信息,對(duì)文本進(jìn)行預(yù)處理,包括分詞、去除停用詞,再計(jì)算文本的TF-IDF值,最后利用無(wú)監(jiān)督學(xué)習(xí)方法(K-means)對(duì)文本進(jìn)行聚類,從而獲取熱點(diǎn)話題。從實(shí)驗(yàn)結(jié)果中可以看出,本方法可以有效地發(fā)現(xiàn)“貼吧”中的熱點(diǎn)話題。

關(guān)鍵詞:自然語(yǔ)言處理;熱點(diǎn)話題;機(jī)器學(xué)習(xí);K-means

中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2022)35-0016-03

1 概述

眾所周知,互聯(lián)網(wǎng)已經(jīng)成為當(dāng)前人們?nèi)粘+@取信息的主要途徑。基于此,人們也樂(lè)衷于在互聯(lián)網(wǎng)上發(fā)表自己的看法和觀點(diǎn)。但是絕大部分信息可能是沒(méi)有太大意義的,需要過(guò)濾掉不太重要的信息,并從中挖掘出有意義的信息。熱點(diǎn)話題發(fā)現(xiàn)就是在此背景下應(yīng)運(yùn)而生,并引起了廣泛的關(guān)注。

熱點(diǎn)話題發(fā)現(xiàn)的目的是在海量的數(shù)據(jù)信息中,找到引起大家共鳴、為大家津津樂(lè)道的信息,為當(dāng)局或者管理者提供實(shí)時(shí)的情報(bào),也為輿情監(jiān)控和觀點(diǎn)抽取等提供支持。

2 研究現(xiàn)狀

話題發(fā)現(xiàn)(Topic Detection)[1]是指分析大量語(yǔ)料,在無(wú)需人工監(jiān)督的情況發(fā)現(xiàn)文本中的熱點(diǎn)話題。話題發(fā)現(xiàn)常用的方法主要有三類:基于聚類的、基于主題模型和基于詞共現(xiàn)的方法。Xie[2]等人針對(duì)微博信息,首先提出用句子嵌入法來(lái)表示微博文本,然后再提取微博子主題,最后利用K-means[3]聚類算法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果顯示,該算法取得較好的效果。Mathioudakis[4]等人建立了TwitterMonitor系統(tǒng),該系統(tǒng)可以通過(guò)實(shí)時(shí)監(jiān)測(cè)微博文本信息,并實(shí)時(shí)發(fā)現(xiàn)熱點(diǎn)話題,最后創(chuàng)建圖表來(lái)對(duì)熱點(diǎn)話題進(jìn)行顯示。

目前的話題發(fā)現(xiàn)學(xué)習(xí)方式主要有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。

2.1 有監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中,通過(guò)給出訓(xùn)練數(shù)據(jù)集,并在數(shù)據(jù)集中標(biāo)注類別,訓(xùn)練機(jī)器并讓其能夠識(shí)別出是哪個(gè)類別,圖1為有監(jiān)督學(xué)習(xí)流程圖。

有監(jiān)督學(xué)習(xí)原理如圖2所示。

圖2中,分別對(duì)狗類和貓類進(jìn)行了正確分類以及標(biāo)注,然后利用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,獲取到模型的相應(yīng)參數(shù),再根據(jù)訓(xùn)練好的模型,對(duì)新的樣本進(jìn)行判定,如圖3所示,以此獲取新樣本的屬性。

監(jiān)督學(xué)習(xí)算法根據(jù)任務(wù)的不同,又分為了回歸分析(Regression)和統(tǒng)計(jì)分類(Classification)兩大類。回歸和分類的算法區(qū)別在于輸出變量的類型,定量輸出稱為回歸,或者說(shuō)是連續(xù)變量預(yù)測(cè);定性輸出稱為分類,也稱為離散變量預(yù)測(cè)。回歸不是本文的重點(diǎn),因此在這里不再講述,本文重點(diǎn)講述分類算法。以上介紹的是利用算法對(duì)模型訓(xùn)練后,能夠?qū)ⅰ肮贰焙汀柏垺边M(jìn)行分類。常用的分類算法有以下幾種:K-近鄰算法(K-Nearest Neighbors,KNN)、決策樹(Decision Trees)、神經(jīng)網(wǎng)絡(luò)分類(Neural Network)、支持向量機(jī)(Support Vector Machine, SVM)等。

2.2無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)是指在缺乏足夠的先驗(yàn)知識(shí)時(shí),讓計(jì)算機(jī)幫助解決這些問(wèn)題,或者至少提供一部分幫助,因此無(wú)監(jiān)督學(xué)習(xí)使用的訓(xùn)練集是沒(méi)有任何標(biāo)注的,目的是發(fā)現(xiàn)數(shù)據(jù)集本身的聚集性。如圖4所示,訓(xùn)練集本身沒(méi)有任何標(biāo)注,通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練之后,聚類為2大類,同時(shí)也無(wú)法判定類別。

常見的無(wú)監(jiān)督學(xué)習(xí)算法分為聚類和降維兩大類,熱點(diǎn)發(fā)現(xiàn)使用的為聚類算法,本文僅討論聚類算法。常見的聚類算法有:K-均值(K-means)聚類、層次聚類(Hierarchical Clustering)、基于密度聚類(Mean Shift)等。聚類算法的目的是將相似的樣本聚在一起,聚類只需要考慮樣本之間的相似度,而不需要考慮類別數(shù)目。以K-means為例,該算法用來(lái)對(duì)n維空間內(nèi)的樣本根據(jù)歐式距離遠(yuǎn)近程度進(jìn)行聚類。

3 方法

本文以學(xué)校的百度貼吧為討論對(duì)象,從對(duì)應(yīng)的學(xué)校的“貼吧”中獲取該學(xué)校的討論文本。然后對(duì)文本進(jìn)行處理,從而獲得該學(xué)校的熱點(diǎn)話題。

從貼吧中獲取到相應(yīng)文章,分別為Text1,Text2,Text3,..., Textn,熱點(diǎn)發(fā)現(xiàn)原理如圖2所示。

3.1 分詞

對(duì)文本進(jìn)行分詞,使用Jieba[5]進(jìn)行分詞。

Jieba的常用三種模式:

1)精確模式,盡可能將句子精確切分;

2)全模式,快速地將句子中的可能成詞的詞語(yǔ)都切分出來(lái),不足之處在于無(wú)法解決漢語(yǔ)詞語(yǔ)的歧義問(wèn)題;

3)搜索引擎模式,在第一種模式的基礎(chǔ)上,對(duì)句子中出現(xiàn)的長(zhǎng)詞語(yǔ)再次精確切分,目的是提高召回率,一般適用于搜索引擎中的分詞工作。

本文采用第一種方式精確模式對(duì)文本進(jìn)行處理。

3.2 去除停用詞

停用詞是指那些對(duì)句子沒(méi)有多大意義的詞語(yǔ)。在不犧牲句子含義的情況下,可以忽略。因此,需要將這些停用詞進(jìn)行刪除,經(jīng)過(guò)整理,共獲得1598個(gè)停用詞,在分詞后的文本中刪除停用詞。

3.3計(jì)算文本的TF-IDF值

首先考慮計(jì)算文本之間的相似度。本文使用TF-IDF對(duì)文本進(jìn)行向量化。下面介紹一下TF-IDF的原理。

[TF-IDF=TF×IDF]? ? ? ? ? ? ? ? ?(1)

其中:

[TF=某個(gè)詞語(yǔ)在文章中的出現(xiàn)次數(shù)文章的總詞數(shù)]? ? ? ? ?(2)

[IDF=log(語(yǔ)料庫(kù)的文檔總數(shù)包含該詞的文檔數(shù)+1)]? ? ? ? ? ?(3)

TF-IDF用來(lái)評(píng)估某個(gè)詞語(yǔ)對(duì)于某篇文檔或者整個(gè)語(yǔ)料庫(kù)中其中一份文檔的重要性。例如,當(dāng)一個(gè)詞語(yǔ)在一篇文檔中出現(xiàn)頻率很高,同時(shí)在其他文檔中出現(xiàn)頻率很低,甚至沒(méi)有出現(xiàn),那就認(rèn)為該詞語(yǔ)對(duì)于該詞語(yǔ)所在的文檔具有很強(qiáng)的代表性,適用于對(duì)文本進(jìn)行處理。其中詞頻(Term Frequency,TF)就是指一個(gè)給定的詞語(yǔ)在該文本中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)的歸一化處理,以防止它偏向長(zhǎng)的文本,從而忽略短文本的重要性。逆向文件頻率(Inverse Document Frequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量。

3.4 向量空間模型

向量空間模型首先是假設(shè)文本內(nèi)的詞語(yǔ)之間是不相關(guān)的,再利用向量將文本表示成向量模式,充分利用權(quán)重信息計(jì)算文檔之間存在的相關(guān)性[6]。

計(jì)算出TF-IDF值之后,為防止出現(xiàn)維度過(guò)高問(wèn)題,采用Compressed Sparse Row Format(CSR)壓縮稀疏行矩陣進(jìn)行存儲(chǔ)。

利用余弦相似度計(jì)算文本之間的距離,用向量空間中兩個(gè)向量的余弦值作為衡量?jī)蓚€(gè)個(gè)體差異大小,如圖6所示。

其中,A、B分別為2個(gè)文本向量,Dist(A,B)為AB間的距離,cosθ為相似度,cosθ值越接近1,就表示夾角越接近0度,也就是兩個(gè)向量越相似,從而判定文本之間的相似程度similarity。

[similarity=cosθ=A·BAB=i=1nAi×Bii=1nAi2×i=1nBi2]? ? ? (4)

3.5 利用K-means聚類算法進(jìn)行聚類

(1) 隨機(jī)生成K個(gè)聚類中心;

(2) 計(jì)算每個(gè)樣本與每個(gè)聚類中心的距離(余弦相似度),離哪個(gè)聚類中心近,就劃分到哪個(gè)聚類中心所屬的集合當(dāng)中;

(3) 重新計(jì)算每個(gè)集合的聚類中心;

(4) 重復(fù)2、3步,直到收斂(聚類中心偏移很小,或者計(jì)算聚類中心次數(shù)超過(guò)閾值);

(5) 返回所有聚類標(biāo)簽。

從“百度貼吧”下載湖北輕工職業(yè)技術(shù)學(xué)院、武漢理工大學(xué)、華中師范大學(xué)下載各1000篇文本,利用本文的方法對(duì)文本進(jìn)行處理,處理完后,發(fā)現(xiàn)熱點(diǎn)話題如表1所示。

4 結(jié)束語(yǔ)

熱點(diǎn)話題發(fā)現(xiàn)有助于快速獲取網(wǎng)絡(luò)中的當(dāng)前熱點(diǎn),能夠及時(shí)為當(dāng)局提供快速響應(yīng)的依據(jù)。從實(shí)驗(yàn)中可以看出,本文提供的方法可以有效且及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中的熱點(diǎn)話題。不僅在貼吧平臺(tái)可以使用,在有數(shù)據(jù)來(lái)源的情況下,同樣可以作為社會(huì)輿論的監(jiān)測(cè)工具。但是本實(shí)驗(yàn)中數(shù)據(jù)量有限,實(shí)驗(yàn)結(jié)果可能與實(shí)際情況存在稍許偏差,后期筆者將重點(diǎn)放在增加實(shí)驗(yàn)數(shù)據(jù)和改進(jìn)實(shí)驗(yàn)方法的工作上。

參考文獻(xiàn):

[1] Allan J.Topic Detection and Tracking:Event-based Information Organization[M].Boston,MA:Springer US,2002.

[2] Yu X,Bin Z,Yang O.A method based on sentence embeddings for the sub-topics detection[J].Journal of Physics:Conference Series,2019,1168:052004.

[3] Naik M P,Prajapati H B,Dabhi V K.A survey on semantic document clustering[C]//2015 IEEE International Conference on Electrical,Computer and Communication Technologies.Coimbatore,India.IEEE,2015:1-10.

[4] Mathioudakis M,Koudas N.TwitterMonitor:trend detection over the twitter stream[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.Indianapolis,Indiana,USA.New York:ACM,2010:1155-1158.

[5] https://github.com/fxsjy/jieba.

[6] 徐云青,徐義峰,李舟軍.基于VSM的中文信息檢索[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2007,16(4):21-23.

【通聯(lián)編輯:唐一東】

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 日韩成人免费网站| 国产福利在线免费观看| 国产主播喷水| 亚洲成人77777| 亚洲精品视频免费| 免费无码一区二区| 99re这里只有国产中文精品国产精品 | 日韩在线网址| 国产在线91在线电影| 一级毛片中文字幕| 欧美性爱精品一区二区三区 | 亚洲精品亚洲人成在线| 久久精品丝袜| 毛片三级在线观看| 日本福利视频网站| 久久性妇女精品免费| 91 九色视频丝袜| 久久精品无码一区二区日韩免费| 亚洲日韩国产精品无码专区| 亚洲一区二区成人| 亚洲人成在线精品| 国产SUV精品一区二区| 国产在线精品人成导航| Aⅴ无码专区在线观看| 91日本在线观看亚洲精品| 自拍偷拍一区| 粉嫩国产白浆在线观看| 呦系列视频一区二区三区| 久久综合伊人 六十路| 亚洲成A人V欧美综合| 亚洲国产精品无码久久一线| 国产流白浆视频| 国内精品自在自线视频香蕉| 亚洲精品桃花岛av在线| 中文成人在线视频| 国产丝袜丝视频在线观看| aa级毛片毛片免费观看久| 欧美成人午夜视频| 精品日韩亚洲欧美高清a| 欧洲一区二区三区无码| 在线看片免费人成视久网下载| 国产精品无码一二三视频| 欧美日韩在线成人| 国产色婷婷视频在线观看| 亚洲人成影视在线观看| 亚洲一区国色天香| 欧美在线网| 2021国产乱人伦在线播放| 亚洲福利视频网址| 久久亚洲国产视频| 美女扒开下面流白浆在线试听| 国产欧美精品一区aⅴ影院| 国产人成网线在线播放va| 亚洲国产成人久久精品软件| 久热这里只有精品6| 亚洲综合久久一本伊一区| 日本三级精品| 亚洲人成网站色7777| 国产区福利小视频在线观看尤物 | 国产精品lululu在线观看| 亚洲天堂视频在线观看| 成人午夜视频在线| 欧美日韩国产成人在线观看| 日韩高清无码免费| 激情無極限的亚洲一区免费| 欧美性爱精品一区二区三区| 三级国产在线观看| 日韩黄色精品| 亚洲啪啪网| 青草视频免费在线观看| 日韩美一区二区| 91在线激情在线观看| 欧美黑人欧美精品刺激| 伊在人亚洲香蕉精品播放| 亚洲精品欧美日本中文字幕| 97成人在线观看| 国产亚洲精品yxsp| 欧美亚洲欧美区| 亚洲αv毛片| 国产一区三区二区中文在线| 欧美啪啪视频免码| 伊在人亞洲香蕉精品區|