999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CBOW模型的個(gè)人微博聚類研究

2018-07-10 09:25:54宋添樹李江宇張沁哲
電腦與電信 2018年4期
關(guān)鍵詞:語(yǔ)義

宋添樹 李江宇 張沁哲

(內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古自治區(qū) 包頭 014010)

1 引言

微博是一種以140個(gè)字符為上限的新興的網(wǎng)絡(luò)社交平臺(tái),根據(jù)應(yīng)用目的分為官方微博和個(gè)人微博兩種。其中官方微博主要發(fā)表與其所在單位相關(guān)的廣告、通告以及其領(lǐng)域內(nèi)事件等等,官方微博的內(nèi)容隨時(shí)間順序排列整齊、不容易混亂。近年來(lái),隨著個(gè)人電腦、智能手機(jī)的普及,人們逐漸將社交眼光放在了微博平臺(tái)上。由于微博平臺(tái)的便利性和計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展,個(gè)人微博的數(shù)量和事件的復(fù)雜度逐年增加,如果用戶想了解一個(gè)人的專業(yè)領(lǐng)域、興趣愛好以及表達(dá)方式方法等內(nèi)容需要逐條瀏覽每條微博,不易查詢,費(fèi)時(shí)費(fèi)力,如果將相似事件的微博聚類在一起可以極大地解放勞動(dòng)力,快速地對(duì)博主形成認(rèn)知,還可以為其他應(yīng)用軟件提供數(shù)據(jù)便利。當(dāng)前國(guó)內(nèi)外的聚類算法大都基于字?jǐn)?shù)較長(zhǎng)的文檔類型,主要方法有詞共現(xiàn)法、詞頻-文檔頻率法等刻畫空間點(diǎn)的分布再根據(jù)各類聚類算法對(duì)距離的不同應(yīng)用進(jìn)行聚類,此類方法聚類精確度較低,只能應(yīng)用于粗放型的分類,對(duì)于個(gè)人微博字?jǐn)?shù)較少的特殊情況來(lái)看,矩陣和二維表中出現(xiàn)0的情況十分普遍,因此并不十分適用個(gè)人微博中語(yǔ)義復(fù)雜、事件多變的情況。

因此本文依上述問題提出了基于語(yǔ)義相似度的個(gè)人微博聚類算法,將語(yǔ)義相似度大的微博聚類在一起。首先將個(gè)人微博進(jìn)行分詞并去除停用詞;其次使用機(jī)器學(xué)習(xí)CBOW模型訓(xùn)練詞語(yǔ)向量;再次使用改進(jìn)的曼哈頓距離法計(jì)算相似度;最后使用clarans法進(jìn)行聚類。

例如馮小剛微博:

(1)“《芳華》是一封情書,寫給青春的,寫給軍隊(duì)的,寫給那些女兵的大熒幕作品?!?/p>

(2)“青春不老,佳音終傳,誰(shuí)的等待都不愿辜負(fù)。12月15日,電影全國(guó)及北美地區(qū)同步上映?!?/p>

按照詞頻-文檔頻率以及詞共現(xiàn)法分析,這兩條微博并不相關(guān),但是在語(yǔ)義層面上來(lái)看這兩句話都與“電影”相關(guān),因此本文的研究目的就是將語(yǔ)義層面上相似度大的微博聚類在一起,使用戶可以分類查看自己感興趣的內(nèi)容。綜合考慮了個(gè)人微博特點(diǎn),采用python語(yǔ)言爬取個(gè)人微博;使用jieba分詞工具進(jìn)行精細(xì)分詞并去除停用詞;形成0、1組成的向量空間;使用CBOW模型訓(xùn)練詞語(yǔ)向量,縮短訓(xùn)練窗口,降低維度;根據(jù)較低維度的向量距離計(jì)算文本相似度;最后進(jìn)行聚類。

2 相關(guān)工作

文本聚類工作應(yīng)用十分廣泛,主要針對(duì)論文一類的文檔歸類;將混雜在一起不同領(lǐng)域的文章有效地分開,根據(jù)用戶設(shè)定的聚類粒度大小將文檔聚類。有相同屬性的文章聚類在一起,不同屬性的文檔則不屬于一類。

他人的相關(guān)研究對(duì)本文起了重要的作用。在中文語(yǔ)義相似度計(jì)算方面,趙世奇等人提出了LFIC(Linguistic Features Indexing Clustering)方法進(jìn)行文本聚類,提取了文本的主題,同時(shí)基于漢語(yǔ)語(yǔ)言學(xué)將語(yǔ)義層面的相似度考慮進(jìn)去[1]。劉群、李素建等人創(chuàng)建了How Net詞匯庫(kù)將詞語(yǔ)之間的關(guān)系用樹狀關(guān)系或網(wǎng)狀關(guān)系表示,根據(jù)從屬關(guān)系和并列關(guān)系計(jì)算詞語(yǔ)之間的相似度。這種體系對(duì)語(yǔ)義相似度的影響十分深遠(yuǎn)[2]。王小林等人根據(jù)How Net體系結(jié)構(gòu)運(yùn)算量較大的弊端改進(jìn)了語(yǔ)義相似度的計(jì)算公式,使相似度更加精確[3-4]。

在文檔聚類方面,Vesanto J等人提出了一種自組織映射數(shù)據(jù)挖掘(SOM)算法,該算法可以有效利用數(shù)據(jù)原型來(lái)可視化和探索數(shù)據(jù)的屬性,與傳統(tǒng)k-means算法相比有了明顯的提高[5]。Ding C H等人主要針對(duì)k-means聚類算法中高維災(zāi)難問題提出了優(yōu)化算法PCA(Principal Component Analysis),通過降維降噪算法優(yōu)化聚類結(jié)構(gòu),實(shí)驗(yàn)數(shù)據(jù)使用DNA和互聯(lián)網(wǎng)新聞數(shù)據(jù)證明了PCA算法比傳統(tǒng)k-means算法有更快的聚類速度和準(zhǔn)確程度[6]。Elhamifar E等人針對(duì)現(xiàn)如今高維數(shù)據(jù)集合,如圖像、視頻、文本和網(wǎng)頁(yè)文檔,以及DNA微陣列數(shù)據(jù)等等,這些高維數(shù)據(jù)大多是多個(gè)低維數(shù)據(jù)的子集組成的集合,提出了一種稀疏子空間聚類的算法對(duì)位于低維子空間聯(lián)合中的數(shù)據(jù)點(diǎn)進(jìn)行聚類[7]。Vimalarani C等人和Zhang D等人采用支持向量機(jī)SVM無(wú)監(jiān)督學(xué)習(xí)結(jié)合一般聚類算法應(yīng)用于文本聚類運(yùn)算中,并取得了良好的效果[8-9]。

3 微博聚類

聚類過程主要分為五個(gè)部分:(1)預(yù)處理階段分詞并去除停用詞,漢語(yǔ)語(yǔ)言處理主要基于詞語(yǔ)來(lái)進(jìn)行,將微博語(yǔ)句分詞將很大程度上方便計(jì)算過程。本文采用python語(yǔ)言調(diào)用jieba分詞詞庫(kù)將微博句子分詞;(2)將分詞結(jié)束后的微博文本形成一個(gè)詞匯-文檔0,1分布的二維表格,將這個(gè)二維表格作為機(jī)器學(xué)習(xí)的輸入端;使用CBOW機(jī)器學(xué)習(xí)方法訓(xùn)練詞匯向量,縮短微博所代表的向量維度;(3)由詞匯向量可以算得微博語(yǔ)句向量;(4)句子向量代表了空間中的一個(gè)一個(gè)的點(diǎn),采用本文改進(jìn)的曼哈頓距離計(jì)算微博之間的相似程度;(5)根據(jù)所計(jì)算的相似程度最后采用clarans方法聚類。示意圖如圖1所示。

3.1 預(yù)處理

個(gè)人微博的聚類算法首先要獲取數(shù)據(jù)集合,本文主要基于用戶數(shù)量最多的新浪微博獲取個(gè)人微博數(shù)據(jù)。首先將個(gè)人微博數(shù)據(jù)集合按照時(shí)間順序排列形成最初的數(shù)據(jù)集合。最初的數(shù)據(jù)集合中含有無(wú)法處理的雜質(zhì)內(nèi)容,例如表情、圖片、視頻、音頻等。預(yù)處理的過程就是將這些無(wú)法通過正常自然語(yǔ)言處理進(jìn)行計(jì)算的部分去除,過濾掉微博中的雜質(zhì)之后形成個(gè)人微博集合T={t1,t2,...,tn}。此時(shí)個(gè)人微博集合中僅含有漢字部分。

將個(gè)人微博集合進(jìn)行分詞、去除停用詞處理,將處理之后的集合表示為Tr={tr1,tr2,...,trn}。

圖1 個(gè)人微博聚類示意圖

3.2 機(jī)器學(xué)習(xí)

CBOW模型(Continuous Bag-of-Words)是一種用于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型。CBOW模型的訓(xùn)練輸入是某一個(gè)特征詞的上下文相關(guān)的詞對(duì)應(yīng)的詞向量,而輸出就是特定的一個(gè)詞的詞向量。其中,輸入詞向量為詞袋模型刻畫的詞向量,輸出為Softmax函數(shù)的浮點(diǎn)數(shù)降維的詞語(yǔ)向量。若給出訓(xùn)練詞序列w1,w2,...,wn,CBOW的訓(xùn)練目的是使每個(gè)詞語(yǔ)的平均對(duì)數(shù)概率最大化。

C(wn)為模型輸出詞語(yǔ)向量結(jié)果,N為訓(xùn)練詞語(yǔ)的個(gè)數(shù),k為訓(xùn)練窗口的大小。給出詞語(yǔ)wn從訓(xùn)練窗口-k到k之間計(jì)算正確預(yù)測(cè)詞語(yǔ)wn+j的對(duì)數(shù)概率。概率函數(shù)p通過Softmax函數(shù)刻畫。

使用CBOW模型,給出大量語(yǔ)料庫(kù)訓(xùn)練詞語(yǔ)向量,獲得個(gè)人微博語(yǔ)句中每一個(gè)詞的詞語(yǔ)向量的值。本文實(shí)驗(yàn)綜合考慮計(jì)算機(jī)性能以及算法優(yōu)化這兩方面內(nèi)容給定訓(xùn)練窗口為50維度。

3.3 個(gè)人微博句子向量

通過3.2節(jié)中利用CBOW模型訓(xùn)練得出詞語(yǔ)向量。每一個(gè)詞語(yǔ)都有一個(gè)特定的向量表示,每個(gè)個(gè)人微博語(yǔ)句都有一個(gè)或多個(gè)詞語(yǔ)組成,下面的過程就是將詞語(yǔ)向量合理地表示為句子向量。

詞語(yǔ)向量的本質(zhì)是預(yù)測(cè)這個(gè)詞語(yǔ)上下文出現(xiàn)其他詞語(yǔ)的可能性,因此將句子向量看作是詞語(yǔ)向量的平均值能夠有效地表達(dá)出這種關(guān)系。

圖2 句子向量

其中vec(sentence)是句子向量,vec(wsi)是一個(gè)句子中的詞語(yǔ)向量。

每個(gè)個(gè)人微博語(yǔ)句向量表示完成之后,每個(gè)向量可以視作一個(gè)n維空間中的一個(gè)點(diǎn)。因此多個(gè)個(gè)人微博相當(dāng)于在同一個(gè)n維空間中點(diǎn)的集合。將這些點(diǎn)合理地劃分粒度大小以及根據(jù)粒度大小合理地聚類。

3.4 聚類

獲得個(gè)人微博所代表的點(diǎn)之后進(jìn)行個(gè)人微博之間相似度計(jì)算,句子之間的相似度歸結(jié)為兩個(gè)點(diǎn)之間的距離大小,普通的距離算法例如歐幾里得距離會(huì)產(chǎn)生大量的浮點(diǎn)數(shù)運(yùn)算,在空間維度較高的條件之下會(huì)消耗大量的時(shí)間,因此優(yōu)化距離算法是個(gè)人微博這類短文本聚類的首要工作。

曼哈頓距離(Manhattan distance)又稱為出租車距離,描述的是兩個(gè)點(diǎn)之間橫縱坐標(biāo)之間距離而并非兩個(gè)點(diǎn)之間直線距離。利用曼哈頓距離計(jì)算兩點(diǎn)距離可以節(jié)省大量的計(jì)算機(jī)浮點(diǎn)運(yùn)算。

其中Dis(p1,p2)為兩個(gè)個(gè)人微博所代表的點(diǎn)之間的曼哈頓距離。D1至Dn為n維向量空間,1到n維之間距離之差求和就是兩個(gè)點(diǎn)之間的具體距離,即個(gè)人微博之間的相似度。

得出兩個(gè)微博相似度之后采用clarans算法對(duì)個(gè)人微博進(jìn)行聚類工作。

clarans(A Clustering Algorithm based on Randomized Search,基于隨機(jī)選擇的聚類算法),中心思想是隨機(jī)選擇一定數(shù)量的聚類中心,然后不停地移動(dòng)聚類中心使得每個(gè)簇的成員到聚類中心的距離最小。每次計(jì)算兩個(gè)點(diǎn)的距離時(shí),使用公式(4)計(jì)算。

算法1 clarans聚類

輸入:聚類中心的個(gè)數(shù)n,每個(gè)中心最大半徑maxneighbor

輸出:聚類結(jié)果

1 獲得聚類中心{vec1,...,vecn}

2 for n←1 to n

3Do←n

4 直到每個(gè)簇的成員到聚類中心距離最小時(shí)停止循環(huán)

5 do for n←1 to n

6 do ωk←{}設(shè)置第n個(gè)簇為空集

7 for n←1 to N

8 計(jì)算空間點(diǎn)到中心距離

9 if(veci

10 歸于此類

11 返回結(jié)果

4 實(shí)驗(yàn)

新浪微博是近幾年來(lái)新興的即時(shí)網(wǎng)絡(luò)分享平臺(tái),其用戶數(shù)量龐大、內(nèi)容復(fù)雜多樣為本文提供了良好的數(shù)據(jù)來(lái)源。因此使用新浪微博作為測(cè)試數(shù)據(jù)很具有代表性。

本文采用python語(yǔ)言編寫爬取程序,再根據(jù)微博爬取結(jié)果進(jìn)行聚類。

實(shí)驗(yàn)節(jié)選自吳京,于謙,樊振東,李開復(fù)4人總計(jì)5000條左右的微博作為實(shí)驗(yàn)數(shù)據(jù)。本文采用對(duì)比實(shí)驗(yàn)來(lái)分析研究結(jié)果,分別采用BIRCH算法、DBSCAN算法進(jìn)行對(duì)照。

實(shí)驗(yàn)使用F值度量,F值為準(zhǔn)確率與召回率的調(diào)和平均值。

圖3 對(duì)比實(shí)驗(yàn)

如圖3所示,本文方法相比BIRCH聚類算法以及DBSCAN聚類算法有較為明顯的提高,其中樊振東的個(gè)人微博信息按時(shí)間順序排列較為整齊,因此三種聚類算法區(qū)別不明顯。因此本文方法在個(gè)人微博時(shí)間線較為混亂時(shí)更加有效。

5 結(jié)束語(yǔ)

本文采用CBOW模型訓(xùn)練個(gè)人微博文本取得詞語(yǔ)向量,句子由詞語(yǔ)組成,將詞語(yǔ)向量計(jì)算獲得個(gè)人微博句子向量。個(gè)人微博向量可以視作空間中的一個(gè)點(diǎn)。根據(jù)曼哈頓距離計(jì)算個(gè)人微博相似度以此簡(jiǎn)化算法,計(jì)算完相似度之后,根據(jù)clarans聚類算法將個(gè)人微博聚類。實(shí)驗(yàn)結(jié)果表明,本文方法比傳統(tǒng)聚類算法BIRCH聚類算法以及DBSCAN聚類算法有較為明顯的提高。

研究工作的數(shù)據(jù)來(lái)源相對(duì)較少,聚類結(jié)果準(zhǔn)確度依然有待提高;聚類數(shù)據(jù)量大時(shí),會(huì)造成時(shí)間消耗量大的問題。因此找到精度以及時(shí)間消耗平衡是下一步研究的工作。

[1]趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學(xué)報(bào),2007,21(2):58-62.

[2]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì).臺(tái)北,2002:59-79.

[3]王小林,王義.改進(jìn)的基于知網(wǎng)的詞語(yǔ)相似度算法[J].計(jì)算機(jī)應(yīng)用,2011,31(11):3075-3077.

[4]王小林,王東,楊思春,等.基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度算法[J].計(jì)算機(jī)工程,2014,40(12):177-181.

[5]Vesanto J,Alhoniemi E.Clustering of the self-orga-nizing map[J].IEEE Transactions on Neural Networks,2000,11(3):586-600.

[6]Ding C H,He X.K-means clustering via principal component analysis[C].International conference on machine learning,2004.

[7]Elhamifar E,Vidal R .Sparse Subspace Clustering:Algorithm,Theory,and Applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2765-2781.

[8]Vimalarani C,Subramanian R ,Sivanandam S N,et al.An Enhanced PSO-Based Clustering Energy Optimization Algorithm for Wireless Sensor Network[J].The Scientific World Journal,2016.

[9]Zhang D,Chen S.Clustering Incomplete Data Using Kernel-Based Fuzzy C-means Algorithm[J].Neural Process-ing Letters,2003,18(3):155-162.

猜你喜歡
語(yǔ)義
為什么字看久了就不認(rèn)識(shí)了
語(yǔ)言與語(yǔ)義
“社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
“吃+NP”的語(yǔ)義生成機(jī)制研究
“V+了+NP1+NP2”中V的語(yǔ)義指向簡(jiǎn)談
認(rèn)知范疇模糊與語(yǔ)義模糊
“V+X+算+X”構(gòu)式的語(yǔ)義功能及語(yǔ)義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
“熊孩子”語(yǔ)義新探
“深+N季”組配的認(rèn)知語(yǔ)義分析
主站蜘蛛池模板: 亚洲人成色在线观看| 日本免费精品| 四虎影视库国产精品一区| 亚洲看片网| 国产精品蜜芽在线观看| 幺女国产一级毛片| 四虎国产精品永久在线网址| 无码一区中文字幕| 国产无遮挡裸体免费视频| 欧美成人A视频| 亚洲综合片| 国产aⅴ无码专区亚洲av综合网| 欧洲在线免费视频| 亚洲激情区| 国产在线精品人成导航| 国产在线无码av完整版在线观看| 日本免费a视频| 日韩精品免费一线在线观看| 日韩 欧美 小说 综合网 另类| 亚洲一区波多野结衣二区三区| 嫩草国产在线| 青草91视频免费观看| 亚洲国产精品成人久久综合影院| 国产亚洲精久久久久久久91| 色亚洲成人| 婷婷综合色| 国产污视频在线观看| 99热这里只有精品免费国产| 玖玖免费视频在线观看| 99精品伊人久久久大香线蕉| 亚洲 欧美 日韩综合一区| 午夜小视频在线| 少妇被粗大的猛烈进出免费视频| 国产在线自乱拍播放| 97视频在线精品国自产拍| 欧美激情成人网| 日本妇乱子伦视频| 久久成人18免费| 亚洲综合极品香蕉久久网| 精品国产免费观看| 亚洲精品无码av中文字幕| 国产成熟女人性满足视频| 一级高清毛片免费a级高清毛片| 国产成人综合网在线观看| 亚洲国模精品一区| 国产91丝袜在线播放动漫 | 麻豆国产原创视频在线播放| 无码福利视频| 国产欧美在线观看精品一区污| 干中文字幕| 成人国产精品一级毛片天堂| 小13箩利洗澡无码视频免费网站| 91无码网站| 先锋资源久久| 亚洲人成网7777777国产| 一本久道久久综合多人| 婷婷色丁香综合激情| 国产成人免费手机在线观看视频| 国产成人亚洲精品色欲AV| 狠狠综合久久| 拍国产真实乱人偷精品| 特级精品毛片免费观看| 亚洲资源在线视频| 日韩精品一区二区三区大桥未久| 亚洲无线一二三四区男男| 国产精品白浆无码流出在线看| 亚洲天堂高清| 国产成人久久777777| 免费视频在线2021入口| 国内精品自在欧美一区| 亚洲中文在线看视频一区| 毛片在线看网站| 女人18毛片一级毛片在线| 一本大道视频精品人妻| 91麻豆精品国产91久久久久| 日韩精品无码免费一区二区三区 | 亚洲一区免费看| 国产第一页屁屁影院| 国产欧美日韩在线一区| 又爽又大又光又色的午夜视频| 五月综合色婷婷| 手机精品福利在线观看|