999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談文本聚類算法對網絡熱點發現精準度的影響

2017-09-07 21:42:41陳瑜韓晨靖
中國管理信息化 2017年17期

陳瑜+韓晨靖

[摘 要] 面對輿情載體已從傳統媒體向互聯網轉移的新形勢,從網絡輿情熱點發現的主要技術出發,研究網絡輿情熱點發展的規律,準確把握網絡輿情熱點,提高網絡輿情的精準度。在此基礎上,重點分析文本聚類中不同種類的算法研究對網絡熱點發現精準度的影響。

[關鍵詞] 網絡輿情;熱點發現;文本聚類;精準度

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 17. 092

[中圖分類號] TP391 [文獻標識碼] A [文章編號] 1673 - 0194(2017)17- 0194- 02

0 引 言

網絡技術迅速發展的今天,互聯網儼然成了民眾關注社會萬象的首要通道。如何在網絡輿情信息采集的海量信息中快速準確地提取出熱點信息,準確地把握熱點并研究其形成的規律和發展的形勢,成為網絡熱點研究領域中急需解決的問題。如何在網絡輿情信息采集的基礎上進行輿情匯集,研究網絡輿情熱點發展的規律,準確把握網絡輿情熱點,提高網絡輿情的精準度,對于正確引導網絡輿論具有十分重要的現實意義。在網絡輿情熱點發現的研究中,以文本聚類算法技術研究居多,將文本聚類相關理論技術應用到網絡輿情熱點的發現,可以大大地提高熱點發現的準確度和有效性。因此文本聚類算法的研究對于網絡熱點信息的發現也就具有了十分重要的意義。

1 網絡熱點發現研究現狀

我國最早以 “輿情”為研究目標的研究所是始建于1999年10月的天津市社會科學院輿情研究所。目前國內對于網絡輿情熱點發現的研究,主要集中于兩個方面:對于中文的信息處理和數據挖掘的研究領域。

在中文的信息處理方面,主要是對于詞頻統計方式的研究,根據文獻中所述,中文信息處理方面主要涉及的技術有識別新詞、未統計過的詞、中文和英文的相關分詞技術等方面。在數據挖掘研究領域主要涉及的相關內容有:自動分類、文本的聚類、智能檢索以及相關輿情信息的采集等方面,并取得了一定的成果。如:錢愛兵分析了網絡輿情的基本情況,設計了一個基于主題的網絡輿情分析模型;王偉等根據對網絡輿情分析的需求,構建了基于聚類的網絡輿情熱點問題發現及分析系統。國外熱點發現與分析研究較為有名的如美國的TDT( Topic Detection and Tracking)研究項目,用以應對日益嚴重的互聯網信息爆炸問題,對新聞媒體信息流進行新話題的自動識別和已知話題的持續跟蹤。

2 文本聚類算法分析

聚類算法的研究開始于20世紀60年代,其所依據的思想方法起源于數值分類學的聚類分析。目前的聚類算法依據聚類劃分的結果是否擁有層次結構,可以將其劃分為層次法和平面劃分法兩大類,以及基于密度的方法、基于網格的方法和基于模型的方法。主要代表算法有:基于劃分的K-Means算法、基于層次的Single- Link和CURE算法、基于網格的STING算法、基于密度的DBSCAN算法、OPTICS 算法以及其他聚類算法。

2.1 基于層次的聚類方法

基于層次的聚類是將一個有n個對象的數據集D分解為若干層嵌套的分塊,根據層次的分解是自底向上還是自頂向下形成,層次結構分解是通過一個系統樹圖表示的。基于層次的聚類方法可以分為凝聚法和分裂法,層次聚類算法中典型代表是Single- Link和CURE算法。

Single-Link是一種層次凝聚算法,它為之后衍生出來的很多層次聚類算法提供了依據。Single-Link最大的優點是可以分層展示文本數據,該特點為人們瀏覽大規模文本數據集提供了非常大的幫助。

2.2 基于劃分的聚類方法

基于劃分的算法是給定一個具有n 個對象的文本集,將數據集劃分為k個子集,并且k≤n。基于劃分的算法有兩個步驟:首先,創建一個初始劃分,決定使目標函數最小化的k值,其次,采用一種迭代的重定位技術將每個對象分配到類中,保證每個類中至少要包含一個對象。劃分聚類算法中最具代表性的算法是K- Means算法。

K-Means的算法復雜度較低,且K-Means算法不僅效率高而且可伸縮性強。因此K-Means算法常用于處理大型的文本數據集。

2.3 基于密度的方法

基于密度的聚類算法最大的優點就在于它能夠發現任意形狀的簇, 能夠將孤立點保存起來作為后續處理。它與其他的聚類方法的區別在于:它不是基于各種樣本距離的方法而是基于密度的方法。該類方法的代表算法有:DBSCAN 算法、OPTICS 算法等。DBSCAN最大的優點就在于它能發現任意形狀的類,它成為自動和交互聚類分析的通用基礎,并為自動和交互的聚類分析計算出一個類的秩序。OPTICS算法不會顯式地產生一個數據集合,它是DBSCAN 算法的延伸,該算法被用來計算數據集中對象的擴展聚類序列,且不用考慮輸入參數的設置。

2.4 基于網格的方法

基于網格的聚類算法的主要思想是采用一個多分辨率的網格數據結構,把對象空間量化為有限數目的單元。所有的聚類操作都在這個網格結構 (即量化的空間)上進行。該方法所聚類出來的結果是不依賴數據的輸入順序的,對于大型數據 集中的高維數據進行聚類非常有效。STING 算法是基于網格聚類算法的典型例子,它使用的是多分辨率的聚類方法,在進行聚類的時候利用網格單元保存相關的統計信息,這些統計信息可以用作查詢處理。

2.5基于模型的方法

基于模型的方法試圖優化給定的數據和某些數學模型之間的適應性,它為每個類首先設定了一個模型,再去尋找數據與給定模型的最佳擬合。這種模型方法主要有兩種:統計學聚類方法和神經網絡聚類方法。自組織特征映射 (SOM ) 是神經網絡聚類方法中的代表,SOM算法對人的腦神經元的相關屬性進行模仿,該算法是作為神經網絡學習中不需要監督的一類算法。SOM算法簡單,對于復雜的求導、積分運算是不包含在其中的,并且可以很好地處理孤立點問題。endprint

2.6 算法分析

通過上面介紹的各種文本聚類算法, 可以看到現在最常用于文本聚類的算法是K-Means、Single-Link、DBSCAN和SOM四種算法,它們擁有一個共同的特征:即建立在距離或相似度計算的基礎之上。將常用的聚類算法從對象形狀、聚類粒度、初始條件、終止條件、能否適應動態數據、噪聲影響等方面的性能特點進行比較,可以得出:K-Means算法的對象形狀與其他三種算法不一樣,K-Means算法為凸形,其他三種算法都是任意形狀;四種算法的聚類粒度都不一樣,有各自的粒度值規定;K-Means和SOM算法有初始條件,Single-Link和DBSCAN算法沒有初始條件;且K-Means和DBSCAN算法的終止條件很精確,Single-Link和SOM算法的終止條件不精確,但是K-Means和DBSCAN算法要受到噪聲的影響。

3 文本聚類算法對熱點發現的影響

聚類作為一種知識發現的重要形式,日益受到重視,聚類算法的研究是為了要在海量的數據集中找出屬于同一類的數據。在聚類算法研究中,提出了一些對聚類算法評價的標準,這些標準包括:可擴展性、能夠處理噪聲數據和孤立點、能夠處理不同類型的屬性、高維性、能夠發現任意形狀的類、能夠根據用戶指定的約束條件進行聚類以及聚類的結果具有可用性和可解釋性。

因此,在使用聚類算法之后通常都會對聚類結果做出一個評價,以此來發現使用的聚類算法是否有效,這一步對于熱點發現研究分析來說是很重要的。在網絡熱點發現過程中,使用文本聚類算法將得到的數據樣本進行聚類,并得到聚類結果,再去判斷該聚類結果中每個類別包含的個數是否達到了最優,這在評價聚類結果的時候對于聚類評價指標的有效性來說就成為了一個很重要的方面。文本聚類是網絡熱點發現的核心,對于不同的聚類算法會有不同程度的有效性。通過對比各種聚類算法,有效性越高的聚類算法,對于熱點發現的精準性就越高。

主要參考文獻

[1]J B Pena-Shaff. and C Nicholls. Analyzing Student Interactions and Meaning Construction in Computer Bulletin Board Discussions[J]. Computers & Education,2004,42(3):243-265.

[2]曾依靈,許洪波.網絡熱點信息發現研究[J].通信學報,2007,28(12):141-146.

[3]錢愛兵. 基于主題的網絡輿情分析模型及其實現[J].現代圖書情報技術,2008,24(4):49-55.

[4]王偉,許鑫. 基于聚類的網絡輿情熱點發現及分析[J].現代圖書情報技術,2009,3(3):74-79.

[5]A K Jain,M N Murty,P J Flymn.Data Clustering: A Review[J].ACM Computing Surveys,1999,31(3):264-323.

[6]T Kohonen. The Self-Organizing Maps[J].Proceedings of the IEEE,1990,78(9): 1464-1480.endprint

主站蜘蛛池模板: 国产99在线观看| 在线播放精品一区二区啪视频| 人人澡人人爽欧美一区| 中文字幕 91| 亚洲an第二区国产精品| 国产一级特黄aa级特黄裸毛片| 韩日午夜在线资源一区二区| 国产精品区网红主播在线观看| 亚洲国产成人麻豆精品| 国产麻豆福利av在线播放 | 久久人人妻人人爽人人卡片av| 亚洲香蕉在线| 不卡视频国产| 99人妻碰碰碰久久久久禁片| 欧美日韩在线亚洲国产人| 国产91av在线| 污网站在线观看视频| 九色国产在线| 久久情精品国产品免费| 99视频在线观看免费| 国产精品制服| 日韩无码视频播放| lhav亚洲精品| 日韩专区第一页| 国产精品香蕉在线观看不卡| 黄色免费在线网址| 亚洲婷婷六月| 国产白浆在线| 99久久无色码中文字幕| 亚洲男人天堂2018| 欧洲亚洲欧美国产日本高清| 久久免费精品琪琪| 欧美精品成人| 欧美精品aⅴ在线视频| 欧美色综合网站| a级毛片一区二区免费视频| 天堂成人av| 欧美啪啪网| 久久综合结合久久狠狠狠97色| 国产日本欧美在线观看| 国产精品视频猛进猛出| 国产一区二区免费播放| 国产91麻豆视频| 男人天堂亚洲天堂| 91九色国产porny| 2020久久国产综合精品swag| 九九久久精品国产av片囯产区| 久久毛片网| 国产亚卅精品无码| 色婷婷成人| 亚洲无码电影| 欧美午夜理伦三级在线观看| 91久久国产综合精品女同我| 久久久久久午夜精品| 伊人大杳蕉中文无码| 91精品国产91欠久久久久| 欧美精品亚洲精品日韩专区| 久久鸭综合久久国产| 最新亚洲av女人的天堂| 一级毛片免费的| 国产91丝袜在线播放动漫| 男女男免费视频网站国产| 国产成人在线无码免费视频| 国产免费福利网站| 高潮毛片免费观看| 亚洲高清在线天堂精品| 欧美h在线观看| 国产永久无码观看在线| 婷婷成人综合| 在线观看国产黄色| 欧美一区精品| 国产在线第二页| 欧美一区二区三区国产精品| 亚洲Va中文字幕久久一区| 国产精品欧美激情| 国产超薄肉色丝袜网站| 成人午夜精品一级毛片| 久久99这里精品8国产| 青青草综合网| 国产欧美视频在线| 亚洲人成影视在线观看| 国内精品视频|