999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融入公眾情感投入分析的微博話題發現與細分方法

2016-11-30 08:22:03琚春華鮑福光戴俊彥
電信科學 2016年7期
關鍵詞:文本情感

琚春華,鮑福光,戴俊彥

(1.浙江工商大學現代商貿研究中心,浙江 杭州 310018;2.浙江工商大學計算機與信息工程學院,浙江 杭州 310018;3.浙江工商大學工商管理學院,浙江 杭州 310018)

一種融入公眾情感投入分析的微博話題發現與細分方法

琚春華1,2,鮑福光1,3,戴俊彥2

(1.浙江工商大學現代商貿研究中心,浙江 杭州 310018;2.浙江工商大學計算機與信息工程學院,浙江 杭州 310018;3.浙江工商大學工商管理學院,浙江 杭州 310018)

為了提升微博話題發現效率以及發現質量問題,提出了一種融入公眾情感投入分析的微博話題快速發現與細分方法,促使話題演化,進而產生新話題及其情感變化趨勢。首先,基于情感詞典和TFDF值在歷史語料庫中挖掘常用情感詞并構建情感詞庫;其次,快速抽取情感文本,結合Sigmoid函數檢測情感投入密集期,保證話題事件挖掘的質量;最后,通過改進的模糊C-均值聚類算法在新的微博數據中發現高質量話題。實驗結果表明,本文方法能夠有效提升移動環境下的話題發現效率及質量。

情感詞;微博;話題發現;NE-FCM

1 引言

微博作為代表性的移動社交應用,允許人們即時分享最新消息和想法。2013年,新浪微博注冊用戶已超過5.36億戶,微博內容涵蓋了社會生活的各個方面,公眾不僅僅是在網上沖浪,同時也成為了波浪的制造者。而據參考文獻[1]所述,合理采用新浪微博API所爬取的數據將有較大的價值。研究微博的使用狀況發現,微博作為一種社交工具在移動互聯網時代正慢慢承擔著短信、博客、即時通信等功能,提供的服務種類也日趨多樣化,總體來說微博成為了用戶表達自身感受,分享各種信息的主要途徑。微博文本在這一過程中作為一種用戶情感的微觀實例,以短文本的形式傳遞出用戶對話題的情感信息,如對新聞和當前事態的評論等。

通過對信息進行話題的自動識別和已知話題的持續跟蹤,幫助人們發現網絡中討論的熱點,一直是自然語言處理領域的研究重點[2]。以微博為代表的社交工具不同于傳統媒體,在移動互聯網時代具有數據量大、文本較短、產生速度快和非結構化等特點,加大了其話題發現的難度[3]。情感投入分析是目前分析Web文本的一種重要方向和方法。同時,互聯網公眾在網絡上發表的語言狀態情感存在一種“涌現和傳播演化”現象,針對上述現象,本文提出了一種融入公眾情感投入分析的微博話題快速發現與細分方法。其中,基于情感詞計算文本情感投入是一種有效的方法,其主要思想是應用情感詞匯在文本中的出現情況來預測和衡量文本情感投入以及公眾的各類態度和趨勢,從而使話題分化,衍生出新的話題并引導網友的討論,如參考文獻[4,5]。網友對“#話題 #”進行討論,發表自己的評論,包含了自己的觀點,促使老話題衍生新話題,促使話題演化,進而產生新話題及其情感變化趨勢。

2 相關研究

隨著移動互聯網的迅猛發展,海量信息的挖掘方法逐漸受到研究人員的關注。社交應用內的話題信息發現是新形勢下的重要研究方向,目的在于幫助人們應對信息過載問題,從而提升處理效率。傳統的話題發現方法可以追溯到VSM(vector space model,向量空間模型)的信息數據映射。但使用VSM是建立在特征向量維數穩定的基礎之上,一旦各文本特征維數相差較大就會影響最終的計算效果。針對這一現象,孫宏綱等人[6]利用知網詞庫,提出了一種VSM擴展的解決方法。Kaleel S B等人[7]提出了一種基于LSH(location sensitive hash,位置敏感散列)函數的話題事件檢測算法,采用兩次LSH分別獲取網絡數據中的獨立事件和交叉事件。但使用上述方法進行話題挖掘,在文本特征處理上將耗費大量的時間,不適用于移動互聯網下海量信息的話題發現。

[8]提出了基于情感符號的在線突發事件檢測方法,通過已有的微博情感符號抽取相應文本以滿足實時處理要求。O’Connor等人通過采用Opinion Finder中的主觀詞匯對微博進行情感標記,并將結果同手工測得的指數進行聯系,發現消費者信心指數和政治情感指數都與從微博中計算出來的情感相關聯[5]。楊小平等人[9]利用微博表情符號對微博文本進行情感傾向標注,構建情感詞典。馮時等人[10]利用句法進行博文的情感分析,發現在普通主題搜索的基礎上進行情感傾向分析,將有助于主題趨勢的理解。應晶等人[11]認為公眾在表達觀點時,往往會用情感詞來突顯,而這些情感詞會隨著話題的周期變化而變化。因此,通過情感詞典構建,分析微博或Web文本情感傾向,對當前熱門話題發現及其變化趨勢有著重要的作用。由此得知,從公眾情感角度分析文本類數據擁有一定的理論基礎且能夠有很好的擴展性。

本文在傳統話題發現研究基礎之上進行了改進,通過情感詞結合微博特性挖掘情感密集期,約簡了文本集。設計了一種融入公眾情感投入分析的微博話題快速發現與細分方法,采用名詞性實體改進話題聚類算法,增強話題發現效率及質量。

3 融入公眾情感投入的微博話題快速發現模型

3.1 基本定義

定義 1 情感詞庫:S=<s1,s2,…,sn>,si表示情感詞。

定義 2 微博文本集:D=<d1,d2,…,dn>,其中,di={w1,w2,…,wn},wi表示文本di的特征項。時間T內的文本可表示為DT={dT}。

定義3 情感文本:DS={d1S,d2S,…,dnS}表示為存在情感詞的文本集合,diS即情感文本,S表示情感詞庫。

定義4 話題集:在時間T內,基于情感投入檢測到的話題集表示為:CT={c1T,c2T,…,cnT},其中,話題 ciT={d1,d2,…,dn}表示由一系列相應文本組成的話題。

3.2 模型框架

本文主要目的在于通過微博情感投入密集期的檢測達到約簡文本集、有效提升話題發現效率及質量的目的,并以此為基礎增強移動互聯網環境下的話題掌控力。為此,需解決以下幾個問題:

·如何構造適宜的微博情感詞庫;

·如何檢測情感投入密集期及快速抽取情感文本;

·如何基于微博短文本特征提升發現話題價值。

基于上述問題,本文提出的模型框架如圖1所示,主要由微博情感詞庫構建、情感投入密集期檢測、融入情感投入的微博話題發現三大模塊組成。其中,模塊1基于知網的HowNet情感詞典、中國臺灣大學的Ntusd情感詞典和大連理工大學的情感詞匯本體庫構建初始情感詞庫;微博影響力代表著文本在話題發現中的參考價值,模塊2中結合微博影響力并采用Sigmoid函數檢測情感投入密集期;模糊C-均值算法是眾多模糊聚類算法中應用最成功的算法[12],模塊3通過改進的FCM算法,設計了一種基于名詞性實體的模糊C-均值算法NE-FCM。

3.3 微博情感詞庫構建

情感詞庫的構建過程中面臨兩個問題:詞庫情感詞在微博語言環境中需具有一定的適用性,即出現概率;基于情感詞庫抽取情感投入較多的文本,匹配時間往往過長。因此,本文基于大規模微博語料庫和三大著名情感詞集,運用TF和DF算法相結合的TFDF值以及雙字散列索引表實現具體情感詞庫的構建,詞庫滿足語料庫和情感詞集變化而動態更新的需求。語料庫的采集,利用中國爬盟所提供的WeiboCrawlerApp爬取了600萬條新浪微博,每條微博作為一個文本單位。

在文本特征選擇和權重計算領域,TFIDF算法因其計算簡單、較高的準確率和召回率受到廣泛應用[13,14]。逆向文件頻率(IDF)是指某文本集D的特征詞 wi,根據其在文本di中出現的頻率賦予相應權重,而給予只在少數文檔中出現的特殊詞較高的權重,顯然無法適用于微博情感詞庫的構建需求。

因此本文在對三大情感詞集進行冗余處理后,首先基于語料庫過濾非常用低頻特征,即計算情感詞的最大值,再乘以文本頻數DF,記為si的TFDF值。在實際微博環境中,由于大量推廣類信息的影響,增加了部分情感詞的TF值,故本文采用增加DF值的方式提高微博情感詞庫的代表性。經過上述步驟,本文從600萬條微博語料庫中共挖掘得到1 231個適用情感詞。詞庫構建后很容易以順序表的方式存儲在硬件設備中,但海量數據的查找匹配效率會成為制約其發展的重要因素。在微博情感詞庫中各長度情感詞的統計見表1。

表1 情感詞長度統計

從表1可以發現,微博情感詞庫中長度為2的情感詞約占據了一半,一般情感詞長度越長所占比例越小。基于以上事實,采用雙字散列索引[15]的數據結構,對于最大匹配和全切分法,其處理速度比以往的逐字二分提高了57.5%和60.5%。情感詞索引結構如圖2所示。

圖1 融入公眾情感投入分析的微博話題快速發現模型

圖2 情感詞散列索引示意

3.4 情感投入密集期檢測

情感投入密集期檢測是基于已有情感詞庫對微博短文本進行情感詞匹配,挖掘出微博用戶情感投入的密集期,并將文本按密集期進行歸類。對于微博文本集D,根據微博情感詞庫S及雙字散列索引結構快速抽取情感文本diS,算法如下。

算法1 情感文本抽取

輸入 微博文本集D,微博情感詞庫S。

輸出 情感文本集DS

(1)?d∈D,設定文本標記 flag=false;

(2)For A in d:

If首字散列索引 a≠null:flag=true

若a的指針q1為空,continue;

否則得到以A字起始的次字散列索引b;

在b中通過散列定位到字B,由指針q2得到以AB起始的剩余字串組L;

將上述行星機構各構件的轉角代入式(3),再將α等于齒圈與太陽輪齒數比代入,經推導,可求出雙星行星機構的裝配條件為

按正向最大匹配規則從L中依次匹配,取得情感詞s;

If遍歷結束:flag=true,將文本 d加入 DS;

(3)重復步驟(1)、(2),直至所有文本分類完成。

伴隨著話題熱度的提升,用戶微博文本中采用情感詞表達自身觀點的比例會明顯增加,出現情感投入的密集期。本文對經過算法1抽取得到的情感文本集DS進行情感密集期挖掘。對于抽象的微博文本情感投入,以情感詞作為其標準度量是現今公認的有效方法。而對于微博環境,信息流的傳播過程中高影響力微博對公眾情感表達有直接導向作用,例如明星微博往往會引起涌現情況的發生。

為此,本文引入測算微博影響力的轉發R(d)和評論M(d)指標以及統計得到的文本情感詞數Num(d),規范化求和得到f(d)。Sigmoid函數對數據細微變化敏感,并可以抑制高頻次商業微博對數值結果的影響。其函數圖像如圖3所示。

圖3 Sigmoid函數

本文采用Sigmoid函數構造密集期度量函數。設時間T內文本數為NT,搜尋不同時段,選用整體均值作為度量標準,稱時間T為公眾情感投入的密集期,設f(d)的中值為q、均值為 u,若:

從而情感文本集DS根據不同情感密集期T而被劃分為幾個不相交的子集。

3.5 微博話題發現

對情感密集期內的文本集DT,采用改進的模糊C-均值聚類方法NE-FCM發現微博話題。由于真實語言環境的復雜性,特征詞隸屬于各聚類對象之間的界限往往不是很清晰。一種處理廣泛存在不確定性的模糊集合論,對中文語境下的模糊概念劃分具有較好的處理效果,其中,FCM算法通過不斷迭代優化目標函數J(U,C),得到樣本點di對所有類中心的隸屬度矩陣U[uij],從而決定樣本點的類屬c,以達到對數據樣本自動分類的目的。

其中,m為模糊度,distij表示第 j個樣本到類 ci的歐式距離。

由上述可見,算法采用類內平均加權誤差的方法不斷優化目標函數J(U,C),一旦改變量小于閾值ε或達到最大迭代次數則停止。對任一初始聚類中心C0,由式(2)可知隸屬度矩陣U中各列獨立,依據拉格朗日乘子法計算一階式后可知:

得到當目標函數J(U,C)有解時,隸屬度uij及聚類中心ci滿足的必要條件,即式(3)、式(4)。因此可知 FCM 算法將聚類結果C看作由初始聚類中心C0出發的一種映射,不斷迭代。微博文本話題集中,各類樣本間數目往往相差較大,極易發生收斂到局部極小點的情況。

在對大量以微博為代表的短文本進行分析的基礎上,發現以人名、地名、時間等為代表的名詞性實體在文本中擁有較強的代表性,選用名詞性實體較多的點作為聚類中心會具有更好的話題發現效果,從而提出了一種基于名詞性實體的模糊C-均值聚類算法(NE-FCM)。基于NLPIR詞性標識系統,在名詞性特征詞中計算DF值進行篩選,避免多余計算消耗。從而將文本的詞空間劃分為名詞性實體集及一般特征項集,如:

采用歐式距離計算名詞性實體空間和特征項空間距離,定義新的文本點di和dj之間的距離為:

其中,β為柔性參數,且β<0.5。包含的相同名詞性實體越多,兩者之間距離越小。

為避免算法依賴初始聚類中心的缺陷,本文轉變隨機初始值為滿足名詞性實體代表性的有目的的初始聚類中心選擇,具體步驟如下:

步驟1 計算任意文本點di和dj之間的距離,生成點距離矩陣Dist,選取擁有最短距離的兩文本點的中間值作為c10;

步驟2 選定距離閾值α,依據Dist矩陣從與C10兩點距離都大于閾值α的文本點中選擇c20;

步驟3 如上所述,依據Dist矩陣在余下文本點集中尋找與已確定類屬的點距離都大于閾值α的點,并以此確定初始聚類中心ci0。

可以看到,本文方法通過不斷搜索距離矩陣Dist,避免了大量因為計算距離產生的時間消耗。雖然犧牲了部分精確度,但在后續迭代過程中完全允許類似初始值的選取方式。基本滿足了在不同名詞性實體表征空間內的聚類需求。文本特征矩陣往往具有較高的維數,本文采用PCA主成分依次降維。

采用NE-FCM算法的基本步驟如下。

算法2 基于名詞性實體的模糊C-均值聚類算法(NE-FCM)

輸入 情感密集期T內相關文檔DT,最大迭代次數iter,聚類數 Cn,閾值 ε。

輸出 聚類CT={ciT}。

(1)?d∈D,形成文檔d的特征詞項劃分;

(2)依據式(6),聚類數 Cn和上述步驟選出初始聚類中心C0;

(3)計算目標函數J(U,C),利用矩陣范數比較相鄰兩次隸屬度U,若小于ε或達到最大迭代次數iter,則算法停止;

(4)重新計算隸屬度矩陣 U及聚類中心ci,重復步驟(3)。

對情感密集期T內的文本集DT經過NE-FCM算法后,各文本被分到不同的類c,由于同一話題時間延續的不確定性,本文采用話題相似性度量的方式進行合并。

4 實驗及結果分析

4.1 實驗數據分析

驗證本文提出的融入公眾情感投入分析的微博話題快速發現方法的有效性,語料庫構建的數據為2013年7月采集得到的600萬條新浪微博。為保證研究內容意義,使用在 2013年 11月 1-21日內包含“二胎”關鍵字的95 404條有效微博作為數據集,在以上數據集中進行實驗,所有數據都通過新浪微博API獲得。本文實驗操作環境為 Windows7 64位,Intel Pentium4,4 GB內存的 PC。采用Python作為數據處理工具。本文通過Python接口,運用張華平博士發布的NLPIR漢語分詞系統,并去除代詞、語氣助詞等高頻出現但無實際意義的停用詞,提升算法性能。

表2是以天為單位的數據集中情感文本的分布情況,可以發現每日微博文本中超50%的文本會運用情感詞表達,而總體來說數據集中平均78.45%的微博有用情感詞表達自身情感或觀點的習慣。這也從側面證明了本文使用情感詞作為公眾情感投入的衡量以及數據集重要約簡指標的有效性。

表2 情感文本比例

進一步驗證了公眾情感投入中情感詞的使用規律,設定時間窗口T為0.5天,并以圖4所示內容說明。圖4中曲線分別展示了各時間窗口內情感詞與文本數量,其Pearson相關指數為0.91,一方面說明本文情感詞庫構建方法的有效性;另一方面說明了結合情感詞作為微博短文本的密集期發現指標符合數據潛在規律,對于數據集進行話題發現有較強的指導價值。

圖4中14條柱體分別標注了運用本文方法挖掘得到的情感密集期以及其時間窗口序號。微博話題的高速傳播期一般在2~3天,可以看到密集期基本涵蓋了所有數據時段,過濾數據的同時仍擁有較高的代表性。

4.2 實驗結果及分析

本文采用上述融入公眾情感投入分析的微博話題發現方法框架進行對比實驗,設定算法最大迭代次數為1 000,閾值ε=10-6,模糊度m=2。在各時間窗口內分別設定聚類數為25,構成最終的話題列表。在Singlepass、FCM算法中不進行名詞性實體標識,聚類各時間窗口內數據集;本文NE-FCM算法聚類情感密集期內的數據集。由于實驗數據量大,人工分類所有微博話題將耗費大量的時間,本文采用如下方式對實驗結果進行評估。

(1)發現時間

發現時間是指數據集中話題發現的時間消耗。時間越短越能體現相應方法的優越性。從表3中可以看出,本文算法平均在1.8 min。其中,最快檢測時間小于1 min,平均檢測時間接近Singlepass檢測時間。

(2)準確率

圖4 數據分布情況

準確率為算法檢測出的話題集中相關文檔數與話題文檔總數的比例,是衡量話題發現精度的重要指標。對于檢測出的話題列表集合,抽取其中10個話題計算其準確率,人工判定微博文本是否屬于此話題。其結果見表4。

表3 檢測時間比較

表4 算法準確率對比

由表4可以看出,本文算法具有相對較好的準確率,平均準確率超過84%,能夠適應微博環境下的話題發現要求。與傳統的Singlepass、FCM話題發現方法相比,本文通過情感密集期的挖掘與名詞性實體的標注可以避免大量的非目標文本的干擾,有效提升話題發現準確率。

(3)命中率

命中率為算法檢測出的話題占參考話題的比例,是衡量算法發現話題能力的重要指標。為確保參考事件的完備性,參閱了新浪微博風云榜以及各大主流網站當時有關的新聞報道,人工標注“二胎”相關話題作為參考話題,包括“國家放開單獨二胎政策”、“馬伊琍文章懷二胎”以及“山東長島放開二胎人口負增長”在內的參考話題共計31個。分別選取各時間窗口中文本集準確率 Top12、Top16、Top20、Top24的類,合并得到最終話題列表。話題命中率比較結果如圖5所示。

圖5 話題命中率對比

從圖5看出,3種算法都可以檢測出大部分微博話題,NE-FCM算法通過對情感密集期內的數據集操作,明顯擁有更高的話題發現效率。雖然FCM方法在Top12擁有較好的命中率,但隨著合并類數的增多,無法避免冗余數據引起的話題模糊問題,導致命中率增長緩慢,而Singlepass算法則受制于低準確率的影響。本文方法通過情感密集期的選擇,約簡數據集的同時保證了話題發現的完備性,NE-FCM算法在不同范圍內選擇初始聚類點,保證了算法話題發現的穩定性,結合較高的話題準確率,在較小合并類值的條件下,已經達到較高的話題命中率。

(4)話題發現質量分析

本文通過設定情感密集期約簡數據集,大大降低了處理數據的規模,其目的在于提升微博話題發現效率以及發現質量。發現話題的質量主要可由準確率和命中率組成,從圖6可以看出,隨著情感密集期窗口數的增加,準確率逐漸降低,命中率迅速升高。

圖6 話題發現質量分析

因此合理選擇情感密集期窗口數不僅可以大幅降低數據處理規模,提升話題發現效率,也有助于話題發現質量的提高,降低研究人員工作的復雜度。進一步,在本文方法得到的相關話題文本集中取Top6的情感詞。從表5中可以看出,公眾對話題1多采用改革、重大等情感詞,表明對政策類話題的高關注度以及重視程度;對話題2采用支持、如愿以償等情感詞,表明對這一話題人物的支持及祝福;而對話題3,公眾更多表達了對結果的驚訝以及對事件原因的評論。表5表明,通過高質量話題可以較清晰地分析得到公眾對相關話題的情感態度。

表5 話題情感詞

5 結束語

移動互聯網社交應用的快速發展,加大了對社會熱點話題挖掘的需求。本文提出了一種融入公眾情感投入分析的微博話題快速發現與細分方法。采用構建情感詞庫的方式適應微博語言環境,挖掘情感密集期,從而提升微博話題發現效率以及發現質量。實驗證明,本文提出的方法在處理以微博為代表的海量短文本方面有較強的準確率、命中率和實用性,進而可以發現廣大用戶的話題情感態度和興趣特征,構建用戶話題模型,廣泛應用在信息服務業和商業等領域的推薦,為信息服務推薦奠定良好基礎,也是下一步研究的重點。

參考文獻:

[1] 陳舜華,王曉彤,郝志峰.基于微博API的分布式抓取技術[J].電信科學,2013,29(8):146-149.CHEN S H,WANG X T,HAO Z F.A distributed data-crawling technology for microblog API[J].Telecommunications Science,2013,29(8):146-149.

[2]張曉艷,王挺.話題發現與追蹤技術研究 [J].計算機科學與探索,2009,3(4):347-357.ZHANG X Y,WANG T.Research of technologies on topic detection and tracking[J].Journal of Frontiers of Computer Science&Technology,2009,3(4):347-357.

[3]MCANDREW A J,MOSHFEGHI Y,JOSE J M.Building a large-scale corpus for evaluating event detection on Twitter[C]//The 22nd ACM International Conference on Information&Knowledge Management,October 27-November 1,2013,San Francisco,USA.New York:ACM Press,2013:409-418.

[4]李生琦,田巧燕,湯承.基于《<知網>》詞匯語義相關度計算的消歧方法[J].情報學報,2009,28(5):706-711.LI S Q,TIAN Q Y,TANG C.Disambiguating method for computing relevancy based on HowNet semantic knowledge[J].Journalofthe China Society forScientific Andtechnical Information,2009,28(5):706-711.

[5]O’ CONNOR B,BALASUB R,ROUTLEDGE B R,et al.From tweets to polls:linking text sentiment to public opinion time series[C]//The Fourth International AAAI Conference on Weblogs and Social Media,May 23-26,2010,Washington,DC,USA.Palo Alto:AAAI Press,2010:122-129.

[6] 孫宏綱,陸余良,劉金紅,等.基于HowNet的 VSM模型擴展在文本分類中的應用研究[J].中文信息學報,2007,21(6):101-108.SUN H G,LU Y L,LIU J H,et al.A study of the application of VSM expansion in text categorization based on HowNet[J].Journal of Chinese Information Processing,2007,21(6):101-108.[7]KALEEL S B,ABHARI A.Cluster-discovery of Twitter messages for event detection and trending[J].Journal of Computational Science,2015(6):47-57.

[8]張魯民,賈焰,周斌,等.一種基于情感符號的在線突發事件檢測方法[J].計算機學報,2013,36(8):1659-1667.ZHANG L M,JIA Y,ZHOU B,et al.Online bursty events detection based on emoticons[J].Chinese Journal of Computers,2013,36(8):1659-1667.

[9]桂斌,楊小平,張中夏,等.基于微博表情符號的情感詞典構建研究[J].北京理工大學學報,2014(5):537-541.GUI B,YANG X P,ZHANG Z X,et al.Research on building lexicon for sentiment analysis based on the Chinese microblogging[J].Journal of Beijing Institute of Technology,2014(5):537-541.

[10]馮時,付永陳,陽鋒,等.基于依存句法的博文情感傾向分析研究[J].計算機研究與發展,2012(11):2395-2406.FENG S,FU Y C,YANG F,et al.Blog sentiment orientation analysis based on dependency parsing[J].Journal of Computer Research and Development,2012(11):2395-2406.

[11]陳旻,朱凡微,吳明暉,等.觀點挖掘綜述[J].浙江大學學報(工學版),2014(8):1461-1472.CHEN M,ZHU F W,WU M H,et al.Survey of opinion mining[J].Journal of Zhejiang University(Engineering Science),2014(8):1461-1472.

[12]齊淼,張化祥.改進的模糊 C-均值聚類算法研究 [J].計算機工程與應用,2009,45(20):133-135.QI M,ZHANG H X.Research on modified fuzzy C-means clustering algorithm[J].Computer Engineering and Applications,2009,45(20):133-135.

[13]范云滿,馬建霞.基于LDA與新興主題特征分析的新興主題探測研究[J].情報學報,2014,33(7):698-711.FAN Y M,MA J X.Detection of emerging topics based on LDA and feature analysis of emerging topics[J].Journal of the China Society for Scientific and Technical Information,2014,33(7):698-711.

[14]賀亮,李芳.基于話題模型的科技文獻話題發現和趨勢分析[J].中文信息學報,2012,26(2):109-115.HE L,LI F.Topic discovery and trend analysis in scientific literature based on topic model[J].JournalofChinese Information Processing,2012,26(2):109-115.

[15]李慶虎,陳玉健,孫家廣.一種中文分詞詞典新機制——雙字哈希機制[J].中文信息學報,2003,17(4):13-18.LI Q H,CHEN Y J,SUN J G.A new dictionary mechanism for Chinese word segmentation[J].Journal of Chinese Information Processing,2003,17(4):13-18.

Discovery and segmentation method in micro-blog topics based on public emotional engagement analysis

JU Chunhua1,2,BAO Fuguang1,3,DAI Junyan2
1.School of Computer and Information Engineering,Zhejiang Gongshang University,Hangzhou 310018,China 2.Contemporary Business and Trade Research Center of Zhejiang Gongshang University,Hangzhou 310018,China 3.School of Business Administration,Zhejiang Gongshang University,Hangzhou 310018,China

To improve the discovery efficiency and quality of micro-blog topic,a method of rapid discovery and segmentation in micro-blog topics based on public emotional engagement analysis was proposed,it would prompt evolution of the topics,then generate new topics and gain emotional change trend.Firstly,common emotional words were mined from corpus to build emotional thesaurus based on emotional word dictionary and TFDF.Then,emotional text was extracted quickly and sigmoid function was utilized to detect the intensive period of emotional engagement,ensuring the validity of topic mining.Besides,an improved adaptive FCM was used to cluster and discover topics.The experimental results show that this method can enhance the efficiency and quality of topic discovery in mobile environment.

emotional word,micro-blog,topic discovery,NE-FCM

s:The National Natural Science Foundation of China(No.71571162),The National Key Technology R&D Program of China(No.2014BAH24F06),Zhejiang Province Philosophy Social Sciences Planning Project(No.16NDJC188YB),Natural Science Foundation of Zhejiang ProvinceofChina(No.LY14F020002),KeyResearchInstitutesofSocialSciencesandHumanitiesMinistryofEducation(No.14JJD630011,No13JDSM16YB)

TP311

A

10.11959/j.issn.1000-0801.2016158

2016-03-09;

2016-06-03

國家自然科學基金資助項目(No.71571162);國家科技支撐計劃基金資助項目(No.2014BAH24F06);浙江省哲學社會科學規劃課題(No.16NDJC188YB);浙江省自然科學基金資助項目(No.LY14F020002);教育部人文社會科學重點研究基地項目資助(No.14JJD630011,No.13JDSM16YB)

琚春華(1962-),男 ,博 士 ,浙 江 工 商 大 學 教授、博士生導師、校長助理,計算機與信息工程學院院長,主要研究方向為智能信息處理、數據挖掘、電子商務與物流優化等。

鮑福光(1986-),男,浙江工商大學博士生,主要研究方向為智能信息處理、數據挖掘和供應鏈協同合作。

戴俊彥(1990-),男,浙江工商大學碩士生,主要研究方向為數據挖掘、智能信息處理等。

猜你喜歡
文本情感
如何在情感中自我成長,保持獨立
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 久久久久九九精品影院| 国产亚洲欧美在线中文bt天堂| 丁香六月综合网| 久热精品免费| 久久久久亚洲av成人网人人软件| 国产青榴视频| www.国产福利| 国产精品一区不卡| 五月天香蕉视频国产亚| 免费AV在线播放观看18禁强制| 亚洲成人手机在线| 国产素人在线| 精品一区二区三区视频免费观看| 无码人妻热线精品视频| 精品伊人久久大香线蕉网站| 亚洲无码一区在线观看| 在线不卡免费视频| 欧美一区二区三区不卡免费| 国产96在线 | 潮喷在线无码白浆| 黄色不卡视频| 老司机久久99久久精品播放| 亚洲成人77777| 一级毛片基地| 九色综合视频网| 色哟哟国产精品一区二区| 超碰免费91| 欧美色伊人| 国产毛片一区| 久久国产av麻豆| 国产在线观看一区精品| 国产欧美在线观看精品一区污| 久久99国产精品成人欧美| 欧美一级99在线观看国产| 日韩无码黄色网站| 久久久久亚洲av成人网人人软件| 波多野结衣无码视频在线观看| 午夜福利免费视频| 午夜视频日本| 国产精品久久精品| 无码aaa视频| 欲色天天综合网| 2019年国产精品自拍不卡| 国产欧美亚洲精品第3页在线| 黄色网址免费在线| 日本午夜精品一本在线观看| 免费视频在线2021入口| 国产视频资源在线观看| 亚洲精品片911| 99久久精品美女高潮喷水| 五月婷婷伊人网| 色综合天天综合中文网| 亚洲欧洲综合| 成人91在线| 91热爆在线| 国产精品性| 欧洲欧美人成免费全部视频| 午夜视频日本| 另类专区亚洲| 色偷偷一区| 欧美在线精品怡红院| 丁香婷婷激情综合激情| 国产不卡国语在线| 日韩欧美在线观看| 色婷婷视频在线| 欧美国产日韩在线观看| 国产成人综合亚洲网址| 精品五夜婷香蕉国产线看观看| 五月激情婷婷综合| 国产91线观看| 亚洲综合香蕉| 91亚洲国产视频| 欧美另类第一页| 精品人妻无码中字系列| 中文字幕亚洲电影| 91久久夜色精品| 国产乱子伦精品视频| 人妻一区二区三区无码精品一区 | 国产成熟女人性满足视频| 在线免费观看AV| 国产成+人+综合+亚洲欧美| 色综合色国产热无码一|