馬彥
[摘要]通過分析大數據環境下微博輿情的發展特點和輿情自動監測的具體需求,設計了微博輿情熱點挖掘系統結構模型,描述了各層的主要功能和實現方法。然后討論了熱點話題發現的方法,首先運用ICTCLAS和AntCone等工具提取熱點詞,其次描述規范化的數據表示形式,最后通過Chameleon聚類算法實現熱點博文的聚類和話題抽取。該方法將對及時發現敏感信息和掌握輿情熱點提供信息支持。
[關鍵詞]微博;輿情;熱點話題;挖掘方法
[中圖分類號)G250.73 [文獻標識碼]A [文章編號]1008-0821(2014)11-0029-05
互聯網出現后,數據則不斷的以前所未有的速度增長。具有大量化(Volume)、多樣化(Variety)、快速化(Veloei-ty)和價值(Value)這“四v”特征的“大數據”正影響和改變著人們的生活。隨著對大數據分析能力的提高和技術的進步,它必將對擁有良好的教育、醫療和交通的智慧城市的構建產生決定性的推動作用;為更加理性、安全和完善的電子金融和電子商務業務提供技術保障;另外,實現實時的輿情監測、控制和引導,將促進電子政務良性務實發展,從而保障國家的和諧穩定環境。因此,實現對大數據中潛藏價值數據的挖掘和應用成為了學術界、政界和商業界共同探索和關注的焦點問題。
隨著政府部門和個人同時開啟微博和微信,我國迎來了一個新的“雙微時代”。2014年7月人民網輿情監測室與騰訊微博聯合發布《2014上半年度騰訊政務微博發展研究報告》,該報告顯示,截至2014年6月15日,經過騰訊微博平臺認證的政務微博已達到181524個,其中黨政機構微博111728個,公務人員微博69796個。政務微信認證數超過5000個。與此同時,人民網輿情監測室也與新浪微博聯合發布《2014年上半年新浪政務微博報告》,該報告指出截至2013年底,我國政務微博認證賬號超過24萬,而在其2013年上半年報告中發布新浪微博注冊用戶總數已經超過5億。另據中國互聯網絡信息中心2014年7月發布的《第34次中國互聯網絡發展狀況統計報告》顯示,微博用戶使用成熟度和內容偏好度不斷加深。微博發展呈現如下幾個趨勢:第一,微博已經成為個人、機構以及其他媒體的信息交流發布平臺;第二,微博用戶由早期一二線城市為主逐步向三四線或更低級別地區發展;第三,隨著微博用戶、博文數量的裂變增長,以及微博中所蘊含的時間、地域、社會關系網絡相關數據的積累,微博將在輿情管理、行為預測中體現更大的價值。因此,研究如何利用Web信息挖掘技術,解決微博輿情信息的提取、熱點話題及其受眾和時空分布特點的發現、態度傾向性分析和網絡輿情擴散方式建模等問題,能夠為社會管理者及時了解輿情熱點并進行反饋、預警和引導提供必要的信息。
目前,我國各界已經深入開展了關于網絡輿情相關領域的研究工作。首先,研究基金資助方面,國家大力支持網絡輿情分析與監測領域的相關研究,僅2014年批準的國家自然科學基金資助此領域項目有12項,資助力度在21萬到84萬之間;國家社會科學基金資助此領域項目8項。其次,研究成果文獻發表方面,根據中國知網(CNKI)檢索數據顯示,我國關于微博輿情分析方面的研究文獻最早于2011年發表,之后每年倍數增長。研究熱點主要集中在以下七個方面:第一,涉及微博輿情監測和預警的具體技術、方法和算法;第二,微博輿情預測模型;第三,微博輿情傳播的影響因素、模式、特征和規律;第四,微博輿情管控、引導和微博突發事件應對;第五,政務微博的作用、對突發事件的應對能力和發展方向;第六,涉警微博的熱點事件應對和引導;第七,高校微博輿情的特點和影響力及其監管、引導和應對機制。再次,產品研發方面,我國已有18家網絡輿情科研機構、包括“拓爾思、谷尼、軍犬、樂思”在內的12家網絡輿情監測服務機構和包括“天涯輿情”在內的3個有影響力的媒體型網絡輿情產品。
微博輿情熱點話題發現是實現微博輿情監測、預警、應對和引導最核心的工作和基礎。部分研究者將聚類方法的改進及其在熱點發現方面的應用作為網絡輿情熱點話題發現研究的工作重點。張壽華等人首先提取檢索頁面標題分析熱點關鍵詞,然后利用熱點關鍵詞進行話題聚類,最后設計熱點話題評估模型,從而實現對熱點話題的監測。韓晨靖改進特征詞提取方法和向量相似度計算公式,并將該結果融入基于密度的聚類算法中發現輿情熱點。韓威通過改進Single-Pass聚類算法克服該算法對文本輸入順序敏感的缺陷,將其應用于網絡輿情熱點發現。也有研究者關注面向大數據環境的微博輿情熱點監控。陳彥舟等將Hadoop分布式文件系統和Map-Reduce計算模型應用于微博數據處理,實現對微博熱點話題的發現。另有研究者將藏文輿情分析作為研究工作的著眼點。江濤設計藏文語料預處理和分詞方法,并將其表示為向量空間模型,通過增量聚類完成藏文熱點話題的發現并提出熱點輿情分析結果可視化方案。部分熱點發現方面的研究成果已被應用于實際的產品中,如李渝勤等提出的面向互聯網輿情的熱詞分析技術已經被應用于拓爾思輿情檢測系統中的熱點話題發現模塊。
縱觀已有研究成果,我國微博輿情熱點發現與分析還處于探索階段,熱點話題發現的準確率、召回率和時效性問題,將影響整個輿情監測系統的性能。目前,很多研究成果還無法適應實踐的需求,在實際應用中,突發事件的早期預警,輿情事件的進展跟蹤等仍然依賴人工參與。因此,為了降低輿情監控過程中人工參與的程度,本文將重點研究并提出微博輿情熱點話題挖掘模型以及具體的熱點話題發現方法。
1、微博輿情熱點挖掘方法
1.1 熱點挖掘模型構建
根據微博數據的特點和用戶實際應用的最終需求,構建了由數據采集層、數據預處理層、數據存儲層、數據智能分析層、輿情信息表示層和應用層組成的微博輿情熱點挖掘系統模型,如圖1所示。
(1)數據采集層用于從國內四大主流微博平臺自動采集原始數據。目前新浪、騰訊、搜狐和網易均提供了微博開放平臺,將其微博相關功能接口通過Open API(Application Progamming Interface,應用編程接口)的形式開放給用戶。Open API即開放平臺是服務型網站常見的一種應用,網站的服務商將自己的網站服務封裝成一系列API開放出去,供第三方開發者使用,輿情挖掘系統中通過調用這些API可以獲取微博內的數據。新浪微博同時還提供了微博開放平臺商業數據API,為企業接入者提供便捷的獲取微博官方數據的通道,這為接入者提供了更強大的數據支持和穩定性保障。endprint
(2)數據預處理層主要用于對原始數據進行清洗,提取元數據。元數據主要包含兩個方面:第一,用戶信息元數據。包括認證信息、基本信息(用戶ID、昵稱、性別、所在地、簡介、生日、注冊時間)、微博數、粉絲數、關注數、評論數、微數據(被轉發數、收到評論數)、微人脈(社交關系網絡);第二,微博元數據。包括微博ID、微博內容、發表時間、轉發數、被評論數、“贊”數、“@”內容、表情符號、“#…#”關注話題、分享圖書、分享音樂、分享短視頻、發表時位置信息。
(3)數據存儲層實現在分布式數據倉庫中存儲元數據。
(4)數據智能分析層是微博輿情熱點發現最核心的部分。主要是借助大數據技術、數據挖掘技術(分類算法、聚類算法、相似項發現算法、序列模式挖掘算法)和自然語言處理相關技術,實現對微博數據的智能分析。熱點話題的發現、情感傾向判斷、發展走勢分析和預測、時間和地域特征分析以及受眾跟蹤是這一層主要要實現的功能。
(5)輿情信息表示層主要實現微博輿情熱點挖掘結果的可視化。這一層主要包括三個方面的功能:第一,熱點話題博文排行榜,幫助快速了解輿情熱點;第二,熱點話題博文時空分布特征圖表展示,直觀掌握輿情發生、發展和演變情況;第三,突發輿情預警功能,通過網站強調顯示、自動向有關人員發送簡報信息(短信、郵件、電話),為及時控制和引導輿情事件提供可靠的技術保障。
1.2 熱點詞的確定
實現微博輿情熱點挖掘的首要任務是在微博文本中發現熱點詞。在微博博文中出現的高頻詞中(不包括代詞、介詞、連詞、助詞、嘆詞、擬聲詞),選擇隨時間改變詞頻變化大的作為熱點詞。詞是最小的能夠獨立運用的語言單位,但是在漢語語句中詞語之間沒有明顯的區分標記,因此在實現對熱點詞的提取前首先需要將微博文本中的語句分割成正確的詞語序列,然后再實現高頻詞的查找。
(1)這里采用中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS實現分詞處理。該系統主要功能包括中文分詞;詞性標注;命名實體識別;新詞識別;同時支持用戶詞典;支持繁體中文;支持gb2312、GBK、UTF8等多種編碼格式。ICrCLAS分詞速度單機500KB/s,分詞精度98.45%,是目前世界上最好的漢語詞法分析器。圖2是取自2014年8月31日新浪微博的一條博文,通過調用ICIELAS分析后效果如圖3所示。
計算所漢語詞性標記集中的標記共計99個(22個一類,66個二類,11個三類),其中一類標記如表l所示。
(2)基于分詞后的結果,可以利用由日本早稻田大學科技學院Laurence Anthony編寫的一款綠色、跨平臺語料處理軟件AntConc(這里使用antconc3.2.4w版本)實現高頻詞的發現。AntConc具有詞語檢索、詞表生成、主題詞計算、搭配和詞族提取等多種功能。高頻詞的檢索和高頻詞在文內呈現示意如圖4、圖5所示。
比如對2014年8月31日新浪微博中關于“中國新首富馬云”部分博文按照上述方法進行分析,得到高頻詞據頻率由高到低分別是馬云、首富、王思聰、萬達、電商、阿里巴巴。微博博文分析數據恰巧與一條新聞相關并且一致。2014年8月28日,美國彭博新聞社發布的億萬富豪指數顯示,阿里巴巴創始人馬云超越萬達集團王健林成為中國首富。馬云是世界最大電商平臺的掌門人。因此,輿論關注的焦點也的確表現在馬云的財富和他所擁有的產業以及萬達王健林的兒子王思聰等方面。
(3)選擇隨時間改變詞頻正向變化大的高頻詞作為熱點詞。
1.3 熱點博文聚類
通過聚類,可以實現熱點話題的發現。這里設計熱點博文聚類方法主要包含四個步驟:第一,將博文表示成熱點詞向量組的形式;第二,求解博文的熱點詞出現矩陣;第三,求解博文的相異度矩陣;第四,利用層次聚類Chamdeon算法實現熱點博文聚類。
1.3.1 博文的向量表示
微博博文集合用S表示,S={s1,s1,…,sn},其中si(1≤i≤n)代表一條微博文本,si=(hw1,hw2,…,hwm)(hwi(1≤i≤m)表示si中出現的經過分詞過濾后的熱點詞)。
1.3.2 博文熱點詞出現矩陣定義
定義一個n×g(n條博文×g個熱點詞)的矩陣,如公式(1)所示。
1.3.3 博文相異度矩陣定義
定義一個n×n(n條博文)的矩陣,表達n條博文兩兩之間的近似性,如公式(2)所示。
其中,d(i,j)是毛和si之間的相異性的量化表示,是一個非負值,si和sj越相似,其值越接近于O,否則其值越大。因為d(i,j)=d(j,i)且d(i,i)=0,這里只需要使用一個下三角矩陣。
另外,通過計算Jaceard系數來完成,如公式(3)所示。
其中,a表示在公式(1)中,兩條博文si和sj的相同熱點詞屬性具有相同屬性值1的屬性個數;b表示在公式(1)中,兩條博文si和sj的相同熱點詞屬性具xip=1且xjp=0的特征的屬性個數;c表示在公式(1)中,兩條博文si和sj的相同熱點詞屬性具xip=O且xjp=1的特征的屬性個數。
1.3.4 熱點話題發現
Chameleon是一種利用動態建模的層次聚類算法,簇間的相似度依據族中對象的互連度和簇的近似度判斷,將互連性和近似性都大的簇合并。該算法可以發現高質量的任意形狀的簇。借助該算法實現熱點話題發現的具體步驟如下:endprint
第一步,構造一個K-最近鄰圖Gk。圖中頂點表示數據項,即si(1≤i≤n);若si到sj的距離值是所有數據項到數據項sj的距離值中K個最小值之一,則在這兩個點之間加入一條帶權邊,邊的權重代表它們之間的近似度。即它們之間的距離越大,則它們之間的近似度越小,它們之間的邊的權重也越小。
第二步,根據最小化截斷邊的權重和來分割K-最近鄰圖Gk。
第三步,合并子簇。訪問每個簇,計算它與臨近簇的相對近似度(RI)和相對互連度(RC),計算方法如公式(4)和公式(5)所示;合并彤和RC分別超過TRj和TRc的簇對(TRI和TRC為用戶指定的閾值),若滿足條件的臨近簇多于一個,合并具有最高絕對互連性的簇;重復上述操作,直到沒有可合并的簇。
其中,EC(Ci,Cj)是連接簇Ci和Cj的所有邊的權重之和;EC(Ci)是把簇劃分為兩個大致相等部分的最小等分線切斷的所有邊的權重之和。
其中,SEC(Ci,Cj)是連接簇Ci和Cj的邊的平均權重;SEC(Ci)是把簇Ci劃分為兩個大致相等部分的最小等分線切斷的所有邊的平均權重。
通過上述步驟可以完成熱點博文向量的聚類,提取簇心所在向量,將其對應的博文作為熱點話題呈現。
2、結論
隨著互聯網的快速發展,微博作為其重要應用之一已經深入人們的日常網絡生活,社會各階層的參與者通過微博表達其對各種公共事務的意見、態度、觀點和情緒。對微博輿情的檢測、預警和引導是新形勢下創新科學社會管理機制的迫切需要。但微博數據量的迅猛增長和數據形式的多樣化使得人工分析輿情信息變得愈發困難。在這種大數據背景下,為保證微博輿情檢測的準確性和時效性,并逐步減少人工參與程度,本文研究并提出了由數據的采集、預處理、存儲、智能分析和信息表示等六層構成的微博輿情熱點挖掘模型;重點討論了智能分析部分熱點話題提取的方法,首先利用分詞和詞索引實現熱點詞的發現,然后設計博文的向量表示方法和相異度矩陣從而實現對博文數據的規范化處理,最后運用Chameleon算法進行博文聚類從而發現熱點話題。未來關于博文中情感傾向性分析問題以及涉及長微博的輿情分析將成為工作的重點。endprint