張麗媛 李美子
摘 要:本文提出一種基于云計算的大規模輿情數據服務平臺設計方案,依托大規模網頁采集分析技術、云計算數據處理技術、社會關系輿情傳播分析技術和文本流輿情主題分類技術,針對不同需求的用戶提供按需計費、可定制和可彈性管理的商業服務模式,實現網絡輿情服務。
關鍵詞:云計算 數據 服務平臺
中圖分類號:TP3
長期以來,互聯網輿情是人們所關注的重點。通過網絡所發布、傳播、共享的輿情信息,是展現廣大人民群眾心態、體現政府能力和信心的重要手段。隨著當前社交網絡、移動網絡等新型互聯網平臺的出現,目前對互聯網輿情服務的要求正在日益增強。
現有的互聯網輿情監測評估系統在語義處理上采用基于關鍵詞的技術,其在網頁處理上直接的局限表現在不能有效地進行實體識別,影響了主題定義的質量,導致系統在熱點追蹤、文本分類等核心功能的實現質量不高;在數據處理能力方面,由于系統運行在能力有限的物理分割服務器上,導致海量輿情數據的分析能力不足[1]。本文引入語義計算[2]、云計算[3]、主題檢測等技術,為輿情分析提供了強大的數據采集、存儲和處理能力,可以依據不同需求的用戶提供不同的輿情分析能力和服務。
本文所提出的針對互聯網中出現的新型移動平臺、社交平臺、輿情數據海量化等新興狀態,采用云計算技術、社交網絡分析技術、語義計算技術、文本流主題檢測技術、垂直搜索引擎技術等在內的多項新型技術,針對多樣化和海量化的輿情數據展開監測和評估,并通過云計算所具備的全新計算架構,針對不同需求的用戶提供按需計費、可定制和可彈性管理的商業服務模式,最大程度上契合用戶的需求并降低用戶的使用費用,通過空間、虛擬機和輿情評估模塊定制等跳過用戶自行投資信息化硬件建設的成本,為用戶提供低價優質的全新輿情監測與評估體驗。
1 整體方案
下面,本文將分別從輿情檢測技術、云計算平臺架構、輿情傳播分析技術等三個方面闡述本文所提出平臺的技術方案。
1.1 輿情檢測技術
主要由三個部分組成:(1)信息采集:主要完成網絡輿情信息的采集工作,用戶可以通過指定站點、頻道、時間范圍等對這部分功能進行定制。信息采集主要通過Crawler對網頁進行采集,或者通過專用DB導出工具,直接掛接到站點的服務器上實現輿情信息的高效采集。(2)用戶接口:允許用戶采用專門需求對自己的評估監測需求;允許用戶專業特點、應用體驗對系統的功能重新進行定制;完成輿情監測評估的報告的反饋呈現功能。(3)輿情監測評估控制:對監測評估需求進行語義解析,并據此調度監測評估程序庫的程序,來完成監測評估結果,而后將結果以圖形、表格、文字報告等形式反饋給用戶。
1.2 云計算平臺
云計算平臺主要分為四個層次:基礎資源服務層(即IaaS層)、數據服務層(即DaaS層)、平臺服務層(即PaaS層)和軟件服務層(即SaaS層)。在這四個層次中:(1)IaaS層:基礎資源虛擬化、基礎資源動態負載平衡、超大規模高速網絡聚合帶寬技術、云安全控制。(2)DaaS層:基于ETL的海量輿情實時信息處理、大規模輿情信息文本流分類管理、海量輿情數據安全防災管理。該層中將通過結構化數據庫(Oracle)和非結構化數據庫(HBase和Hive)等同時管理存儲數據。(3)PaaS層:標準接口管理、異構數據交互與轉化、服務部署、任務分配與平衡。該層中將部署節點控制器、集群控制器等實現平臺管理。(4)SaaS層:統一訪問門戶、輿情采集、管理與分析挖掘應用部署。
1.3 輿情傳播分析技術
當重點聚焦當前輿情傳播中的用戶社交關系的分析和處理:(1)用戶社交關系路徑獲取與分析技術:實現不同ID情況下用戶身份的統一識別和認證;繼而對用戶的網絡社交關系、社交圈等進行記錄和分析,從而獲取用戶對于每一個輿情主題的傳播路徑等。(2)用戶社交關系的計算基礎技術:該技術為用戶社交關系、社交圈、社區身份等信息提供可計算的邏輯基礎,從而使每一個用戶的社交關系、身份信息等具備可定性或定量計算的可能。(3)用戶關系在輿情傳播中的路徑和影響力預測技術:該技術可計算并預測不同程度和性質的用戶關系可能會導致輿情主題的傳播方向,傳播對象和傳播群體;同時可針對不同用戶關系,預測這些關系和路徑對輿情主題傳播可能產生的附加影響力。
2 關鍵技術
本文所提出的輿情數據服務平臺主要包括以下四個方面核心技術。
(1)大規模網頁信息采集、網頁信息抽取、文本實體識別技術:通過構建云計算平臺,利用云計算技術實現計算資源整合,并進一步利用虛擬機動態分配、網絡節點分布式計算等實現大規模網頁輿情數據的爬去的采集;利用語義計算、垂直搜索引擎技術、文本過濾、自然語言處理技術等實現了網頁信息的抽取與文本實體識別,最終完成輿情信息的采集、分類、抽取等功能。
(2)基于云計算的大規模、分布式輿情信息分析處理能力:在云計算平臺下,劃分出專門的虛擬機,通過云平臺下MapReduce并行算法,完成輿情信息的漢詞切分、語料分析、主題提取和分類、輿情情感計算,最終實現輿情信息的分析處理功能。
(3)基于社會關系的移動社交網絡(微博等)信息輿情傳播模式分析技術:依據互聯網媒體平臺中用戶的社會關系,對移動互聯網、社交網絡等媒體中所出現的輿情數據進行深度分析,利用用戶社會關系實現對輿情傳播模式分析,最終完成主題傳播跟蹤、輿情影響力評估、輿情預測等功能。
(4)大規模輿情文本流主題檢測分類技術:針對互聯網大規模文本流輿情數據,利用在線輿情文本進行主題建模技術、在云計算平臺進行自動的非監督學習,對輿情文本進行分類、檢測等。
3 結語
本文提出一種以云計算、語義計算、用戶關系計算、文本流主題檢測等技術為基礎,克服了傳統輿情檢測系統僅僅依賴于關鍵字、詞頻等統計手段的缺點,同時涵蓋了互聯網、移動互聯網、社交網絡等不同傳統和新興網絡載體,以面向服務的互聯網輿情監測評估系統作為主,并向行業應用以及個人應用服務。
參考文獻
[1] 鄭魁,疏學明,袁宏永.網絡輿情熱點信息自動發現方法[J].計算機工程,2010,36(3):4-6.
[2] 張波,向陽,黃震華.基于本體的決策問題語義理解及精煉方法[J].電子學報, 2012,40(8):1603-1608.
[3] Creeger M.,CTO Roundtable:Cloud Computing Communications of the ACM,vol.52,no.8,august 2009:50-56. 文獻標識碼:A 文章編號:1672-3791(2013)03(b)-0020-01