999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)技術(shù)的輿情信息收集研判管理系統(tǒng)實(shí)現(xiàn)路徑探索研究

2019-01-28 08:04:42張雅京付軍劉皓
消費(fèi)導(dǎo)刊 2019年3期
關(guān)鍵詞:用戶分析信息

張雅京 付軍 劉皓

中日友好環(huán)境保護(hù)中心

一、研究背景

隨著網(wǎng)絡(luò)應(yīng)用的迅猛發(fā)展,互聯(lián)網(wǎng)已深入覆蓋并影響到當(dāng)今社會的各個(gè)領(lǐng)域。Web2.0上的話題往往具有突發(fā)性、直接性、豐富性、互動性、偏差性的特點(diǎn)。無論對于政府還是商業(yè)組織來說,這些數(shù)據(jù)蘊(yùn)含著非凡的價(jià)值。正確合理利用這些信息,可以有效地了解民情民意,配合處理一些突發(fā)性公共危機(jī)事件,從而促進(jìn)社會和諧。同時(shí),隨著互聯(lián)網(wǎng)的發(fā)展,逐步進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的發(fā)展不僅使得通過互聯(lián)網(wǎng)獲取個(gè)人信息更加容易、可獲取的內(nèi)容也更多。在大數(shù)據(jù)時(shí)代,面對如此海量快速的信息,輿情的采集、分析、可視化呈現(xiàn)都將進(jìn)行相應(yīng)的轉(zhuǎn)變。目前國內(nèi)的輿情研究和應(yīng)用非常廣泛[1],有些研究專注于特定領(lǐng)域的輿情系統(tǒng)的研究和開發(fā)[2],有些研究則面向通用[3]。本文所設(shè)計(jì)和實(shí)現(xiàn)的系統(tǒng)屬于后者這一類,和其它已有的輿情系統(tǒng)相比,本系統(tǒng)具有信息覆蓋面廣、架構(gòu)靈活、智能分析等特點(diǎn)。

二、系統(tǒng)需求

1.采集:互聯(lián)網(wǎng)規(guī)模大、媒體類型眾多、網(wǎng)民眾多、信息更新速度快。系統(tǒng)需要對網(wǎng)絡(luò)上的主要信息不遺漏,覆蓋論壇、博客、微博、新聞、新聞、境外等信息源,對信息源進(jìn)行實(shí)時(shí)采集。針對不同的信息源,可以方便的調(diào)整采集頻率,采集字段。

2.架構(gòu):考慮到數(shù)據(jù)量大和可擴(kuò)展性等特點(diǎn),需要采用基于云計(jì)算的構(gòu)架設(shè)計(jì)。系統(tǒng)以網(wǎng)頁形式展示給用戶。用戶只需要用瀏覽器登錄系統(tǒng)就可以使用全部功能。

3.個(gè)性化:為了滿足使用者的不斷變化的需求,需要系統(tǒng)能夠?qū)崿F(xiàn)個(gè)性化。系統(tǒng)能方便的調(diào)整和設(shè)置參數(shù)(比如關(guān)鍵詞、站點(diǎn)等)。用戶能通過簡便直觀的方法篩選出關(guān)心的數(shù)據(jù),并且能方便、直觀的進(jìn)行系統(tǒng)維護(hù)。

4.智能:為了降低用戶的設(shè)置,篩選重要信息的工作量,系統(tǒng)需要進(jìn)行智能分析,自動的對文章進(jìn)行過濾,分類,地域識別,情感分析等。

三、系統(tǒng)架構(gòu)

本系統(tǒng)采用跨平臺的JAVA技術(shù),使得采集系統(tǒng)可以運(yùn)行在各種操作系統(tǒng)上。圖一給出了系統(tǒng)的總體架構(gòu),其包含兩個(gè)部分。第一個(gè)部分是數(shù)據(jù)采集和分析模塊;第二部分是輿情信息收集研判管理系統(tǒng)模塊。圖二是輿情信息收集研判管理系統(tǒng)模塊的系統(tǒng)功能圖。這部分功能直接對接客戶。

四、數(shù)據(jù)采集和分析模塊

(一)信息采集模塊。采集器不但可以采集普通采集器的所能實(shí)現(xiàn)的簡單的網(wǎng)頁采集,還可以執(zhí)行網(wǎng)頁上的動態(tài)腳本(例如javascript,ajax等)以得到普通采集方式通過抓取靜態(tài)頁面無法獲取的信息。越來越多的網(wǎng)站采用了動態(tài)頁面技術(shù)(即javascript,ajax等),典型的如博客,微薄等網(wǎng)站,通過普通的靜態(tài)頁面往往只能采集到部分信息,甚至根本采集不到真正的頁面內(nèi)容。本系統(tǒng)的采集器內(nèi)建了頁面動態(tài)構(gòu)建技術(shù),可以使采集到的頁面執(zhí)行頁面動態(tài)腳本而得到與普通瀏覽器能看到的完全一致的頁面內(nèi)容。

(二)信息分析模塊。信息分析模塊主要包括以下功能:垃圾文識別、自動排重、相似文計(jì)算、原創(chuàng)新聞計(jì)算、輿情傾向性分析、自動摘要提取、行業(yè)識別、傳播路徑分析、傳播軌跡圖。

(三)垃圾文識別。垃圾文包括廣告,無意義文章等。據(jù)分析,特別是論壇站點(diǎn),70%左右是此類文章。系統(tǒng)采用人工智能技術(shù),能夠有效識別此類垃圾文,大大增強(qiáng)輿情分析和處理的效率。對于系統(tǒng)未能自動識別的垃圾文,如果人工識別為垃圾文后,系統(tǒng)對后續(xù)采集同類文章能夠自動識別為垃圾文。

(四)自動排重。系統(tǒng)根據(jù)信息的各項(xiàng)屬性:信息的文本內(nèi)容,信息的發(fā)文站點(diǎn),版面,發(fā)文作者計(jì)算信息的hash值。通過判斷兩條信息的hash值是否相同,從而快速的判斷兩條信息是否重復(fù)。

(五)相似文計(jì)算。雖然互聯(lián)網(wǎng)上很多信息都是重復(fù)的,但是重復(fù)信息往往有少量的變化,這個(gè)模塊的目的是找到那些幾乎是重復(fù)的、但是又不完全相同的文章。相似文計(jì)算的方法參考了。由于系統(tǒng)所采集的數(shù)量巨大,所以不能針對所有文章進(jìn)行計(jì)算。由于相似文章的出現(xiàn)往往是在一個(gè)事件范圍內(nèi)集中出現(xiàn),因此對每一個(gè)新進(jìn)系統(tǒng)的文章,只計(jì)算最近2天的文章中是否有重復(fù)文章。

(六)原創(chuàng)新聞計(jì)算。原創(chuàng)新聞報(bào)道數(shù)量偵測系統(tǒng)主要包括兩部分功能,即轉(zhuǎn)載文章識別歸類和原創(chuàng)文章判定兩部分。轉(zhuǎn)載新聞往往含有發(fā)文網(wǎng)站的鏈接及“【轉(zhuǎn)】”等特征內(nèi)容,可通過建立模板識別大部分轉(zhuǎn)載文章。比對轉(zhuǎn)載文章及現(xiàn)有文章特征庫即可將相當(dāng)部分轉(zhuǎn)載文章濾除。對于不含轉(zhuǎn)載信息、通過更改原文個(gè)別關(guān)鍵詞的偽原創(chuàng)性文章,則需通過原創(chuàng)判別算法剔除。原創(chuàng)新聞判別算法核心在于語義分析和相似文章識別算法,本系統(tǒng)利用文本相似性算法,以文章主干或關(guān)鍵詞為基礎(chǔ),通過文章相似度算法,建立相似度聚類數(shù)據(jù)庫,為原創(chuàng)文章的識別提供依據(jù)。而后可通過以下三個(gè)步驟判別文章的原創(chuàng)性:提取文章內(nèi)關(guān)鍵詞結(jié)點(diǎn);將提取的關(guān)鍵詞結(jié)點(diǎn)進(jìn)行近義詞匹配。(搜索引擎有自己的近義詞庫);發(fā)現(xiàn)一篇文章中的節(jié)點(diǎn)于另外一篇文章中的節(jié)點(diǎn)超過某個(gè)點(diǎn),給予偽原創(chuàng)定義。

(七)輿情傾向性分析。系統(tǒng)能夠自動分析出文章的傾向性為正面,負(fù)面,或者中性,為輿情處理提供重要的分析依據(jù)。

(八)自動摘要提取。自動摘要提取算法包含兩類方法,即機(jī)械方法和語義方法,本系統(tǒng)將結(jié)合兩類方法。

機(jī)械方法需要對文本的物理信息進(jìn)行歸納:詞的頻率、標(biāo)題、詞的位置、句子的結(jié)構(gòu)和位置等。通常分為以下三個(gè)步驟:計(jì)算詞的權(quán)重,確定有效詞;通過詞和句子的位置、線索詞指示性短語等計(jì)算句子的權(quán)值;將句子排序,并按照原文順序整理輸出;

基于機(jī)械方法的摘要提取能夠?qū)ξ恼聝?nèi)容做一定的梳理,但其缺點(diǎn)主要體現(xiàn)在結(jié)構(gòu)不平衡、內(nèi)容冗余、缺乏連貫性等方面,因而需要結(jié)合語義方法對摘要做進(jìn)一步整理,語義方法包含:語法分析、語義分析、語用分析和信息提取等,此方法將文本整理成語法樹等形式,從而梳理文章主干,完成信息提取,將所得到內(nèi)容結(jié)合機(jī)械摘要得到最終結(jié)果。

(九)行業(yè)識別。對數(shù)據(jù)進(jìn)行行業(yè)分類,該模塊基于機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域最先進(jìn)的思想和算法,提供了常用的多個(gè)行業(yè)(包括環(huán)境、衛(wèi)生、渉警等)的分類。

(十)傳播路徑分析、傳播軌跡圖。對所有的微博消息,系統(tǒng)會采集內(nèi)容以及其轉(zhuǎn)播信息。對于需要做路徑分析的微博消息,根據(jù)微博轉(zhuǎn)播記錄和轉(zhuǎn)播微博的文本信息追本溯源的找到了這條微博的傳播路徑,并將傳播路徑上的各個(gè)節(jié)點(diǎn)的地理位置信息、個(gè)人信息等保存下來,最終形成了一棵信息傳播樹。

五、輿情監(jiān)測系統(tǒng)功能模塊

(一)輿情數(shù)據(jù)基礎(chǔ)管理。該系統(tǒng)能夠全面、及時(shí)監(jiān)測互聯(lián)網(wǎng)輿情。可定制采集,提供全面、及時(shí)的輿情信息。全面監(jiān)控微博、博客、新聞網(wǎng)站、論壇、貼吧、搜索引擎等互聯(lián)網(wǎng)內(nèi)容。通過輿情監(jiān)測系統(tǒng)實(shí)現(xiàn)對輿情管理和對輿情數(shù)據(jù)服務(wù)的有效支撐。

條件篩選:發(fā)文時(shí)間是一篇網(wǎng)絡(luò)文章最重要屬性之一。通過時(shí)間控制,就可以通過限定文章的發(fā)文時(shí)間,對文章進(jìn)行篩選。除了限定具體時(shí)間區(qū)間之外,系統(tǒng)還設(shè)置一些快捷按鈕,直接查詢“今天”、“昨天”、“本周”、“上周”、“本月”、“上月”和“全部”等時(shí)間范圍內(nèi)的文章。“類型”,可提供篩選“新聞”、“論壇”、“博客”等類型的文章,且可同時(shí)篩選如“新聞”或“論壇”的文章。“褒貶”,可提供篩選“正面”、“負(fù)面”、“中立”、“未知”等性質(zhì)的文章,且可同時(shí)篩選如“正面”或“中立”的文章。“地域”,可提供篩選包括“境內(nèi)”、“境外”的文章,當(dāng)只篩選了“境內(nèi)”范圍里的部分省時(shí),“境內(nèi)”為半藍(lán)顏色顯示;只有所有省份都被篩選時(shí),“境內(nèi)”為藍(lán)色顯示。“專題”,可提供篩選多個(gè)專題的文章,如專題為“城管城建”或“交通”的文章。

文章瀏覽:對于每一篇收錄進(jìn)系統(tǒng)的文章,列表將顯示如下信息:標(biāo)題、網(wǎng)站、信息類型、褒貶、地域、所屬專題、閱讀數(shù)、回復(fù)數(shù)、發(fā)表時(shí)間、操作。

文章操作:系統(tǒng)提供對每一篇文章的豐富的管理功能。對文章進(jìn)行查看全文信息、修改文章屬性、對文章進(jìn)行公告預(yù)警操作或者定向預(yù)警操作、刪除文章、分不同模式查看監(jiān)測列表內(nèi)容、導(dǎo)出文章(word或excel格式)。

(二)信息預(yù)警。提供實(shí)時(shí)信息預(yù)警機(jī)制,由輿情信息的重要性、緊急性及客戶約定需求決定。系統(tǒng)要將短時(shí)間內(nèi)發(fā)生的突發(fā)熱點(diǎn)事件以及敏感新聞通過系統(tǒng)通知、短信、電話、QQ、郵件等方式通知用戶。

(三)統(tǒng)計(jì)分析。統(tǒng)計(jì)分析包括“趨勢分析”、“媒體分析”、“地域分析”、“褒貶分析”、“熱點(diǎn)分析”、“熱詞分析”六大類;分別表示按“時(shí)間”、“媒體類型”、“地域分布”、“輿論褒貶性質(zhì)”、“熱點(diǎn)輿論、話題”、“最熱”要素來進(jìn)行對比分析出圖。

圖形化展示功能。對熱點(diǎn)新聞和事件發(fā)展趨勢進(jìn)行圖形化顯示,便于更加直觀地了解輿情發(fā)展態(tài)勢。提供多種基于Flash的圖表,包括全國地形圖、趨勢圖、金字塔圖、轉(zhuǎn)載傳播鏈等,具有更好的交互能力。

(四)熱點(diǎn)識別。熱點(diǎn)自動發(fā)現(xiàn)。輿情系統(tǒng)采用基于內(nèi)容相似的智能聚類技術(shù),能夠自動識別網(wǎng)絡(luò)上的熱點(diǎn)新聞事件,及時(shí)掌控論壇中的交互信息,發(fā)現(xiàn)網(wǎng)民的關(guān)注焦點(diǎn)和熱點(diǎn)。同時(shí)利用輿情分類信息,把用戶不關(guān)注的熱點(diǎn)信息過濾掉,提高熱點(diǎn)發(fā)現(xiàn)的準(zhǔn)確性。根據(jù)新聞熱點(diǎn)、關(guān)鍵詞、專題等信息進(jìn)行熱度分析,考慮了信息來源、所處網(wǎng)頁位置、轉(zhuǎn)載、點(diǎn)擊、評論、回復(fù)和報(bào)道率等關(guān)鍵因素,并能夠?qū)@些因素進(jìn)行綜合排名,并支持以半小時(shí)為間隔的任意時(shí)間段進(jìn)行統(tǒng)計(jì)分析,同時(shí)提供1天、3天、7天等時(shí)間序列的符合用戶精確度要求的分類熱點(diǎn)排行。

熱點(diǎn)自動追蹤。輿情系統(tǒng)可以對熱點(diǎn)信息做到持續(xù)追蹤,并通過趨勢分析圖和傳播鏈分析圖等技術(shù)幫助用戶了解熱點(diǎn)事件的報(bào)道趨勢以及來龍去脈,幫助用戶更好地對輿情進(jìn)行研判。

網(wǎng)絡(luò)熱詞自動挖掘。熱詞挖掘是從互聯(lián)網(wǎng)不斷更新的信息中尋找一定時(shí)期熱度高的那些短語,比如人名、地名、機(jī)構(gòu)名和其他常見短語,很多網(wǎng)絡(luò)熱詞是詞典中未收錄的新詞語。按領(lǐng)域可分為政治、經(jīng)濟(jì)、軍事、娛樂、體育、衛(wèi)生、科技、社會生活等各個(gè)領(lǐng)域的熱詞。

(五)報(bào)告生成。輿情分析系統(tǒng)提供有效的輿情簡報(bào)加工工具,可以輔助用戶生成各種類型的互聯(lián)網(wǎng)輿情簡報(bào)。報(bào)告的內(nèi)容可編輯修改,報(bào)告模板可靈活定制。支持日報(bào)、周報(bào)、及時(shí)報(bào)等多種簡報(bào)樣式。可以通過元搜索方式從百度新聞獲取統(tǒng)計(jì)信息,使得簡報(bào)的統(tǒng)計(jì)圖表具有更高的代表性和準(zhǔn)確性。提供可以在線生成和編輯WORD格式的簡報(bào),支持復(fù)雜格式的簡報(bào),提高了簡報(bào)的表現(xiàn)能力。

系統(tǒng)能夠?qū)崿F(xiàn)對專題給定時(shí)間范圍的文章進(jìn)行統(tǒng)計(jì),并生成統(tǒng)計(jì)報(bào)告。

(六)系統(tǒng)管理。個(gè)人信息管理:系統(tǒng)里可以管理用戶的個(gè)人信息,如用戶名、密碼、郵件、電話等。

用戶管理:提供系統(tǒng)用戶權(quán)限管理方面的配置,中青華云配備專人實(shí)時(shí)響應(yīng)更改用戶需求,如:通過申請可添加或變更系統(tǒng)管理員,設(shè)置系統(tǒng)管理員的權(quán)限,從而實(shí)現(xiàn)多用戶分權(quán)限管理。通過角色和權(quán)限配置,對系統(tǒng)中的各個(gè)功能進(jìn)行嚴(yán)格的權(quán)限管理,保證系統(tǒng)的安全性。

關(guān)鍵詞管理:可根據(jù)需要添加需要關(guān)注的文章的關(guān)鍵詞。也可以對已有關(guān)鍵詞作修改和刪除的操作。

網(wǎng)站管理:用戶可以在網(wǎng)站管理的頁面上點(diǎn)擊“申請?zhí)砑泳W(wǎng)站”,就可以申請?zhí)砑酉胍O(jiān)測的網(wǎng)站。

專題管理:可添加需要關(guān)注的文章的專題。可以對現(xiàn)有的專題進(jìn)行是否想要讓其顯示的操作,也可以對已有專題作修改和刪除的操作。

系統(tǒng)設(shè)置:系統(tǒng)設(shè)置能夠選擇“最新監(jiān)測”的文章的來源(“論壇”“博客”“新聞”“微博”)、和選擇關(guān)注的專題、是否顯示系統(tǒng)專題、是否僅顯示已歸檔文章。

(七)輿情檢索。輿情系統(tǒng)針對信息內(nèi)容管理和資源建設(shè)的新需求,實(shí)現(xiàn)包括Native XML,集群,Unicode,自然語言及智能擴(kuò)展檢索等功能,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢技術(shù),滿足客戶對專業(yè)搜索的廣泛需求。專業(yè)級搜索需要精確(查全和查準(zhǔn)兩者需要兼顧)和快速(數(shù)據(jù)一旦變化需要及時(shí)體現(xiàn)),而通用互聯(lián)網(wǎng)搜索引擎無法滿足精確和快速的目標(biāo)檢索需求。

(八)回收站和垃圾箱。可以對一些回收站和垃圾箱中的文章進(jìn)行管理。

六、結(jié)論

本文提出的基于大數(shù)據(jù)技術(shù)的輿情信息收集研判管理系統(tǒng)是一個(gè)基于大數(shù)據(jù)技術(shù)的輿情信息高效采集與存儲系統(tǒng)。它能實(shí)現(xiàn)信息的全方位采集、更新和自動分析。在此基礎(chǔ)上,系統(tǒng)還給用戶提供了直觀、高效的使用界面,使用戶可以快速、精準(zhǔn)的在海量的互聯(lián)網(wǎng)數(shù)據(jù)中篩選出自己所關(guān)心的輿情信息。

猜你喜歡
用戶分析信息
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 呦系列视频一区二区三区| 亚洲人在线| 亚洲综合色婷婷| 毛片在线播放网址| 亚洲第一成年网| 国产成人综合网| 久久中文电影| P尤物久久99国产综合精品| 一本无码在线观看| 97久久免费视频| 亚洲美女AV免费一区| 美女一区二区在线观看| 亚洲欧美日韩成人高清在线一区| 日韩123欧美字幕| 亚洲AV成人一区二区三区AV| 国产成年女人特黄特色毛片免| 天堂久久久久久中文字幕| 日韩色图在线观看| 久久久久九九精品影院 | 午夜精品久久久久久久无码软件 | 在线毛片网站| 91精品人妻一区二区| 久久综合色播五月男人的天堂| 国产免费久久精品44| 野花国产精品入口| 亚洲av中文无码乱人伦在线r| 亚洲欧美色中文字幕| 在线观看欧美国产| 精品成人一区二区| AV熟女乱| 国产亚洲精品精品精品| 国产精品一区在线观看你懂的| 曰AV在线无码| 亚洲精品午夜天堂网页| 国产黄在线观看| 久久综合结合久久狠狠狠97色| 在线无码av一区二区三区| 成人年鲁鲁在线观看视频| 妇女自拍偷自拍亚洲精品| 91久久国产综合精品| 国产成人亚洲无码淙合青草| 99性视频| 免费看a级毛片| 国产色图在线观看| 午夜视频在线观看免费网站| 日本高清免费不卡视频| 97久久精品人人| 免费A∨中文乱码专区| 欧美黄网在线| 亚洲中文精品人人永久免费| 黄片一区二区三区| 国产大片喷水在线在线视频| 特级做a爰片毛片免费69| 亚洲国产精品日韩欧美一区| 片在线无码观看| 日本三级精品| 国产成人无码久久久久毛片| 国语少妇高潮| 天天躁夜夜躁狠狠躁躁88| 麻豆精品久久久久久久99蜜桃| 三上悠亚一区二区| 亚洲精品无码久久久久苍井空| 中国黄色一级视频| 欧美性爱精品一区二区三区| 露脸国产精品自产在线播| 午夜福利免费视频| 国产伦片中文免费观看| 日本午夜三级| 青草视频在线观看国产| 亚洲网综合| 国产精品夜夜嗨视频免费视频| 在线不卡免费视频| 国产精品一老牛影视频| аⅴ资源中文在线天堂| 欧美国产日韩在线| 久久久久久午夜精品| 久久人搡人人玩人妻精品一| 9啪在线视频| 久久国产V一级毛多内射| 国产精品jizz在线观看软件| 伊人网址在线| 亚洲Av综合日韩精品久久久|