999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下涉軍網(wǎng)絡輿情的知識圖譜服務研究

2018-03-21 01:11:04,
中華醫(yī)學圖書情報雜志 2018年4期

,

知識圖譜擁有非常豐富的語義信息,其開放與互聯(lián)的特性被認為是一種優(yōu)質(zhì)高效的知識組織方式,從而在許多領域得到廣泛應用。互聯(lián)網(wǎng)上的著名涉軍論壇和軍網(wǎng)上的官兵論壇,均是涉軍網(wǎng)絡輿情集散地,需要對二者的網(wǎng)絡輿情進行大數(shù)據(jù)分析研究。

本文結(jié)合輿情監(jiān)測中心承擔的輿情監(jiān)測分析任務和相關課題的研究,圍繞軍事大數(shù)據(jù)戰(zhàn)略開展了涉軍網(wǎng)絡輿情分析的知識圖譜研究,以進一步推進新時代軍事大數(shù)據(jù)信息服務的創(chuàng)新發(fā)展。

1 網(wǎng)絡輿情管理中的知識圖譜服務

1.1 知識圖譜的構(gòu)建

與概念化的傳統(tǒng)語義網(wǎng)相比,知識圖譜更關注實例、更易于在線更新和利用眾包模式[1]。知識圖譜的構(gòu)建首先是獲取大量計算機可理解的知識。大數(shù)據(jù)時代,知識大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)以及各行業(yè)的結(jié)構(gòu)化數(shù)據(jù)中。知識圖譜構(gòu)建過程主要包括知識抽取、知識融合和知識計算3個步驟。

1.1.1 知識抽取

知識抽取主要解決如何從各種異構(gòu)數(shù)據(jù)源中獲取知識。數(shù)據(jù)源分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)3類。處理非結(jié)構(gòu)化數(shù)據(jù),需通過自然語言技術識別文章中的實體,識別實體之間的關系,有時還需獲取事件及其相關屬性;處理半結(jié)構(gòu)化數(shù)據(jù),是根據(jù)不同結(jié)構(gòu)訓練出不同包裝器,然后進行抽取;處理結(jié)構(gòu)化數(shù)據(jù),則需要通過ETL工具對數(shù)據(jù)進行處理后,得到符合要求的知識。

1.1.2 知識融合

知識融合是將不同數(shù)據(jù)源獲取的知識進行整合并構(gòu)建關聯(lián)關系。從各個數(shù)據(jù)源抽取的知識可能還存在不一致性,因此需要使用融合技術將知識使用統(tǒng)一的術語結(jié)構(gòu)(本體)進行描述,進而整合成一個龐大的知識庫。本體不僅提供了統(tǒng)一的概念字典,還表達了各個概念間的關系以及約束。通過實體映射技術,將不同數(shù)據(jù)源中的實體映射到統(tǒng)一的本體概念中,進而實現(xiàn)不同數(shù)據(jù)源的實體映射。知識融合的大量運算,需要大數(shù)據(jù)平臺高性能分布式計算能力。融合后的知識庫需要有存儲管理方案,如NoSQL數(shù)據(jù)庫和關系數(shù)據(jù)庫,應根據(jù)不同的應用場景采用不同的存儲架構(gòu)。

1.1.3 知識計算

知識計算主要是根據(jù)知識圖譜獲得更多隱含、少噪聲的知識,以提高可用性。運用規(guī)則推理技術和鏈接預測技術可以獲取數(shù)據(jù)中的隱含知識,使用基于圖的社會計算算法可以在知識網(wǎng)絡上補充知識間關聯(lián)的路徑,通過不一致檢測技術可以發(fā)現(xiàn)數(shù)據(jù)中的噪聲和缺陷等。

1.2 知識圖譜技術應用于網(wǎng)絡輿情管理的優(yōu)勢

將知識圖譜技術應用于網(wǎng)絡輿情管理,具有開放資源豐富、信息集成域廣、計算能力強大的優(yōu)勢。

1.2.1 開放資源豐富

百度百科是百度公司推出的網(wǎng)絡百科全書平臺,幾乎涵蓋了所有已知的知識領域;互動百科是一個大規(guī)模的中文百科知識平臺,具有與百度百科相同的規(guī)模,覆蓋上萬人群;中文維基百科是維基百科的中文版,提供網(wǎng)站全部數(shù)據(jù)的下載。它們都是當前有豐富知識的百科類知識庫[2],因內(nèi)容收集全面而成為相關領域知識圖譜的優(yōu)秀在線資源。此外CN-DBPedia,Zhishi.me,XLore等均是在上述百科網(wǎng)站基礎上建立的知識圖譜,擁有大量的領域知識。這些網(wǎng)站雖然沒有提供數(shù)據(jù)下載服務,但都開放了訪問接口,可通過爬蟲等技術獲取數(shù)據(jù)。

1.2.2 信息集成域廣

網(wǎng)絡輿情引導不僅需要本領域的知識,還需要了解政治、軍事、經(jīng)濟、社會、醫(yī)療等各領域的知識。如“魏則西事件”涉及互聯(lián)網(wǎng)、軍隊醫(yī)院、醫(yī)療等多個領域,涉軍網(wǎng)絡輿情的信息管理需要跨領域的互通與協(xié)作。知識圖譜的開放性為這種領域知識之間的互通提供了基礎和便利。由于各領域的知識圖譜大多由開放領域知識圖譜擴展而獲得,因此跨領域的知識集成變得相對容易。

1.2.3 計算能力強大

開放利用的知識圖譜有著規(guī)范的結(jié)構(gòu)和豐富的語義,不僅支持高效的查詢和復雜的知識計算,而且能夠為輿情主題發(fā)現(xiàn)、熱點追蹤等提供強大的支持。傳統(tǒng)的輿情信息多存儲在關系數(shù)據(jù)庫或全文檢索數(shù)據(jù)庫中,使用文本聚類、文本分類等方法發(fā)現(xiàn)輿情。知識圖譜支持多種存儲方式下的語義檢索,如Neo4j數(shù)據(jù)庫,可以通過Cypher語言實現(xiàn)基于圖的高效檢索[3]。基于符號和基于統(tǒng)計的知識推理方法均可應用于知識圖譜中,能夠為輿情管理提供高效的輔助決策支持。

2 網(wǎng)絡輿情大數(shù)據(jù)分析及其熱點事件發(fā)現(xiàn)

2.1 網(wǎng)絡輿情知識圖譜

網(wǎng)絡輿情熱點事件是在公共或局部網(wǎng)絡空間內(nèi),集中爆發(fā)于較短時間的一系列關于某話題的網(wǎng)絡輿情事件的總稱。網(wǎng)絡輿情知識圖譜是與網(wǎng)絡輿情處理有關的結(jié)構(gòu)化的語義知識庫和輿情事件庫,其基本組成單元為實體、關系、時間區(qū)間、實體四元組和實體、屬性、時間、屬性值四元組。時間區(qū)間是一個形如[ts,te]的區(qū)間,其中-∞≤ts≤te≤+∞。

網(wǎng)絡輿情信息是以上述兩種組成單位為基礎建立的動態(tài)圖結(jié)構(gòu)。實體主要包括事件和對象兩類,“事件”表示網(wǎng)絡輿情事件中的各種話題事件,“對象”表示與事件有關聯(lián)的各種客體,例如地域、任務、機構(gòu)等[4-5]。關系主要包括3類,分別用于描述“事件-事件”“事件-對象”“對象-對象”之間的關系。例如四元組“啟動針對ZX禁止出口令”“發(fā)布”“ [2018.04.16,+∞]”“美國商務部”,表達了最近發(fā)生的美國商務部制裁中興通信事件。網(wǎng)絡輿情事件在網(wǎng)絡輿情知識圖譜中的表示如圖1所示。

圖1網(wǎng)絡輿情知識圖譜中的輿情事件

2.2 網(wǎng)絡輿情處理引擎

網(wǎng)絡輿情處理包括輿情監(jiān)測、主題發(fā)現(xiàn)、熱點追蹤和輔助輿情引導等,可基于網(wǎng)絡輿情知識圖譜來完成。如某網(wǎng)絡輿情的知識圖譜為常見的輿情事件進行了分類管理,每類事件中記錄了相關的觸發(fā)詞。同時知識圖譜中包含了各領域的大量術語以及與抽取事件相關的元素內(nèi)容,可以直接用于事件的抽取。抽取方法步驟為:內(nèi)容采集,通過網(wǎng)絡爬蟲從各大網(wǎng)絡媒體站點和自媒體賬號中抓取專門語料;文本處理,去除數(shù)據(jù)中的格式信息、廣告、超鏈接等無用信息,然后拆分成段落和句子,使用自然語言工具進行分詞、去除停用詞;事件發(fā)現(xiàn),從處理好的句子中提取主題句,然后根據(jù)觸發(fā)詞進行事件分類、要素填充,最后更新到知識圖譜中。

網(wǎng)絡輿情知識圖譜的事件存儲有著良好的結(jié)構(gòu)和細節(jié),包括事件的發(fā)生、傳播的整個過程,為發(fā)現(xiàn)輿情事件提供了極大的便利。網(wǎng)絡輿情知識圖譜的有向動態(tài)圖有類、對象和事件3種節(jié)點。圖1中的有向邊代表節(jié)點之間關系,可以通過社會網(wǎng)絡分析法對輿情熱點進行分析,還可以利用數(shù)據(jù)庫提供的高效語句直接檢索熱點事件[6]。涉軍輿情處理引擎負責具體的管理活動,主要包括輿情檢索和輿情引導。通過預定義Cypher語句和SQL語句訪問知識圖譜數(shù)據(jù)庫實現(xiàn)輿情檢索,如主題發(fā)現(xiàn)查詢2018年1月份以來評論數(shù)最多的10件熱點事件,檢索語句為MATCH ( )-[c:COMMENT]->(e:Event) WHERE e.startTime>="2018.1" WITH e,count(c) AS comments ORDER BY comments desc LIMIT 10 RETURN e。如事件追蹤查詢某事件引發(fā)的系列事件,檢索語句為MATCH (e:Event)—>(ee:Event) WHERE e.name=“印軍越線阻攔中方施工” RETURN e,ee。熱點預測可以綜合事件評論數(shù)和衍生事件數(shù)的增加速度預測可能發(fā)生的熱點。輿情引導則是提供發(fā)布權(quán)威消息的接口,可以在官方網(wǎng)站、涉軍論壇、微博和微信公眾號中發(fā)布各類信息。

2.3 網(wǎng)絡輿情事件演化及數(shù)據(jù)指標

在輿情形成和高漲初期需要及時發(fā)現(xiàn)輿情熱點事件。網(wǎng)絡輿情事件演化為熱點事件的必要條件是關注度(演化度Evolution)高、傳播范圍(傳播廣度Range)大和受眾觀點出現(xiàn)分歧。輿情事件熱度(Heat)是指在t時刻事件演化度和傳播廣度變化趨勢的一種度量,即Heat(e,t)=ke×Evolution(e,t)+kr×Range(e,t)。其中,ke、kr為加權(quán)系數(shù),滿足ke≥0,kr≥0,ke+kr=1,可視實際情況調(diào)整。

輿情事件的輿情趨勢(Trend)是指在t時刻輿情事件演化度和傳播廣度變化率的一種度量,即Trend(e,t)=?t(Heat(e,t))=ke×?t(Evolution(e,t))+kr×?_t(Range(e,t))。其中,?t(Heat(e,t))為Heat(e,t)ate,t關于t的微分,?t(Evolution(e,t) )為Evolution(e,t)關于t的偏微分,?_t(Range(e,t))為Range(e,t)關于t的偏微分。在實際計算中,輿情趨勢可以使用差分近似。當輿情趨勢大于某一閾值時,表示輿情事件熱度增長迅速,可將該事件視為熱點事件并加以重點關注;當輿情趨勢在一段時間小于閾值時,表示輿情事件熱度增長緩慢或者下降,可以取消關注。

2.4 主題輿情的熱度分析

2.4.1 數(shù)據(jù)集構(gòu)建與參數(shù)選擇

以鐵血網(wǎng)為例,“鐵血論壇”有大量的活躍用戶和帖文,通過爬蟲抓取2018年以來陸軍板塊的100篇熱帖構(gòu)建驗證數(shù)據(jù)集。首先確定各模型參數(shù):時間單位選擇0.5天,時間窗口Δt選擇為4(即重點關注近2天),事件新鮮度衰減率α取-0.01,則最近4個時間單位的新鮮度分別為0.074、0.081、0.09和0.1;設輿情熱度的加權(quán)系數(shù)ke取0.6,kr取0.4。論壇主要涉及4類傳播事件即發(fā)帖、回帖、轉(zhuǎn)發(fā)和瀏覽。為簡化模型令這4類事件所對應關系的權(quán)重不隨時間變化,分別取常數(shù)0.6、0.2、0.15和0.05。另外,還可設定輿情預警值,當輿情趨勢超過該值時需要重點關注和引導該輿情。

2.4.2 輿情事件熱度分析

輿情事件熱度綜合反映出用戶參與該事件的程度和該事件傳播的范圍。對100個帖文綜合分析發(fā)現(xiàn),輿情演化度和傳播廣度的變化規(guī)律存在一定的關系又各不相同[7],即趨勢大致相同但不完全一致。有些帖文演化度持續(xù)保持高位,但傳播廣度維持在較低水平,說明參與該話題討論的為某個特定群體,并未引起大多數(shù)用戶的關注;有些帖文演化度不高,但傳播廣度較高,說明該貼可能只是通過標題吸引用戶并沒有實質(zhì)內(nèi)容。實驗中分析了4個帖文的演化度、傳播廣度和事件熱度變化(圖2)。圖2中第1個帖文先后出現(xiàn)了2次熱點,第2個帖文和第4個帖文在持續(xù)保持了一段時間的熱度后迅速衰減,第3個帖文出現(xiàn)多次熱點但總趨勢是下降的。

圖2 論壇板塊涉軍話題輿情熱度分析示例

3 涉軍輿情大數(shù)據(jù)的知識圖譜服務

在涉軍網(wǎng)絡輿情大數(shù)據(jù)管理中,建立針對不同網(wǎng)絡環(huán)境的輿情系統(tǒng),通過不同途徑開展知識圖譜服務。以某涉軍網(wǎng)絡環(huán)境為研究對象,有關信息在描述中使用了代號表示。

3.1 話題輿情熱度分析

所建的A網(wǎng)訪問量穩(wěn)步提升,網(wǎng)中運行的B論壇是網(wǎng)友之間進行交流的活躍地,其發(fā)帖和回復的數(shù)量都已成為軍網(wǎng)上的大數(shù)據(jù)。輿情事件發(fā)現(xiàn)系統(tǒng)首先從存儲數(shù)據(jù)庫中檢索最新帖文進行事件提取,并存儲到網(wǎng)絡輿情知識圖譜中,然后再通過輿情事件基于算法自動發(fā)現(xiàn)熱點事件,并按照相應的預警等級發(fā)出預警。如關注事件的輿情變化趨勢以掌握網(wǎng)友的反映,分析一段時間內(nèi)某類話題事件的輿情熱度等。

近幾年,國防和軍隊改革逐步推進,熱點話題不斷涌現(xiàn)。本文選取5個與軍隊改革有關的話題,計算話題的輿情熱度(圖3)。

圖3 不同話題輿情熱度的變化趨勢

從圖3可以看出,同一話題可多次成為熱點,同一時段不同話題的輿情熱度差別較大。隨著時間的推進,熱點話題在不斷變化,一方面體現(xiàn)了不同階段有不同的改革內(nèi)容,另一方面也體現(xiàn)了網(wǎng)友對不同話題的關注度差別比較大。

3.2 用戶參與活躍度分析

將用戶參與的事件按照輿情熱度進行累加,可以獲得用戶的活躍度。按照各個時間單位進行統(tǒng)計,可以獲得用戶活躍度的周期分布趨勢圖,如星期周期分布、小時周期分布等。用戶活躍度的周期分布趨勢圖存在一些規(guī)律,如上午或下午某個時間點用戶很活躍,這對于把握涉軍輿情的監(jiān)測時間有重要指導意義。

3.3 事件熱點詞匯云圖分析

事件的主題句基本能夠表達事件關注的內(nèi)容,通過分析主題句可以發(fā)現(xiàn)網(wǎng)民關心的內(nèi)容和習慣使用的詞匯。對某涉軍事件的主題句進行分詞,以輿情熱度作為權(quán)值進行求和運算,繪制出不同時間段的詞云(圖4)。如圖4所示,詞云中字號越大的主題,其輿情熱度越高。

從圖4中可以發(fā)現(xiàn),不同時間段網(wǎng)民關注的熱點詞匯差別比較大,這從側(cè)面反映出不同時間段涉軍網(wǎng)絡輿情的變化情況。如左上圖中“中國”“航母”“飛機”“海軍”等熱點詞的輿情熱度較高,因為當時正是中國第一艘航母遼寧艦的試航時期。其他3幅圖中關于“軍隊”“官兵”“改革”等的輿情熱度均比較高。

3.4 涉軍輿情的熱點事件發(fā)現(xiàn)

輿情熱點事件發(fā)現(xiàn)可以根據(jù)設定輿情熱度閾值實現(xiàn)。當事件熱度大于事件熱度閾值時,可以認為該事件是熱點事件(圖5)。如圖5所示,某帖文在18~27的時間段,事件熱度超過閾值,被認定為熱點事件。

輿情熱點的出現(xiàn)時機可以通過輿情趨勢預測(圖6)。如圖6顯示,在16~20的時間段輿情趨勢超過預警值,說明該事件為輿情熱點。

通過對比發(fā)現(xiàn),使用輿情趨勢預判比使用事件熱度提前了2個時間單位(1天)。經(jīng)過在某涉軍實驗數(shù)據(jù)集上測試,有87%的論壇帖文成功實現(xiàn)了預測,取得預計效果。

圖4不同時間段的主題句詞云

圖5 通過事件熱度判定熱點事件

圖6 通過輿情趨勢判定輿情熱點

4 結(jié)語

本文分析了知識圖譜組織的優(yōu)質(zhì)高效以及應用于網(wǎng)絡輿情管理的優(yōu)勢,提出了網(wǎng)絡輿情知識圖譜的輿情事件表達和處理引擎設計,并從話題輿情熱度分析、用戶參與活躍度分析、事件熱點詞匯云圖分析和輿情熱點事件發(fā)現(xiàn)等方面,研究了涉軍輿情大數(shù)據(jù)的知識圖譜服務途徑,但目前還缺少大數(shù)據(jù)的進一步驗證。下一步將深化研究,以提高知識圖譜服務輿情管理的效能。

主站蜘蛛池模板: 国产福利小视频在线播放观看| 素人激情视频福利| 久久熟女AV| 91在线视频福利| 欧洲高清无码在线| 男女性午夜福利网站| 成年av福利永久免费观看| JIZZ亚洲国产| 午夜国产精品视频| 超薄丝袜足j国产在线视频| 国产激情无码一区二区免费| 国产手机在线ΑⅤ片无码观看| 国产精品成人一区二区不卡| 精品人妻AV区| 久久精品人人做人人爽97| 日本爱爱精品一区二区| 熟女成人国产精品视频| 精品视频第一页| 精品国产成人a在线观看| 欧美日韩亚洲国产| 午夜精品区| 欧美三级自拍| 中文字幕无线码一区| 欧美日韩亚洲综合在线观看| 久996视频精品免费观看| 国产亚洲一区二区三区在线| 国产精品手机视频一区二区| 国产va在线观看免费| 国产一级裸网站| 久久国产亚洲欧美日韩精品| 国模沟沟一区二区三区| 一本一本大道香蕉久在线播放| 亚洲天堂网在线播放| 日韩视频福利| 国产乱人激情H在线观看| 亚洲AV色香蕉一区二区| 免费毛片全部不收费的| 国产熟女一级毛片| 在线观看热码亚洲av每日更新| 理论片一区| 欧美日韩午夜| 亚洲精品桃花岛av在线| 国产精品久线在线观看| 欧美国产视频| 91精品视频播放| 视频在线观看一区二区| 伊人成色综合网| 最新午夜男女福利片视频| 国产性爱网站| 国产综合无码一区二区色蜜蜜| 亚洲a级在线观看| 四虎永久免费地址在线网站 | 无码精油按摩潮喷在线播放| 三级欧美在线| 亚洲不卡影院| 天堂在线www网亚洲| 国产精品亚洲а∨天堂免下载| 成人年鲁鲁在线观看视频| 精品国产一区91在线| 中文字幕欧美日韩高清| 国产精品成人一区二区| 色哟哟精品无码网站在线播放视频| 国产色婷婷视频在线观看| 成人一级黄色毛片| 精品福利国产| 久久国产精品娇妻素人| 波多野结衣一二三| 91在线中文| 狠狠色综合网| 青青草原国产| 国产精品丝袜视频| 亚洲天堂首页| 91九色国产在线| 国产毛片久久国产| 欧美精品在线视频观看| 国产第二十一页| 久久亚洲日本不卡一区二区| 国产乱人激情H在线观看| 国内嫩模私拍精品视频| 青草午夜精品视频在线观看| 国产9191精品免费观看| 视频在线观看一区二区|