999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析技術(shù)研究

2018-05-15 10:17:06張思龍王蘭成
現(xiàn)代情報 2018年4期
關(guān)鍵詞:大數(shù)據(jù)

張思龍 王蘭成

〔摘 要〕為應(yīng)對當(dāng)前網(wǎng)絡(luò)輿情的新挑戰(zhàn)和輿情分析的精準(zhǔn)性要求,需要從大數(shù)據(jù)的角度研究輿情處理新模式,從知識工程的角度挖掘輿情知識體系。借鑒知識技術(shù)和大數(shù)據(jù)技術(shù)在輿情領(lǐng)域的最新研究成果,設(shè)計了基于知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析模型,討論了模型設(shè)計和關(guān)鍵技術(shù)。最后以“南海問題”主題輿情為案例,對模型在實際輿論工作中的效用進(jìn)行了驗證,結(jié)果顯示該模型能夠較好地對特定主題輿情進(jìn)行深度分析和挖掘。

〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情分析;知識技術(shù);大數(shù)據(jù);南海問題

DOI:10.3969/j.issn.1008-0821.2018.04.015

〔中圖分類號〕G206.2 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2018)04-0106-06

〔Abstract〕In order to meet the new challenge of the network public opinion analysis technology in the big data era.It is necessary to study new models of public opinion deals from the perspective of big data,and to excavate the public opinion knowledge structure from the perspective of knowledge engineering.The paper used the latest research of knowledge technology and big data technology in public opinion field for reference,and designed a network public opinion analysis model based on knowledge technology and big data science.Then discussed the design and key technology of the model,finally verified the actual utility in the work of the public opinion based on the subject“the South China Sea issue”public opinion analysis.The results showed that the model could good for a particular theme public opinion in-depth analysis and mining.

〔Key words〕network public opinion analysis;knowledge technology;big data;the South China Sea issue

網(wǎng)絡(luò)輿情是廣大網(wǎng)民對國家政治、經(jīng)濟(jì)、文化和社會發(fā)展趨勢以及人們普遍關(guān)注的社會熱點(diǎn)、難點(diǎn)在互聯(lián)網(wǎng)上的集中體現(xiàn),是網(wǎng)民表達(dá)情緒、述求、行為傾向的信息集合[1]。中國互聯(lián)網(wǎng)絡(luò)信息中心第39次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2016年12月,我國網(wǎng)民規(guī)模達(dá)7.31億,互聯(lián)網(wǎng)普及率達(dá)到53.2%,手機(jī)網(wǎng)民規(guī)模占比達(dá)到95.1%。海量的用戶資料和行為數(shù)據(jù)為情報學(xué)者研究網(wǎng)絡(luò)輿情提供了堅實的數(shù)據(jù)基礎(chǔ)。然而,龐大的數(shù)據(jù)體量、錯綜的行為關(guān)系和海量的碎片化知識制約了傳統(tǒng)網(wǎng)絡(luò)輿情分析技術(shù)的發(fā)展。同時,海量的用戶網(wǎng)絡(luò)數(shù)據(jù)是社會輿情在互聯(lián)網(wǎng)上的映射,業(yè)已成為政府了解社會民生、加強(qiáng)執(zhí)政能力,有關(guān)部門及時掌握輿論動向,發(fā)現(xiàn)潛在輿論危機(jī)的重要參考,網(wǎng)絡(luò)輿情分析技術(shù)的關(guān)鍵性突破顯得尤為迫切。當(dāng)前大熱的大數(shù)據(jù)、知識工程等相關(guān)研究工作為網(wǎng)絡(luò)輿情分析技術(shù)的研究提供了理論和技術(shù)參考,海量的用戶網(wǎng)絡(luò)數(shù)據(jù)也已成為大數(shù)據(jù)的重要來源,網(wǎng)絡(luò)輿情研究進(jìn)入了大數(shù)據(jù)和大知識時代[1]。

1 相關(guān)研究現(xiàn)狀

1.1 網(wǎng)絡(luò)輿情分析基礎(chǔ)理論

網(wǎng)絡(luò)輿情是網(wǎng)民情緒、意見、行為傾向的綜合體現(xiàn),按照其信息構(gòu)成和內(nèi)容可以分為多種類型[2]。網(wǎng)絡(luò)輿情產(chǎn)生和傳播也存在不同的表現(xiàn)形態(tài),比如電子政務(wù)、新聞網(wǎng)站、搜索引擎、社交網(wǎng)絡(luò)等,當(dāng)前最為典型的就是百度、網(wǎng)易、新浪微博和騰訊微信等,涉及商品情報的還包括淘寶、京東、亞馬遜等電子商務(wù)網(wǎng)站。

網(wǎng)絡(luò)輿情分析基礎(chǔ)理論就是要在傳統(tǒng)輿情分析理論的基礎(chǔ)上不斷擴(kuò)展和深化,既要從宏觀上分析和預(yù)測用戶群體性行為,也要從微觀上洞察用戶個體行為的動機(jī)和傾向。一般的,網(wǎng)絡(luò)輿情分析基本流程包括輿情需求分析、輿情數(shù)據(jù)采集、話題識別、情感和統(tǒng)計分析、熱點(diǎn)發(fā)現(xiàn),以及基于用戶的評價準(zhǔn)則進(jìn)行預(yù)測,并為需求方提供輿情服務(wù)[3]。宏觀上講,網(wǎng)絡(luò)輿情分析包括整個環(huán)節(jié)和流程,但一般只把數(shù)據(jù)采集之后、輿情服務(wù)之前的環(huán)節(jié)作為網(wǎng)絡(luò)輿情分析的主要內(nèi)容,其中涉及的關(guān)鍵技術(shù)主要包括:話題識別與跟蹤、傾向性分析、話題傳播分析等。

話題識別與跟蹤的研究始于1996年,是由美國國防高級研究計劃委員會、卡內(nèi)基·梅隆大學(xué)、DARPA等研究機(jī)構(gòu)的眾多學(xué)者共同定義[4]。話題識別與跟蹤的主要任務(wù)是對相關(guān)話題的報道文本進(jìn)行聚類,對特定話題進(jìn)行跟蹤報道,并以某種形式呈現(xiàn)給用戶。常用的話題識別與跟蹤方法主要是基于聚類和分類的方法[4]。其中分類方法主要用于現(xiàn)有話題跟蹤的場景,聚類則是用于識別新話題,包括層次聚類和增量聚類。層次聚類適合非實時的離線數(shù)據(jù)處理,增量聚類則能夠進(jìn)行在線話題識別,應(yīng)用廣泛。常用的增量聚類算法有單遍聚類算法、K-means聚類算法。

傾向性分析是通過用戶發(fā)表的內(nèi)容對用戶要表達(dá)的情緒進(jìn)行判斷,識別出用戶對某一問題或觀點(diǎn)是持樂觀或悲觀、贊同或反對等。相關(guān)概念最早是由人工智能創(chuàng)始人之一的Minsky教授提出的。其主要應(yīng)用在電子商務(wù)領(lǐng)域,在政治選舉等輿情領(lǐng)域也有比較多的研究。情感分析隨著機(jī)器學(xué)習(xí)相關(guān)技術(shù)的發(fā)展,取得了一些成績,朱曉旭[5]提出兩層架構(gòu)的基于知識庫和檢索引擎的人物分類方法,基于知識庫和機(jī)器學(xué)習(xí)中的文本分類方法對人物評價進(jìn)行情感分析;房磊[6]結(jié)合語法知識,引入少量“評價詞”——“評價對象”的搭配和大量的評論數(shù)據(jù),對情感分析各個任務(wù)進(jìn)行改進(jìn),實現(xiàn)功能模型簡單有效,魯棒性好。

話題傳播分析是對話題在用戶之間傳播的途徑和規(guī)律,一般基于傳染病模型進(jìn)行研究。也有學(xué)者借助社會網(wǎng)絡(luò)分析的方法,即通過構(gòu)建輿情社會網(wǎng)絡(luò)對用戶關(guān)系進(jìn)行表示,對用戶行為模式進(jìn)行揭示,進(jìn)而對話題傳播趨勢進(jìn)行預(yù)判。Zhou[7]等人在原有的社團(tuán)發(fā)現(xiàn)技術(shù)基礎(chǔ)上,結(jié)合用戶關(guān)聯(lián)關(guān)系和用戶參與的話題,挖掘社會網(wǎng)絡(luò)結(jié)構(gòu)和話題分布的關(guān)系,該方法實現(xiàn)了對微博興趣社團(tuán)的挖掘。Liu等人[8]將對話題信息和用戶關(guān)聯(lián)關(guān)系屬性進(jìn)行綜合,提出了一種生成模型,用于挖掘用戶在話題層面的直接影響力,最終用于預(yù)測用戶行為和話題傳播趨勢。

1.2 知識技術(shù)及其在網(wǎng)絡(luò)輿情分析中應(yīng)用

輿情知識組織當(dāng)前是輿情分析領(lǐng)域的研究熱點(diǎn)之一。知識庫是知識組織和管理的基礎(chǔ),結(jié)合網(wǎng)絡(luò)輿情的特點(diǎn),引入知識組織與管理的理論和方法,構(gòu)建專門的輿情知識庫。從輿情決策基本知識需求出發(fā),從發(fā)現(xiàn)知識到更新知識,不斷擴(kuò)充知識庫規(guī)模,完善輿情知識內(nèi)容,從根本上把握網(wǎng)絡(luò)輿情的動因和趨向,對科學(xué)有效地進(jìn)行網(wǎng)絡(luò)輿情管控和引導(dǎo)工作具有重要的理論價值和現(xiàn)實意義。

王靜婷等在網(wǎng)絡(luò)輿情內(nèi)容分析系統(tǒng)框架中融入知識技術(shù),將知識組織和管理相關(guān)研究成果與輿情分析的關(guān)鍵流程和技術(shù)進(jìn)行充分融合,建立基于知識技術(shù)的網(wǎng)絡(luò)輿情內(nèi)容分析框架,以提高網(wǎng)絡(luò)輿情內(nèi)容分析的準(zhǔn)確度[9]。謝明亮等對知識管理相關(guān)技術(shù)在輿情管理中的應(yīng)用進(jìn)行論證,提出輿情機(jī)構(gòu)庫的定義,從特點(diǎn)、構(gòu)建策略和專業(yè)人員建設(shè)三方面進(jìn)行輿情機(jī)構(gòu)庫研究[10]。郭韌等通過空間向量模型構(gòu)造網(wǎng)絡(luò)輿情的知識需求,挖掘輿情知識供需關(guān)系,整合輿情源中的知識片段,結(jié)合詞頻變化的方法抽取與主題相關(guān)的核心概念[11]。毛秀梅等在構(gòu)建知識組織——知識供應(yīng)的兩階段知識服務(wù)流程模型的基礎(chǔ)上,研究了面向政府的網(wǎng)絡(luò)輿情知識服務(wù)能力需求,提出了基于OGSA的網(wǎng)絡(luò)輿情知識服務(wù)平臺架構(gòu)[12]。

1.3 大數(shù)據(jù)技術(shù)及其在網(wǎng)絡(luò)輿情分析中應(yīng)用

大數(shù)據(jù)通常是指常規(guī)軟硬件平臺無法及時感知、處理的數(shù)據(jù)集,它具有數(shù)據(jù)量大、增長快、來源廣泛等特征。針對大數(shù)據(jù)的特征,網(wǎng)絡(luò)輿情分析首要解決人工無法應(yīng)付的海量網(wǎng)絡(luò)數(shù)據(jù)的采集、存儲和處理任務(wù)。數(shù)據(jù)采集應(yīng)當(dāng)突出高效性和全面性,對于特定需求數(shù)據(jù)需要進(jìn)行定向采集,散布的零星信息和碎片化知識需要進(jìn)行全面收集、整理,海量歷史數(shù)據(jù)需要整理再利用。同時,網(wǎng)絡(luò)輿情數(shù)據(jù)往往存在用途不同、來源多樣、格式各異等特點(diǎn),還需要研究多源融合理論和方法,尤其大數(shù)據(jù)環(huán)境下,在數(shù)據(jù)融合基礎(chǔ)上,逐步構(gòu)建信息融合、知識融合的研究體系[13]。大數(shù)據(jù)處理技術(shù)體系方面,基于Hadoop的分布式存儲和大規(guī)模并行處理技術(shù)成為當(dāng)下熱門的解決方案[14]。

另外,近幾年大數(shù)據(jù)知識工程的研究也初見端倪,大數(shù)據(jù)知識工程是從國內(nèi)興起、引領(lǐng)大數(shù)據(jù)分析走向大知識研究和應(yīng)用的一個國際前沿研究方向,與傳統(tǒng)知識工程相比,大數(shù)據(jù)知識工程除權(quán)威知識源以外,其知識主要來源于用戶生成內(nèi)容,知識庫具有動態(tài)更新和自我完善能力[15]。

1.4 大數(shù)據(jù)環(huán)境下的輿情知識供給問題

當(dāng)前網(wǎng)絡(luò)輿情數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)的重要來源,可以說網(wǎng)絡(luò)輿情分析已經(jīng)離不開大數(shù)據(jù)處理技術(shù)了,網(wǎng)絡(luò)輿情也進(jìn)入了大數(shù)據(jù)時代,事實上大數(shù)據(jù)分析已經(jīng)成為當(dāng)前輿情領(lǐng)域熱點(diǎn)研究之一。相關(guān)研究結(jié)果表明,通過大數(shù)據(jù)技術(shù)的應(yīng)用,網(wǎng)絡(luò)輿情分析可以達(dá)到微觀層次,使得即時性、細(xì)節(jié)化的用戶情緒和傾向判斷成為可能,大數(shù)據(jù)改變了傳統(tǒng)輿情注重內(nèi)容而忽略關(guān)系的情況,依托大數(shù)據(jù)社會網(wǎng)絡(luò)分析,可以將輿情與情報源進(jìn)行關(guān)聯(lián)分析,以生產(chǎn)更高價值的信息[16]。然而從輿情分析的重要目的,輿情決策的角度講,當(dāng)前輿情分析的現(xiàn)狀還存在不足,在輿情案例研究、政策法規(guī)和領(lǐng)域知識等方面出現(xiàn)了供需不匹配的問題,也就是輿情知識供給的問題。當(dāng)前包括復(fù)旦大學(xué)、合肥工業(yè)大學(xué)在內(nèi)研究機(jī)構(gòu)都在致力于大數(shù)據(jù)和知識工程的研究就是要拓展大數(shù)據(jù)到大知識,將大數(shù)據(jù)中離散的多元信息、碎片化知識統(tǒng)一建模,用以構(gòu)建新型大數(shù)據(jù)知識服務(wù)體系,所以解決大數(shù)據(jù)環(huán)境下的輿情知識供給問題還要從大數(shù)據(jù)知識服務(wù)相關(guān)理論和技術(shù)方面著手。

2 知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析模型

2.1 必要性分析

大數(shù)據(jù)時代的到來,使得網(wǎng)絡(luò)輿情呈現(xiàn)了數(shù)據(jù)體量龐大、知識多元、價值宏大等特征,從數(shù)據(jù)規(guī)模上來看,其規(guī)模是海量級的,從數(shù)據(jù)內(nèi)容上來看,包含所有與之相關(guān)的信息內(nèi)容,從數(shù)據(jù)類型上來看,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)及交互數(shù)據(jù)等,更加復(fù)雜多樣[17]。傳統(tǒng)的抽樣式的輿情分析方法已不能適應(yīng)這種新的變化。大數(shù)據(jù)處理技術(shù)無疑為網(wǎng)絡(luò)輿情研究提供了新的研究思路,網(wǎng)絡(luò)輿情大數(shù)據(jù)處理超越了傳統(tǒng)的輿情數(shù)據(jù)處理模式,通過海量數(shù)據(jù)挖掘、智能信息處理和深度語義分析等手段,將輿情分析中各種潛在的關(guān)聯(lián)、微觀的異動和動態(tài)的演化進(jìn)行可視化圖譜演示和分析,并直接用于輔助決策。

然而,大數(shù)據(jù)帶來的是海量的信息流動和離散多元的輿情信息,嚴(yán)重影響了輿情信息處理的效率和效果,所以還需要對輿情信息進(jìn)行組織,相關(guān)研究顯示出知識技術(shù)的適用性,尤其針對特定主題或特定需求的輿情信息處理場景[9-12]。知識技術(shù)的應(yīng)用主要對特定領(lǐng)域、特定需求的輿情信息進(jìn)行組織,從而對輿情數(shù)據(jù)的采集、分析進(jìn)行過程性指導(dǎo)和監(jiān)督,甚至可以直接用于輿情服務(wù),提高大數(shù)據(jù)輿情分析系統(tǒng)的準(zhǔn)確性和實用性。

因此,研究知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析技術(shù)十分必要,它既能夠充分發(fā)揮大數(shù)據(jù)處理技術(shù)在智能信息處理和深度語義挖掘方面的優(yōu)勢,又能結(jié)合知識技術(shù)構(gòu)建一系列的輿情知識庫和案例庫,從而完善輿情知識服務(wù)體系。

2.2 模型設(shè)計

本文結(jié)合大數(shù)據(jù)處理和知識技術(shù)設(shè)計了面向知識服務(wù)的知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析模型,包括輿情知識庫、輿情大數(shù)據(jù)采集、輿情研判、輿情知識服務(wù)等功能模塊,如圖1所示。該模型各模塊之間信息互通,形成有機(jī)整體。

2.2.1 輿情知識庫模塊

輿情知識庫主要用于提煉知識需求、指導(dǎo)數(shù)據(jù)采集、輿情知識匹配、輿情知識服務(wù)等。基于知識的輿情分析系統(tǒng)中可以有一個或多個知識庫用于支撐輿情知識挖掘和利用。本文設(shè)計輿情知識庫包括領(lǐng)域知識庫、業(yè)務(wù)知識庫、輿情事件庫、輿情案例庫和決策支持庫等。領(lǐng)域知識庫是對特定領(lǐng)域知識的組織和管理,是該領(lǐng)域通用概念及其關(guān)系的集合,比如政治領(lǐng)域、公共衛(wèi)生領(lǐng)域等;業(yè)務(wù)知識庫則是輿情工作部門業(yè)務(wù)知識的集合,往往建立在一定領(lǐng)域知識庫基礎(chǔ)上的,比如政治領(lǐng)域輿情工作知識庫等;輿情事件庫保存了特定輿情事件基本信息和相關(guān)信息,比如事件主體、客體、時間、起因、經(jīng)過等要素;輿情案例庫保存了特定領(lǐng)域系列輿情事件發(fā)生、發(fā)展、處理和效果等信息;決策支持庫保存了輿情決策的相關(guān)知識,比如相關(guān)案例、引導(dǎo)策略、管控方法等,一般是對輿情案例庫綜合分析而形成的決策支持信息,可直接用于輿情知識服務(wù)。

2.2.2 輿情大數(shù)據(jù)采集模塊

大數(shù)據(jù)時代網(wǎng)絡(luò)輿情信息涉及的范圍十分廣泛,涉及人們生活活動的方方面面,數(shù)據(jù)來源眾多。所以輿情大數(shù)據(jù)采集的對象除了輿情工作部門日常關(guān)注的新聞媒體、門戶網(wǎng)站、以及微博、微信等社交網(wǎng)絡(luò)之外,還需要不斷擴(kuò)展輿情數(shù)據(jù)的來源,發(fā)揮大數(shù)據(jù)全角度、全方位覆蓋的信息優(yōu)勢。比如對電子政務(wù)網(wǎng)站、輿情工作部門的業(yè)務(wù)數(shù)據(jù)等進(jìn)行采集匯總,尤其是涉及政策解讀、民生問題等數(shù)據(jù)的收集工作等。從而構(gòu)建包含媒體報道、網(wǎng)民意見、政府工作等全角度、全方位、立體化的輿情數(shù)據(jù)來源,為輿情知識庫提供源源不斷的知識,同時,輿情知識庫也可以為輿情大數(shù)據(jù)采集提供指導(dǎo),既保證采集信息全面無遺漏,又能一定程度上保證精準(zhǔn)采集,避免不必要的數(shù)據(jù)冗余和資源浪費(fèi)。

2.2.3 輿情研判模塊

輿情大數(shù)據(jù)為輿情知識庫提供了十分豐富的知識來源,但這些知識往往是低價值密度和離散稀疏的,需要通過輿情研判工作,充分挖掘輿情大數(shù)據(jù)的價值。輿情研判的任務(wù)就是對網(wǎng)絡(luò)輿情進(jìn)行價值判斷和前景預(yù)測,而這里的價值更多的是體現(xiàn)在輿情知識上。從數(shù)據(jù)、信息和知識的關(guān)系上來看,知識往往是對數(shù)據(jù)和信息進(jìn)行組織、總結(jié)、體系化歸納而得到的,知識的獲取需要從數(shù)據(jù)提取信息,從信息歸納知識。所以,輿情研判需要綜合運(yùn)用數(shù)據(jù)融合、文本分析、深度語義挖掘、智能信息處理等大數(shù)據(jù)處理技術(shù),同時結(jié)合輿情知識庫中相關(guān)領(lǐng)域知識、業(yè)務(wù)知識和輿情案例等知識保障,實現(xiàn)網(wǎng)絡(luò)輿情大數(shù)據(jù)的數(shù)據(jù)整合、信息要素提取、知識發(fā)現(xiàn)等相關(guān)分析任務(wù)。從處理流程上來講,輿情研判首先需要根據(jù)輿情研判的知識需求對采集的數(shù)據(jù)進(jìn)行初步篩選、過濾和清洗,對多源數(shù)據(jù)進(jìn)行融合,對數(shù)據(jù)中的輿情信息進(jìn)行抽取,然后通過語義挖掘和關(guān)聯(lián),發(fā)現(xiàn)輿情熱點(diǎn),提取相關(guān)事實知識,通過知識匹配對適合的知識內(nèi)容存入知識庫,不斷完善知識庫。另外,輿情研判還可以專門針對某一特定事件進(jìn)行跟蹤,探索輿情事件的演化規(guī)律和傳播效應(yīng),為輿情監(jiān)督和管控等提供必要的案例素材。

2.2.4 輿情知識服務(wù)模塊

輿情知識服務(wù)面向的是網(wǎng)絡(luò)輿情業(yè)務(wù)工作人員或輿情決策者,主要用于在特定時期和特定任務(wù)情況下,根據(jù)輿情決策者的輿情需求或者特定輿情事件發(fā)展的不同時期,為輿情決策者提供相關(guān)輿情知識服務(wù)。一般的,輿情研判相關(guān)結(jié)果可直接用于輿情服務(wù),知識庫中包含了大量的事實知識、顯性知識和隱性知識,通過對各類知識的梳理,以一定形式進(jìn)行可視化,也可以為輿情決策者提供輿情服務(wù)。輿情知識服務(wù)主要功能包括,對未知輿情危機(jī)發(fā)生前進(jìn)行常規(guī)性的輿情監(jiān)測和預(yù)警工作;對特定輿情事件提供事件跟蹤、階段性輿情評估、風(fēng)險分析及應(yīng)對策略的輿情服務(wù);根據(jù)不同時期不同任務(wù)需要,提供專門性的輿情報告、案例總結(jié)、對策意見等咨詢服務(wù)。另外,通過人機(jī)交互,實現(xiàn)輿情分析系統(tǒng)與輿情決策者的信息互動,對輿情決策者的知識需求進(jìn)行實時傳遞和反饋,發(fā)揮輿情決策者通過自身業(yè)務(wù)知識對網(wǎng)絡(luò)輿情的把控優(yōu)勢。

2.3 關(guān)鍵技術(shù)

2.3.1 輿情知識庫構(gòu)建技術(shù)

輿情知識庫一般以領(lǐng)域知識作為知識庫藍(lán)本,借鑒領(lǐng)域?qū)<业闹R體系構(gòu)建輿情知識庫結(jié)構(gòu)。常用的輿情知識庫種類有專家系統(tǒng)、機(jī)構(gòu)數(shù)據(jù)庫、本體庫、主題詞表、分類詞表等。針對不同的知識庫類型,知識庫內(nèi)容、構(gòu)建思路和方法也不相同。現(xiàn)有的知識庫構(gòu)建技術(shù)一般包括基于知識管理的、基于知識工程的和基于本體的知識庫構(gòu)建。基于知識管理的知識庫構(gòu)建一般用于圖書情報領(lǐng)域,主要側(cè)重強(qiáng)調(diào)知識的獲取、存儲和共享,一般從現(xiàn)有的文獻(xiàn)資料中提取顯性知識和隱性知識,通過知識分類對知識進(jìn)行有序化,以便于知識的存儲和共享。基于知識工程的知識構(gòu)建一般用于人工智能領(lǐng)域,主要側(cè)重強(qiáng)調(diào)自主學(xué)習(xí)和知識推理,也就是從當(dāng)前存儲的事實信息和顯性知識中提取用戶需要的隱性知識。本體是共享的概念模型的形式化規(guī)范化描述,基于本體的知識庫是當(dāng)前比較流行的語義知識庫解決方案。本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義。

2.3.2 輿情大數(shù)據(jù)語義挖掘

輿情大數(shù)據(jù)語義挖掘是為了解決網(wǎng)絡(luò)復(fù)雜語義環(huán)境中準(zhǔn)確提取輿情信息的問題的。當(dāng)前比較流行的方法是基于主題模型和語義網(wǎng)技術(shù)的方法。主題模型是一種語言生成模型,在自然語言處理、機(jī)器學(xué)習(xí)等領(lǐng)域應(yīng)用廣泛。主題模型起源于隱性語義索引,隱性語義索引為主題模型的發(fā)展奠定了基礎(chǔ),LDA模型被認(rèn)為是第一個主題模型。主題模型有利于挖掘潛在的語義關(guān)聯(lián)模式,對輿情大數(shù)據(jù)語義挖掘研究具有重要借鑒意義。語義網(wǎng)技術(shù),就是能夠根據(jù)語義進(jìn)行判斷的智能網(wǎng)絡(luò),實現(xiàn)人與計算機(jī)之間的無障礙溝通,目前,語義網(wǎng)的研究主要集中在RDF和本體,語義網(wǎng)的實現(xiàn)包括關(guān)聯(lián)數(shù)據(jù)、谷歌知識圖譜等技術(shù),都在大數(shù)據(jù)語義挖掘方面有相關(guān)研究。

2.3.3 知識發(fā)現(xiàn)技術(shù)

知識發(fā)現(xiàn)是確定數(shù)據(jù)中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。大多數(shù)知識發(fā)現(xiàn)方法是在人工智能、數(shù)據(jù)庫、信息組織與檢索等領(lǐng)域中發(fā)展來的。典型的基于知識發(fā)現(xiàn)技術(shù)包括貝葉斯推理、K-Means聚類、神經(jīng)網(wǎng)絡(luò)、決策樹和粗糙集理論等。

2.3.4 知識匹配技術(shù)

知識匹配是知識管理中知識檢索的重要任務(wù)。目前,知識匹配主要是基于語義相似度的計算方法。部分學(xué)者也從知識的表達(dá)方式上探索知識匹配的有效算法,提出基于范疇論的最大公約子范疇用于知識匹配,以解決高維知識結(jié)構(gòu)上的匹配量化問題。

3 “南海問題”主題輿情分析案例研究

“南海問題”相關(guān)輿情涉及了國家主權(quán)、海洋權(quán)益、國際公約和國際政治局勢等眾多敏感話題,我國政府和學(xué)術(shù)界對“南海問題”輿論工作十分關(guān)注。構(gòu)建基于知識和數(shù)據(jù)雙輪驅(qū)動的“南海問題”輿情分析系統(tǒng)有利于整合現(xiàn)有“南海問題”輿情知識庫,及時跟進(jìn)相關(guān)事件發(fā)展,為輿論引導(dǎo)工作提供決策支持。

3.1 “南海問題”輿情分析系統(tǒng)構(gòu)建

依據(jù)知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析模型構(gòu)建“南海問題”輿情分析系統(tǒng)是模型技術(shù)實現(xiàn)的具體化過程,包括了“南海問題”輿情知識庫、輿情數(shù)據(jù)采集、輿情研判、輿情知識服務(wù)4個模塊的技術(shù)實現(xiàn)過程。

3.1.1 構(gòu)建“南海問題”輿情知識庫

知識庫使用本體技術(shù)實現(xiàn),通過對相關(guān)文獻(xiàn)整理篩選初步形成事件類、國家類、關(guān)注類、島礁類4類輿情本體庫,以事件類為核心,將事件發(fā)起或介入的國家、關(guān)注的媒體或機(jī)構(gòu)、涉及的島礁分別納入國家類、關(guān)注類和島礁類本體庫中,媒體所在國家則納入國家類本體庫中,如圖2所示。

3.1.2 “南海問題”輿情數(shù)據(jù)采集

輿情數(shù)據(jù)主要通過網(wǎng)絡(luò)爬蟲和相關(guān)媒體API接口進(jìn)行多種渠道、分布式并行采集,一般需要預(yù)先設(shè)置采集條件,比如關(guān)鍵詞和目標(biāo)網(wǎng)站等。由于多種渠道得到的數(shù)據(jù)分散、格式相異,還需要對采集的數(shù)據(jù)進(jìn)行整理,對不規(guī)范的數(shù)據(jù)進(jìn)行規(guī)范和整理,不完整的和不一致的數(shù)據(jù)進(jìn)行清理,完成數(shù)據(jù)的統(tǒng)一模式轉(zhuǎn)換。另外,借助“南海問題”輿情知識庫,系統(tǒng)可以根據(jù)用戶提供的關(guān)鍵詞,查找更準(zhǔn)確表達(dá)用戶需求的檢索詞集合,并根據(jù)該檢索詞集合實現(xiàn)對相關(guān)內(nèi)容的全面準(zhǔn)確爬取。

3.1.3 “南海問題”輿情研判

輿情研判是一個復(fù)雜的過程,根據(jù)不同的任務(wù)需要采取不同分析策略。以熱點(diǎn)事件追蹤為例,按照時間軸推進(jìn)的方式,查找該事件在網(wǎng)絡(luò)中的報道、評論,從而獲取該事件的發(fā)展脈絡(luò)。比如通過文本處理技術(shù),對采集的網(wǎng)頁正文、微博評論等進(jìn)行分詞、特征詞提取、主題發(fā)現(xiàn)和分類、時序關(guān)聯(lián),獲取事件發(fā)展情況,通過情感分析判斷廣大網(wǎng)友對后續(xù)發(fā)展的態(tài)度。

3.1.4 “南海問題”輿情知識服務(wù)

“南海問題”涉及領(lǐng)域范圍廣,知識結(jié)構(gòu)復(fù)雜,隨著國際形勢變化,突發(fā)事件頻發(fā),需要及時的積極應(yīng)對。通過輿情知識服務(wù),突發(fā)事件一旦發(fā)生,一方面要第一時間形成相關(guān)歷史事件發(fā)展脈絡(luò)圖,掌握相關(guān)法律依據(jù),占據(jù)法理高地;另一方面要及時跟進(jìn)事態(tài)發(fā)展,形成相關(guān)輿情報告,引導(dǎo)相關(guān)輿論,形成有利的輿情態(tài)勢。

3.2 典型事件“南海仲裁案”的輿情分析

以“南海仲裁案”相關(guān)信息,包括事件過程、涉及國家、涉及島嶼和各方觀點(diǎn)為需求,對輿情數(shù)據(jù)進(jìn)行采集、處理和分析。針對“南海仲裁案”事件,相關(guān)國家中國、菲律賓、美國納入國家類庫,涉及島礁黃巖島、美濟(jì)礁、仁愛礁和渚碧礁等納入島礁類庫,對此事件報道的新華網(wǎng)、新浪網(wǎng)、微博、微信等納入關(guān)注類,如圖3所示。

輿情數(shù)據(jù)主要來源于新華網(wǎng)、新浪網(wǎng)、今日頭條等新聞網(wǎng)站,新浪微博、微信等社交媒體,圍繞關(guān)鍵詞“南海問題+南海爭端+南海仲裁”,以2016年7月12日“南海仲裁案”結(jié)果發(fā)布后1周為限,即7月12日零時至7月18日24時,通過網(wǎng)絡(luò)爬蟲、新浪微博API、搜狗微信搜索對相關(guān)平臺數(shù)據(jù)進(jìn)行采集,借助新浪微輿情社會化大數(shù)據(jù)應(yīng)用平臺對相關(guān)數(shù)據(jù)進(jìn)行補(bǔ)充。以天為單位對采集的文本數(shù)據(jù)進(jìn)行分時處理,分詞后利用LDA模型對文本數(shù)據(jù)進(jìn)行建模,獲取主題詞分布,通過時序分析,獲取輿情發(fā)展走勢。另外,對文本數(shù)據(jù)中涉及實體和關(guān)系進(jìn)行抽取,提取相關(guān)的事實知識補(bǔ)充南海本體知識庫。

對比不同平臺提取的信息可以發(fā)現(xiàn),“南海仲裁案”事件信息比較集中,各平臺間轉(zhuǎn)載量和引用量比較大,用戶評論意見比較一致,形成比較清晰的發(fā)展脈絡(luò)。各媒體和廣大網(wǎng)友等關(guān)注方意見比較一致,均認(rèn)為“中國對南海擁有正當(dāng)領(lǐng)土權(quán)益”、“南海仲裁案是披著法律外衣的政治鬧劇”。

同時,通過對知識庫中已有案例對比報道提取的主題詞或關(guān)鍵詞用于發(fā)現(xiàn)“南海仲裁案”事件的發(fā)展脈絡(luò)和后續(xù)走勢(見表1),包括“2013年1月22日,菲律賓單方面將就南海問題提交國際仲裁”開始,到結(jié)果發(fā)布,再到后續(xù)的“多國領(lǐng)導(dǎo)人支持中國南海問題立場”等相關(guān)報道。同時南海問題知識庫國家類庫也擴(kuò)展了新加坡、越南、老撾等國家,島礁類基本涵蓋了與菲律賓有爭議的島礁。

4 結(jié)束語

網(wǎng)絡(luò)輿情研究是較為復(fù)雜的一項系統(tǒng)工程,相比傳統(tǒng)媒體輿情,網(wǎng)絡(luò)輿情的表現(xiàn)途徑、用戶規(guī)模和結(jié)構(gòu)特性等更為復(fù)雜,同時大數(shù)據(jù)時代的到來為網(wǎng)絡(luò)輿情研究提供機(jī)遇的同時也帶來了很大挑戰(zhàn)。大數(shù)據(jù)時代網(wǎng)絡(luò)輿情分析要在傳統(tǒng)輿情分析理論的基礎(chǔ)上不斷擴(kuò)展和深化,既要從大數(shù)據(jù)的角度在宏觀和微觀層面上洞察網(wǎng)民群體性動向,也要從知識工程和知識管理的角度對輿情大數(shù)據(jù)進(jìn)行知識挖掘,以更科學(xué)有效的方式提供輿情決策支持。本文借鑒知識技術(shù)和大數(shù)據(jù)技術(shù)在輿情領(lǐng)域的研究成果,設(shè)計了面向用戶知識需求的基于知識和數(shù)據(jù)雙輪驅(qū)動的網(wǎng)絡(luò)輿情分析模型,討論了模型設(shè)計和關(guān)鍵技術(shù)。最后以“南海問題”主題輿情為案例對模型在實際的輿情工作中的適用場景和實際效用進(jìn)行了驗證,結(jié)果顯示該模型能夠較好的結(jié)合知識和大數(shù)據(jù)技術(shù)對特定主題輿情進(jìn)行深度分析和挖掘。

參考文獻(xiàn)

[1]尚明生,陳端兵,高輝.輿情信息分析與處理技術(shù)[M].北京:科學(xué)出版社,2015:1-10.

[2]汪建基,馬永強(qiáng),陳仕濤.碎片化知識處理與網(wǎng)絡(luò)化人工智能[J].中國科學(xué):信息科學(xué),2017,47(2):171-192.

[3]郝曉玲.網(wǎng)絡(luò)輿情研判技術(shù)的研究進(jìn)展[J].情報科學(xué),2012,30(12):1901-1906.

[4]J.allan J.-Carbonell-et-al.Topic Detection and Tracking Pilot Study:Final Report[C].In the Proceeding of the DARPA Broadcast News Transcription and Understanding Workshop,1998.

[5]朱曉旭.人物評價文本情感分析研究[D].蘇州:蘇州大學(xué),2016.

[6]房磊.融合知識的情感分析研究[D].北京:清華大學(xué),2015.

[7]Zhenjun J.Hongxia-and-L.-Yan.Community Discovery and Profiling with Social Messages[C].In the Proceedings of the 2012 KDD,2012:388-396.

[8]Liu T.Jie-H.Jiawei.Mining Topic-level Influence in Heterogeneous Networks[C].In the Proceedings of the CIKM10,2010.

[9]王靜婷,徐震.一種基于知識技術(shù)的網(wǎng)絡(luò)輿情內(nèi)容分析系統(tǒng)框架[J].圖書情報導(dǎo)刊,2016,(2):139-143.

[10]謝明亮.基于知識管理的輿情機(jī)構(gòu)庫研究[J].江蘇第二師范學(xué)院學(xué)報,2016,(3):110-114,124.

[11]郭韌,陳福集.政府面向網(wǎng)絡(luò)輿情的知識源整合研究[J].情報科學(xué),2016,34(8):133-137,142.

[12]毛秀梅,楊曄.面向政府的網(wǎng)絡(luò)輿情知識服務(wù)體系構(gòu)建研究[J].情報科學(xué),2016,34(9):124-128.

[13]祝振媛,李廣建.“數(shù)據(jù)—信息—知識”整體視角下的知識融合初探-數(shù)據(jù)融合、信息融合、知識融合的關(guān)聯(lián)與比較[J].情報理論與實踐,2017,40(2):12-18.

[14]楊愛東,劉東蘇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)模型研究[J].現(xiàn)代圖書情報技術(shù),2016,(5):56-63.

[15]吳信東.從大數(shù)據(jù)到大知識:HACE+BigKE(報告)[J].計算機(jī)科學(xué),2016,43(7):3-6.

[16]徐敏.大數(shù)據(jù)環(huán)境下情報學(xué)在網(wǎng)絡(luò)輿情研究中的作用[J].圖書情報研究,2016,(2):12-18.

[17]瞿志凱,蘭月新,夏一雪.大數(shù)據(jù)背景下突發(fā)事件情報分析模型構(gòu)建研究[J].現(xiàn)代情報,2017,37(1):45-50.

[18]丁晟春,龔思蘭,周文杰.基于知識庫和主題爬蟲的南海輿情實時監(jiān)測研究[J].情報雜志,2016,35(5):32-37.

(實習(xí)編輯:陳 媛)

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 欧美国产精品不卡在线观看| 日韩视频免费| 久久国产精品77777| 高清无码手机在线观看| 人妻中文久热无码丝袜| 热re99久久精品国99热| 国产网站免费| 就去色综合| 欧美午夜理伦三级在线观看 | 久久久成年黄色视频| 无码福利日韩神码福利片| 刘亦菲一区二区在线观看| 欧美成人影院亚洲综合图| 91精品伊人久久大香线蕉| 国产精品刺激对白在线| 国产精品第三页在线看| 亚洲区第一页| 一本大道香蕉久中文在线播放| 国产小视频a在线观看| 99中文字幕亚洲一区二区| 亚洲人成网址| 日本一区二区三区精品国产| 亚洲欧洲美色一区二区三区| 国产精品部在线观看| 亚洲精品图区| 久久天天躁夜夜躁狠狠| 亚洲嫩模喷白浆| 高清免费毛片| 色香蕉网站| 国产jizzjizz视频| 女同国产精品一区二区| 午夜视频日本| 欧美日韩国产成人高清视频| 国产高清无码麻豆精品| 亚洲性视频网站| 亚洲一级毛片| 午夜毛片免费观看视频 | 久久狠狠色噜噜狠狠狠狠97视色 | 国产日韩精品欧美一区喷| 免费中文字幕在在线不卡| 国内精自视频品线一二区| 亚洲精品麻豆| 亚欧成人无码AV在线播放| 欧美国产菊爆免费观看| 国内自拍久第一页| 国产人妖视频一区在线观看| 91精品网站| 亚洲欧美日韩高清综合678| 久久不卡国产精品无码| 亚洲熟女偷拍| 国产一区二区三区视频| 在线观看欧美国产| 999国内精品久久免费视频| 夜夜爽免费视频| 美女国内精品自产拍在线播放| 青青青视频免费一区二区| 亚洲欧洲日韩国产综合在线二区| 一级毛片免费高清视频| 国产欧美日韩va另类在线播放| 久久青草视频| 亚洲欧美极品| 久无码久无码av无码| 国产精品久久久久无码网站| 国产色网站| 五月丁香伊人啪啪手机免费观看| 亚洲美女一级毛片| 尤物视频一区| a级毛片在线免费观看| 五月婷婷导航| 亚洲区欧美区| 国产午夜一级淫片| 国产精品丝袜视频| 婷婷亚洲综合五月天在线| 日本少妇又色又爽又高潮| 国产欧美日本在线观看| 国产精品理论片| 日韩精品一区二区三区免费在线观看| 日本三级欧美三级| 四虎国产永久在线观看| 欧美日本在线播放| 欧美成在线视频| 国产熟女一级毛片|