999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)技術(shù)與國際輿情研判

2017-10-22 19:32:49聶書江
對外傳播 2017年9期
關(guān)鍵詞:數(shù)據(jù)挖掘

聶書江

國際輿情研判是指對國際輿論場中的輿情進行價值和趨勢的一種分析與判斷過程,主要由兩部分構(gòu)成:一是對國際輿論場中輿情進行日常性、持續(xù)性的跟蹤、收集,形成輿情庫,進而提出報告;二是針對具體的國際危機或議題的輿情進行針對性研判,形成報告。前者具有系統(tǒng)性、穩(wěn)定性和長期性,后者具有臨時性、突發(fā)性和專題性特征。

國際輿情研判是否準(zhǔn)確不但影響國際危機管理的水平,而且也影響國家決策的制定與執(zhí)行,在國際危機管理的過程中具有非常重要的作用。國際危機公關(guān)堅持“決策未出,研判先行”就是對國際輿情研判的生動說明。而在傳統(tǒng)意義上,國際輿情研判主要是通過人工瀏覽、文檔精選或案例庫比對等方法,不過,這些方法能夠奏效的一個前提是數(shù)據(jù)庫的可控性或者數(shù)據(jù)體量的可計算性。但是,在大數(shù)據(jù)時代,信息體量的幾何指數(shù)級增加意味著建立在可控假設(shè)的輿情研判方法難以解決大數(shù)據(jù)輿情狀況,因此,如何在大數(shù)據(jù)時代提升國際輿情的研判質(zhì)量就成為學(xué)界和業(yè)界思考的問題。

一、大數(shù)據(jù)時代傳統(tǒng)輿情研判的不足

20世紀(jì)90年代,面對紛繁復(fù)雜的國際輿論場,為了保證政策執(zhí)行的準(zhǔn)確性,我國國際輿情研判得到長足發(fā)展,當(dāng)時采取的主要手段是人海瀏覽法,即,通過對國際主流報刊和廣播進行人工查閱以了解該國輿情的發(fā)展方向,然后撰寫報告,如國外動態(tài)參考之類。21世紀(jì)初,隨著信息技術(shù)的發(fā)展,國際輿情研判手段發(fā)展到多文檔精選法和模板因子法。如今,基于網(wǎng)絡(luò)技術(shù)發(fā)展,又發(fā)展出關(guān)鍵詞搜索法、網(wǎng)絡(luò)實驗法和數(shù)據(jù)庫比對法。以上各種方法,在輿情研判的工作中曾經(jīng)發(fā)揮著重要的作用,也取得了一定的成效。但是,新的大數(shù)據(jù)挖掘技術(shù)的發(fā)展,以上幾種方法在輿情研判上的不足逐漸暴露出來。

1.樣本代表性不足。傳統(tǒng)輿情研判的數(shù)據(jù)基礎(chǔ)思想是樣本的隨機性采集,但這些樣本并不是全樣本,而是小樣本,小數(shù)據(jù)量。之所以如此,一方面是受制于統(tǒng)計工具,另一方面是因為隨機性統(tǒng)計方法認(rèn)為,采樣分析的精確性隨著采樣隨機性的增加而大幅提高,這種提高跟樣本數(shù)量關(guān)系不大,也就是,樣本隨機性比樣本數(shù)量更加重要。然而,祝建華教授在一次討論中明確表示,如果抽樣的對象過于復(fù)雜,比如大數(shù)據(jù),那么,人們根本找不到一個最優(yōu)抽樣的標(biāo)準(zhǔn)。一旦隨機性出現(xiàn)偏差,分析結(jié)果就會相去甚遠。2016年,美國總統(tǒng)大選,不但美國相關(guān)機構(gòu)預(yù)測失敗,而且我國的統(tǒng)計機構(gòu)也預(yù)測認(rèn)為候選人希拉里會獲勝,日本統(tǒng)計機構(gòu)甚至認(rèn)為希拉里大勝,從而建議首相提前結(jié)好希拉里。但是,印度的人工智能系統(tǒng)MogIA卻通過對Google、Facebook、Twitter等平臺上2000萬個數(shù)據(jù)點分析后認(rèn)為,特朗普能夠當(dāng)選美國總統(tǒng),于是我們看到,當(dāng)特朗普當(dāng)選后,日本首相不被待見,而印度總理卻很受美國總統(tǒng)特朗普歡迎。這一事例說明,小樣本已經(jīng)不能夠滿足大數(shù)據(jù)時代的輿情研判,如果還基于小樣本提供輿情研判,極易出現(xiàn)失誤。

2.缺乏包容性。在信息缺乏時代,信息的精確性就意味著研判的精確性。人們不但執(zhí)迷于獲取精確的信息,而且也為如何消除噪音而苦惱。在線性傳播模式中,噪音是一個影響傳播效果的主要因素,傳播學(xué)者為此制定出很多降噪的策略,如設(shè)備降噪、傳播重復(fù)、擴大音量等。但是,信息爆炸的時代,噪音與數(shù)據(jù)并存,人們獲得有用數(shù)據(jù)的同時,也就意味著噪音的獲得,“我們掌握的數(shù)據(jù)庫越來越全面,它不再只包括我們手頭現(xiàn)象的一點點可憐的數(shù)據(jù),而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個數(shù)據(jù)點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價消除所有的不確定性。”①但是,小樣本為了精確性而排斥這些數(shù)據(jù)。

3.效率低下。無論是人工瀏覽法還是文檔精選法,它們不但耗費巨大的人力物力,而且在面對危機事件時,也不能立即總結(jié)出可行的報告,其效率低下的缺點暴露無遺。危機管理對時間的要求非常高,20世紀(jì)90年代,管理者提出24小時的黃金法則,后來針對新環(huán)境,又提出5小時原則,如今在社交媒體時代,5小時顯然不能適應(yīng)輿情處理的要求。但不管是5小時,或者2小時,傳統(tǒng)輿情研判的方法都不能滿足這些需求,而利用大數(shù)據(jù)挖掘技術(shù),卻能夠在極短的時間內(nèi),保質(zhì)保量地完成這些輿情分析和研判。

二、“臟數(shù)據(jù)”與數(shù)據(jù)清洗

雖然大數(shù)據(jù)在面對全樣本時,比人工瀏覽法、文檔精選法等輿情研判更有優(yōu)勢,比如現(xiàn)在流行的Google搜索和百度搜索,但是,他們并不意味著大數(shù)據(jù)挖掘技術(shù)就一定能夠準(zhǔn)確預(yù)測輿情。因為,在輿情產(chǎn)生的過程中,異常數(shù)據(jù)、不一致數(shù)據(jù)、重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)等噪音數(shù)據(jù)和一些因數(shù)據(jù)結(jié)構(gòu)設(shè)計不合理和屬性約束不夠等產(chǎn)生的“臟數(shù)據(jù)”,也就是前文提到的包容性數(shù)據(jù),都能夠影響到輿情研判的精確度。所謂“臟數(shù)據(jù)”指的是在數(shù)據(jù)收集階段,源系統(tǒng)中的數(shù)據(jù)不存在給定范圍或?qū)嶋H業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。在國際輿情的收集過程中,由于語言邏輯的轉(zhuǎn)換、文化理解的不同,甚至數(shù)據(jù)源的獲取不正規(guī),噪音數(shù)據(jù)和“臟數(shù)據(jù)”普遍存在。從過去輿情研判失敗的案例中可以看出,如果無法對噪音數(shù)據(jù)或“臟數(shù)據(jù)”進行清洗,這些獲得的輿情研判結(jié)果還需要人工進行進一步檢驗,這樣就浪費人力物力。為了解決這個問題,數(shù)據(jù)清洗就成為解決“臟數(shù)據(jù)”的主要手段。

數(shù)據(jù)清洗技術(shù)主要應(yīng)用于數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)庫和數(shù)據(jù)挖掘三個方面,不同的應(yīng)用領(lǐng)域認(rèn)知不盡相同。到目前為止,數(shù)據(jù)清洗技術(shù)在學(xué)術(shù)界還沒有一個公認(rèn)的定義,但是其內(nèi)容已經(jīng)達成了初步共識。一般認(rèn)為,只要有助于解決數(shù)據(jù)質(zhì)量問題的處理過程就被認(rèn)為是數(shù)據(jù)清洗,其原理是通過分析“臟數(shù)據(jù)”的產(chǎn)生原因及存在形式,對數(shù)據(jù)流的過程進行考察、分析,并總結(jié)出數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義規(guī)則等方法,從而將“臟數(shù)據(jù)”轉(zhuǎn)化成滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。對于國際輿情研判而言,在國際輿情的大數(shù)據(jù)管理中,根據(jù)作者設(shè)置的定義、屬性、值域等對字段進行語義分析,發(fā)現(xiàn)隱藏在字段間的關(guān)聯(lián)關(guān)系,并進一步得到數(shù)據(jù)集中的字段存在的函數(shù)依賴關(guān)系,基于函數(shù)依賴發(fā)現(xiàn)數(shù)據(jù)集中的不一致值問題和隱藏的噪聲數(shù)據(jù)。然后根據(jù)函數(shù)依賴關(guān)系對數(shù)據(jù)集中的不一致值和缺失值進行清洗和修復(fù)。基于字段間的函數(shù)依賴關(guān)系還可以發(fā)現(xiàn)可信度較低的字段,通過分析可信度低的原因并反饋至數(shù)據(jù)采集階段,可以從數(shù)據(jù)源處減少國際輿情的“臟數(shù)據(jù)”。②具體見下圖:endprint

三、國際危機事件中的數(shù)據(jù)清洗

當(dāng)危機事件發(fā)生時,能夠在時間壓力下獲取相對準(zhǔn)確的信息是危機管理者的核心需求。然而,國際危機事件的輿情往往通過新媒體在國際輿論場中快速傳播,這些信息能夠在瞬間傳播至全國范圍乃至全世界的各個角落,各種態(tài)度、觀點通過媒體在輿論場中傳播,其中既有主流輿情的因素,也有一些“臟數(shù)據(jù)”。在此過程中,能夠排除“臟數(shù)據(jù)”,準(zhǔn)確獲取國際危機事件中影響事件發(fā)展方向的輿情就成為數(shù)據(jù)挖掘的關(guān)鍵。

首先,數(shù)據(jù)清洗技術(shù)需要建立約束處理機制。約束處理機制是大數(shù)據(jù)清洗的準(zhǔn)備工作,也是數(shù)據(jù)清洗的開端。第一步是利用大數(shù)據(jù)技術(shù)對國際危機事件的所有數(shù)據(jù)進行收集,這些數(shù)據(jù)也被稱為待清洗數(shù)據(jù)。需要注意的是,信息收集需要一個時間限制,雖然危機事件具有潛伏期、爆發(fā)期、蔓延期和恢復(fù)期四個階段的發(fā)展過程,但是,對于突發(fā)事件管理者而言,最重要的是爆發(fā)之后幾小時的數(shù)據(jù),這里參考我國發(fā)布的突發(fā)事件新聞發(fā)布要求中的5小時反應(yīng)規(guī)定。時間確定后,就需要根據(jù)大數(shù)據(jù)技術(shù)設(shè)置約束要素,如政治、經(jīng)濟、思想等。

其次,數(shù)據(jù)清洗設(shè)置。清晰設(shè)置就是根據(jù)約束處理機制對數(shù)據(jù)進行辨析的過程。首先是對數(shù)據(jù)進行解析,從傳播學(xué)的角度看,就是對數(shù)據(jù)進行解碼,因為,在搜集到的數(shù)據(jù)中除了文字文檔外,還有圖片、視頻等多媒體文件,這些數(shù)據(jù)需要按照大數(shù)據(jù)挖掘格式進行解析,否則,就會出現(xiàn)“臟數(shù)據(jù)”。數(shù)據(jù)解析后,通過規(guī)則邏輯如信息交互、重復(fù)識別和合并清洗等進行計算機選擇,從而根據(jù)規(guī)則進行清洗。該過程是一種技術(shù)處理的過程,既需要大數(shù)據(jù)的算法庫,也需要危機事件輿情的主體參與進來。具體而言,就是在收集到危機事件的輿情數(shù)據(jù)后,針對“臟數(shù)據(jù)”進行數(shù)據(jù)清洗,這種清洗的最終目的是保留清潔數(shù)據(jù),為輿情研判做好準(zhǔn)備。

最后,數(shù)據(jù)驗證。數(shù)據(jù)清洗完畢后,并不能夠保證輿情研判的準(zhǔn)確性。為了保證數(shù)據(jù)清洗后的數(shù)據(jù)具有價值,還需要對這些數(shù)據(jù)進行價值和趨勢的驗證,如果發(fā)現(xiàn)數(shù)據(jù)清洗后出現(xiàn)缺失,就需要對數(shù)據(jù)進行補全。然后,根據(jù)清洗后的數(shù)據(jù)進行分析和研判,從而能夠最大程度地保證研判的準(zhǔn)確性。

四、小結(jié)

隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)清洗技術(shù)也越來越成熟,如今已經(jīng)被谷歌、臉譜等公司應(yīng)用于輿情研判工作中。對于國際輿情研判工作來說,信息的復(fù)雜性、多樣性和全樣本性,又決定了傳統(tǒng)意義上信息處理方法的不適應(yīng)性,故而,數(shù)據(jù)清洗技術(shù)的使用顯得尤為必要。

「注釋」

①維克托·邁爾·舍恩伯格、肯尼思·庫克耶著,盛楊燕、周濤譯:《大數(shù)據(jù)時代》,浙江人民出版社2013年版,第56頁。

②譚暉、廖振松、周小翠、賀凡:《大數(shù)據(jù)的數(shù)據(jù)清洗方法研究》,《信息通信》2017年第1期。endprint

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 在线无码九区| 国产精品不卡片视频免费观看| 欧美高清三区| 国产午夜无码片在线观看网站| 成色7777精品在线| 国产在线97| 国产精选自拍| 日韩福利视频导航| 亚洲欧美日韩成人在线| 亚洲一级毛片| 在线色国产| 九一九色国产| 亚洲天堂网在线播放| 亚洲天堂高清| 成人日韩视频| 精品无码国产一区二区三区AV| 99re视频在线| 中文字幕人妻无码系列第三区| 色九九视频| 四虎成人在线视频| 91在线播放免费不卡无毒| 亚洲资源站av无码网址| 97亚洲色综久久精品| 91美女在线| 国产剧情国内精品原创| 国产欧美日韩在线一区| 五月婷婷综合网| 国产乱论视频| 欧美色图久久| 精品国产亚洲人成在线| 久久99国产综合精品女同| 国产精品熟女亚洲AV麻豆| 日韩精品亚洲一区中文字幕| 多人乱p欧美在线观看| 91精品小视频| 澳门av无码| 91精品啪在线观看国产60岁| 热99re99首页精品亚洲五月天| 久久伊人色| 性做久久久久久久免费看| 99热这里都是国产精品| 女人爽到高潮免费视频大全| 91精品国产丝袜| 亚洲性影院| 91精品最新国内在线播放| …亚洲 欧洲 另类 春色| 1769国产精品视频免费观看| 免费人欧美成又黄又爽的视频| 色久综合在线| 中文字幕不卡免费高清视频| 日韩专区欧美| 97青草最新免费精品视频| 亚洲欧洲日韩综合色天使| 国产一级α片| 69精品在线观看| 欧美精品在线视频观看| 被公侵犯人妻少妇一区二区三区| 伊人大杳蕉中文无码| 91在线无码精品秘九色APP| 欧美福利在线| av大片在线无码免费| 毛片在线播放a| 国产经典在线观看一区| 欧美日韩高清在线| 久久久久久国产精品mv| 婷婷色狠狠干| 国产精品蜜臀| 国产青榴视频在线观看网站| 亚洲精品欧美日韩在线| 久久99蜜桃精品久久久久小说| 女高中生自慰污污网站| 91人妻在线视频| 国产精品福利一区二区久久| 国产69精品久久久久孕妇大杂乱 | 国产主播在线一区| 久久这里只有精品8| 久久精品国产电影| 精品99在线观看| 欧美国产日产一区二区| 成人午夜视频免费看欧美| 久久久久久高潮白浆| 久久国产精品电影|