張志安 曹小杰 晏齊宏
從美國大選看大數(shù)據(jù)與網(wǎng)絡(luò)輿情研究①
張志安 曹小杰 晏齊宏
2016年美國總統(tǒng)大選中特朗普的意外當(dāng)選讓傳統(tǒng)民意調(diào)查陷入尷尬境地。在社交媒體盛行的時(shí)代,大數(shù)據(jù)方法對(duì)了解民意尤其是網(wǎng)絡(luò)輿情似乎有著天然的優(yōu)勢,但是否因此可以認(rèn)為民意調(diào)查的傳統(tǒng)方法已經(jīng)過時(shí)?文章從2016年美國大選出發(fā),基于對(duì)傳統(tǒng)民意調(diào)查方法和大數(shù)據(jù)分析優(yōu)劣勢的比較分析,認(rèn)為在分析社會(huì)輿情時(shí),一方面應(yīng)該加快發(fā)展大數(shù)據(jù)方法以把握網(wǎng)民心態(tài),另一方面也應(yīng)借鑒傳統(tǒng)民意調(diào)查方法的邏輯和抽樣原則,以回應(yīng)網(wǎng)絡(luò)輿情無法囊括的群體及相關(guān)問題等。
美國大選;大數(shù)據(jù)分析;網(wǎng)絡(luò)輿情

張志安張志安 中山大學(xué)傳播與設(shè)計(jì)學(xué)院教授,廣州大數(shù)據(jù)與公共傳播人文社科重點(diǎn)研究基地主任。
曹小杰中山大學(xué)傳播與設(shè)計(jì)學(xué)院副研究員。
晏齊宏中山大學(xué)2016級(jí)博士生。
2016年美國總統(tǒng)大選和特朗普當(dāng)選引起了全球高度關(guān)注,大選過程中傳統(tǒng)民調(diào)的預(yù)測失誤更是引發(fā)了眾多討論。在大數(shù)據(jù)方興未艾的背景下,對(duì)傳統(tǒng)民調(diào)的反思和批評(píng)顯得頗為意味深長。
究竟是二者各有優(yōu)缺點(diǎn),還是大數(shù)據(jù)更優(yōu)于傳統(tǒng)民調(diào)方法?美國民意調(diào)查的發(fā)展經(jīng)驗(yàn)及面臨問題對(duì)中國有何啟示?一方面,美國大選中傳統(tǒng)民調(diào)預(yù)測出現(xiàn)偏差并不能說明傳統(tǒng)民調(diào)的抽樣方法和研究邏輯失去了用武之地;另一方面,大數(shù)據(jù)方法的作用不宜過分夸大,但它對(duì)準(zhǔn)確把握社交媒體時(shí)代的輿情具有越來越重要的作用。因此,我國在研究和應(yīng)對(duì)網(wǎng)絡(luò)輿情時(shí),應(yīng)將傳統(tǒng)民調(diào)方法與大數(shù)據(jù)方法結(jié)合起來,從而準(zhǔn)確把握社會(huì)心態(tài),提高輿情應(yīng)對(duì)的科學(xué)性。
2016年美國總統(tǒng)大選的結(jié)果讓不少民意研究學(xué)者們感到意外,因?yàn)槭孪冉^大多數(shù)的傳統(tǒng)民意調(diào)查、主流媒體并不看好的特朗普,卻一舉擊敗希拉里當(dāng)選美國下一任新總統(tǒng)。在本次美國大選中,諸如微軟必應(yīng)團(tuán)隊(duì)、硅谷Unanimous AI、UNO系統(tǒng)、Greg、Nate Silver等均預(yù)測希拉里當(dāng)選。自上世紀(jì)30年代以來,以蓋洛普創(chuàng)辦的美國輿論研究所為代表,傳統(tǒng)民調(diào)因其抽樣方法的科學(xué)性、調(diào)查結(jié)果預(yù)測的準(zhǔn)確性而廣受青睞。然而,從英國脫歐公投到這次美國大選,傳統(tǒng)民意調(diào)查為什么會(huì)相繼失準(zhǔn),其背后的復(fù)雜原因值得探討。從民意調(diào)查的角度來看,以下因素大體對(duì)美國大選輿情預(yù)測的失誤造成了影響:
1.大選中的傳統(tǒng)民調(diào):樣本系統(tǒng)性偏差不可忽視
傳統(tǒng)民調(diào)是基于統(tǒng)計(jì)推斷的思維,即從樣本推斷總體。所以,樣本的代表性則成為民調(diào)準(zhǔn)確的基礎(chǔ)。在本次大選中,樣本代表性不足造成的系統(tǒng)性偏差是造成民調(diào)預(yù)測失準(zhǔn)不可忽視的因素。
一方面,民調(diào)拒訪率逐年增高,受訪率不斷降低。根據(jù)皮尤中心的報(bào)告,美國民調(diào)回復(fù)率1997年為36%,2000年為28%,2006年為15%,2013年為9%,2015年只有7%。①吳旭:為什么美國民調(diào)誤讀了民意?[EB/OL]. 觀察者網(wǎng),2016-11-13. http://www.guancha.cn/WuXu/2016_11_12_380323.shtml通常而言,受訪率在30%左右時(shí)民調(diào)相對(duì)是有效的,而2016年大選民調(diào)拒訪率普遍在90%左右。換言之,如何將“沉默的大多數(shù)”納入到輿情預(yù)測的樣本中來,通過提高受訪率來確保調(diào)查結(jié)果的準(zhǔn)確性,成為傳統(tǒng)民意研究面臨的重大挑戰(zhàn)。另一方面,傳統(tǒng)民調(diào)的樣本庫面臨更新受眾問題。目前的民調(diào)多采用的是電話調(diào)查,60%是通過固定電話調(diào)查,而且在白天進(jìn)行,受調(diào)查者多是退休老年人,或失業(yè)者等。選前民意調(diào)查也普遍高估了少數(shù)族裔尤其是西裔的投票率,低估了白人尤其是白人藍(lán)領(lǐng)的投票熱情。當(dāng)前,美國傳統(tǒng)民調(diào)機(jī)構(gòu)也在不斷調(diào)整調(diào)查樣本庫,使之更加貼近變革時(shí)代、社交媒體時(shí)代的特征,但總體上看其更新目前仍未完成。
同時(shí),由于忽視美國選舉人制度及各州特征差異,傳統(tǒng)民意調(diào)查對(duì)于各州所抽取樣本量及權(quán)重并未給予充分的考慮。此次大選預(yù)測過度關(guān)注得票率而忽視了選舉人制度,在兩位候選人得票率旗鼓相當(dāng)?shù)那闆r下,預(yù)測的誤差被選舉人制度放大。其實(shí),兩位總統(tǒng)候選人的得票數(shù)非常接近,最終誰當(dāng)選總統(tǒng)都不奇怪。此外,“郵件門”等關(guān)鍵事件對(duì)選舉態(tài)勢也可能產(chǎn)生影響,但傳統(tǒng)民調(diào)并未實(shí)時(shí)跟進(jìn)。維基解密對(duì)希拉里團(tuán)隊(duì)選舉內(nèi)幕的曝光,美國FBI重啟郵件門事件的調(diào)查等對(duì)選民投票意向的影響,可能在后期民意調(diào)查設(shè)計(jì)中體現(xiàn)不夠。
當(dāng)然,這不足以說明傳統(tǒng)民調(diào)無法了解真實(shí)民意,因?yàn)椴煌拿裾{(diào)系統(tǒng)有不同的適用范圍。而在當(dāng)下,當(dāng)大量青年受眾轉(zhuǎn)向使用移動(dòng)互聯(lián)網(wǎng)特別是社交媒體的時(shí)候,傳統(tǒng)民調(diào)系統(tǒng)相比于大數(shù)據(jù)分析系統(tǒng)就會(huì)出現(xiàn)更大的偏差。
2.大選中的大數(shù)據(jù)方法:心理測驗(yàn)是關(guān)鍵
近年來關(guān)于大數(shù)據(jù)的討論話題升溫,而本次大選也確實(shí)說明了大數(shù)據(jù)方法的有效性。當(dāng)然,這與當(dāng)前移動(dòng)互聯(lián)網(wǎng)的普及、社交媒體盛行的媒介格局變化密不可分。
美國人移動(dòng)電子設(shè)備使用率不斷升高,社交媒體使用量增多。從電子設(shè)備擁有量看,據(jù)2015年皮尤中心報(bào)告的調(diào)查,美國人電腦的擁有量呈下降趨勢,2015年30歲以下的美國成年人擁有電腦(臺(tái)式電腦或筆記本)為78%,而2010年為88%。相比之下,18歲到29歲的人中,擁有智能手機(jī)為86%。從全國來看,68%的美國成年人擁有智能手機(jī),45%的美國成年人擁有平板電腦。②Monica Anderson. Technology device ownership: 2015. Report from the Pew Research Center's Internet, Science & Tech Project (Oct 29, 2015). Report available at: http://www.pewinternet.org/2015/10/29/technology-device-ownership-2015/同時(shí),社交媒體的使用率也大大增加。大多數(shù)美國人通過社交媒體獲取新聞,約一半公眾通過社交媒體了解2016年總統(tǒng)大選信息。③Shannon Greenwood; Andrew Perrin; Maeve Duggan. Social media update 2016. Report from the Pew Research Center's Internet, Science & Tech Project (Nov 11,2016). Report available at:http://www.pewinternet.org/2016/11/11/social-media-update-2016/同時(shí),2016年上半年的一項(xiàng)全國調(diào)查顯示,68%的美國成年人使用Facebook,美國網(wǎng)民中有79%的人使用Facebook。當(dāng)越來越多的受眾轉(zhuǎn)向移動(dòng)互聯(lián)網(wǎng),針對(duì)社交媒體的大數(shù)據(jù)分析方法確實(shí)比傳統(tǒng)民調(diào)更具有說服力。
在選舉結(jié)果的預(yù)測方面,基于大數(shù)據(jù)方法的分析已經(jīng)奏效。2016年10月30日,印度的MogIA(人工智能)系統(tǒng),通過搜集Google、Facebook、Twitter、YouTube等兩千萬個(gè)數(shù)據(jù)來源并進(jìn)行分析,結(jié)果預(yù)測特朗普將成為最后贏家——這也是MogIA連續(xù)四次成功預(yù)測美國大選結(jié)果。此外,特朗普競選團(tuán)隊(duì)的數(shù)字競選策略,也較多依賴大數(shù)據(jù)分析技術(shù)。本次大選中,特朗普擅長使用更平民化的社交媒體平臺(tái)來輔助競選,一是放大競爭對(duì)手的弱點(diǎn),二是激發(fā)渴望改變的美國人的投票熱情,尤其是鐵銹區(qū)白人藍(lán)領(lǐng)的投票熱情。
同時(shí),特朗普在公開場合的各種講話并不一致,這也是一種競選策略。特朗普數(shù)字競選團(tuán)隊(duì),主要基于網(wǎng)絡(luò)大數(shù)據(jù)分析,構(gòu)建網(wǎng)絡(luò)用戶的人物畫像。與一般大數(shù)據(jù)分析不同的是,這并不是一個(gè)“外殼”上的人物畫像,而是具有“人格特質(zhì)”的人物畫像。他們從網(wǎng)絡(luò)特別是從以Facebook為代表的社交媒體上收集用戶行為數(shù)據(jù),并以此來預(yù)測用戶心理,構(gòu)建用戶“人格特征”,并基于此預(yù)測用戶可能的投票傾向。同時(shí),在這一過程中,針對(duì)不同傾向的投票者,發(fā)布不同的政治信息。如針對(duì)那些可能投票給特朗普的選民,積極發(fā)布特朗普相關(guān)競選信息和理念,促使他們投票;而對(duì)那些可能投票給對(duì)手的選民,則發(fā)布希拉里“不友好”行為的相關(guān)信息,影響他們的投票意向,至少也“說服”那些想投票給希拉里的人“遠(yuǎn)離”投票箱。所以,這里的關(guān)鍵是“心理測驗(yàn)學(xué)”中對(duì)人格特性的勾勒,當(dāng)然這也是基于這樣一個(gè)假設(shè)和經(jīng)驗(yàn),即某種性格的人更傾向于某種行為。這種對(duì)數(shù)據(jù)的挖掘和分析,在一定程度上更多的是基于大數(shù)據(jù)精準(zhǔn)化預(yù)測,而不是傳統(tǒng)的樣本到總體的預(yù)測。
從這個(gè)角度講,真正具有挑戰(zhàn)性的是數(shù)據(jù)分析能力,即如何將數(shù)據(jù)與人的心理、行為聯(lián)系起來。如果說傳統(tǒng)的問卷調(diào)查是基于樣本推斷總體,是一種橫向的、由點(diǎn)到面的推斷,那么大數(shù)據(jù)分析可以說是一種縱向的推斷,是變量間相關(guān)關(guān)系的推斷,從線上行為預(yù)測人物性格和心理,進(jìn)而預(yù)測可能的現(xiàn)實(shí)行為傾向。
綜上所述,我們可以認(rèn)為傳統(tǒng)民調(diào)的偏差可能是由系統(tǒng)性偏差導(dǎo)致的樣本代表性問題造成的,這不足以否定整個(gè)傳統(tǒng)民意調(diào)查行業(yè)的方法和價(jià)值。這次美國大選傳統(tǒng)民調(diào)的失誤,以及此前英國脫歐公投民意預(yù)測失誤等,并不能簡單得出“傳統(tǒng)民調(diào)已死”的草率結(jié)論。但是,在社交媒體流行、在去全球化、民粹主義觀念甚囂塵上的新時(shí)代,傳統(tǒng)民調(diào)的確有必要進(jìn)行改變和更新,尤其在方法論上考慮將大數(shù)據(jù)理念、工具及手段結(jié)合進(jìn)民意調(diào)查中來。
一般認(rèn)為,大數(shù)據(jù)有四個(gè)特點(diǎn):更大的容量、更復(fù)雜的多樣性(包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))、更快的生成速度以及其組合帶來的第四個(gè)因素——價(jià)值。大數(shù)據(jù)被學(xué)界稱為繼實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)之后的第四種科學(xué)研究模式。①Tony Hcy等著.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M].潘教峰等譯,科學(xué)出版社,2012:63.大數(shù)據(jù)對(duì)數(shù)據(jù)分析有新的要求,如數(shù)據(jù)建模、自然語言處理、分詞技術(shù)、情感挖掘技術(shù)、可視化技術(shù)等。同時(shí),數(shù)據(jù)分析方法的多樣化和精細(xì)化,也為基于大數(shù)據(jù)的民意和輿情分析提供了重要參考。本質(zhì)上說,大數(shù)據(jù)不僅是一種工具,更是一種哲學(xué)觀和方法論,②王凌.論大數(shù)據(jù)時(shí)代媒體業(yè)發(fā)展趨勢[J].中國出版,2014,01:32-34.即如何從數(shù)據(jù)本身出發(fā)進(jìn)行思考。
1.大數(shù)據(jù)方法可以獲取動(dòng)態(tài)數(shù)據(jù),有助于及時(shí)或?qū)崟r(shí)了解網(wǎng)絡(luò)輿情動(dòng)向
傳統(tǒng)民調(diào)更多基于橫截面數(shù)據(jù),而大數(shù)據(jù)方法可以實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)處理。社交媒體等的興起產(chǎn)生了大量網(wǎng)民表達(dá)和消費(fèi)數(shù)據(jù),使得公眾的觀念和行為等能夠被記錄下來;由此,大數(shù)據(jù)分析系統(tǒng)可以實(shí)時(shí)抓取這些行為數(shù)據(jù),并進(jìn)行分析。例如,在本次大選的初選階段,社交媒體上出現(xiàn)了大量針對(duì)特朗普的負(fù)面言論,但隨著相關(guān)討論越來越多,特朗普最后以不錯(cuò)的言論形象在初選中勝出。大數(shù)據(jù)方法對(duì)這種數(shù)據(jù)的動(dòng)態(tài)性把握相對(duì)更為及時(shí)。
類似的案例其實(shí)還有不少。有研究者在對(duì)2012年首次總統(tǒng)選舉辯論的分析中,設(shè)計(jì)了移動(dòng)APP,并進(jìn)行大規(guī)模全國大學(xué)生實(shí)時(shí)回應(yīng)調(diào)查。該調(diào)查充分考慮了辯論中的特殊狀況,并通過APP收集了自然情境下眾多參與群體的實(shí)時(shí)數(shù)據(jù)。研究表明,收集實(shí)時(shí)數(shù)據(jù)對(duì)于推進(jìn)輿論現(xiàn)象研究具有重要價(jià)值。①Amber E. Boydstun; Rebecca A. Glazier; Matthew T. Pietryka; Philip Resnik. Real-Time reactions to a 2012 presidential debate: A method for understanding which messages matter[J].Public Opinion Quarterly.2014,Vol.78(Special 1):330-343.此外,Google利用大數(shù)據(jù)準(zhǔn)確預(yù)測流感趨勢,②但以谷歌為例的流感預(yù)測,也可能因?yàn)榇罅繜o關(guān)搜索而出現(xiàn)系統(tǒng)誤差,因?yàn)楣雀锜o法甄別搜索者究竟是因?yàn)樯《ニ阉鬟€是因?yàn)橹拦雀枇鞲羞@個(gè)項(xiàng)目后而進(jìn)行實(shí)驗(yàn)性質(zhì)的搜索,這也是后來谷歌流感預(yù)測出現(xiàn)失誤的原因。還有麻省理工大學(xué)Devavrat Shah和Stanislav Nikolov發(fā)現(xiàn)的新算法在預(yù)測Twitter熱門話題時(shí),準(zhǔn)確率在95%以上,而且平均比Twitter官方熱門話題出來的時(shí)間早90分鐘,有些熱門話題甚至能夠提前五個(gè)小時(shí)預(yù)測出來。
2.大數(shù)據(jù)方法可以聚焦于特定事件與議題,有助于準(zhǔn)確把握網(wǎng)絡(luò)輿情態(tài)勢
網(wǎng)絡(luò)事件在不同的階段通常有不同的特征,輿情研判需要把握特定事件在不同階段的信息傳播規(guī)律。一般來說,公眾在醞釀期更多是情緒性表達(dá),隨著事件不斷演進(jìn),公眾對(duì)事件認(rèn)知的更加深入,情緒化表達(dá)逐漸轉(zhuǎn)為相對(duì)理性的表達(dá)。有研究者對(duì)2010年“愛的大游行”活動(dòng)中社會(huì)化媒體用戶的使用動(dòng)機(jī)進(jìn)行分析,該研究假設(shè):情感是這次活動(dòng)中網(wǎng)民討論最多的話題;隨著時(shí)間推進(jìn),社會(huì)化媒體中情感表達(dá)的程度逐漸減弱。研究發(fā)現(xiàn),社會(huì)化媒體不僅僅是一種表達(dá)、展示的平臺(tái),而且是情緒分享和宣泄的渠道。③Neubaum,German; Rosner, Leonie; Rosenthal-von der Putten, Astrid M; Kramer, Nicole C.. Psychosocial functions of social media usage in a disaster situation: A multi-methodological approach[J].Computers in Human Behavior.2014,34:28-38.有研究者認(rèn)為情感有助于競爭性的公共空間的形成,空間的形成促進(jìn)了公共參與和公民輿論的產(chǎn)生。在公共領(lǐng)域,利益沖突和情感正義、社會(huì)矛盾都會(huì)暴露出來。④Jingrong Tong. The formation of an agonistic public sphere: Emotions, the Internet and news media in China[J].China Informa tion.2015,Vol.29(No.3):333-351.對(duì)社會(huì)化媒體特定事件的大數(shù)據(jù)分析,有利于把握參與者情感與理性的交融與互變。
同時(shí),對(duì)于特定議題,大數(shù)據(jù)分析方法可以通過設(shè)置“標(biāo)簽”等方式,抓取最為相關(guān)的網(wǎng)絡(luò)信息,并圍繞于此展開后續(xù)分析。在2016年美國大選中,Google搜索趨勢關(guān)于特朗普的話題前四位是:“他說了什么”、“墻”(指其要在美國與墨西哥邊境筑墻阻止非法移民的言論)、“ISIS”(反穆斯林言論)以及“經(jīng)濟(jì)”話題。而關(guān)于希拉里的則是“特朗普”、“郵件門”、“克林頓基金”與“2012年Benghazi襲擊案”。⑤民意調(diào)查反映了美國大選結(jié)果嗎?[EB/OL].狐說,2016-11-11. http://wwwbuild.net/reviewsonnewmedia/481110.html基于這些熱點(diǎn)話題的精準(zhǔn)數(shù)據(jù)分析,或許更有助于把握輿情發(fā)展態(tài)勢。
需要指出的是,并非所有的社交媒體和網(wǎng)絡(luò)大數(shù)據(jù)都是有用的,如何從網(wǎng)絡(luò)平臺(tái)中獲取真正有用的數(shù)據(jù)是開展科學(xué)分析的前提。一般來說,對(duì)于特定事件和特定議題,可以在社交媒體平臺(tái)上設(shè)置“關(guān)鍵詞”和“標(biāo)簽”,從而找到最為相關(guān)的數(shù)據(jù)。例如,有研究者以阿拉伯之春為例,基于阿拉伯20個(gè)國家和巴勒斯坦政權(quán)的政治、媒體、抗議活動(dòng)數(shù)據(jù),分析社會(huì)化媒體在抗議活動(dòng)中的影響。這項(xiàng)研究統(tǒng)計(jì)了不同階段抗議活動(dòng)的數(shù)量和規(guī)模,具體操作步驟是:首先,根據(jù)抗議活動(dòng)的發(fā)展情況,找到重要事件節(jié)點(diǎn);其次,按照節(jié)點(diǎn)在Google搜索里輸入關(guān)鍵詞“抗議”、“示威”、“騷亂”以及日期,從而抽取出較為重要的社會(huì)化媒體內(nèi)容信息。⑥Gadi Wolfsfeld; Elad Segev; Tamir Sheafer. Social media and the Arab spring: Politics comes first[J].International Journal of Press/Politics.2013,Vol.18(No.2):115-137.對(duì)特定事件或議題的大數(shù)據(jù)分析,有助于了解不同階段的情緒和觀點(diǎn)表達(dá)狀態(tài),并在此基礎(chǔ)上把握輿情態(tài)勢。
3.大數(shù)據(jù)方法可以獲取社交數(shù)據(jù),有助于深度挖掘網(wǎng)絡(luò)中的信息流動(dòng)規(guī)律
網(wǎng)民在使用社交媒體過程中產(chǎn)生了大量的數(shù)據(jù),很多數(shù)據(jù)是基于個(gè)體交互行為而產(chǎn)生的,這些關(guān)系數(shù)據(jù)可以構(gòu)成一個(gè)社會(huì)網(wǎng)絡(luò)。運(yùn)用社會(huì)網(wǎng)絡(luò)分析法可以考察該網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和特征,如整體網(wǎng)分析、個(gè)體網(wǎng)分析、局部派系分析。其中,整體網(wǎng)分析,可以找到該網(wǎng)絡(luò)的整體關(guān)系緊密程度或聚合程度;個(gè)體網(wǎng)的分析可以找到網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn),關(guān)鍵節(jié)點(diǎn)代表個(gè)體在網(wǎng)絡(luò)中擁有較大的權(quán)力,其行動(dòng)能夠?yàn)樽陨砗途W(wǎng)絡(luò)帶來社會(huì)資本。在輿情事件中,該節(jié)點(diǎn)可能是意見領(lǐng)袖,基于此可以分析意見領(lǐng)袖對(duì)于輿情事件的影響。當(dāng)然,也可以分析不同局部派系中個(gè)體聚合的動(dòng)力機(jī)制、行為方式。此外,還可以分析網(wǎng)絡(luò)中的“結(jié)構(gòu)洞”現(xiàn)象,探查結(jié)構(gòu)洞對(duì)于整個(gè)網(wǎng)絡(luò)的影響,以及對(duì)信息的阻隔和疏通,由此也考察網(wǎng)絡(luò)中的信息流通失衡現(xiàn)象。
有研究采用社會(huì)網(wǎng)絡(luò)分析法對(duì)“長春隨車被盜嬰兒”進(jìn)行分析,應(yīng)用軟件構(gòu)建并生成微博輿論傳播的復(fù)雜網(wǎng)絡(luò),從“總體特征”、“中心性”、“凝聚子群”三個(gè)維度計(jì)算分析該復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)特征。研究發(fā)現(xiàn),在該事件中,微博輿論傳播的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)趨于穩(wěn)定,信息渠道通暢但較為分散。隨著轉(zhuǎn)發(fā)層級(jí)的增加,網(wǎng)絡(luò)中心節(jié)點(diǎn)的權(quán)力權(quán)重也逐層下降;輿論發(fā)展過程中網(wǎng)絡(luò)結(jié)構(gòu)也有所變化,中心節(jié)點(diǎn)數(shù)量不斷增加,節(jié)點(diǎn)間鏈路從單一層級(jí)向多層級(jí)發(fā)展。①李衛(wèi)東,賀濤.微博輿論傳播的復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)模型及其演化機(jī)制[J].新聞與傳播研究,2013,(11):90-105+127-128.
對(duì)大數(shù)據(jù)分析方法在網(wǎng)絡(luò)平臺(tái)、社交媒體中作用的分析,有助于我們更為深刻地理解大數(shù)據(jù)分析方法的核心理念,以及其在民意和輿情研究中的意義。
我國大數(shù)據(jù)的發(fā)展經(jīng)歷了大數(shù)據(jù)普及、大數(shù)據(jù)分析時(shí)代和人工智能三個(gè)階段,當(dāng)下已經(jīng)基本完成了大數(shù)據(jù)普及,正處于向大數(shù)據(jù)分析和人工智能的過渡時(shí)期。
目前,大數(shù)據(jù)的發(fā)展趨勢主要三點(diǎn):第一,大數(shù)據(jù)的處理方法越來越側(cè)重于對(duì)非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)數(shù)據(jù)的處理,如情感分析和語義分析等;第二,多元、多源、立體化數(shù)據(jù)處理越來越重要,應(yīng)該集合各類網(wǎng)絡(luò)平臺(tái),如搜索引擎、社會(huì)化媒體、網(wǎng)站等;第三,未來大數(shù)據(jù)的發(fā)展?jié)摿υ谟谌斯ぶ悄埽匆磺兄悄芑?shù)字化、網(wǎng)格化。對(duì)應(yīng)于此,大數(shù)據(jù)方法運(yùn)用于網(wǎng)絡(luò)輿情監(jiān)測主要有情感分析與語義分析、事例圖譜分析、智能化分析等不同路徑。
1.情感分析與語義分析:把握文本涵義背后的社會(huì)心態(tài)
網(wǎng)絡(luò)文本包括情感型文本和認(rèn)知型文本。傳統(tǒng)的文本分析是辨別事實(shí)或言論,主要研究對(duì)象是關(guān)鍵詞;情緒分析需要復(fù)雜的算法和人類語言信號(hào)。廣義上,傳統(tǒng)的情感分析技術(shù)包括語義分析和基于路徑的機(jī)器學(xué)習(xí)。語義導(dǎo)向路徑比較容易理解,但是不夠準(zhǔn)確。②Bo Pang; Lillian Lee. Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval.2008,Vol.2( No.1-2):1-135.相反,機(jī)器學(xué)習(xí)路徑則比較準(zhǔn)確,但各種復(fù)雜算法很難掌握、運(yùn)用和理解。③Bo Pang; Lillian Lee. Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval.2008,Vol.2( No.1-2):1-135.
情感分析一般的做法是,從海量文本中抽取有情感指向的詞語和短語,并經(jīng)過統(tǒng)計(jì)整合得出文章、語篇或字句的好惡傾向。同時(shí),也可以通過自然語言處理等技術(shù),對(duì)網(wǎng)絡(luò)文本語言進(jìn)行語義分析。因?yàn)橛行┣楦芯哂须[性內(nèi)涵,并不能通過字面意思來理解,在此情況下有必要進(jìn)一步進(jìn)行語義分析。實(shí)際上,情感分析背后所洞察的是心理和心態(tài),如Andranik Tumasjan等基于黨派政治情緒的分析中,將政治情緒分為12個(gè)維度:如未來導(dǎo)向、過去導(dǎo)向、積極情緒、消極情緒、悲傷、焦慮、生氣、傾向性/意圖性、確定性等。④Andranik Tumasjan; Timm O. Sprenger; Philipp G. Sandner; Isabell M. Welpe. Predicting elections with Twitter: What 140 characters reveal about political sentiment. Proceedings of the Fourth international AAAI conference on weblogs and social media.2009.目前有很多網(wǎng)絡(luò)流行語、火星文等“變型”語言,一定程度上也能反映民眾心態(tài)和心理,有必要對(duì)此進(jìn)行分析,但是還需要將其置于整個(gè)社會(huì)語境中加以考察。
大數(shù)據(jù)平臺(tái)可以抓取用戶實(shí)時(shí)數(shù)據(jù),并進(jìn)行動(dòng)態(tài)監(jiān)測,找到公眾情緒走向情緒化的閾值、態(tài)度從量變達(dá)到質(zhì)變的閾值,從而更為精準(zhǔn)地預(yù)測某種情緒或者態(tài)度是否會(huì)引發(fā)輿情危機(jī)。不過,中國的網(wǎng)絡(luò)輿論場總體上呈現(xiàn)“事件導(dǎo)向”而非“話題導(dǎo)向”,由此更多基于數(shù)據(jù)的分析只是關(guān)于事件的輿情動(dòng)態(tài),而非關(guān)于話題的輿情研究。
2.事例圖譜分析:揭示人與物的結(jié)構(gòu)性、動(dòng)態(tài)關(guān)系
目前,網(wǎng)絡(luò)大數(shù)據(jù)輿情分析基本上靠兩大數(shù)據(jù)類型:一是用戶自己表達(dá)的文字語言;二是社交數(shù)據(jù)。除此之外,還要分析第三類數(shù)據(jù),即事例數(shù)據(jù),要在社交數(shù)據(jù)的基礎(chǔ)上加入其他更多的行為數(shù)據(jù)。因?yàn)閱渭兩缃粩?shù)據(jù)不足以“辨識(shí)”用戶/事物特性,特別是在輿情分析中的作用有限。行為數(shù)據(jù)的關(guān)注客體是“人”和“物”,對(duì)于人來說,如移動(dòng)互聯(lián)網(wǎng)上的一系列消費(fèi)數(shù)據(jù)、①Josh Pasek; S. Mo Jang; Curtiss L. Cobb III; J. Michael Dennis; Charles Disogra. Can marketing data aid survey research? Examining accuracy and completeness in consumer- file data[J]. Public Opinion Quarterly.2014,Vol.78(No.4):889-916.閱讀數(shù)據(jù)、交通數(shù)據(jù)等,將這些數(shù)據(jù)整合起來,就可以勾勒出用戶的“畫像”。對(duì)于物來說,找出標(biāo)志性指標(biāo)的分布,就可以勾勒出事件的“趨勢”。如此,可以將不同應(yīng)用平臺(tái)的數(shù)據(jù)基于“人”和“物”的關(guān)系結(jié)構(gòu)而聯(lián)通起來。
與傳統(tǒng)調(diào)查方法側(cè)重因果思維不同,大數(shù)據(jù)分析更加重視相關(guān)思維。一定程度上,大數(shù)據(jù)輿情監(jiān)測可以不考慮背后的動(dòng)因,更多考慮抓取輿情態(tài)勢演變的一些現(xiàn)象級(jí)、標(biāo)志性指標(biāo)的變化,如著名的口紅效應(yīng)(因經(jīng)濟(jì)蕭條而導(dǎo)致口紅熱賣)、廁所效應(yīng)(一個(gè)城市的文明程度可以從其廁所的衛(wèi)生程度得出),以及著名的啤酒與尿布銷售故事等。通過“人物畫像”和“事件趨勢”,就可以進(jìn)行事例圖譜分析,即將不同時(shí)間和空間中的事例勾連起來,對(duì)事件發(fā)展做出研判。
大數(shù)據(jù)分析方法的一個(gè)重要應(yīng)用是對(duì)位置信息的分析和使用。位置信息或者地理定位信息,指的是從基于移動(dòng)互聯(lián)網(wǎng)而抓取的包括特定地點(diǎn)、移動(dòng)路徑、移動(dòng)距離和時(shí)間等的信息。②Lotan,T., Musicant,O., and Grimberg, E.. Can young drivers be motivated to use smartphone-based driving feedback? Paper presented at The Transportation Research Board Annual Meeting, Washington,DC.2014.當(dāng)然,在特殊環(huán)境下,定位信息不能很好地發(fā)揮作用,如在室內(nèi)、高山、洼地等環(huán)境下。但一般情況下,地理位置信息可以更好地輔助于數(shù)據(jù)分析,將現(xiàn)實(shí)中的個(gè)體與網(wǎng)絡(luò)中的“行動(dòng)者”相匹配,形成線上線下共聯(lián)系統(tǒng)。
3.智能化分析:提升輿情分析和應(yīng)對(duì)的效率
數(shù)據(jù)分析時(shí)代要靠人把潛在的知識(shí)分析出來,而人工智能時(shí)代可以依靠機(jī)器來搜集信息。機(jī)器學(xué)習(xí)的原理是,假定人與機(jī)器類似,機(jī)器可以模擬人的思維邏輯來進(jìn)行自我學(xué)習(xí)、解決現(xiàn)實(shí)問題,機(jī)器可以像人一樣對(duì)大數(shù)據(jù)進(jìn)行處理,如自然語言處理、信息挖掘等。
大數(shù)據(jù)分析中,一般需要設(shè)置訓(xùn)練集,通過對(duì)部分?jǐn)?shù)據(jù)的訓(xùn)練得到該數(shù)據(jù)集的“規(guī)則”,進(jìn)而根據(jù)這些規(guī)則對(duì)既定數(shù)據(jù)進(jìn)行預(yù)測。大數(shù)據(jù)中海量數(shù)據(jù),使得可用于訓(xùn)練集的數(shù)據(jù)量激增,這有助于提高大數(shù)據(jù)分析的效率。在網(wǎng)絡(luò)輿情應(yīng)對(duì)中,未來發(fā)展會(huì)越來越智能化,關(guān)鍵在于構(gòu)建這樣一個(gè)智能化系統(tǒng),當(dāng)觸發(fā)輿情事件的因素達(dá)到某個(gè)閾值時(shí),智能化系統(tǒng)會(huì)自己通過相關(guān)指標(biāo)作出判斷,從而探索可能發(fā)生的事情,并提前做出預(yù)警反應(yīng)。
目前,社交媒體上產(chǎn)生的大量視頻、音頻等多媒體數(shù)據(jù),蘊(yùn)含的內(nèi)涵更為豐富,這更需要人工智能系統(tǒng)發(fā)揮作用。如借助人工智能系統(tǒng)進(jìn)行語音識(shí)別、圖像識(shí)別等活動(dòng),更準(zhǔn)確和便利地分析網(wǎng)絡(luò)多媒體文本;也可以應(yīng)用人臉識(shí)別技術(shù)等,分析在緊急情況下(如交通事故),個(gè)人面部表情的變化,進(jìn)而設(shè)計(jì)相關(guān)應(yīng)急預(yù)警系統(tǒng)。
不過,大數(shù)據(jù)分析方法在我國輿情監(jiān)測和預(yù)警應(yīng)用中還存在一些問題,其中迫切需要解決數(shù)據(jù)獲取與數(shù)據(jù)孤島的問題。Facebook、Twitter等社交平臺(tái)上的許多數(shù)據(jù)都是向公眾和研究者開放的,這對(duì)開展輿情監(jiān)測提供了極大便利。目前,我國不少社交平臺(tái)的數(shù)據(jù)仍是封閉的,微博提高了第三方抓取門檻,微信是半封閉的,平臺(tái)與平臺(tái)之間的數(shù)據(jù)仍處于孤島狀態(tài),這給利用社交平臺(tái)數(shù)據(jù)開展輿情監(jiān)測設(shè)置了障礙。未來,在保障國家大數(shù)據(jù)安全的前提下,逐步實(shí)現(xiàn)不同平臺(tái)數(shù)據(jù)的開放與共享,為多元、多源、立體化輿情數(shù)據(jù)的處理提供支持,應(yīng)該是大勢所趨。
我國的網(wǎng)絡(luò)普及率還不算很高,絕大部分所謂的大數(shù)據(jù)仍然不是“可得”的全體數(shù)據(jù)。通常而言,在互聯(lián)網(wǎng)上積極表達(dá)想法的用戶往往只占1%,而99%的人傾向于保持“沉默”。另外,數(shù)字鴻溝的問題也是存在的。截至2016年12月,我國互聯(lián)網(wǎng)的普及率仍只有53.2%,剩下46.8%的民眾的觀點(diǎn)是無法直接在網(wǎng)絡(luò)上得以呈現(xiàn)的。①中國互聯(lián)網(wǎng)絡(luò)信息中心.第39次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2017-01. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201701/t20170122_66437.htm.2016年數(shù)據(jù)顯示,美國與德國互聯(lián)網(wǎng)普及率分別為88.5%、84%,所以在美國、德國語境下可能通過大數(shù)據(jù)進(jìn)行成功預(yù)測的方式方法,未必能夠原樣不動(dòng)地照搬到中國的語境。
在2016年美國大選中,究竟傳統(tǒng)民調(diào)的哪些環(huán)節(jié)導(dǎo)致了其預(yù)測結(jié)果與現(xiàn)實(shí)結(jié)果之間的較大偏差,至今仍無定論,但是不可否認(rèn),大數(shù)據(jù)在其中起了非常重要的作用。
伴隨著大數(shù)據(jù)分析方法的深入探討,也有許多學(xué)者認(rèn)為在社會(huì)科學(xué)研究中要結(jié)合大數(shù)據(jù)分析和傳統(tǒng)數(shù)據(jù)分析。②唐文方.大數(shù)據(jù)與小數(shù)據(jù):社會(huì)科學(xué)研究方法的探討[J].中山大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015(06):141-146. Justin Grimmer. We are all social scientists now: How big data, machine learning, and causal inference work together[J].Political Science & Politics.2015,Vol.48(No.1):80-83.大數(shù)據(jù)的優(yōu)勢在于描述性分析,而傳統(tǒng)數(shù)據(jù)分析方法在闡釋相關(guān)機(jī)理等解釋性分析上更具有優(yōu)勢。③King, Gary. Designing social inquiry: scienti fic inference in qualitative research[M].Princeton University Press.1994除了印度MogIA成功預(yù)測美國大選外,支持大數(shù)據(jù)能夠預(yù)測大選結(jié)果的案例同樣還有Andranik Tumasjan團(tuán)隊(duì)的研究。該研究抓取了德國聯(lián)邦政府2009年競選中的十萬條推特帖子,并運(yùn)用LIWC文本分析軟件對(duì)其進(jìn)行分析。研究發(fā)現(xiàn),提到“黨派”的推文數(shù)量及排名與選舉結(jié)果相一致,從而認(rèn)為推文數(shù)據(jù)能夠預(yù)測選舉結(jié)果。④Andranik Tumasjan; Timm O. Sprenger; Philipp G. Sandner; Isabell M. Welpe. Predicting elections with Twitter: What 140 characters reveal about political sentiment. Proceedings of the Fourth international AAAI conference on weblogs and social media.2009.不過,對(duì)該研究的質(zhì)疑也同樣存在。如Andreas Jungherr等認(rèn)為,推特?cái)?shù)據(jù)并不能反映現(xiàn)實(shí)政治圖景,也不能預(yù)測選舉結(jié)果。他認(rèn)為推特?cái)?shù)據(jù)與選舉結(jié)果之間的關(guān)系,是通過其他中介因素作用而形成的,因此有必要考慮作用機(jī)制。⑤Jungherr, Andreas. The role of the internet in political campaigns in Germany.[J].German Politics.2015,Vol.24(No.4):427-434.可以看出,大數(shù)據(jù)分析是一種以數(shù)據(jù)驅(qū)動(dòng)的邏輯,可以描述某種相關(guān)性,但是不能反映作用機(jī)制,這也就需要基于理論的傳統(tǒng)數(shù)據(jù)分析方法。
美國大選民意調(diào)查的失準(zhǔn),并不足以否定傳統(tǒng)民意調(diào)查行業(yè)的根基。認(rèn)識(shí)到這一點(diǎn)對(duì)當(dāng)前我國的輿情研究非常重要。尤其考慮到嚴(yán)格意義上的全國性系統(tǒng)民意調(diào)查在我國幾乎仍然處于空白。當(dāng)前,我國應(yīng)該首先借鑒美國相對(duì)成熟的大選民意調(diào)查方法,推動(dòng)高校及第三方調(diào)查公司來開展全國性的、定期的民意調(diào)查,以便決策部門對(duì)長期的整體性的社會(huì)心態(tài)進(jìn)行準(zhǔn)確把握,而不是僅僅停留在事件型的、危機(jī)型的輿情態(tài)勢上。
當(dāng)然,民意調(diào)查方法在其漫長的實(shí)踐過程中,操作思路、具體設(shè)計(jì)及手段等要不斷地與一個(gè)國家的政治、文化、社會(huì)制度及特征保持調(diào)適狀態(tài)。我國對(duì)美國民意調(diào)查方法的借鑒也需要做出相應(yīng)的取舍和調(diào)整,使其樣本覆蓋到目前大數(shù)據(jù)無法覆蓋的人群、回應(yīng)在網(wǎng)絡(luò)輿情中無法顯現(xiàn)的社會(huì)思潮、隱形輿論及另類輿論等。此外,在本次美國大選民意調(diào)查中存在的方法問題,也需要國內(nèi)學(xué)者及業(yè)界作出回應(yīng),對(duì)如何降低拒訪率、提高抽樣科學(xué)性進(jìn)行反思。
(責(zé)任編輯:鐘宇歡)
U.S. Election 2016 and its Insights to Big Data and Internet Opinion Research
ZHANG Zhi-an CAO Xiao-jie YAN Qi-hong
The fact that Donald Trump finally won the US Election 2016 provoked criticism on traditional methods of public opinion research. One of such arguments is that with the boom of social media, big data analysis seems to show great advantages in internet opinion research. Does this mean that methods of random sampling and the like used in public opinion research is outdated? Based on a comparative analysis between traditional methods and big data analysis in the case of US Election 2016, this paper argues that, when doing analysis on social opinion, on the one hand, we should apply big data analysis in order to understand the social ethos revealed in cyberspace; while one the other hand we should not overlook the value of traditional methods of public opinion research in order to cover what has missed in internet opinion.
US Election; big data analysis; internet opinion
G20
A
① 本文為2016教育部哲學(xué)社科研究重大課題攻關(guān)項(xiàng)目“大數(shù)據(jù)時(shí)代國家意識(shí)形態(tài)安全風(fēng)險(xiǎn)與防范體系構(gòu)建研究”(編號(hào)16JZD006)的系列成果。寫作中請(qǐng)教或參考了以下教授的觀點(diǎn),特此致謝:香港浸會(huì)大學(xué)趙心樹、美國伊利諾伊大學(xué)香檳分校姚正宇、美國亞利桑那州立大學(xué)吳旭、香港中文大學(xué)陳韜文、北京師范大學(xué)喻國明、復(fù)旦大學(xué)李良榮教授。