薛凡偉
?
淺析大數據時代民意調查的變革
薛凡偉
(上海交通大學 媒體與傳播學院,上海 201100)
大數據的誕生為民意調查帶來了革命性變革,透過公眾在網絡媒介的表現進行數據挖掘與分析,便能更加真實客觀地掌握公眾的態度趨向。本文論述了大數據在民意調查中的應用,分析了大數據應用于民意調查可能出現的技術缺陷、隱私泄露風險、數據分析與意義詮釋技能不足等局限。因此,本文認為應構建明確的收集、使用大數據的法律框架和隱私保護模式,同時也應建立跨學科合作的團隊以提高數據分析與意義詮釋能力。
大數據;民意調查;數據分析
民意調查是一種了解公眾輿論傾向的社會調查,要求以科學嚴謹的手段收集公眾的各種反應,并以統計分析方法對收集的材料進行研究,反映公眾對于某個或某些社會問題的態度傾向。民意調查在政治、經濟等領域發揮著重要作用,特別是隨著民主理念的傳播與民主政治的不斷深化,我國政府越來越重視民意在公共政策中的應用,比如建立決策聽證、決策公示和專家咨詢等渠道進行傾聽民意,集中民智。
普遍認為,現代意義上的民意調查起源于近兩百年前的美國政治選舉活動,1824年美國《賓夕法尼亞人報》對選民的態度測試開創了民意調查的先河。此后,民意調查廣泛應用于美國選舉政治中,1935年,蓋洛普成立了美國民意調查研究所,成為世界上第一個客觀和科學的民意測驗機構。此后,隨著抽樣與統計等概念逐步引入民意調查領域,民意調查逐漸走向精確化,進入一個以小規模科學抽樣代表整體數據的時代。我國民意調查始于20世紀20年代,1922年11月留美歸國的張耀翔碩士主持的“時政熱點問題”調查被認為是我國最早的具有一定科學基礎的民意調查,但直至新中國成立前一直都未形成規范專業的民調機構,也未進行過大規模的民意調查。新中國成立至20世紀80年代,由于特殊政治原因加上對實證社會科學不重視,民意調查的發展幾乎處于停滯階段,20世紀80年代中后期以來,民意調查逐漸走向繁榮。
隨著互聯網的發展,各類社會團體紛紛將目光投向網絡媒介,因為互聯網帶來了大量用戶行為表達信息。第40次中國互聯網絡發展狀況統計報告顯示,截至2017年6月,我國網民規模達7.51億,互聯網普及率為54.3%,增長率為6.2%。此外,我國手機網民規模達7.24億,就互聯網使用狀況來看,2017上半年中國網民人均周上網時長為26.5小時,即時通訊、搜索引擎、網絡新聞作為基礎的互聯網應用,用戶規模保持平穩增長,使用率均在80%以上[1]。互聯網用戶規模龐大,這就使得每小時甚至每秒都會產生數以億計的數據,大數據為民意調查帶來了新的機遇,如果海量數據得到有效利用,將為民意監測與研究帶來極大便利。
大數據是一個體量大、種類多的數據集合,以至于無法在一定時間范圍內用常規數據庫系統對其進行抓取、管理和處理。起初著眼于大數據作為數據集的基本特征,認為其具有“3V”的特點,即規模性(Volume)、高速性(Velocity)、多樣性(Variety)。隨著大數據的廣泛應用,其他研究者在“3V”的基礎上總結了其他一些特征,主要包括可變性(Variability)、真實性(Veracity)以及價值性(value)等。
傳統的統計研究范式是研究者事先發現問題并提出假設,確定目標人口框架,從而設計調查并采取抽樣的方式獲取數據,最后對所獲數據進行分析。大數據帶來的新范式意味著數字化獲取、語意協調、聚合與關聯數據,并通過數據可視化等手段確實能夠承擔多項單獨使用調查數據難以實現的全新的分析。從傳感器、圖片、視頻或者金融交易等數據中可以捕捉到的豐富的個人細節信息,大數據也促使民意調查可以針對非常小的特定人口子集,或者針對全新的分析單位,比如只能靠新類型的數據(如微博、微信、手機通話)來獲取的個人或商業關系網絡。范式轉變同樣意味著民意調查需要新的數據處理方式以及將海量數據轉變為可用信息的能力。大數據的利用與傳統民意調查方式有很大不同,其中一個非常明顯的優勢是電子數據收集的成本要低于傳統的民意調查,調查本身就是昂貴的,需要大量人力物力來收集數據。相比之下,大數據依靠計算機軟件以及電子數據采集等手段,雖然需要前期以及維護成本,但仍能節省不少財力。然而,盡管大數據采集成本相對較低,但其應用處理成本可能偏高,需要人力資源的重新分配,進行新型數據的連接、管理與分析。
與傳統調查數據相比,大數據擁有很多優勢,就數據來源來講,大數據是早已存在的數據,這便省去了部分數據調查所需的時間與精力。大數據有兩個非常重要的特性往往非常容易被社會科學研究者所忽視,首先,大數據一般屬于二手數據,來源于最原始的數據記錄。肖恩·泰勒(Sean Taylor)用“找到的數據”與“制造的數據”兩個概念來區分,并指出大數據與其他社會科學研究方法最大不同就在于大數據并不是研究人員出于某種目的“制造的”,而是“找到的”大量用戶行為、表達數據[2]。這也暗含了另外一個問題,海量的行為、表達數據使得用戶成為“被動”的研究參與者,而傳統民意調查研究通常是參與者有意識的參與到特定的研究中[3]。
大數據包含了大量搜索、瀏覽、投票等用戶行為數據,這也是一種民意載體,這些結構化行為數據往往是用戶意見與觀念的外在表達。目前這種結構化行為數據已經得到了廣泛應用,比較明顯的例子是亞馬遜等購物網站通過用戶瀏覽、搜索等行為數據而實現的個性化推送,推出類似于“猜你喜歡”的版塊,用戶的瀏覽量越大,推送就會越精確。購物網站中這些潛在的行為數據,雖然不會構成直接的民意表達,但對理解特定情境下的民意(如人們的購買決策等)具有重要意義。
隨著社交媒體的發展,公眾經常在不同平臺留言表達自己的觀點,如微博、微信、新聞網站等等,大量的非結構文本、視頻、音頻等信息成為當下社會輿情的“指南針”。網民主動的自我表達數據為民意研究提供了新路徑,可以利用這些數據捕捉到公民對特定社會議題的關注度與個人態度。美國學者約瑟夫·迪格瑞茲(Joseph DiGrazia)的團隊曾在2010年8月到10月提取了5億多條推文與當時406場國會競選結果相對比,發現包含兩黨候選人名字的推文分享率與兩黨選票的差距存在強相關[4]。
大數據在推動決策制定及評估優化方面擁有巨大潛力,許多機構組織越來越依賴于大數據,預測分析是近年來在很多部門備受歡迎的大數據支持的研究方法,它不僅允許管理者跟蹤正在進行的活動,而且還支持如何制定對變化的環境和客戶基礎進行戰術應對的決策。大數據預測是一種動態的過程,必須根據數據的更新,不斷進行相關政策的優化調整,并且這些數據還可以與從組織外部獲取的其他大數據源或調查數據組合。
雖然公共部門在運用大數據技術方面并不像私營部門一樣快,但公共管理人員開始意識到這些技術的價值,并嘗試使用它們來支持行政決策和改進公共計劃。早在2008年,當國際金融危機還尚未大范圍威脅到國內制造企業時,阿里巴巴根據買家詢盤數的大幅下滑,及時對國內中小制造商發出了預警信息,由此,政府積極制定相關應對政策,制造商也廣泛關注金融危機的發展,為應對金融危機做好了相關準備[5]。
大數據通常是選擇性的,不完整和錯誤的,不同形式的新媒體在一些程度上可能低估了特定的人口統計,大數據有時可能并不是“全數據”,網絡用戶并不能代表全部人口[6]。例如微博、微信等社交媒體,其用戶以年輕人為主,這很可能在數據分析時引入新的錯誤。大數據通常在不同時間點從不同來源聚集,這些過程包括將記錄鏈接在一起,將它們轉換為新的變量,記錄所采取的行動,以及解釋新創建的數據特征,這些活動引入的變量還可能是可變的,產生噪聲和可靠性差的系統誤差,導致偏差和無效[7]。大數據真實性所面臨的核心問題是,這些數據不是出于研究目的來控制變量通過實驗或調查的方式得來的可以直接進行科學分析的數據。這些“發現的數據”通常來自其主要目的并不總是與數據分析者的目標一致的過程中的副產物。因此,大數據通常很少或從不考慮整個流程中的數據質量。此外,大數據開發速度本身便具有一定挑戰,一些大數據應用技術也會存在局限,需要不斷更新。
Google流感趨勢系列提供了一個典型的大數據錯誤風險案例,它使用Google對流感癥狀、補救措施和其他相關關鍵字的搜索功能,為美國和其他24個國家和地區流感疫情提供“接近實時”的估算值[8]。與疾控中心數據相比,Google流感趨勢在2009年至2011年間為美國提供了非常準確的流感發病率指標。然而,在2012-2013年的流感季節,Google流感趨勢預測的流感患者比例比疾控中心統計的實際情況增加了一倍以上。不少學者總結了原因,學者大衛·拉澤(Lazer David)等指出錯誤的兩個原因:“大數據傲慢”和算法變化,前者是指大數據研究人員認為數據量可以補償其任何缺陷,因此忽略了對傳統科學分析方法的需要[9]。一些關鍵詞看似與流感相關,但實際可能并非如此,加之人們對于流感相關的搜索也可能會受周圍環境的影響,由此會出現過度擬合的情況。算法的不完善也是這種錯誤的一大原因,基于推薦的算法也會增加某些熱門詞匯的搜索頻率,如搜索“發燒”,可能會推薦關鍵詞“流感”。由此可見,大數據及其相關技術的缺陷可能會對民意研究帶來誤導,全面認識特定領域大數據的可用性并彌補相關漏洞相當重要。
許多用戶日常行為數據都可以應用于民意調查領域,然而在數據所有權方面卻缺乏相應的法律指導。從數據產生到為其增加附加價值的整個流程來看,作為信息主體的數據生產者、收集數據的個人或組織、進行數據整合分析的人員、亦或整個社會等等,究竟是誰擁有這些數據并不明確,部分法律中將一些數據作為資產一些數據僅僅作為信息來處理也加劇了這種模糊性。大數據中數據所有權的不明確性更加明顯,數據不再是統計機構的專利,商業及行政機構同樣擁有大量數據,此外,由于數據可以永遠存在,所有權可以由后代繼承,個人隱私可能受到由于血緣關系信息泄露的威脅。
大數據背景下,以關聯性為手段的數據挖掘,能夠在表面毫無聯系的海量數據中發現很多個人隱私信息,從而給信息安全與隱私保護帶來了很多新問題。首先,對于敏感數據并沒有明確的界定[10]。在以個人為中心的隱私保護中,告知與許可、匿名化等手段已經漸漸失效,因為即使看起來無害的信息也使得識別個體變得相對簡單,例如通過找到足夠多的信息,可以使得在相關群體中只有一個人具有該特征,識別個體的風險已經由于可識別數據的公共可用性的增加和鏈接文件技術的快速發展而增加。“人肉搜索”便是很明顯的例子。此外,數據開放與隱私保護同樣存在矛盾,要想發揮大數據的價值,數據公開是必要的,政府可以從公開的數據中掌握社會輿情,企業可以從公開的數據中發掘用戶需求,推出具有針對性的產品及服務,但我們仍要思考的是,如何在確保隱私的前提下,挖掘大數據的潛在價值。
依據大數據的種種特性,在處理大數據所需的技能和資源方面可能面臨重大挑戰,多數大數據問題至少需要四個角色:領域專家,研究員,計算機科學家和系統管理員[11]。領域專家是具有對大數據的使用和局限性具有深入研究的用戶,分析師或領導者,研究者應該是具有應用正式研究方法經驗的團隊成員,包括調查方法和統計,計算機科學家要求技術熟練,有計算機編程和數據處理技術方面的專業知識,系統管理員負責定義和維護計算機基礎設施,實現大規模計算。海量新型來源的數據通常用于定量調查分析之外的其他目的,領域專門知識尤其重要。一些研究者選擇與計算機科學家或熟練的程序員合作來覆蓋這些所需的技能,構成可行的研究伙伴關系,它創造了跨學科合作的新需求。
數據必定是結合特定的歷史與文化情境產生的,對于數據分析而言,對特定歷史及文化境遇中研究對象的深度理解是十分重要的。研究者需要有一種對自己所生活的周遭世界基于共同歷史與文化體驗的深度詮釋能力,需要有經驗觀察的洞察力和理論構建能力,如此才能使大數據應用真正為民意調查服務,而不僅僅是徒有形式的“沒有頭腦的計數”[12]。大數據作為民意調查的一項最新手段,它通過技術所直觀呈現出來的結果,并不能單純的作為結論,也并不代表著研究的終點,更應該是構成我們進一步探究諸如是什么、為什么等問題的經驗素材。大數據并不意味著一勞永逸,基礎的研究分析能力對于研究者來說是必備的,在技術面前保持理性和謹慎,避免產生技術至上主義的自負情緒也是至關重要的。
盡管大數據分析具有理論和實踐優勢,但優選的策略是使用大數據與傳統調查數據的組合來支持研究、分析和決策。目前,隨著大數據的可用性和使用的增加,調查研究的需求可能會同時增長,以解決大數據發現的問題。大數據運用于民意調查應用中的一些問題亟待解決,所有權不明確,并沒有關于收集、使用大數據的明確的法律框架指導,大多數數字服務的用戶可能并不知道他們的行為數據可能被重新用于其他目的。個人隱私容易泄露,刪除作為個人身份信息的關鍵變量不再足以保護數據免遭識別,位置、時間等眾多相關數據的組合能夠在許多情況下識別“匿名”記錄,需要設立新的隱私保護模式。此外,建立跨學科合作的團隊提高數據分析與意義詮釋能力對于充分挖掘大數據的價值也是必要的。
[1] 中國互聯網絡信息中心.第39次中國互聯網發展狀況統計報告[R].2016-12.
[2] Taylor Sean J.Real Scientists Make Their Own Data.Sean J.Taylor Blog.URL:http://seanjtaylor.com/post/41463778912/real-scientists-make-their-own-data. 2013-01-25.
[3] 沈菲,王天嬌.大數據語境中的民意:研究路徑與趨勢(下)[J].教育傳媒研究,2016(03):77-83.
[4] DiGrazia,J.,McKelvey,K., Bollen,J.&Rojas,F.More Tweets,More Votes:Social.2013. Media as a Quantitative Indicator of Political Behavior. Pols One,8(11). URL:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0079449.
[5] 胡亞謙.大數據預測能力對公共決策的影響[J].東北大學學報(社會科學版),2016,18(03):281-287.
[6] 唐文方.大數據與小數據:社會科學研究方法的探討[J].中山大學學報(社會科學版),2015,55(06):141-146.
[7] Japec,L.,Kreuter,F.,Berg,M.,Biemer,P.,Decker,P.,Lampe,C.,Lane,J.,O’Neil,C.&Usher,A.2015. Big Data in Survey Research AAPOR Task Force Report.Public Opinion Quarterly, 79(4),839-880.
[8] 秦磊,謝邦昌.谷歌流感趨勢的成功與失誤[J].統計研究,2016,33(2):107-110.
[9] Lazer,D.,Kennedy,R.,King,G.&Vespignani,A(2014).The Parable of Google Flu:Traps in Big Data Analysis.Science,343(6176),1203-1205.
[10] 趙惠,王忠.大數據時代個人隱私內容及其保護研究——基于調查數據的分析[J].情報理論與實踐,2016,39(08):28-31+17.
[11] Japec,L.,Kreuter,F.,Berg,M.,Biemer,P.,Decker,P.,Lampe,C.,Lane,J., O’Neil,C.&Usher,A.(2015).Big Data in Survey Research AAPOR Task Force Report.Public Opinion Quarterly,79(4),839-880.
[12] 閻光才.教育及社會科學研究中的數據——兼議當前的大數據熱潮[J].北京大學教育評論,2013,11(4):77-86+187.
[責任編輯:思涵]
2017-01-12
薛凡偉,男,上海交通大學媒體與傳播學院新聞與傳播專業碩士研究生,主要從事網絡傳播、互聯網政治等研究。
G206
A
1672-8122(2018)02-0059-03