□ 丁勃文 王 晨
“大數據指由于其數據規(guī)模巨大,因而難以通過人工在一定合理時間內整理成為人們所能理解的信息。”①大數據也是由人、機器、傳感器、工具以及其他技術系統創(chuàng)造出來的數字數據②。其中大數據方法使用于傳播學研究的,有分析大數據下的新聞生產、廣告營銷、輿情分析與把握③,利用大數據研究新浪高轉發(fā)量微博④,分析百度搜索詞數據,構建反映輿情基本情況⑤。大數據技術的應用已經蔓延至整個社會的每個領域,它正改變著人們的生活和工作,也被越來越廣泛地應用到社會科學的學科研究中。
大數據技術在科學研究中的廣泛應用使得傳播學研究轉向了精確量化的階段,這使傳播學的社會科學屬性變得愈發(fā)明顯。大數據技術已經滲透到生活的方方面面,因此新聞媒體在進行新聞傳播活動時就應該以全新的思維方式來創(chuàng)新。
首先,大數據背景下的傳播學研究,理論上應當讓位于算法,純粹理論的價值應逐漸弱化,而將大數據有效地管理和應用的數據算法和處理規(guī)則變得越來越重要。其次,大數據時代,原本基于抽樣調查法的樣本分析方式被“全數據”的分析方式逐漸取代,大數據不再局限于數據的細枝末節(jié),而更關注總體的、宏觀的趨勢。最后,大數據更多關注“相關性”,而非“因果關系”。“相關性”所帶來的思維方式可以帶來更多的可能,不但能使我們透過問題看清事情的本質,更能使我們透過數據對未來將要發(fā)生的事進行合理的預測,從而挖掘更多的新聞價值⑥。
隨著我國教育水平的不斷提高與科學技術的不斷增強,科研領域不斷朝著垂直化和細分化的方向發(fā)展,各學科之間的邊界也因此而更加清晰。大數據技術的發(fā)展和它在科研領域的應用使當前的研究重心發(fā)生了轉移。海量的數據成為學科之間的紐帶,大數據技術使得傳播學的研究變得越來越多元化。
隨著全球化進程的不斷加快和相關技術的飛速發(fā)展,大數據技術已經廣泛地應用到了人們的生活和生產當中。在社交網絡、資訊平臺和電子商務等領域中,根據大數據對用戶進行畫像從而精準營銷,這種方式已經創(chuàng)造出了巨大的社會效益和經濟效益。
過去,傳統的傳播學研究方法將定量分析與定性分析完全割裂開來看,定量分析的方法主要有內容分析、問卷調查和控制實驗。定性分析主要通過民族志和參與觀察等方式。大數據是由眾多形式的覆蓋多方面的數據內容構成的,它模糊了定性研究與定量研究之間的界線,使定性與定量在研究中結合使用成為一種主流。過去,精確量化屬于科學的范疇,但隨著大數據技術的應用,精確量化已經被廣泛地應用到傳播學的研究中。在今天的互聯網環(huán)境下,大數據是信息傳播的核心,更是傳播學研究者進行研究的基礎和前提,也是傳播學研究者同其他研究人員溝通交流的介質。這些數據可以消除不同領域、不同學科之間的隔閡,模糊學科之間的界線,將傳播學對數據的分析和理解方式應用到經濟、政治和文化等更多領域⑦。
大數據時代的一個顯著優(yōu)勢就是擁有大量的信息數據可以用于研究,研究人員可以更大程度地對研究方法和研究領域進行拓展。在過去的數據采集和研究背景下,獲取的數據資源非常有限,因此最終實現的效果并不理想,且在數據統計和實證研究的過程中會消耗大量的人力和物力。即使是被廣泛采用的抽樣調查法仍然會不可避免地產生一些誤差,從而影響到最后結果的準確性。而在某些研究場景下,大數據技術可以對樣本的全體數據進行分析,找出其中的規(guī)律,對事實進行判斷,因此最終的效果和準確度也更高。
大數據技術的海量數據的特性改變了傳播學的研究方法,賦予了傳播學研究新的活力,一方面促進了其他學科與傳播學研究的融合,另一方面使得傳播學的學科研究定位發(fā)生了潛移默化的改變。研究方法的改變主要體現在以下幾個方面。
計算機運算能力的不斷增強使得獲取海量數據并進行高效處理成為了可能,一些互聯網公司利用大量的數據可以實現對未來的預測。如預測不同地區(qū)、不同人群在“雙十一”活動期間的購買力,景區(qū)在高低峰時間段的人流量,春運期間各地的人口遷移規(guī)模等。通過分析歷年的數據,對某一階段可能出現的情況進行預測,這些數據并非由人主導設計并調查取樣,而是在被調查者不知情的情況下自然產生。這就存在著兩點優(yōu)勢。首先,被調查者是在不知情的情況下被收集了數據,因此測量和統計的過程相比于問卷調查,就排除了語境等其他因素的干擾。其次,使用大數據獲得的數據比問卷調查獲取的數據要多,有時甚至能覆蓋全部的數據。例如,對互聯網中參與某篇帖子討論的所有用戶進行用戶畫像,這就是覆蓋了全部的數據。這樣的方式可以為后期的數據分析和研究帶來更細節(jié)、更全面的認識。
在傳統的抽樣調查法中,受到時間、空間和成本的限制,只能抽取樣本中的一部分作為研究對象,這就意味著最終結果勢必會產生一定的誤差。而大數據不僅可以最大程度地保證準確度,還可以在此基礎上實現海量樣本甚至全樣本的收集和分析。全樣本數據意味著無需抽樣,也就不存在抽樣所造成的誤差問題。
此外,傳統的抽樣調查獲取的數據是結構化的數據,也就是事先經過數據模型的設計,可以儲存在數據表的行列當中,如個人信息中的姓名、年齡、性別等。而大數據技術下捕捉到的數據還常常包含沒有數據模型的數據,被稱為非結構化的數據,例如Twitter 中的推文和YouTube 中的視頻內容。事實上,非結構化的數據在數據的總體中占有百分之七八十的比例。在傳統的抽樣調查方法下,這些數據是不可用的,但在今天通過大數據技術,這些內容都可以被用來分析和使用,而且非結構化數據在今天的研究中扮演著越來越重要的角色。研究者可以從這些非結構化的數據中分析出更多的相關性,獲取隱藏在數據背后的結論。
傳播學研究中的控制實驗一般只能對少量的樣本進行研究,面對大量的樣本數據就無從下手。進行實驗的環(huán)境也一般只限定在實驗室內。大數據技術的一些特性可以克服這些實驗過程中的缺陷,把進行實驗的場所放到互聯網上,把整個互聯網環(huán)境都作為進行研究的實驗室。互聯網上的實驗不僅可以消除傳統控制實驗存在的一些缺陷,還可以擺脫時間和空間的限制,通過大規(guī)模的數據收集和分析獲取更多小規(guī)模樣本數據統計所不能發(fā)現的微小變化。
大數據技術的廣泛應用不但改變了人們的生活,也對傳播學研究的許多方面產生了影響。一方面,它改變了傳播學的學科地位,海量數據推動了傳播學研究的精準化,使它的社會科學屬性得到加強;另一方面,它對傳播學研究方法產生了巨大的影響,使定性研究與定量研究的邊界模糊化。我們只有積極地學習傳播學知識,才能更好地應對和迎接這場變革。
注釋:
①Kusnetzky Dan.What is “Big Data?”[EB/OL].http://www.zdnet.com/article/what-is-data/,2010-02-16.
②Schilling P.L.,Bozic K J.The Big To Do About “Big Data”[J].Clinical Orthoparedics and Related Research,2014(11):3270-3272.
③喻國明,李彪,楊雅,李慧娟.新聞傳播的大數據時代[M].北京:中國人民大學出版社,2014:192-250.
④李彪.微博中熱點話題的內容特質及傳播機制研究——基于新浪微博6025 條高轉發(fā)微博的數據挖掘分析[J].中國人民大學學報,2013(05):10-17.
⑤喻國明.大數據分析下的中國社會輿情:總體態(tài)勢與結構性特征——基于百度熱搜詞(2009-2012)的輿情模型構建[J].中國人民大學學報,2013(05):2-9.
⑥常春梅.大數據與新聞傳播研究創(chuàng)新[J].新聞傳播,2018(17):18-20.
⑦卜令法.對于大數據時代新聞傳播學研究的重構與進路[J].電視指南,2018(05):55+57.