孫詩雨
摘 要 隨著互聯網和云計算等技術的發展,大數據時代也隨之到來,但目前由于人們對大數據的認知不清導致了其對大數據的盲目崇拜,一味陷入大數據的漩渦之中,對大數據沒有做到理性審視。本文從大數據概念的探討,大數據的價值分析、大數據處理流程中的短板以及大數據之于新聞傳播的影響4個方面來分析大數據,肯定了其價值,指出了其不足,以期人們能全面認識大數據,從而更好地利用大數據,讓大數據發揮出更大的價值。
關鍵詞 大數據;價值;短板;新聞傳播;技術
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)189-0077-04
近兩年來,大數據的浪潮愈演愈烈,“大數據”這個名詞也在各種場合被人們頻繁提起。在2017年兩會中,就有許多政協委員和人大代表提到了大數據,并呼吁要利用好大數據來推動社會發展,像全國人大代表、浪潮集團董事長孫丕恕就在一次50分鐘的訪談中94次提到“大數據”。
不難發現,當今社會,大數據技術有著眾多的追隨者,我們儼然處于大數據時代下的狂歡之中。所以,理性審視大數據顯得尤為重要。
目前關于大數據,筆者認為主要有兩方面的問題,即迷惘與迷信。所謂迷惘,即不知什么是真正的大數據;大數據的價值空間在哪,特別是對新聞傳播的價值;國家大力提倡和業界回應間是否對應等。所謂迷信,一是體現為學術研究凡事都扯上大數據,這一點從中國知網上關于“大數據”的論文基本涉及各個領域(教育、醫療、電力等)就能體現出來;二是各地方政府和職能機關也動輒以大數據為制定政策的依據和出發點。
1 “大數據”概念還沒有公認的界定
其實,“大數據”這個概念由來已久。不過大數據真正受到各行各業的關注是在2011年6月麥肯錫公司發布關于“大數據”的報告之后,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”中國對大數據的關注也是從2011開始的,另外,近幾年中國開始召開論壇會議像大數據技術與產業應用大會等也讓“大數據熱”持續升溫。
不過,在當下,人們對大數據的態度卻陷入一種盲目崇拜的漩渦之中,很多人在對大數據認知模糊的時候就成了它的狂熱粉絲。其實到目前為止,大數據還沒有一個統一的定義。大數據的鼻祖舍恩伯格在解釋大數據時也沒有給出一個確切的描述,“大數據是人們獲得新的認知、創造新的價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關系的方法。”[1]這是他在書中的一段詮釋,具有人文色彩和社會意義,因此,對于大數據概念的界定要看研究者從哪個角度來研究它而定。正是大數據概念的這種不確定性,使得人們對其充滿了想象,進而把它神化。
目前國內外的專家學者對大數據的準確定義給出的結論不一。在舍恩伯格提出大數據的概念之后,關于大數據概念的研究層出不窮,國內外的專家學者、科研機構甚至是企業家們都對大數據表達了一定的見解。中國學者王岑嵐和尤建新將現在國內外已有的大數據的定義分為四類,基本涵蓋了國內外學者以及機構對大數據概念的論述,分別是屬性定義、來源定義、比較定義以及構架定義。屬性定義以Gartner機構為代表,主要是從大數據特征的角度來解釋大數據的概念,最后慢慢發展成為目前公認的大數據的“4V(數據容量大(Volume)、數據類型繁多(Variety)、商業價值高(Value)、處理速度快(Velocity))”特點,不過這幾年國內外的專家學者又提出了可視性(Visualization)、合法性(Validity)、真實(Veracity)等新的特征,現在這些新提法也正在探討之中;來源定義是從人、機、物三個維度來談的;比較定義很好理解,即通過和傳統數據的比較來解析大數據的定義;構架定義是把大數據分為大數據科學和大數據構架從而進行闡釋的。雖然作者在這篇文章中提煉出了大數據概念的共通之處,即“大數據是指人類能夠獲取的完整的、動態的、事實的數據流,具有容量高,速度快,結構復雜的特點,只有在充分合理利用的情況下才有可能發揮其高價值和準確性的特點。”[2]但是,筆者認為把這段話當做是大數據的定義還是遠遠不夠的。
大數據和傳統意義上的數據相比,多了一個“大”字,但是這個“大”字的界定是沒有具體的統一的指標的,很多學者也表示大數據這種數據集“沒有最好只有更好”,所以大數據是沒有衡量標準的。雖然從簡單意義上來看,大數據是指所有的數據,這也是很多人對大數據的理解;但是在當下,大數據的內容并不能包含所有的數據,它無法達到信息飽和,只能說它的終極目標是無窮化。所以,在我看來,大數據與傳統意義上的數據的本質上是沒有差別的,它們都屬于數據信息,都需要對獲取來的數據進行“加工”實現數據的“增值”。
大數據的挖掘、獲取和處理是需要特殊的技術支持的,云計算就是其中一種重要的技術,它和大數據的關系密不可分。但是目前對云計算的解釋也有很多種,所以這就讓人們對大數據的概念更加捉摸不透,在不知不覺中給大數據戴上了神秘的面紗。
2 大數據的價值:應然與實然的差距
雖然,大數據的概念具有模糊性,但是其價值仍舊能夠凸顯出來。上文提到的“4V”特點就彰顯了大數據存在的價值。大數據提高了人們記錄和采集相關信息的能力,將海量數據進行關聯分析,從而輔助我們在各個領域做出決策,有利于人們發現事物的規律,進行趨勢預測,所以其價值有目共睹。
清華大學信息技術研究院的研究員薛一波指出,“大數據的科學價值和社會價值主要體現在兩個方面:一方面,大數據不僅可以發現事物的顯式規律,而且可以挖掘事物的隱式規律和潛在價值;另一方面,大數據可以轉化為經濟價值的源泉,撼動世界的各個方面。”[3]他在文中沒有著重分析“科學價值”和“社會價值”的內涵,但筆者認為這兩個提法可以用來分析大數據所帶來的價值。
人們對科學價值的關注度很低,因為它周期長,基本都處于潛在價值的范圍之內,但是科學價值是大數據價值非常重要的一環,它主要通過對大數據及其技術的研究所產生來實現的,大數據研究的熱潮激勵基礎研究的科研人員更加關注“數據科學”問題,這有望使得大數據的技術越來越純熟,更好地發揮大數據預測的核心價值,讓大數據更好地為人所用。
至于社會價值,筆者是基于廣義的社會價值進行分析的,包括政治價值、經濟價值、文化價值等各種社會構成元素的價值。其中,經濟價值目前體現得最明顯,為人所津津樂道,“4V”特點中也直接提到了大數據商業價值高,它能創造巨大的利潤,有利于細分市場和精準營銷,滿足更多的顧客的需求。其次就是大數據給社會生活帶來的便利,在治安、交通、醫療等生活領域,大數據都發揮著重要的作用。以交通為例,大數據可通過對公交地鐵刷卡、停車收費站、視頻攝像頭等信息的收集,分析預測出行交通規律,指導公交線路的設計、調整車輛派遣密度,進行車流指揮控制,及時做到梳理擁堵,合理緩解城市交通負擔。在2017年3月27日,高德地圖發布了《2017年清明節出行預測報告》,就是運用了大數據預測,為人們提供了假期出行福利。
然而在當下的中國,大數據的價值并沒有充分發揮,究其原因,主要包括制度限制、心理障礙以及技術問題這3個方面。技術問題包含在下一部分“大數據處理流程中的短板”中,在此就不做贅述,以下分析前兩個問題。
一是制度限制。近幾年對大數據的研究層出不窮,國家也十分鼓勵關于大數據的研究項目,這一點從國家社科基金年度項目的立項名單中就可以看出來:2014年國家社科基金年度項目有2776項立項,其中27項戴了“大數據”的帽子。占比0.97%。2015年國家社科基金年度項目有2752項立項,其中43項戴了“大數據”的帽子。占比1.56%。2016年國家社科基金年度項目有2857項立項,其中58項戴了“大數據”的帽子。占比2.03%。這些數據反映了關于大數據的研究越來越得到國家和政府的重視,國家對此投入的成本也是逐年
增加。
此外,我國已有21個省份出臺了大數據規劃政策;遼寧沈陽、甘肅蘭州等多個省市成立了大數據管理局;各省市引導建設大數據產業聯盟20余個[4]。從中同樣可以看出,國家和政府對大數據的投資很大,而且投入的成本越來越高。
一些發達的西方國家相較中國,起步早,發展迅速且完備,就以美國為例,美國政府將大數據視為強化美國競爭力的關鍵因素之一,把大數據研究和生產計劃提高到國家戰略層面。除此之外,美國政府積極推動數據公開,所以美國的大數據產業已經創造了巨大的價值。
而在中國,大數據主要是用于政府管理和社會科學的研究,以此作為制定決策的基本要素之一。但政府掌握著大量核心數據,并且數據利用率較低,由于制度的限制,如以不公開為立法取向的法律(《政府信息公開條例》的法律效力低于《保守國家秘密法》《檔案法》等以信息保密為立法取向的法律)、政府職權的條塊分割等,使得占數據總量95%以上的非結構化數據被束之高閣;一些平臺和社會力量擁有大量的數據,無法將之應用到更大的領域發揮更大的價值;一些企業擁有專業數據分析應用技術,卻只能望“數據鉆石礦”興嘆。這也就造成了在中國大數據的研究投資高成效小的局面。
當然,這里面就包含了第二個原因——心理障礙。由于政府數據以及與之相關的諸多應用可能會涉及到公民隱私、國家安全等重要領域,所以政府為了保證數據安全,采取了不公開的做法。另外,企業和個人為了防止出現侵權行為的出現對數據公開的訴求也不高。這些就形成了心理的屏障,也就阻礙了數據的公開,進而使大部分大數據的價值很難發揮。
雖然近幾年國家領導人多次強調要推動大數據公開,推進實施大數據戰略,但是在真正落實的時候仍舊會受這3方面原因的影響。
總之,大數據本身的價值是值得肯定的,它不僅僅是單純的數字,而是涵蓋了更多的記錄內容,尤其是在互聯網技術高速發展的今天。傳統的數據在獲取和處理分析上都需要花費大量的人力物力,而且效率不高,所以以技術為支撐的大數據能夠帶來更多的便利,也讓人們能夠更加關注數據分析和統計學。它給我們的生活也帶來了很多的便利,各行各業慢慢開始使用大數據來為他們服務,所以我們需要重視對大數據的技術研究和應用,讓大數據為我們所用,提供更多的服務和便利,創造更多的財富。
3 大數據處理流程中的短板
對于大數據的處理流程,目前信息領域最權威的觀點是將其分為4個步驟,即采集、導入/預處理、統計/分析和挖掘。為了便于分析大數據處理流程中的短板,筆者又將這4個步驟概括為兩大環節:采集端和分析端。
首先是在采集端,大數據采集的是人們在互聯網上留下的痕跡,這些痕跡信息在現代信息技術支撐下生成,規模大,又實時更新,因此被一些人認為比傳統的統計數據更加全面、及時、透明,所以有學者將真實性作為大數據的第五個特點。我對此持懷疑態度。當下,大數據造假的現象由于難于監管而廣泛存在,例如刷單、灌水等等,這種人為地在后臺做手腳,制造虛假數據的行為損害了網絡誠信,以此為基礎采集到的數據何以保證真實性,以不盡真實的數據分析得出的結論又有何說服力。此外,某些信息(或行為)在網上留下足夠的痕跡,但在現實中卻無跡可尋。比如合肥近來房價高企,開發商為應對限價,明里暗里出售號頭,即所謂號頭費。網民意見紛紛,但官方一直稱查無實據。
大數據為了掌握更多的數據,放松了容錯的標準,允許不精確數據的存在,這就使得獲取到的大數據的錯誤率是比較高的,雖然說這種不精確性可以讓大數據產生大量新型數據,但它同時也會造成數據獲取上的不合理。
除了真實性的問題之外,由于目前大數據還是有邊界的,它并不覆蓋全體,而仍舊是一個子集,它到底覆蓋了哪些主體,沒有對主體身份的驗證例如線下數據的校驗,很有可能會出現偏差,所以對于獲取到的大數據的代表性和均衡性就難以考證,尤其是針對某一具體問題采集大數據的時候,無法判斷所采取的數據是否有代表性,這一點傳統意義上的數據反而優于大數據。2016年美國大選期間,網上民調顯示,希拉里的支持率一直高于特朗普,且基本是大幅領先,但最后的選舉結果卻讓預測希拉里勝出的人瞠目結舌。退一步說,即使大數據能夠采集到普遍意義上的數據信息,那針對具體問題的調查研究也只能停留在宏觀的層面,而要想深入研究一個問題,還是需要采取傳統的調查方法,進行個案研究,從微觀層面深入研究,將微觀與宏觀、典型性與普遍性相結合。
另外,正如上文所說,我國目前大量線下數據掌握在政府手中,這也就造成了大數據在獲取上的不足,所以大數據在應用時的價值和意義并沒有達到良好的狀態,不過,在部分大數據應用的情況下,其也產生了一些不利影響。因為大數據被很多人神化,所以他們對大數據抱有敬畏之心,人們在了解了大數據分析的結果后會趨向于大數據的分析結果,這就會造成人們觀點和行為的同質化,形成了“沉默的螺旋”。從這個角度看,數據控制著人,左右著人們的思想觀念、生活習慣和行為等方面,這在無形中又形成了一種“數據綁架”,一定程度上限制了人們的言論自由[5]。更進一步說,在數據的不斷獲取中,其準確性就會越來越低。
現在很多學者批判大數據的一點就是大數據對隱私安全的威脅,人們在網上留下的痕跡,注冊的信息等都處于“數據監控”之中,一旦信息泄露,就會造成個人隱私權的侵犯,更嚴重的話可能會危害國家和社會。當下社會,一些商家利用數據信息進行營銷詐騙的現象常有發生,所以大數據在獲取時要注重對數據信息的保護。
然后是在分析端,大數據的分析技術是體現大數據價值的核心部分,從目前的分析技術來看,存在的不足主要表現在大數據分析的結果與人的思想和觀點之間的偏差。
筆者以民意為例,大數據能否準確反映民意是一個值得考證的問題。特朗普勝選后,瑞士的德語周刊《雜志》對其勝選背后的秘密給出的解釋就是“大數據”,并指出在特朗普競選過程中扮演關鍵角色的大數據技術是“心理測驗”,但“心理測驗”法在選民身上實行起來有不少障礙。其中的障礙與筆者在上文所談到的數據來源以及可靠性的問題有關,除此之外,就是數據分析時的問題,特朗普團隊需要完備的選民登記資料,將社交網絡用戶與具備選民資格的公民身份對接,資料的不完備和對接工作的復雜性都成為了數據分析時的阻礙。而且特朗普勝選的原因其實很復雜,不僅僅是大數據的原因[6]。
此外,論文查重系統在大數據時代到來以后,雖然收納了更加海量的論文,但是查重的技術仍舊還是查詢文字的重合率,這就造成了一個問題,大數據的分析技術能否對觀點進行查重。舉一個簡單的例子,假如一篇論文引用了多篇論文的內容,但是最后得出了一個全然不同的觀點,這在論文查重系統中會被定為抄襲。然而在線下生活中,這就類似于在前人已有研究的基礎上繼續研究,有了新的發現,得出了新的結論,不應該歸為抄襲的隊列中。大數據處理分析技術的這種局限性就導致了與觀點之間的沖突。
雖然大數據是動態可變的,但是其是否是最新的數據也是無法確定的。另外,人的思維隨著時間的變化也有可能會發生變化,而且他們不可能把自己的觀點實時反映在互聯網上,所以大數據分析所產生的結果與實際生活中人們的思維可能會出現不一致。
即使大數據能夠實時反映人的思維,在分析大數據時仍舊會暴露出新的問題。在社會科學領域內,大數據分析的結果無法得出一個統一的結論。這與自然科學不同,在自然科學中,結論與實驗過程是一一對應的,不會出現其他的結論。社會科學雖然也是一門科學,但是對其的解讀可以有很多種,只要“言之有理即可”,正如《大數據時代:生活、工作與思維的大變革》中所說的那樣,“大數據提供的不是最終答案,只是參考
答案。”
除了大數據難以解決數據與觀點之間的沖突外,大數據在處理海量數據時刪除重復數據的技術也不完善,目前的方法仍舊停留在把海量數據導入到數據庫,然后運用計算機命令進行刪除,但是導入海量數據耗費的時間成本是巨大的。此外還有海量數據的存儲和管理技術、虛擬化技術、分布式處理技術等仍需要進一步完善。
4 大數據之于新聞傳播的影響
大數據時代下,UGC模式、媒介融合的快速發展,使得大數據對新聞傳播的影響也是十分深刻的。上文已經提到,在大數據的技術背景下,目前各行各業都在運用大數據來為自己服務,新聞行業也不例外;加之大數據的處理環節與新聞的制作環節是相類似的,它們都需要采集、分析、篩選和整合,所以他們之間的契合度很高。大數據形成的數據庫為新聞傳播提供更多的信息,改變了新聞傳播的方式,進而促生了一種新型報道形態——數據新聞。這種新聞類型以公開的數據為基礎,最大的特點就是可視化以及通過挖掘大數據做出預測。目前,由于大數據時代下的數據新聞更富有個性化、趣味性和技術性,且具有多種形式和多重維度,越來越多的受眾青睞于這種新興的新聞類型。如2015年央視播出的“一帶一路特別報道”《數說命運共同體》,就是數據新聞的典型案例,其中綜合運用了圖表、地圖、動畫、真實紀錄片等多種形式,展現出詳實清晰的數據信息,讓受眾對“一帶一路”充滿期待與自信,吸引了更多的人關注與支持“一帶一路”的發展。
但數據新聞的發展仍不完善,它同樣存在著上述大數據處理流程中的問題。首先真實性是新聞的第一生命,但目前大數據采集信息的真實性仍有待考量。其次就是隱私問題,這涉及到了新聞倫理問題,大數據讓我們每個人都越來越透明,加之以新聞媒體的傳播效應,很容易讓人的權利受到侵犯。最后是內容和形式的辯證關系問題。相比一般的新聞報道,數據新聞具有客觀、可信、深度、廣度、可讀優勢,但是其自身有著技術要求高、成本高、報道選題受限的弊端,所以其應用不可能普遍化。新聞工作者不能讓數據或技術處于新聞傳播的主體地位,這樣會陷入“技術中心論”的漩渦,美國前國防部部長麥克納馬拉故事值得我們引以為戒。另外,對大數據的關注也滲透到了新聞教學的領域,現在很多高校已開設了“數據新聞寫作”的課程。由于沒有機會前往相關高校調研課程情況,但筆者認為,對新技術的學習是很有必要的,不過基礎的新聞寫作仍舊是高校新聞教學的主體部分,要始終把“內容為王”放在第一位,對數據新聞要循序漸進地研究和
探索。
5 結論
大數據的發展是社會發展的大趨勢,是一種技術進步,體現了人們互聯網思維的發展。目前,大數據在信息領域、經濟領域、社會服務與管理領域的價值促進了社會的發展,創造了很多物質和精神上的財富。而且,它還有很大的發展空間。但我們不應神化大數據,覺得技術能夠統治一切,也不應對數據過分依賴,成為數據的奴隸。不管是政府還是個人,都要理性對待大數據,政府要在衡量價值后投資大數據研究,并要適當公開數據;作為個人,不能盲目追捧和依賴大數據,要有自己的判斷和認識,只有思維和技術都在發展的情況下,才能讓大數據的漏洞得以修補,從而彰顯大數據的價值,讓大數據真正地為我們所用。
參考文獻
[1]舍恩伯格,庫克耶.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[2]王岑嵐,尤建新.大數據定義及其產品特征:基于文獻的研究[J].上海管理科學,2016,38(3):25-29.
[3]薛一波.大數據的前世、今生與未來[J].中興通訊技術,2014,20(3):43.
[4]中國大數據產業生態地圖,2016:19-21.
[5]曹衛東.開放社會及其數據敵人[J].讀書,2014(1):
73-80.
[6]夏逸平.大數據時代還需要民意測驗嗎?[N].文匯報,2017-02-24(14).