吳澤鵬
摘 要:本文分析了全數據模式的實現困難、相關性結果的認識論困境、數據操縱背后帶來的大眾焦慮三個大數據分析目前面臨的困境及其原因,從語境論的角度下提出了應當基于限定語境下的“全數據”概念、接納處于語境遞進鏈上的相關性結論、重視社會語境對數據操縱的制約作用以解決面臨的困境的思路。
關鍵詞:大數據分析;困境;語境論
中圖分類號:B15 ? 文獻標志碼:A ? 文章編號:1002-2589(2020)03-0060-02
大數據分析作為一種研究方法,目前已經廣泛應用于科學研究與社會服務,以及商業競爭中。而隨著方法和思維的實踐,也逐漸開始暴露出一些問題,需要從哲學層面去分析和嘗試解決。
一、大數據分析當前遇到的困境
目前來看,大數據分析繼續應用和發展所面臨的主要困境來源于理想全數據模式實現困難、相關性結果帶來的反認識性質和大眾對數據操縱的顧慮三個方面。
1.全數據模式的實現困難。大數據分析的出現已經在諸多領域改變人們的日常生活和人類認識世界的方式,“用數據來說話”也已經成為人們在研究分析問題時最常用的口號。究其源頭,大數據分析方法仍然是一種統計學方法,而其顛覆傳統抽樣統計思維的收集和分析全體樣本數據以實現全樣分析的全數據思維,是大數據分析得以應用的預設思維前提。
然而,這種全數據思維下的全樣分析,從技術實踐的角度來看,也更多的是一種理想狀態。具體原因有:第一,受限于當前技術語境,一些本應該收集到的數據樣本并不能全部收集到。例如在對量子對撞機的微觀高能粒子對撞的實驗進行數據結果收集時,實際收集到的數據可能只占到產生數據的1%,一方面是由于數據量過于龐大無法全面收集,另一方面尺寸小于一個普朗克長度的粒子并不能被當前人類所擁有的觀測設備所探測到而無法被收集。第二,受限于法律和倫理道德對數據隱私的保護,例如歐盟近來頒布了《一般數據保護條例》來保護互聯網用戶個人數據隱私,學界對數據隱私的類似問題也一直討論不休。第三,“數據孤島”的存在。“數據孤島”的產生一方面是信息共享意識的不普及,數據信息之間的共享不及時、不通暢;更多的原因是來自于團體、企業,甚至國家對數據潛在價值的保護,這種“保護”隨著大數據技術的不斷發展而不斷加強。
由此可見,全數據“理想”的實現困難重重,甚至難以實現,而隨之出現的則是對大數據分析結果的不信任和對這種研究方法本身的質疑,急需回應。
2.相關性結果的認識論困境。舍恩伯格談到過“大數據的核心是預測,而此預測是基于相關關系分析法基礎上的”[1]78“我們知道是什么就夠了,沒有必要知道為什么”[1]67。大數據分析的結果強調相關關系而忽視因果關系,重視實用效果而無法做出理論性的原因解釋。由此可見,這種伴隨著大數據分析的應用而產生的相關性思維具有一定的反認識性質,與傳統認識論的目的相悖。大數據經驗主義者甚至提出了“要相關不要因果”的口號,認為在大數據時代下的分析研究,只需要通過對數據的分析得到包含相關關系的結果,知道應該怎么去做、怎么去有效利用就可以了,而對于“為什么”這樣的因果性解釋,則完全可以繞過去甚至消除掉。
齊磊磊回應了這種大數據經驗主義者的極端觀點,他認為“消除因果關系”的想法是片面的,相關性的結果中隱含了因果性的解釋,只不過是我們先通過大數據分析知道了“是什么”[2]。很多學者也持類似意見,例如賈向桐批評大數據經驗主義者的極端觀點,雖然對大數據分析本身持一種實用和可用的態度,但質疑所謂基于大數據分析的“第四范式”和“數據驅動研究模型”能否對目前的科學研究,特別是理論向的自然科學研究提供支持[3]。這種認識論上的質疑,可能是大數據分析當前面臨的最大困境。
3.數據操縱背后帶來的大眾焦慮。這種大眾焦慮來自于大數據分析的過度商業化。“用數據來說話”的口號已經耳熟能詳,“大數據”的一連串相關術語伴隨著其商業化迅速被大眾熟知。與此同時,大眾對數據背后可能存在的企業、資本和組織的操縱行為則產生了深深的反感和焦慮情緒,認為其可能剝奪人類的批判性思考和認識能力。
各種互聯網媒體和應用程序選擇性向用戶推送用戶愿意看到的信息,而過濾掉用戶不愿意看到的相反意見,讓用戶更容易偏執地相信自己是正確的。2016年的美國大選就是一個很好的例子,支持不同候選人的選民,很多都堅信自己的支持者會從中勝出,因為他們接觸到的都是支持者的正面消息,而最終的結果讓很多人大跌眼鏡。這種選擇性推送的例子數不勝數,自亞馬遜公司開此先河起,已被無數互聯網公司視作一種經典的商業模式。另一種操縱行為是借助大眾對數據的盲目信任,投機資本造假數據的統計結果而謀取“注意力經濟”下的暴利。這種模式在過去幾年的中國影視圈屢見不鮮,資本只簡單選取長相姣好的“小鮮肉”打造“流量明星”,用造假的點擊數據騙取更高的曝光率以變相強迫消費者買單。但隨著消費大眾的日益清醒,對數據的信任大幅度降低。2019年年初央視以“驚人數據的秘密”為專題,曝光了流量明星數據造假比例竟高達80%的真相。同年上映的電影《上海堡壘》被網評“流量明星的末路”和“市場對投機資本的‘報復”,最終黯然收場。
“大數據”過度商業化使大眾產生的反感和焦慮情緒,顯然已經成為大數據分析所面臨的困境之一,一方面是“數據”的可信力下降帶來的可能性問題,另一方面是大眾如何面對可能被操縱的數據、如何接受真假難辨的信息。
二、語境論視域下可能的解決思路
大數據分析作為一種研究方法,其本身是中性的,也具有自身的局限性,需要理性地被看待。在使用大數據分析作為方法的研究行為中,人的思維可能會體現出來一種“數據萬能論”和“一切皆可數據化”的世界觀和方法論思維傾向,而這種傾向已經成為當前人類科學語境和社會語境的一部分,而在此“語境”概念上對大數據分析的理性審視將為解決大數據分析當前遇到的困境提供從哲學層面上的指導。
1.應當基于限定語境下的“全數據”概念。首先,完全實現全樣分析的全數據理想并不現實,這在上文中已經討論過,而過于廣泛沒有限制的“全數據”概念才是產生這種現實落差的原因。事實上,“全”只是在思維層面的一種追求,是對增加收集數據量的技術進步的要求,同時這也是提升分析精確性的重要途徑,并不是實現大數據分析的必要條件。然后,不論是何種研究方法,對一個具體問題的分析總是會在一個相對確定的語境中進行,而分析的結果在這個語境中也是能達到相對的確定性的,而這種相對的確定性顯然不是能夠質疑大數據分析科學性的充足理由。最后,雖然我們否定實現“全數據”理想的可能性,在具體的實踐和操作中接受“非全部”的實際情況,但其理想性依然有其他方面的價值存在:全數據理想和全數據思維應當被視為一種對大數據技術的追求和分析問題時的整體論態度,而涉及具體問題時,數據的“非全部”也是人的認識能力局限于當前認知語境的一種無奈現實,兩者之間并不矛盾。
2.接納處于語境遞進鏈上的相關性結論。相對于傳統的認識論來說,大數據分析得到的相關性結論確實不能被稱為認識的結果,因為拋棄了確定性的大數據知識并不具有解釋事實的功能。但從語境實在論的科學觀來看,知識是一種語境關系,也隨著語境層次遞進而展現出不同的形態[4]。這意味著,一方面尋求傳統認識論要求的單一且確定的因果性必然解釋沒有可能也沒有必要,接納類似于量子力學哥本哈根這樣的概率解釋并非不可,大數據分析得到的相關性結論也應被寬容對待。另一方面這種相關性結論和當前層次的語境相關,隨著語境的改變甚至遞進,將會發生改變,理論和技術層面上的突飛猛進必然會產生對舊有知識的“新認識”,而大數據分析帶來相關性結論也可能會帶來新的因果性解釋,只不過是超前于當前的科學語境而無法給出而已。從這個角度看,保持一種實用的態度,寬容對待大數據分析相關性結論的不確定性,是對現代科學發展趨勢的順應。更進一步來看,整個科學語境的層次遞進也不是只靠一個研究方法帶來的改變就能完成的,大數據分析也僅是眾多研究方法的一種,研究者應該根據不同方法的特點和優勢來相應地選擇適合方法,萬能的研究方法并不存在。
3.重視社會語境對數據操縱的制約作用。我們需要在當下的大數據思維熱潮中保持理性,辯證看待其帶來的思維轉變,認真對待其存在的局限性,探尋互補之道,從而在思維層面上更好地適應大數據時代的生存和發展[5]。數據操縱帶來的巨大負面影響是大數據分析商業化過程中不可避免的,但這種不正當手段正在被其惡劣影響所制裁。辯證來看,大數據分析作為一種研究方法其本身也脫離不開所處的社會語境,一方面是其發展的動力是技術革新和社會需求推動,另一方面也處在社會語境之中,受到政治因素、經濟利益、軍事目標、社會文化等影響和制約。數據操縱產生的負面影響已經反饋到了其所處的社會語境之中,投機者自食惡果,社會輿論和政府監管作用也開始體現,社會語境的影響和制約反倒會減少對數據的盲目追捧,有利于大數據分析作為一種研究方法的良性發展。對于處于數據劣勢方的個人來說,適應當前的社會環境也是必要的,一方面不能掉入“唯數據論”的輿論陷阱,另一方面學會用批判性思維來審視包含數據在內的所有知識和結論,提升自我認知和判斷的能力。
總而言之,對大數據分析這種研究方法進行理性的審視,需要結合當前的科學技術語境和社會語境,對人和技術與研究行為之間的互相作用進行綜合性判斷。而其在應用中所面臨的困難,一方面來自于這種分析方法和方法論傾向本身的局限性,不可能有一種萬能且沒有負面性的研究方法存在;另一方面,這種已發現的困難也會促進大數據分析這一新興研究方法的良性發展。
參考文獻:
[1][英]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2]齊磊磊.大數據經驗主義——如何看待理論、因果與規律[J].哲學動態,2015(7):89-95.
[3]賈向桐.大數據背景下“第四范式”的雙重邏輯及其問題[J].江蘇行政學院學報,2017(6):14-20.
[4]殷杰.語境主義世界觀的特征[J].哲學研究,2006(5):94-99.
[5]刁生富,姚志穎.論大數據思維的局限性及其超越[J].自然辯證法研究,2017,33(5):87-91.