■ 余志為
?
大數據方法與中國哲學思維的關系及其影響*
■ 余志為
本研究旨在理解大數據的內涵及其影響,將中西哲學文化比較和麥克盧漢新媒介研究方法納入大數據的討論范圍,文章從大數據的特點、方法、價值以及相關質疑等深入理解大數據,結合舍恩伯格提出的大數據思維方法的三大轉變,即強調整體而非細節、重視事物的模糊性價值以及“相關關系”先于因果關系,分析它與美國哲學家安樂哲和郝大維提出的中國傳統思維的動態宇宙觀和“關聯思維”的關系,試圖將大數據與中國思維放在思維方式的層面進行考察。本文認為大數據時代可以從中國傳統智慧中發掘更多可利用的經驗和方法,從中預見大數據未來發展可能出現的機遇、問題以及對策。
哲學思維;比較哲學;大數據;數據流
之所以將大數據與東方思維進行溝通,是因為電子媒介時代帶來了一個總的趨勢:即東西方認知思維模式的互通互融。通過觀察西方藝術在形式表達上的轉變以及電子媒介給人類感知帶來的潛在影響,麥克盧漢發現:西方人正在“通過轉向內心而走向東方”,這一轉變過程在電子媒介剛出現的西方社會來說是一種“難以察覺的外部環境”。
和文字文化與視覺文化老套的距離說相比,電路的深刻參與說有許多獨特效果,其中之一是西方世界日益東方化。我們把自己19世紀的技術大量向東方傾瀉,與此同時我們又在走向東方。我們通過轉向內心而轉向東方。東方人走向西方的趨勢是一望可知的,然而我們轉向內心的趨勢卻很難察覺,因為這個轉向成為我們的外部環境,這是難以察覺的外部環境。①
在電力時代剛開始的年代,在報紙與廣播、電視新興的年代,當時這些新媒體帶來的效應,是不被意識到的感知模式的轉變的開始,是麥克盧漢說的像烏龜沒有意識到它背上長出的美麗的花紋一樣,線性感知方法被打斷。報紙的非線性排版方式、廣播敲響的部落鼓,電視不再與我們的思想對話,而是與我們的身體對話,這些正在生長出西方工業社會以來形成的分割的社會所無法意識到的新的紋理:對環境逐漸開始采取“狩獵人”和偵探的方法,“把整個環境當作統一場來探索”②。大數據是每一個人在互聯網新媒體上生長出來的花紋,大數據方法就是探測花紋生長規律的方法,在感知方式上,是一種超脫的具有東方色彩的整體感知方法,而非科學思維所堅持的卷入的線性因果關系至上的認知方式。
大數據作為一種方法和思維,是指相對于西方主導的因果思維而言的相關思維轉向。它與傳統東方在知識、道德、行為模式上體現的感知世界的方式一致,美國比較哲學家安樂哲與郝大維教授提出,與西方“因果式思維”相對應,中國人的思維方式傳統上是偏向“互系式”或“關聯”思維。③大數據特點和思維方法與“關聯思維”及其所代表的東方哲學存在密切關聯,尤其是兩者都將世界理解為流動的觀念。因此,從思維方式相通這個意義上,我們可以認為大數據是西方人從內心走向東方的外化表現形式。即麥克盧漢所說的“東方價值”。
本文將中西哲學文化比較和麥克盧漢新媒介研究方法納入大數據討論范圍,開展關于大數據理論的跨學科分析。大數據是一場變革,是關于“生活、工作與思維的大變革”④。大數據的重要特點在于它是“數據流”的概念,而中國思維方式正是基于直覺體悟的“一切皆流”的宇宙觀理念,大數據與中國思維方式兩者之間存在重要關聯。本文將兩種思維方法作對照分析以發現其關聯所在,從中國傳統智慧中發掘更多可利用的方法,發現問題,深入理解大數據及其對中國新媒體社會形成的影響。
大數據可以理解為是對科學思維的一種補充和修正,雖然大數據并沒全盤摒棄科學方法,但是數據驅動的科學在認識論上已經發生了變化。Kitchin在《大數據,新認識論和范式轉移》一文中認為“大數據催生了一種新的認識論路徑:尋找‘產生于數據’(born from the data)中的洞見”⑤。即先用歸納的方法使數據呈現意義模式,再用科學的方法對數據進行分析和解讀。數據驅動的科學作為新范式,將會引導發現超出傳統科學認識范圍的新價值。數據中產生的模式以相關關系呈現出有意義的聚合體,即相關關系納入科學認識論的視野。在這個視野里,大數據可以與重視相關關系的中國思維相溝通。
大數據與小數據相比具有明顯的特征。通過綜合分析國內外相關文獻對于大數據特點的討論,我們認為大數據具有四個方面的特點:大(big),動態性(dynamic),交互性(interactive),耦合性(coupling)。從這些特性可以看出,數據量大即意味著互聯網的影響形成的分析所有數據的可能性。大數據的動態性體現在動態的數據流模式,這說明了它的共時的、非序列的特征。交互性則表明,大數據的研究對于科學研究方法之“主-客體模式”的改變。耦合性構成大數據之有機生態系統性的特點。這四大特征共同表明,大數據在研究思維上發生了根本轉變。在舍恩伯格看來,這種“重大的思維轉變”體現在以下既相互聯系又相互作用的三個方面:首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本;其次,我們樂于接受數據的紛繁復雜,而不再追求精確性;最后,我們的思想發生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。
如下三個思維方式的轉變可以與中國智慧中的思維方法作類比,兩者之間具有共同的思維基礎,因此在大數據處理時可以從中國思維中借鑒方法、經驗并發現錯誤。
1.重整體而非細節,重過程多于因果
首先,相對于過去研究事物所采用的小樣本方法,大數據重視總體數據。“大”不僅體現為數據容量大,更為重要的是數據類型豐富。科技專家⑥指出,數據多樣性在大數據挖掘中相當重要。新的數據來源和新的數據種類在不斷增加。大數據的內涵表現為所有數據都是有價值的,過去認為無關的和無用的信息在大數據時代都可以被利用,來發現潛藏于背后的關系。另外,“所有數據”的意義在于發現那些被歸入某些類別而不在整體上發生作用的信息。
大數據之所以重視認識事物的整體性,即認為萬事萬物的存在都有意義,并且互相關聯。今天我們將整個環境當作“統一場”來探索,而不再是分割的方式。這是麥克盧漢對新媒體影響的判斷。新媒體不僅僅是人探索世界的工具,它已經通過改變人的認知方式潛移默化地成為新的環境。“今天,我們生活在信息和傳播的時代,因為電力媒介迅速而經常地造成一個相互作用的事件的整體場,所有的人都必須參與其間。”⑦正是互動特性的電子媒介使得人的中樞神經系統通過新媒介結成網絡,互為延伸,形成新的“自然”,才使大數據之全體數據成為有價值的研究目標。這與中國傳統思維中的整體觀相一致。在中國人的世界里,世界是流動的,萬事萬物交織而相互影響、互相牽制,世界的意義也是多義的,正像被李約瑟解釋為“宇宙歸檔系統”的《易經》中所呈現的世界,萬物的關聯性與多義性就是世界的奧秘之處。陰與陽互相牽制,是相對和變動的元素。世間萬物的存在都有意義,中國傳統思維體系中的歸檔系統將萬物以分類的形式納入整套歸檔系統,將世界看作互相聯系的整體。
其次,動態性是大數據的特點之一,大數據下將數據看作“數據流”(data flow)的模式。數據流模式不再將數據看作一堆靜止的數據,而是看作連續的過程。“對于數據的分析開始于感知到數據的那一時刻。”⑧大數據的功能在于描述和預測。在需要實時反饋結果的應用中,一旦擁有數據就要做出預測,否則時間已經經過,預測也就失去了意義。多個數據源產生巨大而實時的數據流和歷史數據,可以實時反饋并預測結果。達文波特⑨指出,這種“數據流”的看法與過去將數據看作倉庫中一個靜止的庫存有本質上區別。大數據時代,很多數據都產生了原先沒有預想到的創新用途。數據在不同坐標和不同時間點上的意義均有所不同,數據在不斷產生新的數據的環境中流動,形成不同的價值和意義。“流”表明一種動態,非預定的充滿活力和創新的過程。
中國傳統思維特性表現為對具有特殊性的過程的重視,即安樂哲與郝大維教授所謂“一切皆流”的直覺⑩。與邏輯相對應的事物的特殊性,通過關聯性的語言即類的語言來“獲得對事物之流的新鮮的、直接的感覺”。如大數據的動態數據流,是一個時時刻刻變化的有機生態體系。這樣的思維特征下,內在的感覺世界都具有特殊性,是流動萬變的。如中國古典繪畫觀念中的人站在任何一個位置,他的感知世界都是以他自己為中心的宇宙世界,世界以他為起點形成,遠山近水環繞,皆在“我”心中。中國人的“宇宙”就是時空以及其中的天地萬物,無始無終,萬物處于混沌之中。
在電子時代,計算機成為人的中樞神經與自然的中介。因此,對于世界的把握可以通過計算機進行,這使得大數據在理論和實踐上具有可行性。發現大數據的“數據流”的動態模式是大數據價值的核心,也是最難于把握的方面,是大數據技術研究的熱點。它是動態的秩序,沒有既定的模式,在中國人的智慧中,事物變化的動力在宇宙中,是混沌的秩序。它時時更新變化,就像互聯網上的信息,以及處于各個特定系統中的日常數據。把握它的方式是通過關聯性的分類系統,如五行和《易經》分類系統。相對而言,互聯網上的信息,以及通過人類行為在新媒介系統里發生的記錄,只要達成一定的計算條件,則可以通過大數據的分析方法加以透明化,從而發現其中的模式,實現對未來模式的有效預測。
這種動態的非線性的模式的發現與跟蹤,已經在科學史上有過成功的經驗。它運用于氣象學研究非線性系統的多樣性和多尺度性,并發展為一種被稱為“混沌理論(Chaos theory)”的“兼具質性思考與量化分析的方法,用以探討動態系統中(如人口移動、化學反應、氣象變化、社會行為等)無法用單一的數據關系,而必須用整體、連續的數據關系才能加以解釋及預測之行為。”(維基百科)著名的“蝴蝶效應”就是一例,一只小小的蝴蝶在某地扇動翅膀,可能引發一段時間以后另一個遙遠地方的一場暴風雨。說明微小條件下的改變能帶動長期巨大的一系列連鎖反應。
2.重視事物的模糊性價值


模糊(fuzzy)理論在美國和日本商業化產品的開發應用,模糊理論拋開偏見反而重視以往被認為缺乏科學精神的近似推理,這種方法也屬于東方哲理中的重要內容。美國加州大學伯克利分校的扎德教授最早于1965年提出的模糊集合理論,于1974年和1980年英國與丹麥科學家的成功應用而推廣,主要包括模糊集合理論、模糊邏輯和模糊控制等方面的內容。建立一組量化的模糊語言集作為控制條件,控制物件或過程。人類自然語言的模糊性,以及不同文化尤其是東方文化中的模糊性的意義,應用在特定環境中,模糊的描述是有效力的,這是較早時對于模糊邏輯的理解。它的主要精神是模棱兩可,差不多就好,根據并不精確的信息,通過差不多的推論過程而獲得有效的結果。
3.相關關系作為第一方法論
大數據還具有耦合性的特點,即不同的人和方法可以運用于大數據的分析和解釋,數據耦合作用于分析的最終結果上。這些因素構成一個信息生態系統。它類似于生物生態系統,這個系統的各種因素混合在一起,相互影響,系統擁有了交互、耦合、動態的特點。秩序不是外部強加的,而是存在于自身的過程,原因不是外在的,并不能完全區分誰者為因誰者為果。大數據模式拋開既定秩序和特別的標準,試圖發現過去處于事物背景中的數據價值。
這就是說,大數據可以在根本上理解為一種思維方法,認識事物相關關系的方法論。雖然相關關系在小數據時期已經被提倡,但是,直到大數據時代相關關系才被發現是數據挖掘與分析的最有效方法。不僅執著于探究“為什么”而重視“是什么”,相關關系可以幫助我們更好地了解世界。大數據的編程技術需要去發現事物之間的非線性關系,有針對性研發出解決數據挖掘的相關工具。發現非因果關系的能力在于采取類比的方法,就好比畢加索從多個角度同時觀察人物和場景,一些軟件已經在這方面找到了方法。將不同范疇的模式作為同一組意象進行考察,可以顯示出連續時間或因果序列上所無法呈現的信息。建立特征向量本質上是在建立一種編碼的模型,通過向量特征來歸納事物,綜合使用分類與模式識別的方法,即因果關系與相關關系并重,在歸類方法上,相關關系優先于因果關系。在小數據時代,對于世界如何運作的探索建立于假設之上,通過收集和分析數據來論證這些假設,這是近代以來實驗科學的基礎,也是西方基本的認知論。但是,網絡世界大數據將在最大范圍發生作用,我們將不必再受限于這些假想。
大數據時代,數據之大和動態復雜性已經將普遍可能的實體泛化為背景。因果概念由于它的線性思維模式而排除了其它與事物相關聯的原因,將事物與其背景抽離開來。在人類產生的數據達到一種無法用單個關系去描述的程度時,大數據對于全體數據的實時而動態的分析就體現為對于背景的關注,注意到世間萬物之間的聯系。在分析式因果式思維時代以概念的關聯性作為背景,當特定對象變得模糊,退至背景而使前景呈現為背景,關聯思維就必定出現于前景。

伏羲用以畫圖來表示天氣。下雨用“2、1、2”來表示,這就是數字化時代的開始,它是前文字時代的智慧,是部落時代的無字天書。我們今天的計算機正是以巧合的方式延續了這樣的思維方式。從相關關系的引入,這是西方文化轉型的思維模式領域的挑戰。這也代表了麥克盧漢所說的電子技術時代“西方的東方化”的事實,雖然這是一個對于西方人來說難以察覺的外部環境的轉向,即“轉向內心”。因果關系代表了典型的西方文藝復興以來的思維方式,相關關系正是中國傳統思維體系下的思維方式。兩者之間溝通的潛在價值將需要體現在人類思維模式和社會生態體系的平衡。因為,歸根結底,人類自古至今的共同理想是一致的:中國人心中的“世界大同”與西方的和諧“共同體”和“地球村”。
大數據的效果已經影響到各行各業,那么,大數據方法是否可以替代專業團隊?從“關聯思維”模式中,我們可以推測出哪些方法和風險?
1.越過專業化時期的可能性

行業專家是一批掌握更多專業信息的人士,過去這部分人主要產生于各個專業領域以內,如經濟分析師這個專業人士人員,是對財經動向和市場預測進行專業分析的擁有相關學識背景的人士,他們是大數據時代之前的掌握更多相關信息并進行分析評判的人士。但是隨著大數據的開發,如彭博通訊社通過對于財經新聞信息的采集與分析,能夠相對準確地預測行業發展前景,提醒市場的風險和資金的走向,這些信息將比專業人士的分析更加準確。西方社會在此方面有很多成功的案例,亞馬遜用計算機系統推薦代替專家就是很好一例,由系統推薦的書的銷量比起專家團隊要高100倍,亞馬遜因此而解散了此前為其競爭優勢的專業書評家和編輯團隊。
對比中國社會,中國社會直接從農業時期的“部落式”社會急促過度,專業化分工的工業發展時期并沒有得到充分發展,當前又進入信息時代的后工業社會與工業社會相交雜的時期,因此發展中的專業化問題始終存在。大數據提供了幫助我們解決專業化問題的更多樣的方法,即在發展專業化的同時,充分利用數據科學帶來的分析預測優勢,以彌補直覺方法不穩定的缺憾。
2.“關聯思維”的動態特征帶來不穩定因素
新媒體“同步共鳴性質的文化環境”給社會帶來轉變。電子時代的全球文化具有部落文化性質,從部落時代的整體感知到電子時代“重新部落化的”“超鏈接”社會,中國文化從對現實世界的部落感知模式到電子時代的整體感知模式,麥克盧漢所謂的“同步共鳴性質的文化環境”,使得當代中國在感知方式上通過新興媒介接通傳統中國智慧。在網狀社會結構和交往模式里,大數據時代的相關思維和中國式“關聯思維”的相通在方法論上具有指導意義。它在科學研究中的影響有可能出現不穩定的問題。穩定性構架是孕育理性的基礎,對于人類社會的組織來說,缺乏理性將可能導致難以想象的災難性的后果。

然而,在中國式“關聯思維”主導的新媒介社會環境里,新的難題會出現。“關聯思維”的滑動性與靈活性用在藝術文化等生活世界將產生無限的創造力,但是如果用于其它的社會系統,可能將導致一些問題。問題之一就是,由于深度參與和卷入大數據全球村的“整體場”,個人身份將可能丟失,隱私問題受到嚴重威脅。政府和商業公司很多利益化的操作,會危及大數據的制度基礎,引起媒體使用者對于參與網絡行為的信任方面的問題,從而帶來數據偏誤。

注釋:
①② [加]馬歇爾·麥克盧漢著,[加]斯蒂芬尼·麥克盧漢、[加]戴維·斯坦斯編:《麥克盧漢如是說—理解我》,何道寬譯,中國人民大學出版社2006年版,第67、54頁。


⑤ “國內外新聞與傳播前沿問題跟蹤研究”課題組:《大數據實踐與研究:批判性反思與研究推動》,《新聞與傳播研究》,2015年第8期。
⑥ Halevy,A.,Norvig,P.,& Pereira,F. (2009).TheUnreasonableEffectivenessofData. Intelligent Systems,IEEE,Vol.24,No.2,pp.8-12.
⑦ [加]馬歇爾·麥克盧漢:《理解媒介——論人的延伸》,何道寬譯,商務印書館2000年版,第52頁。
⑧ IBM,Zikopoulos,P.,& Eaton,C. (2011).UnderstandingBigData:AnalyticsforEnterpriseClassHadoopandStreamingData.McGraw-Hill Osborne Media.
⑨ Davenport,T. H.,Paul Barth,and Randy Bean. (2012).How'BigData'isDifferent. MIT Sloan Management Review,54,no. 1.







(作者系重慶大學美視電影學院研究員、博士生導師)
【責任編輯:張國濤】
*本文系國家社會科學基金西部項目“中西書寫體系的認知效應研究”(項目編號:15XXW002)的研究成果。