[美]拉斐爾·阿爾瓦拉多 [美]保羅·漢弗萊斯/文薛永紅/譯
“大數據”一詞大約于1995年開始使用,其含義在2008年發生了根本性的變化:從運用大規模數據集發現并解決問題的一種方法,一躍成為建構新興經濟和文化秩序的“法寶”。它對人類所產生的深刻、普遍的影響,在讓人歡欣鼓舞的同時,也讓人憂心忡忡。從經濟的角度來看,目前“大數據”指代一種以數據為媒介的商業形式(以谷歌為代表),它把從大規模網絡中生成、收集的數據用于機器學習,從而使其成為互聯網的實際中心。從文化的角度來看,該詞則代表一種新的知識和知識生產的形式,《連線》 (Wired)雜志的主編克里斯·安德森(Chris Anderson)在《科學理論的終結》一文中對此就有所闡述。①C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired, Vol.16,No.7, 2008, p.17.本文中,我們將從實際社會和科學變革的可觀察屬性的維度探討這兩種含義以及它們之間的聯系。為此,我們將引入三個核心概念:數據域(datasphere)、深調制(thick mediation)以及不透明表征(representational opacity)。這三個概念作為一個理論框架,可以幫助我們理解大數據在經濟和文化維度上——一個是地方性和生成性的,另一個是全球性的和涌現性的——如何交互以及在交互過程中產生的一系列的后果、問題和機遇。
雖然很難為“大數據”給出一個抽象的定義,但這個詞的概念源起具有清晰的歷史脈絡。“大數據”這個詞最早出現在20世紀90年代,當時各行業和各門科學廣泛地使用數據采集和數據存儲設備——從計算機科學儀器和收銀機到關系數據庫和數據倉庫——使得難以控制的數據流匯集成了海量數據。為了實現大數據集中挖掘并發掘其中潛在的認知模式和商業價值,對于這些數據的組織與處理就變得十分迫切,數據挖掘應運而生。此后,這種知識挖掘的有效模式被迅速崛起的谷歌演繹得淋漓盡致。1991年通過的《高性能計算法案》解除了對互聯網的監管,之后,谷歌采用了數據挖掘技術來應對互聯網爆炸式增長所帶來的問題,取得了矚目的成果。②我們將“互聯網”視為一個專有名詞,它的前身是阿帕網(APPANET)。2008年,《自然》和《連線》雜志均圍繞“大數據”這一主題組織了關于谷歌的討論,然而主題并不是討論它在管理和開發大數據方面所取得的成功經驗,而是將谷歌作為一個科學研究的典范,討論人類能從它身上學到什么。此后,大數據的概念不僅涵蓋了一套完整而又行之有效的數據處理方法(大致對應數據科學和機器學習領域),而且作為一種發現科學知識的新工具為人們所理解。
沿著這條發展線索,大數據逐漸派生出了兩種廣泛的含義,我們稱之為小寫的大數據(big data)和大寫的大數據(Big Data)。小寫的“大數據”指的是擁有海量數據的組織機構所面臨的技術問題。盡管在這個意義上它通常指的就是數據集本身,并強調其復雜性以及龐大的體量,但該術語更多地被用作一種代表,即代表在諸如天體物理學、生物信息學和其他領域成功應用相關方法獲取數據流的科學學科以及在商業領域的消費分析等。準確地說,我們將小寫的“大數據”一詞視為與數據科學相關的活動和方法,因為這些數據集太大以至于不能用傳統方法進行分析。
當這些活動和方法向社會各領域滲透并迅速發展——尤其是在經濟和文化領域,便產生了大寫的大數據。在經濟上,這個術語表示以數據為中介的商業形式,包括大量的基于數據建立的公司與業務,谷歌就是其典型代表。在文化上,這個術語代表了一種由數據科學研究者所倡導的新的知識和知識生產方式。這兩個方面無疑是相互聯系的:大數據在經濟領域產生的數據在內容上具有社會性和文化性。大數據組織和收集到的人類行為數據——從整個圖書館的數字化和通過交易得到的公共機構的數據(如使用信用卡或谷歌搜索)到從社交媒體抓取到的數據——在數量上大大超過了通過傳統的方法如調查研究、參與觀察、檔案記錄等所獲取的數據。這些數據不僅規模龐大,而且涉及范圍廣,包括精確且詳盡的行為痕跡(比如通過掃描卡或社交媒體而追蹤到的關于消費者的數據)。顯然,如果沒有相關的技術設備的存在,就無法捕捉這些數據。這種社會性的數據在量和質的方面發生了根本性變化,這就對技術和文化提出了巨大的挑戰。因此,大寫的大數據是人文主義者和社會科學家所關注的領域。
大寫的大數據可以被認為是小寫的大數據的經濟和文化轉向,因此會使社會組織的知識結構產生歷史性的變革。這種轉向是基于近幾十年來發展、滲透在全球各領域和組織的巨大的電子網絡所生產的數據之上的,包括政府、醫藥、金融、教育和商業。這個網絡既不是抽象的,也不是虛擬的,它是在人類生物圈內發展起來的、具備技術和社會因素的具體結構,并且具有與卡爾·波蘭尼(Karl Polanyi)在《大轉型》 (The Great Transformation)中所描述的自由市場相似的空間結構,只是規模更大一些。①K. Polanyi, The Great Transformation: The Political and Economic Origins of our Time, Boston: Beacon, 1957.這個網絡結構有許多其他的名稱,例如,文學作品中吉布森(William Gibson)的“網絡空間”概念,社會科學中卡斯特(Manuel Casetells)的“流動空間”概念以及祖博夫(Shoshana Zuboff)的“監督資本主義”概念等。①W. Gibson, “Burning Chrome”, Omni,Vol.4, No.10, 1982, pp.72—77; M. Castells, “The Space of Flows”, The Information Age: Economy,Society, and Culture(Vol.1),Cambridge, MA: Wiley-Blackwell, 1996, pp. 376—423; S.Zuboff, “Big Other: Surveillance Capitalism and the Prospects of an Information Civilization”, in Journal of Information Technology,Vol.30, No. 1, 2015, pp.75—89.所有這些含義都是有價值的,它們就像一個個透鏡,透視著人類社會的眾多維度,我們將其稱之為數據域——一個由洛西克夫(Rushkoff)提出并被加芬克爾(Garfinkel)清晰地下過定義的術語,它指的是“對機器可讀數據的收集、聚合和使用的基礎設施”②D.Rushkoff, Media Virus!: Hidden Agendas in Popular Culture, New York: Ballantine Books, 1994; S.Garfinkel,Database Nation: The Death of Privacy in the 21st Century, Beijing: O’Reilly Media, 2000.。
數據域作為一種社會建制,從許多相互獨立的領域及其相互聯合的進程中涌現并嵌入其中,如計算思維的發展、自然科學和社會科學中的統計方法及各種世界假說的興起、對用于組織和管理人口的各種記錄的使用(包括紙質記錄和電子記錄)以及以計算設備為基礎的用于數據共享的通信網絡的建構等。數據域的許多文化效應并不是新事物,例如對信息超載的焦慮和對海量數據所帶來的變革的樂觀信念。數據域的獨特之處在于,它將之前的信息實踐結合到目前最新的、具備前所未有的規模和力量的計算機基礎設施之中。為了滿足生產和控制信息的需求,這些基礎設施被合并到組織內部,由此首先產生了小寫的大數據,繼而為大寫大數據的許多獨特屬性做了鋪墊和規定。如果沒有這些基礎設施,就不可能有這種形式的數據積累,也無法使數據的挖掘和使用成為一種新的知識形式。正是因為數據域的存在,才使大數據能夠以兩種形式存在。最后,數據域通過全球網絡化的商業和協作模式得到擴展,這些模式可以通過網絡實現(如商業網站),還可以通過開放源代碼軟件等進行協作實踐。在Web 2.0階段,用戶生成內容(UGC)的交互式網站變得很普遍,數據域在社交互動層面有了一系列的創新和發展,其中包括Facebook和Twitter等社交媒體平臺、零售平臺、博客圈、書簽網站和移動計算設備,這些設備可以隨時隨地將用戶連接到這些平臺上。近來,數據域已經包含了新的參與平臺,這就使得以Uber、Airbnb、維基解密、物聯網、云計算、開源數據為代表的“零工經濟” (gig economy)成為可能。
總之,數據域是歷史建構的、分布在不同地理位置上的、社交性的網絡,人與機器在此網絡中進行數據交換。我們將這個網絡視為一種拉圖爾(Bruno Latour)意義上的行動者網絡:它作為共同參與者,包括了人與機器之間的一系列交流,并產生了我們與特定社會、文化以及體系相聯結的獨特的互動模式。③B. Latour, Reassembling the Social: An Introduction to Actor-Network-Theory, Oxford: Oxford University Press,2005.與本質上的社交網絡的異常特征不同,技術要素作為中介建構了人與人之間的關系。正如人類學家邁克爾·韋斯(Michael Wesch)所言,按照語言人類學的概念,每個新的數字平臺(如Facebook,Snapchat或Uber)都會創建自己獨有的參與者結構,將人們整合于包含具體社會關系和角色的特定序列之中。①N. L. Whitehead and M.Wesch, Human No More: Digital Subjectivities, Unhuman Subjects, and the End of Anthropology, Boulder: Univ. Press of Colorado, 2012; H.A. Innis, Empire and Communications,Oxford:Clarendon, 1950.在這個網絡中,計算機的作用與多年前哈羅德·伊尼斯(Harold Innis)提出的原則一致,即媒體形式和交流方式塑造了社會關系,甚至如本尼迪克特·安德森(Benedict Anderson)在《想象的共同體》中所言,它在一定程度上形成了一個國家的民族特性。
表征數據域的參與結構通過在軟件中執行編碼并在硬件約束下運行規則得以生成。譬如像Facebook之類的社交媒體平臺,是通過硬件和軟件建立人類參與者(“朋友”)之間的對稱關系網絡來實現個人之間的溝通的。由此產生的社交網絡,從用戶的角度來看,具有或多或少的扁平化和非等級屬性。與此相反,Twitter通過非對稱“跟隨”的邏輯建立關系,進而形成網絡,用戶可以通過將關注者的比例最大化來構建層級結構。
除結構性結果外,還有與使用媒體形式有關的特定的社會進程。在數據域中,典型的社會進程開始于對一些基本人類行為模式的表征和捕捉,這類行為一般是一些基本交易事件(例如打一次電話或進行一次購買),這類事件可以轉化為數據,我們就稱之為數據捕獲事件。②需要強調的是,盡管我們把注意力放在人類這一因素上,但是數據域不僅僅局限于人與人、人與機器之間的交互。自動出租車的運行、軍用無人機對信息的收集、熊入侵的視頻圖像等,所有這些內容都是數據域的組成部分。在每個數據捕獲事件中,行為被轉換并打包成具有元數據內容的自包含信息。通常情況下,可用的元數據包括事件的具體時間(秒)、地理位置(米)以及電話號碼或電子郵件地址等形式的個人標識符。一旦這些數據被捕獲和打包成功,捕獲設備就會通過一系列通道(如WiFi集線器,光纖電纜和蜂窩塔)將這些數據發送到云端的服務器。數據包作為離散記錄或“觀察結果” (從數據中獲取相應模式的分析員如此稱呼此類數據)進入并儲存在云端數據庫中。在數據庫中,單個數據包將與以相同方式捕獲的其他數據包聚合。在這一過程中,數據將會到達一個臨時的終端。數據庫通常由首先創建數據捕獲事件的組織擁有,如應用程序的所有者、信用卡公司或二者的組合。捕獲的數據包將成為在此類組織內部使用的大量數據中的一部分——它將成為該組織歷史記錄的一部分,或者可能成為季度報告中聚合數據點的一部分。
在大數據時代,這些數據并不會長期停留在數據倉庫中。它們將與組織的數據倉庫或“湖”中的其他數據集相結合,或者出售給另一個組織。然后,數據工程師對數據進行清理并將其轉化為數據分析人員可分析的形式。數據分析人員通過先進的分析方法對數據進行挖掘,以發現數據之間的關聯。他們將挖掘到的結果或轉交給執行官做出決定,或推送給其他算法以用于其他分析目的,或將其反饋到數據產品中并重新傳輸回數據捕獲站點。例如,他們將個人的社交媒體帖子與他或她的朋友組群信息結合在一起進行分析,分析結果將用于構建該人能看到的推送,這反過來又會刺激另一個消息的發生,即另一個數據捕獲事件。
這一過程具備一種敘事性的特質,反映為布朗和杜古德(John Seely Brown and Paul Duguid)所述的“信息社會生活”:數據在移動——從數據捕獲階段到數據聚合階段,之后是數據分析階段以及其他的數據運用階段。①J. S. Brown and P. Duguid, “Mysteries of the Region: Knowledge Dynamics in Silicon Valley”, in The Silicon Valley Edge: Habitat for Innovation and Entrepreneurship, edited by Chong-Moon Lee, W. F. Miller, M. G. Hancock and H. S. Rowen, Stanford, CA: Stanford University Press, 2000, pp.16—45.這個過程說明了大寫大數據與小寫大數據二者間的重要區別。在自然科學領域中收集和處理極大的數據集時,只存在從世界到數據收集器的單向通道。當我們使用科學研究的結果來改變自然世界時,雖然工程學上可能會有一些例外,但在某些自然科學領域如天體物理學中,數據收集行為并不會影響星系本身。而在大寫大數據的許多領域,存在信息和影響間的雙向流動。例如,社交媒體公司可能會收集青少年的數據,然后利用(并出售)這些數據來重塑他們的購買習慣和娛樂偏好。同樣,政黨和政府收集有關選民的數據,并使用這些數據分析產品來影響個人的投票決定。這也就意味著,大寫的大數據涉及觀察者與觀察者之間的反饋關系,而小寫的大數據通常不會。
這些結構和過程中的細節與生成它們的媒體平臺一樣多變,但是若將之視為同一類別進行分析,則存在一個共同模式,其特征可能如圖1所示:

圖1 數據域的基本參與結構
該圖描繪了包含三類代理方(agent)及相互關系在內的基本參與結構:其中M為參與過程的機器,它介于P1和P2之間,P1和P2代表任意數量的與服務有關的人員,組織O負責托管由M支持的服務。有些讀者會注意到,這種結構似乎描述了以計算機為媒介交流(CMC)的典型情況。CMC是20世紀60年代人機交互領域中的一個關鍵概念,在該領域中,計算機建構和改變了組織和社區中人與人之間的關系。然而,該圖中的結構超出了該過程本身所創建的任何一個組織單位的界限。事實上,其所涉及的參與者(P1,P2)之間可能、也往往不認識,更不用說發生面對面的交流。該圖說明了自社交媒體革命和Web 2.0時代以來,我們已經意識到了這樣一種情況,即人與人之間的通信——從簡單的發短信到關注Facebook上的好友以及數字平臺提供的其他參與模式——絕不是私密的。即使在我們的想象中,這種人與人之間的通信方式應該移除任何的“中間人”,然而由于第三方(即圖中的組織O)的存在,就使得這種非私密通信的狀況成為了可能。此外,通信行為以及因這種行為產生的信息存在于這個組織的利益鏈條之中,就像電話公司為每次通話收費一樣,但該組織絕不僅限于在通信服務中獲利。所以說,眾多社交媒體平臺免費的理由與廣播網絡電視免費的原因相同,這是因為無論是作為此類服務的參與者還是觀眾,這些人本身就是產品。機器主要促成的是參與者——尤其是參與者的數據——與組織之間的關系,而不是參與者之間的關系。
除此之外,人們很容易得出一種極端的結論:社會媒體以及在數據域內的所有其他的以計算機為媒介的通信手段,其存在的目的都是為了賦予并擴大它們背后的組織的權力,如谷歌和亞馬遜,而對用戶利益的考量都是次要的或虛妄的。有一種推論認為:大數據是一種新自由主義和全球主義的陰謀,機器扮演著數字雙重間諜的角色。此外,還有另一種說法,即大數據和數據科學的支持者們想要說明的是,并非所有的組織都與選民的利益相沖突,或與其他有利益沖突和監管任務的組織毫無往來。事實上,這里所描述的數據流可被用來改善成員與組織之間以及不同組織之間的關系,尤其在醫學和教育領域中,大數據都發揮了明顯的積極作用。我們面臨的挑戰是,如何從物料和可操作性兩個角度調整系統,以使其適應我們共同的需求。
在數據域的基本參與結構中,有一個關鍵元素非常值得我們關注。從圖1可以看出,無論數據如何在使用者之間傳遞,數據始終停留在中間地帶,即某一數據庫中。在數據庫中,數據不但被存儲、聚合,還可被用于他途,而作為參與者通常對此毫不知情。因此,盡管基本參與結構的每個元素都被認為是必不可少的,但我們觀察到數據庫占據著所有數據最終必然流經的中心和關鍵路徑,其作用就像“曼陀羅” (mandala),將用戶的周邊關系整合到組織的中心樞紐。產生這種向心性的本質原因是數據庫為系統提供了長久記錄的空間。如果沒有數據庫的存在,所有的通信都是短暫的,即使我們想要如上文所述,將個體行為所產生的數據聚合轉換成數據包,都是不可能實現的。我們很難估計這個元素的重要性。作為流動在數據域中的數據的中心存儲庫,數據庫的功能與以讀寫能力為基礎的社會和組織中的編寫系統的功能相同。自舊石器時代以來,這種事情就一直在人類社會中上演。這是自計算機被引入公司以來,各組織投入的基本記錄技術,它是在編程語言、算法和應用軟件等更為多變的潮流基礎上形成的信息管理的基石。基于此,我們認為數據庫是真正的書寫和印刷技術的繼承者。①祖博夫認為,數據庫在組織中起著一種文本的功能,在 In the Age of the Smart Machine: The Future of Work and Power (New York: Basic Books, 1988)一書中,他將數據庫描述為一種電子文本,發揮著“信息化”的功能,與工業機器的“自動化”過程類似。在該書中,祖博夫還根據口述與讀寫的相關理論詳細地闡述了數據庫的功能與作用。
如果數據庫在人們的網絡中扮演“文本”的作用,那么我們可以將數據庫在媒介傳播中所做的工作描述為語言人類學家使用的另一個術語——文本化(entextualization)。所謂的“文本化”指的是將短暫的話語轉化為持續的媒介形式(如寫作、歌曲)的過程,其影響社會生活的能力超越了話語的原始語境。因此,數據庫介入通信的一個關鍵作用是它會將人類的互動行為文本化,而在傳統媒體渠道(如電話)中這是不可能實現的,除非線路被監聽或竊聽。這種持續的、實時的、無處不在的文本化的工作,使數據庫介入的通信方式與其他的通信方式明顯不同。因此,基于這種通信方式的數據域在歷史上也是獨一無二的。
從參與消息傳遞的兩個人(P1和P2)的角度來看,通過諸如移動電話等設備進行的通信或多或少是透明(transparent conversation)的。機器提供了用以發送和接收消息的清晰通道,如電話和電報。由于這些技術的目標是忠實地將消息從發送方復制到接收方,因此我們可以說,這些技術對信息所做的是一種淺調制(thin mediation),意味著在某種程度上,信息雙方成功地擺脫了通信方式本身。香農(Claude Shannon)的通信模型正體現了這種特征:通信工程師的最高目標是消除信號通過信道時所產生的噪聲。②C. E. Shannon, “A Mathematical Theory of Communication”, ACM SIGMOBILE Mobile Computing and Communications Review, Vol.5,No. 1, 2001, pp. 3—55.然而,由于數據域中的信息被文本化并存儲在數據庫中,在數據庫中又被塑造、處理和重定向到與原始會話無關的第三方,交流行為因此發生了根本性的改變。我們把這種通信方式稱為深調制(thick mediation)。在這種通信方式下,啟用信號通道的目的不是為了擺脫這種方式,恰恰相反,是要從根本上重塑信息,因此其對信息本身做的是一種深度的調制行為,這一事實為馬歇爾·麥克盧漢(Marshall McLuhan)的著名論斷賦予了新的含義。③指加拿大著名傳播學家馬歇爾·麥克盧漢(Marshall Mcluhan,1911—1980年)對媒介的論斷,最著名的有:“媒介就是信息”“媒介是人體的延伸”等。——譯者我們不能簡單地認為媒介自身就帶有信息,而是媒介塑造和放大了信息。
如果數據庫介入的通信是深調制,那么信道的寬度以及參與者結構是數據庫文本性質的函數,人類學家伊蘭娜·格爾森(Ilana Gershon)也認為,新媒體形式的參與者結構是媒體形式固有屬性的函數,但是受用戶感知與執行方式的約束。①I. Gershon, “Language and the Newness of Media”, Annual Review of Anthropology, Vol.46, No.1, 2017,pp.15—31.因此,要了解深調制的影響,我們應該探索數據庫作為媒體形式的屬性以及基本參與者結構如何感知和利用這些屬性。
在數據庫內在屬性的研究方面,列夫·曼諾維奇(Lev Manovich)將數據庫看作是“一種象征形式”,我們認為他的這一開創性工作非常有價值。②L. Manovich, “Database as Symbolic Form”, Convergence, Vol.5, No. 2, 1999, pp.80—99.“數據庫邏輯”與歷史和文學文本的敘事邏輯相反,曼諾維奇描述了“數據庫邏輯”的通用屬性:在數據庫中,內容的順序并不重要(其順序是“隨機存取”);工作本身并沒有任何開端或結局,而且其信息在結構上是聚合的(而不是組合關系的)。有趣的是,曼諾維奇的觀點具體地體現了幾年前利奧塔(Jean-Fran?ois Lyotard)在《后現代狀態》中所預期的計算機知識的反敘事特質。③J. F. Lyotard, The Postmodern Condition: A Report on Knowledge, translated by G. Bennington and B. Massumi,Minneapolis: University of Minnesota Press, 1984.在此基礎上,我們可以再增加以下幾點:數據庫的文本是一個個單獨提供的信息的聚合;原始數據生成行為的唯一性將丟失,因為與該行為相關聯的轉發和打包行為使數據變成一組相似的數據[以瓦爾特·本杰明(Walter Benjamin)在《機械復制時代的藝術作品》中所描述的“韻味的消散”的方式];該行為使數據的語境減少從而成為元數據;數據庫的內容可以是數字的、分類的或語言上碎片化的;每一個數據的實例都必須遵循一個固定架構所定義的結構;這些數據能被機器讀取,并能被人類用特殊的語言查詢等。
鑒于這些屬性,數據庫所介入的信息交互關系中的參與者根據他們如何解釋和行為來承擔某些角色。因此,對參與結構所產生的結果需要作實證研究。在這里,我們還注意到,數據庫文本的受眾從來不是對話的參與者,他們只貢獻和接收數據庫整體文本的一小部分——作為參與結構的各方即組織或準組織,構成了所謂的“B2B” (企業對企業)的關系。對數據域中的組織及其共同參與者來說,數據庫文本就是大寫的大數據。
除了上文所述的參與結構外,我們還必須注意到另外一個事實,即數據庫作為社交紐帶處于另一類比社交媒體更為普遍(或至少存在這種可能)的參與結構的核心位置,而這兩件事實共同放大了大數據作為人類行為文本化積累的意義。以上,我們描述了及物性(transitive structure)的參與結構——在這種結構中一個參與者和一個直接對象(另一個參與者)進行交互;除此之外,還有我們可以稱之為非及物性(intransitive structure)的參與結構。從用戶的角度來看,這種非及物性交互形式的發生不涉及直接對象。人們通過與傳感器和監視設備交互,從而產生此類參與結構中的數據捕獲事件。如今,這些傳感器和監視設備已經變得越來越普遍,并嵌入到日常生活和工作當中——從汽車到咖啡機、垃圾桶到血糖儀,這些嵌入式設備在物聯網上的增長標志著數據域在社會生活中的延伸,以至于我們的生活被這種媒介包圍,就像細胞外基質中的生物細胞一樣。此外,這種“基質”還包括以前的內容:由于Google Books和Hathi Trust等項目以及數不清的數字人文主義者——他們至少在過去的30年里一直在創造數字檔案——的工作,大量前數字媒體形式(如書籍和繪畫)的歷史資料被整理為數據庫的形式。
在深調制所產生的眾多認知論后果中,我們特別感興趣的是它對利奧塔曾經稱之為“信息化社會中的知識”的影響。①Lyotard, The Postmodern Condition: A Report on knowledge, p.xiii.自大數據崛起以來,這些影響并沒有被忽視。我們已經注意到克里斯·安德森(Chris Anderson)那極端的觀點——谷歌改變了科學研究方法;如尼古拉斯·卡爾(Nicholas Carr)的黑色幽默所言,谷歌改變了我們的想法,并且可能“使我們變得愚蠢”。安德森在《科學理論的終結》一文中的觀點與卡爾的觀察結果非常接近,即在文學中,網絡提供的碎片化的和淺層的閱讀材料,使人們已經放棄了長篇、持續的閱讀方式。②N. Carr,“ Is Google Making Us Stupid? ” in The Atlantic Monthly, Jul/Aug 2008. https://www.theatlantic.com/magazine/archive/2008/07/is-google-making-us-stupid/306868/.所有這些結果與對這一現象——數據庫介入的通信方式改變了我們生產和消費知識的方式——的評價都截然不同。
此外,在對曼諾維奇的數據庫邏輯概念的平行思考中,克雷·舍基(Clay Shirky)盛贊了由大數據導致的本體論的衰落,他認為與專家的封閉開發、研究相比,會有更有機的組織數據的模式和更加開放的社交媒體平臺進行研究。③C.Shirky,“ Ontology Is Overrated: Categories, Links, and Tags”, in Clay Shirky’s Writings About the Internet(blog), 2005, shirky.com/writings/herecomeseverybody/ontology_overrated.html.在數字人文學科中,佛朗科·莫雷蒂(Franco Moretti)宣稱“文學批評已經終結”,因為傳統上被認為是“精讀” (close reading)的文學批評被一種“遠距離閱讀” (distant reading)實踐所取代,這種實踐本質上是將統計方法和數據挖掘應用于被視為人造物的小說之中。④F. Moretti, Distant Reading, London: Verso Books, 2013.與此相似,在文學批評領域,泰德·安德伍德(Ted Underwood)也提出了關于“文學時代劃分的終結”的觀點,而時代劃分是文學批評的支柱,是一種對文學進行分類的有用方法。⑤T. Underwood, Why Literary Periods Mattered: Historical Contrast and the Prestige of English Studies, Stanford,CA: Stanford University Press, 2013.可見,在大數據背景下,無論所處領域或評價立場如何,都會描述一種常見的認識論效應,即我們將數據庫的調制作為代替文字書寫的一種代表性模式。而對機器數據庫中所包含的知識的訪問需要特殊的技術和表征方式,這些方法與非計算規程中使用的方法和表征方式在本質上有極大的不同。
以下我們將從認識的不可及性(Epistemic inaccessibility)的概念展開論述。人類獲取知識的途徑隨著時間的推移發生了根本性的變化。當大多數人還目不識丁的時候,只有少數人可以使用知識,但是隨著教育的普及,幾乎所有人都能接觸到知識。而現今,我們正在走向另一種狀態,即一個不具備必要的計算能力的人將無法訪問數據庫中所包含的知識。這不是傳統上為人們所熟悉的由經濟和教育機會的鴻溝所導致的獲取知識的障礙,而是由于技術能力程度所導致的認識論劃分。這種認識的不可及性的程度將一直存在,比如對于大多數知識分子來說,他們了解當代分子生物學知識的程度非常有限。但這種認知限制并不是到達認識可及性的唯一障礙。因為專有算法和知識產權法也會阻止人們對數據庫的自由訪問。當然,互聯網所產生的(偶然)信息的開放性在一定程度上消除了這些障礙,但是多數證據業已表明,我們現在正在經歷類似于英格蘭在18世紀到19世紀初的農業封閉的時期,當時新貴族和地主圈占大量公共用地作為自己的私人土地,從而導致“數據霸權”“數據孤島”等現象普遍存在。
這些特征使得那些缺乏穿透社會和技術表面的手段的人難以訪問大數據。當然,這里還有一個更為深層次的問題:“這些關于數據域的不可及性對于運行它的人來說是否亦是不可知的?”一方面,數據庫的規模和復雜性以及處理數據庫所需的計算量,可能會對此產生直接的障礙;另一方面,缺乏合適的算法來處理數據也會造成障礙。除此以外,在數據域中有一種不同的認知障礙,那就是表征能力。
有許多不同類型的表征形式,但在這里我們將集中討論透明和不透明的表征(transparent and opaque representations)。在透明的表征中,我們以一種能被人類進行明確審查、分析、解釋和理解的方式來表示系統的狀態,并且這些狀態之間的轉換由具有類似屬性的規則來表示;相反則為不透明表征。①我們可以將這些類型細分為語法透明(不透明)和語義透明(不透明)兩種,在本文中將不再闡述。就本文而言,如果一個表征在語法上或語義上具有不透明性,那么該表征就被看作是不透明的。我們所熟悉的人文科學的語言表征和自然科學的形式化表征通常是透明的。因為公理化理論方法的主要優點之一是它明確規定了基本原則,并將一個領域的所有知識都歸結為這些基本原則,歐幾里得的幾何理論就是一個典型例子。除了理論之外,科學模型也常常是透明的,就像一個硬幣拋擲的序列是可以由伯努利分布來建模一樣。模型的每個部分——獨立投擲、投擲概率的恒定性等——都被明確地表征。相反,存在一些使用不透明的表征的計算過程,或者其中可能沒有使用任何類型的表征。而從人類的角度來看,我們目前不能、甚至永遠不能詳細了解這些過程是如何表征世界的。
就其性質而言,想要舉出不透明表征的例子并不容易,但我們可以給出一個可能具有部分不透明表征的例子(其中只有一部分不透明的表征,并非所有的表征都是不透明的),該表征可能是說明性的。典型的例子如大數據文本分析所使用的主題建模。大數據主題建模是通過機器學習來建構與文本或文本集合相關的統計模型的。統計模型則可以生成一組在文本中出現的單詞的概率分布。這些概率分布,不管是好是壞,都被稱為“主題”。①關于文本的“主題”是否適應用于統計模型,存在很大爭議。我們僅僅在藝術層面使用它,不支持其他用途。假設我們分析的文本是哲學家約翰·斯圖亞特·密爾(John Stuart Mill)的作品。一個標準的主題建模程序給出了最有可能的主題詞,如人類、男人、道德、生活、女人、存在、社會,鑒于密爾對社會和政治哲學的興趣,這一主題建模則是一個可以被理解的結果。在另一個主題中,主題詞可能是資本、勞動力、工資、生產、土地、增加、成本等,由于密爾經常研究政治經濟學,這些主題詞很容易被理解為他對這個領域的興趣。但是如果主題詞是方法、實例、效果、差異、原因、協議和案例呢?這些主題詞所代表的含義似乎對一般人并不明顯,但如果對一個非常精通密爾工作的人而言,這個主題代表了密爾在歸納和因果推理的方法上的研究。此外,還有一些主題詞也很重要,如最多、必要、案例、知識、地點、部分、方法等,對于這些主題詞,人們可以推測(可能是不確定的)它們反映了什么,也可以通過改變主題的建模方法來生成一個更為“相干”的列表,或者人們可以忽略這個“主題”,比如將其作為統計噪音來處理。②對統計模型所輸出的“主題”如何評估,可參見 J. Chang, J. Boyd-Graber, C. Wang, S. Gerrish and D. M.Blei,“ Reading Tea Leaves: How Humans Interpret Topic Models”, Advances in Neural Information Processing Systems, Vol.32, 2009, pp.288—296。
但有趣的是,其中有一種概率分布捕捉到了密爾工作中潛在或隱藏的主題,而這些主題并不是以任何現有的英語單詞或短語來表征的。數據處理方法在文本中發現了這些隱藏的統計結構,這種結構對我們人類來說不明顯,但在算法方面是很明顯的。這種主題結構與其他被捕獲的我們所熟悉的主題一樣真實,如果我們人類不能解釋該主題結構,那么該部分的表征就是不透明的。這正是大數據的核心特征:我們把語言結構換成了統計結構,把透明表征換成了不透明表征。我們申明,這個例子很好地說明了表征的不透明性,但它并不是一個關于深調制的很有說服力的例子。當這種調制確實發生在大數據的語境中時,即使輸入和輸出具有可預測的強大功能,也可以大大增加由媒介帶來的表征的不透明度。豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)已經給我們展示了一個對什么樣的任務看起來是一個具有最低限度的表征透明的或表征自由的解釋。他的著名小說《博聞強記的富內斯》中的主人公富內斯(Funes)被描述為一個能記住他所經歷的一切的超強記憶力的人,但“我們不要忘記,富內斯幾乎不會進行一般的、純理論的柏拉圖式的思維”①J. L. Borges, Labyrinths: Selected Stories and Other Writings, New York: New Directions, 1964, p. 65.。富內斯的情況類似于一個非結構化數據庫,我們可以使數據庫中的元素之間進行任意關聯,但是要從更為一般的概念中推導出這種關聯則不可能。我們必須從外部對這些信息強加概念結構從而達到理解。
我們理解的概念與我們不理解的概念之間的差異反映在機器學習中的有監督與無監督學習這兩種算法之間。在前者中,數據的分類類別由用戶決定,而在后者中則不是,必須要通過溯因。在無監督學習中,任何分組都只由數據點的集合組成——哲學家們稱之為謂詞的擴展,而在許多情況下,人類并沒有熟悉的解釋。這種不透明度是小寫的大數據及大寫的大數據的主要特征,因為數據庫的規模迫使人們用計算機處理而不是人為分析。對人類來說,什么是機器的有效表征并不需要對人類透明。在大數據和機器學習的語境下,我們認為透明和不透明(或表征自由)方法之間的差異至少與基于規則和統計學的方法與人工智能的方法之間的差別一樣重 要。
因為一些現代的機器學習方法,比如卷積神經網絡和遞歸神經網絡使用了不透明的表征,并且具有與熟悉的語言概念不相對應的特征,所以,我們所面臨的是這些表征是否會永遠不被人類所知,以及某些方法是否表征自由。在缺乏不可證明的證據的情況下,預測一件事情不可能完成是不明智的,而且大數據的發展太迅速以至于它無法做出明確的判斷。盡管如此,我們堅持認為,深調制的性質會增加不透明表征的發生率。一種常見的情況是P1傳遞的數據被O加密。如果O不對P2提供適當的解密軟件,那么,M中包含的表征將對P2是不透明的。另一個熟悉但不太明顯的例子是醫學成像,機器的表征對于人類來說很難理解。在CAT(計算機輔助斷層掃描)掃描中,P1是作為患者的潛在腫瘤,P2作為放射技師,O則是將成像設備收集的數據轉換為正弦圖以便更快計算的軟件。正弦圖是對來自P1的數據的表征,但它們是人類無法解釋的,必須進行逆變換才能被P2理解。②關于CAT掃描的詳細解釋可參見Humphreys, “X-ray Data and Empirical Content”, in Logic, Methodology and Philosophy of Science XIV: Logic and Science Facing the New Technologies, edited by P. Schroeder-Heister, G.Heinzmann, W. Hodges, P. E.Bour, London: College Publications, 2014。第三個例子是社交媒體行為,它在一定程度上也反映了數據域的某些特征。P1和P2代表參與社交媒體的不同群體的個體,O是一個聚合數據的公司,M使用不透明表征的機器學習來生成對O有用的預測。對于人文學科來說,表征和解釋顯得非常重要。大數據表征的不透明度所帶來的挑戰成為某些抵抗機器學習進入人文和社會科學領域的人的一個主要依據。不需要任何表征的立場是有爭議的,關于這一點我們在討論“大數據不需要模型就能取得成功”時已經作了說明。①具有代表性的討論可參見S. Leonelli, “What Difference Does Quantity Make? On the Epistemology of Big Data in Biology”, Big Data and Society, Vol.1, No.1, 2014, pp.1—11; F. Mazzocchi, “Could Big Data Be the End of Theory in Science?” EMBO Reports, Vol.16, No.10, 2015, pp. 1250—1255。但是,即使在機器學習中使用了模型,由于它們的演化,也往往不能被人類精確地追蹤,而且它們只能部分地被人類解釋。盡管我們可能對內部模型有部分的理解,但是算法的輸出或者內部過程可能在現有的語言中不能構建可識別的描述,就像我們的主題詞建模中給出的示例一樣。正是在機器內部進行的處理過程是實現轉變的重要來源。當深調制的范圍是一個懸而未決的問題時,我們猜想:在大多數情況下,應當存在深調制的認識論,并且不透明表征或表征自由的方法將會占據主導地位。
大數據的出現標志著我們認識和表征世界的方式發生了重大轉變。和所有新方法的出現一樣,比如在17世紀引入的微積分以及在19世紀末發展的統計方法,這些方法的出現使得之前無法處理的極其困難的事情變得易于處理。如微積分的發明使物理學和其他大多數科學都發生了徹底的改變。在微積分發明之前,物理學家和天文學家在很大程度上都依賴幾何方法。微積分的發現帶動了梯度和拐點等概念的發明,而350年后許多機器學習方法仍然在使用這些數學概念。但發展和應用這些概念需要考慮如何理解關于微積分的新表征。這些表征對人類來說是非常容易接受的,許多解釋早已進入了我們的日常用語,如速度、參照系、中位數、異常值等。然而,這些舊用途與今天出現的新用途之間存在著重要的區別,因為現代機器學習方法是針對計算機的需求而不是針對人類量身定制的。
這種變化在19世紀中葉就已經出現,當時非歐幾何首先被發展了起來,并且導致了從心理表征到正式數學理論的轉變。我們已經逐漸習慣于這種抽象的表征方式,并將其內容融入我們的概念體系之中。盡管這種幾何學僅適用于在該領域工作的數學家和物理學家,但其中關于彎曲時空的概念對于我們中的許多人來說都非常熟悉,并且可以通過適當的圖形表征和專業教師的講解而理解。②參見R. P. Feynman, R. B. Leighton and M. L. Sands, The Feynman Lectures on Physics (Vol.2), MA: Addison-Wesley, chapter 42, 1963。因此,現在關鍵的問題是我們是否可以為機器學習做同樣的事情。相關的努力已經在諸如“可解釋的人工智能”等方向上展開,雖然并不是所有方法都成問題。③有關這些方法的概述,參見Y. LeCun, Y. Bengio, and G. Hinton, “Deep Learning”, Nature, Vol. 521,No.7553, 2015, pp.436—444。但問題是,如果大數據的方法和結果不能被人類所能理解和解釋,那么我們將會創造一個人類不可知的神秘世界。這對于使用大數據進行的科學研究來說是一個巨大的挑戰,因為它對大數據領域的影響是巨大的,并且可能標志著科學研究方式的永久性改變。
為了理解認識論轉變產生的影響,我們可以回想17世紀有關科學儀器如光學望遠鏡和顯微鏡的發展如何使科學實在論得以確立的歷史過程。經驗主義者只接受基于感知數據的證據,拒絕或不承認那些感知系統不可感知的實體如病毒。因此,以洛克、伯克利、休謨和20世紀邏輯經驗主義者主張的經驗主義作為現代科學的認識論基礎是不可能的。①詳 細 原 因 參 見 Humphreys, Extending Ourselves: Computational Science, Empiricism,and Scientific Method,Oxford: Oxford Univ. Press, 2004, and J.Bogen, “Empiricism and After”, in Oxford Handbook of Philosophy of Science, edited by Humphreys, Oxford: Oxford University Press, 2016。我們試探性的推測和建議是,需要為大寫的大數據和小寫的大數據發展出一種認識論,這種認識論可以令人滿意地處理不透明表征,就像現代科學儀器的發展將藥物分子和馬鈴薯基因組等人們的感知系統不可及的世界轉化為我們能理解的數據結構一樣。
我們認為,大數據中所使用的表征或模型的類型,是其重要性和顯著特征的核心。基于此,我們將提供一些建議,以便探索何種認識模式適合于深調制。當然,可靠性是這些模式的核心。
由于大數據中所使用的機器學習能真正地基于事實進行學習,因此,大數據將會帶給人類關于未知世界的知識。然而,不透明表征的存在是大數據所遇到的最關鍵的挑戰。哲學中長期存在的傳統是把知識當作確證的真信念(Justified True Belief),而這種對知識的認識已經不占主導地位,其替代理論是可靠性(Reliability)觀點。一種常見的可靠性的形式是,一個人S知道p成立的條件是——當且僅當:
(1) p是一個句子;
(2) p為真;
(3) S認為存在一個可靠的過程從而形成對p的信 念。
這意味著,一個可靠的信念形成過程是產生高比例的真實信念的過程。譬如,我知道我的鄰居是個醫生,雖然我從未見過他以專業的身份工作,我相信是因為:我相信他是一個醫生;事實上他是一個醫生;他告訴我他是一個醫生,并且過去他告訴我的幾乎所有的事情都是真實的。以上的每一個條件對我來說都是必要的。如果我的鄰居實際上是一個律師,或者我不相信他是醫生,或者我從不可靠的來源收到信息,例如我從我的另一個患有癡呆癥的鄰居處得到信息,那么“我不知道他是一名醫生”。
由于數據域中的許多知識都是為機器或機器網絡所擁有,傳統的知識觀和可靠性的觀點都使用了“信念”,但是計算機并沒有信念,因此,我們所描述的兩個關于知識的陳述都不適合在機器學習的背景下進行知識的歸因。然而,傳統或可靠性的知識觀通常涉及表征,因為無論是信念條件還是可靠性條件都需要它。如果你知道p,p是代表某種狀態的命題,當p為真時,它即是對世界的正確表征。雖然目前我們不能為機器學習提供一個基于統計學的可靠性解釋,但是我們可以描述表征的不透明度和修改后的可靠性論證之間的聯系。在基于信念的方法中,如果你的信念是明確的,那么知識就是透明地表征的,因為你有意識地進入了該表征。對機器來說,在論文第五節意義上的透明表征相對來說也沒有問題。但是,一旦我們有一個對人類不透明的表征,可靠性方法只需要有一個過程——能可靠地產生內部表征以準確地表征相關系統,即使這樣的內部表征是人類無法解釋的。由此,一種信念自由的可靠性的要求使我們可以斷言,計算機所處理的大數據問題,允許我們不理解它是如何將這些知識呈現給自身的。這樣一來,我們可以在唐納德·拉姆斯菲爾德(Donald Rumsfeld)關于“已知的已知、已知的未知、未知的未知”的這一知識分類中,加上第四類——未知的已知,意味著計算機已知的一些事情對人類來說可以是未知的。
在一些沒有任何表征的極端情況下,我們必須訴諸知識的權威,在這種情況下,信息來源作為權威,無可置疑。①T. Burge, “Computer Proof, A Priori Knowledge, and Other Minds: The Sixth Philosophical Perspectives Lecture”, No?s,Vol.32, No.12, 1998, pp.1—37.因為我們越來越多地將認知權威委托給計算機,我們在許多領域遵從它的判斷,就像我們在日常生活中遵從我們自己的知覺判斷一樣,不需要對來源進行進一步的論證或理解。
由于數據域捕獲了描述系統狀態的海量的多變量(或高維度)的數據,加上從傳感器、社交媒體、健康記錄和其他源頭收集數據的行為變得越來越容易,而且雖然很多數據看上去都是匿名的,但是技術上卻很容易實現對數據的去匿名化。特別是在位置追蹤元數據的使用等背景下,數據挖掘者不僅了解我們所有人,還知道我們每個人的許多事情:他們知道你住的地方,你聯系過的人,你購物的地方,你買過什么,你何時在何地,你在互聯網上的搜索細節,你喜歡什么樣的照片等。這種數據的泛濫產生了一個被稱為維度的詛咒的問題。②這一術語是由貝爾曼(R. Bellman)創造的,參見 Adaptive Control Processes: A Guided Tour, Princeton, NJ:Princeton University Press, 1961。最后需要說明的是,隨著收集數據的變量數的增加,有效使用某些機器學習方法和統計估算技術所需的數據量也將呈指數增長。例如,假設我們為每個變量收集10個數據點并檢查這10個點以查看是否發生了數據點聚類。這樣一來,當我們需要定位兩個變量的相似聚類時就需要102個數據點;當需要定位三個變量時就需要103個數據點;如果用相對適中的100個變量,那就需要10100個數據點。很顯然,這個數字比宇宙中存在的可見的粒子的數目還大。所以在實際的工作中有兩種相反的傾向:第一,直到最近人類才具備收集海量數據的能力;第二,即使是適度復雜的模型也超出了我們收集足夠數據的能力。這兩種自相矛盾的情況表明,那種“只要擁有足夠數據,我們就可以知道一切”的觀點顯得過于樂觀,因為現實是我們的大數據還不夠大。
大數據能將社會作為一個整體并給出全景的描述,并且能夠詳細地審視其中的每一個成員,即其能作為天文望遠鏡和生物顯微鏡的雙重角色而發揮作用。這種雙重作用一方面增大了自然科學與人文科學之間的分界,另一方面又使二者之間的界限縮小。首先,作為生物顯微鏡的存在,大數據形成了對人類個體層面行為數據的事無巨細的記錄,豐富了人文科學在個性化維度上的資料儲備,增進了人文科學對人類個體差異的深度理解。因此大數據將關注個性化的人文科學和關注一般性的自然科學之間的差距進一步擴大。其次,作為天文望遠鏡的存在,引入在形式上數理化、科學化(數理統計)的人文科學的方法,從整體(全樣本)上獲得一般性的規律,從而使二者的界限縮小。
我們需要追問的是,人類不理解數據域中所使用的表征這件事,會為人類帶來多大的風險?人工智能所可能造成的危險也許已經被放大了很多。畢竟人類在塞勒斯·麥科米克(Cyrus McCormick)的收割機、福特(Ford)的裝配線、蒸汽挖掘機和慕課(大型公開在線課程)的技術革命的歷史浪潮中都幸存了下來,因此,我們也許不應該對自動化生產所造成的大規模失業過分擔憂,我們應關注更緊迫的問題,而不是對滿懷惡意的機器人將要統治世界這類的事情惴惴不安。實踐和理論知識的自動化以及它們產生的不可預測性這類新事物,才是真正需要人類警惕的。如果我們人類不能理解機器學習所使用的表征,那么此類程序未來產生不可預料后果的可能性就會大大增加。人們破解恩尼格瑪密碼機,恰恰是因為它對人類的表征進行了加密處理。在數據域的神秘世界中,充斥著各類機器、數據庫和算法,正是因為它們如此神秘,才為人類帶來了更大的挑戰。