張貴紅
作為當前科學哲學的重要分支之一,信息哲學正給科學哲學乃至整個哲學界帶來深刻的變革,甚至有學者稱當前的分析哲學在經歷了20世紀上半葉的語言轉向之后,正在經歷著一場信息轉向(information turn)。當代哲學家弗洛里迪(Luciano Floridi)將語言哲學、心靈哲學和認知科學哲學等領域都當作是信息哲學的一部分。隨著大數據等新興信息技術的快速發展,信息哲學正逐漸開拓著整個分析哲學的視野。然而,當前的數據哲學還未形成一個完整的理論體系,其根本原因是對于數據和大數據的本質還未形成一致的認識。本文就嘗試解決數據哲學的這個基本問題:何為數據或什么是數據的本質?當前的數據哲學主要圍繞新興的大數據技術的社會實踐哲學層面的分析,關注熱點是對大數據技術的倫理分析,近幾年已經出版了多部大數據倫理領域的作品,對數據的形而上學和認識論方面的分析也正逐漸開展。
傳統的邏輯經驗主義者并未給予數據足夠的關注,到了20世紀80年代,隨著新實驗主義的興起,科學實踐逐漸成為科學哲學的重要研究對象,數據(主要是科學數據)也成了科學哲學的重要分析內容。當前的數據哲學應該包括兩個方向的內容:一是科學哲學方向,二是倫理價值方向,而科學哲學方向又包括形而上學層面、認識論層面和傳統科學哲學層面。傳統科學哲學家如伍德瓦德(James Woodward)從科學哲學的視角分析數據和現象的關系,而信息哲學家如弗洛里迪則持有更加新穎的信息視角。因此,就產生了兩種對數據的本質的理解,一種為表征論,另一種為關系論。兩種觀點可簡單表述為數據是事實的表征,還是單純體現了事物之間的關系。此外,還有數據的信息解釋和計算解釋,經過簡單分析可知,這兩種觀點并不會引起太多的爭議。關鍵是如何在表征論與關系論之間進行取舍,這兩種觀點的差異在于:數據本身是否具有“意義”,或者說是否可以表征“事實”。經過分析,兩種觀點的差異在于科學哲學關注科學數據分析,而信息哲學則將關注點轉向數據本身以及大數據。隨著大數據技術的進步,傳統科學哲學的觀點遇到了新的挑戰,從科學哲學的視角來看,科學數據本身是有意義的,而大數據則不再關注數據的具體意義。科學哲學家將數據與現象進行了區分,卻沒有預見到大數據技術所帶來的革命性視角。從大數據的角度看,通過數據本身就可以幫助我們分析現象,從大數據的角度可以使得數據與其“理論”以及“意義”相脫離,實現“理論自由”??梢姡瑪祿膬煞N定義并非不相容的,對于科學數據來說,其本身是附帶“意義”的,而大數據則是“意義自由”的。從這個層面看,科學哲學與信息哲學在大數據技術的層面是可以融合的,但是傳統科學哲學的許多理論都需要進行變革。對數據的分析,可以進而澄清數據與信息的關系。香農為了便于計算,在信息的經典定義中,剔除了信息的“意義”層面的內容,而當前的信息哲學家則希望能夠將“意義”重新引入對信息的解釋,因此提出“信息=數據+意義”。為此,本文提出數據1和數據2的表述,分別用來表示無“意義”的數據或信息,以及附帶“意義”的數據或信息。這種澄清可以解決許多與之相關的哲學問題,并有助于幫我們進一步開展認知科學哲學等領域的研究。
數據哲學的興起。根據IBM提供的數據,人類每天可以生產出2.5×1018(quintillion)的數據。①Aidan Lyon,“Data”,in The Oxford Handbook of Philosophy of Science,edited by Paul Humphreys,Oxford:Oxford University Press,2016,pp.738—758.大數據正逐漸改變著人類的生活方式,數據爆炸的時代正在來臨。隨著大數據技術的進步,傳統科學方法和科學哲學正面臨著激烈的挑戰。類似 “大科學”或“大數據驅動的科學”的學科領域正在涌現,比如在天文學、生物信息,以及環境科學等領域,大數據正在逐漸構建新的研究范式。人類正在夜以繼日地收集、保存,甚至利用計算機自動分析數據,大數據的興起開啟了一個新的時代,人類在研發能夠自動搜集、儲存和加工數據的儀器方面做得越好,在科學中的角色就越小。②P. Humphreys,“Twenty-First Century Epistemology”,Revista Anthropos,Vol.214,2007,pp.65—70.由此,對大數據的哲學審視顯得尤為重要,可以將此看作科學哲學的一個新興領域——數據哲學。然而當前的數據哲學主要集中于社會價值層面的思考,例如大數據倫理學研究。此外,還有大量關于大數據的經濟學、未來學與社會學方面的分析。隨著大數據帶來的哲學問題越來越多,當前最新的科學哲學和信息哲學領域的參考書都將數據哲學作為一個章節來提出,如“數據哲學”作為第17章出現在了2016年出版的《勞特里奇信息哲學手冊》的“(信息的)自然和物理方面”中,“數據”也作為第35章出現在同年出版的《牛津科學哲學手冊》中的“科學哲學新興研究領域”內。
數據哲學的三個層面。然而,對于數據的社會價值層面的思考屬于應用與實踐層次的思考,從科學哲學視角出發,還有三個方面的哲學問題值得深入思考。一是大數據對傳統科學哲學的沖擊,比如,如何理解大科學方法、數據與實驗以及理論的關系、儀器的作用、科學測量的目的等等;二是認識論層面的問題,包括大數據與知識的關系、數據與事實的區別、數據與信息的差異,以及計算機認識論的探索等;三是最深層次的形而上學問題,如數據的本質究竟是什么,數據與信息之間是怎樣的關系,數據和信息哪個才是基礎,還有數據的本體論意義何在,以及數據與現象的區別等。對于所有這些哲學問題的思考,第三個層面的問題是最基礎的問題,無論是科學方法爭論還是認識論分析,抑或倫理學探索,關于數據的本體論分析才是最根本的問題,也就是數據的形而上學分析。本體論問題可以簡化為兩個:數據是什么?數據和信息是什么關系?如果不解決這兩個難題,所有的爭論都會缺乏根基。第一個問題的解決,也就同時帶來第二個問題的解決。本文接下來首先探討四種對數據的本質的解釋路徑,進而提出關系論與表征論這兩種基本觀點的差異及適用范圍;然后從數據與現象的區分入手,來分析這種區分對于我們理解數據的本質有何啟發,并提出對于數據本質的新理解;最后參照香農和弗洛里迪對信息的定義,重新審查數據與信息的關系。
兩種觀點的爭論。當前科學哲學界對數據之本質的研究主要有兩種觀點,一是關系論(relational theory),二是表征論(representational theory)。關系論的提出者為弗洛里迪,表征論的主要發起者為伍德瓦德(James Woodward)。弗洛里迪目前為牛津大學網絡學院的信息哲學和信息倫理學教授,是當前國外最有影響力的信息哲學代表人物之一,撰寫了大量信息哲學專著,并編輯了大量信息哲學論文集,其主要作品為《信息哲學》 (2011)、《計算哲學導論》 (1999)等。而伍德瓦德則是科學哲學研究領域的知名學者,主要研究因果性與科學解釋,他于2003年出版的因果論專著《使事物發生:一個因果解釋理論》 (Making Things Happen:A Theory of Casual Explanation)曾獲得2005年的拉卡托斯獎。2010年至2012年他擔任美國科學哲學協會主席,目前為匹茲堡大學科學史與科學哲學系的特聘教授(Distinguished Professor)。
對數據的四種解釋。對于數據“本質”的分析,不同的哲學家使用的表述也有一定的差異。弗洛里迪和里昂(Aidan Lyon)稱之為“解釋” (interpretation),并指出有四種解釋,分別為認知解釋(epistemic interpretation)、計算解釋(computational interpretation)、信 息 解 釋(informational interpretation)和 差 異 解 釋(diaphoric interpretation);萊奧內利(S.Leonelli)稱之為“觀點” (view),認為存在兩種不同的觀點,分別為關系觀(relational view)和表征觀(representational view)。而本文傾向于用“理論” (theory)一詞,原因在于,解釋和觀點這兩個詞弱化了兩種理論的差異,只表示存在著若干不同的解讀和理解,不足以表示一種完整的理論體系。而從這兩種觀點的形成到至今的發展來看,分別代表了兩種不同的解讀體系,其背后是完整的、自洽的理論學說相支撐,弗洛里迪的理論以信息哲學為基礎,而伍德瓦德的理論以因果解釋論為基礎①兩種理論體系的差異,產生了兩種不同的對數據本質的解讀。弗洛里迪多使用信息論的術語,并將數據與信息和計算等概念加以對比,而伍德瓦德則使用因果論和科學解釋的術語,從解釋的視角來分析數據的因果關系。由此,可以預見兩種理論之間的差異,從兩種理論體系出發,可以更好地理解數據的本質。,因此應該使用“理論”一詞??梢娺@些不同的說法可以統一成兩種:差異解釋和關系觀都屬于關系論的不同表述方式,認知解釋和表征觀則屬于數據表征論的內容。下面來加以詳細分析。
信息解釋和計算解釋。第一種觀點為信息解釋,該觀點認為數據就是信息,或者是信息的表示方式。此觀點重視信息與數據的內在關聯,比如對于生物數據庫,生物數據本身就是信息的載體或表示方式,從數據中開展挖掘,就可以找到所需要的信息,因而將信息與數據等同。然而,數據挖掘(data mining)的目的是為了獲取信息,在未進行任何加工之前的原始數據庫,不能被看作是信息,只能是信息的來源。因此,原始的生物數據,并非信息,對其進行加工與解釋之后,才能稱之為信息,可見數據與信息不能畫等號。同時,加工之后的數據,或者選擇之后的數據,才可等同為信息或其載體。鄔琨的觀點①該觀點引自2017年10月14日鄔琨教授在上海大學所作的學術報告。鄔琨認為數據與信息是不同的事物,但是信息是數據的基礎,而我認為數據是信息的基礎,這種差異我在后文中再加以分析。接近信息解釋,他認為數據本身就承載著信息,否則經過加工或解釋后,也不可能成為信息。筆者認為,對于數據的加工或解釋,是以人的行為為基礎的,是一種意向性行為。承載有信息的數據,就是被人解釋后的數據,并非原始數據。假設在大數據的理想狀態下,整個世界所有的數據都可以獲得,那么呈現在我們面前的就是世界本身的數據,人類根本無法認識,只有經過選擇和解釋后,才能理解,即獲得信息。第二種觀點認為,數據是可計算元素的積累,例如計算機技術中的二元制元素。這種解釋可以很好地說明各種信息均可以用數據的形式來表示,例如聲音、圖像或視頻都可以數據化。然而,此解釋將數據化與存儲方式相等同,卻忽視了二者的差異,即數據能夠用計算機來表示,而計算機并非數據的唯一表示方式,例如至今許多音樂產品依然在使用黑膠唱片作為數據表示方式。②黑膠唱片的例子來自 L. Floridi,“Data”,in International Encyclopedia of the Social Sciences,edited by W. A.Darity,New York:Macmillan Reference USA,2008,p.235。因此,數據與計算元素間無法等同。
何為表征論。第三種觀點,表征論,弗洛里迪將之表述為數據是事實的收集。此觀點認為,數據為進一步的理論推理提供了基礎,或者數據表征了基本的經驗證據,科學家基于這些證據開展推理。③L. Floridi,“Data”,p.234.里昂支持事實表征論,為了克服表征論所面臨的難題,他對其進行了詳細的解讀,并提出更為普適的表征觀:
例如,不再說數據是表征可解釋事實的符號,我們可以說,只要滿足一定的狀態,或者當滿足一定的狀態的時候,相關的事實就可以進行解釋,它們(數據)就可以表征相關的事實。④S. Leonelli,“The Philosophy of Data”,in The Routledge Handbook of Philosophy of Information,edited by Luciano Floridi,London:Routledge,2016,p.741.
里昂為了解決表征論的諸多反例,在文章中舉了多個科學數據的例子來進行闡明數據表征事實的方式。然而,這種寬泛的解釋依然面臨著難以解釋的案例,例如在電腦中由0和1數字串表示聲音,對于我們來說,字符串根本就無法展示出聲音,只有經過電腦播放后,我們才能理解這些數據。萊奧內利則在文中使用了英國皇家學會的定義:“數據就是為某一現象指派一種歸屬的數字、字符或圖像。”①S. Leonelli,“The Philosophy of Data”,p.198.這種解釋可以很好地解釋數據與所表征的現象之間的關聯,而且也可以解釋在數據進行轉換的過程中,它所表征的現象具有穩定性,比如當將特定字符數據轉化為JPEG或者PDF格式時,依然可以保持其表征性。然而,存在的問題是,同樣的數據有可能表征不同的現象,這依賴于解釋者的知識背景。例如,20世紀50年代,當弗蘭克林(Rosalind Franklin)首次制作出DNA機構圖的時候,作為一名晶體學家,他將其解釋為染色體中的核酸排列。然而,有著生物學和生物化學背景知識的沃森和克里克則將該數據進行了重新解釋,發現了DNA的編碼方式,并因此獲得了諾貝爾獎。②Ibid.,pp.197—198.
雖然存在者諸多難以解決的問題,表征論依然被許多科學哲學家所支持,原因在于,這種觀點反映出數據與事實之間的內在關聯,表征也是數據與解釋者之間的橋梁,如果沒有表征特性,人類將無法理解自然界的現象。但是,表征是數據的目的,而非其本質,用目的來代表本質,并沒有揭示其真實的本質。同樣的DNA結構圖可以有不同的解釋,正體現出數據的目的的多樣性。以上分析可知,數據具有表征的特性,而表征并非其本質。
關系論的提出。關系論由弗洛里迪提出后,一直存在著諸多爭議。弗洛里迪將其稱為差異解釋,該觀點可表述為:
更加形式化一些,根據差異解釋,數據的一般化的定義為:(D)數據=x作為不同于y的存在,在這里x和y為兩個未加解釋的變量,并且這個領域對于未來的解釋是開放性的。③L. Floridi,“Data”,p.235.
萊奧內利將關系論的說法進行了更加通俗的解讀:
事物均能夠成為數據,當且僅當(1)它可以為現象提供一個或者多個表達的一種潛在的證據,以及(2)它在不同的個體間可以流通。①S. Leonelli,“The Philosophy of Data”,p.196.
關系論的優點為,數據的含義變得非常寬泛,任何事物x,只要其不是唯一的,那么它就可以成為另一個事物的數據。例如若要測量某物x的長度,只需要找到任何一個非x的物體y,以y作為尺度即可。因此,如果沒有加以指定,任何事物都可以當作“米”的測量單位。也可以這樣說,只要找到一個差異物,萬物都可以成為數據。這個定義不會遇到反常案例,因為萬物皆可數據化,以致在這種意義上可以說:萬物皆數據。②萬物皆數據,是一種認識論意義上的提法,并非指所有的物質都等同于數據,而是說所有的物質都可以作為數據的形式存在,比如長度、重量等都可以用任何事物做量化的尺度。這是一種認識論意義上的表述,而非本體論的表述,對于本體論的表述,鄔琨教授指出世界由物質(能量)、信息和精神三種事物所構成,物質為實在的存在,而信息為非實在的存在。
分歧的關鍵在于“意義”。里昂從科學實踐的角度出發,認為關系論將任何事物都納入數據的范圍,因此對于人的認知來說就缺乏認知價值,因為人類獲得一個數據是為了將其作為某種結論的證據,并且保證其真實性。也可以說,數據對于人類來說,意義和真實性(truthfulness)是其關鍵要素,而關系論并沒有將意義和真實性納入其范圍。③Aidan Lyon,“Data”,pp.738—758.此外,未加任何解釋的數據,如何進行或者限定解釋也是需要加以分析的。這也是萊奧內利質疑關系論的關鍵,他認為數據是可攜帶的并且構成了物質實體。人類搜集數據,是帶有將其轉化為證據的期望的,而同一個數據在不同的語境中使用,它所對應的物質實體就有所差異。因此,在科學實踐中產生的數據,其本質與獲得該數據的科學活動以及數據的使用是分不開的??梢?,里昂和萊奧內利均傾向于表征論,因為數據在科學實踐中才有意義,而這種意義或解釋的價值,才是數據的本質屬性。
為了更加深入地理解數據與事實(或事實的解釋,或數據的意義)之間的關系,應該引入科學哲學與形而上學領域一個充滿爭議的話題——數據和現象的關系。因為,在一定意義上,可以說,現象代表了事實,現象也構成了被解釋了的事實。如果數據與現象之間是非相等的,那么就可以推導出數據與事實之間的差異性,從而為關系論和表征論提供一種調和方案。
數據與現象是不同的。例如,為了研究鉛的熔點,科學家會用溫度計多次測量鉛融化的溫度,并對這些數據進行加工以計算出鉛的融化現象,溫度計的數據和鉛的融化是截然不同的事物,科學家只是利用數據來分析鉛融化的現象。為了進一步闡述這種區分,博根和伍德瓦德又分析了科學史中的多個案例:例如人類骨骼的X射線影像圖,這種作為數據的圖片幫助我們分析骨骼現象;以及愛因斯坦廣義相對論的日食觀測驗證,愛丁頓經過觀測獲得的只是一些數據,跟引力現象是兩回事,只是愛因斯坦的理論幫助我們通過數據理解引力現象??梢姡瑪祿鶎氖瞧浔澈蟮目茖W理論的因果關聯,以及本地化的科學實踐和測量行為,一個科學數據所依賴的是科學理論和科學實踐。科學家所強調的實驗的可重復性,其實為一種近似的可重復,數據在其本質上是本地的和特殊的,是不可重復的。
支持表征論的證據。博根和伍德瓦德的數據與現象相區別的觀點,增進了對數據本質的表征論的思考。既然數據是現象的一種展現或表征,那么數據所表征的現象就是一種事實,因此,數據就是與某種現象所對應的有待闡釋的事實的表征。同時,在這個意義上可以說,事實就是現象的不完全展現。在名為《數據、現象和可靠性》的文章中,伍德瓦德進一步根據這種觀點為數據提供了一個清晰的定義:
數據是通過測量和實驗生產的公共記錄(中子流狀況下的云室圖片,愛丁頓科學考察中的恒星位置圖片),這種數據為現象而存在或者作為其具有某種特性的證據而存在。①作者還在2011年的文章中再次重述了這個定義。
里昂認為這種定義就是表征論,它說明數據是科學儀器和測量行為所生產的對于可觀察的科學事實的真實記錄。里昂強調說,數據的可觀察性所體現的正是不可觀察的現象,可觀察的數據能夠解釋不可觀察的現象。如果這一點正確,那么該理論就可以為范·弗拉森的建構經驗論提供一個很好的反駁。然而,數據其實并非一定是可觀察的,例如大型強子對撞機(LHC)這樣的大型儀器,每天都在產生大量的數據,這些數據的產生過程都是不可觀察的??梢?,不應該用可觀察與不可觀察作為數據與現象區別的依據。
大數據技術帶來的新思路。此刻,對數據的本質的分析尚未得出結論,卻出現了更多的難題,現在需要澄清的概念包括:數據與現象、可觀察與不可觀察、理論與證據、經驗與事實,以及最開始的表征與關系等。值得欣慰的是,大數據為我們提供了一種走出迷霧的新路徑。前文提及,大數據技術帶來的革命,不僅僅在改變著我們的生活與科學方法,還在改變著當前的科學哲學觀點,接下來分析大數據技術如何幫我們澄清這些難題。對于大數據的定義,當前依然存在著許多爭議,然而對于大數據的存在是沒有什么爭議的,本文為了避免爭議,暫且將大數據技術定義為超越傳統科學理論和方法的處理數據的方式,同時將大數據看作現有傳統科學方法與理論無法處理的數 據。
伍德瓦德為了解釋數據與現象的關系,將數據定義為事實的記錄或表征,而這種表征本身是需要推理加以實現的,因此數據推理本身就預示著某些科學理論,可見數據是負載理論的。然而,大數據技術卻為我們理解數據推理的科學方法提供了一個全新的視 角:
博根和伍德瓦德,在1988年……為一種……從數據建構科學現象的顛覆性的觀點進行了論證。對于他們來說,現象的建構是“理論自由” (theory-free)的,并且是統計推理的唯一內容,它控制著雜亂的事實和錯誤的資源,以及數據的還原。①參見S. Schindler,“Rehabilitating Theory:Refusal of the ‘Bottom-Up’ Construction of Scientific Phenomena”,Studies in History and Philosophy of Science Part A,Vol. 38,No.1,2007,pp.160—184。
世以十二支配十二肖,由來久矣。殊不知古人一支有三禽,蓋取六甲之數,式經所用也。支各三禽,故稱三十六禽。三禽于一時之中,分朝、晝、暮,則取乎氣之盛衰焉。子朝為燕,晝為鼠,暮為伏翼。丑朝為牛,晝為蟹,暮為鱉。……。酉朝為雉,晝為雞,暮為烏?!说冉陨蠎煨?,下屬年命,三十六禽各作方位,為禽蟲之長。領三百六十,而倍之至三千六百,并配五行,皆相貫領,云云。[注](清)陳其元:《庸閑齋筆記》,四川大學圖書館編:《中國野史集成》,巴蜀書社,1993年,第75頁。
雖然伍德瓦德并不認可這種說法,但是只有在“理論自由”的前提下,才能為數據與現象的區分提供一個無爭議的基礎。而大數據技術就提供了理論自由的基礎——只要數據足夠“大”,就根本不需要“理論”的存在,即不需要也沒必要對現象進行解釋,因為大數據可以顯示現象。同時也不需要從數據中推理出現象,大數據本身就體現了現象。同樣,大數據將不可觀察的現象都以數據的形式體現出來,所以數據包括可觀察與不可觀察兩類,事實也分可觀察與不可觀察兩類。數據可以表征事實,也在表征經驗,所以可以說事實就是經驗,也是現象。這也符合前文中給出的大數據的定義,大數據本身就是遠離現有理論的數據,大數據技術只有算法,而不需要“理論”來支持其結論,這就是“理論自由”的一種展示方式。
大數據技術不僅僅是一種數據處理技術,它還是一種理解世界的哲學觀點。經過大數據技術的革命性視角,以上的種種爭論可以畫上一個句號。從大數據的觀點看,在客觀世界中,大數據就是事物之間的關系,大數據也并非是所有的數據,只需足夠揭示現象即可。在大數據的世界中,對數據本身的計算處理,就可以表示所有的現象,無須先提出理論來解釋這種現象。在這種視角下,現象也就是事實,也構成了主體的經驗和理論。這種解釋還符合奧卡姆剃刀原則,不僅簡潔清晰,還可以將理論、觀察、經驗等多余的術語消解。與此相關的更深層次的問題還包括如何用信息視角來解釋心靈現象,以及世界是否可以還原為只包括物質和信息兩種基本實體等。
兩種觀點的差異在于出發點不同。上一節,我們從大數據的視角提出數據的本質就是事物之間的關系,從而為關系論提供了一種辯護。從前文分析可知,數據與現象的區分所遇到的最大的反駁為:數據本身是負載理論的,因此數據所表征的現象也是與理論相關的。面對這種反駁,伍德瓦德并未展現出最初的革命性見解,即將數據與理論嚴格區分開,而是逐漸弱化自己的觀點,他從數據推理的角度加以分析,并闡明這種推理是需要其他的經驗假設的,或者說數據推理是需要理論做基礎的。①參 見 J. F. Woodward,“Data and Phenomena:A Restatement and Defense”,Synthese,Vol.182,No.1,2011,pp.165—179。他之所以會弱化自己的立場,主要在于伍德瓦德沒有意識到未來的大數據技術所帶來的革命性。博根和伍德瓦德為了反駁傳統的科學哲學觀點,提出了影響甚廣的數據與現象的劃分,以此來解釋觀察與理論的深層次關系。然而在爭論中,他們逐漸回到傳統科學哲學的視角,用傳統科學哲學思維來分析數據的本質,這也是為何伍德瓦德逐漸支持數據表征論的觀點,因為他是在科學哲學的語境中進行分析的。
之所以伍德瓦德會支持表征論,是因為在科學史以及人類的經驗案例中,所有獲得的數據都是有限的,不可能達到“理論自由”的程度,所以這些數據不可能離開科學理論。可見伍德瓦德是從科學哲學的視角來分析的,他的數據不是“理論自由”的大數據,只能用表征論來解釋,因此也就離不開科學理論。而弗洛里迪正是從信息哲學的角度來看數據的本質,他使用的是信息視角,所以他指出所有的事物都可納入數據的范疇內,因此他所指的數據就是大數據。為了對這兩種數據的用法加以區分,在下文中用數據1來指弗洛里迪關系論中的數據,用數據2來指伍德瓦德表征論中的數據,沒有下標的則為通用。
然而,目前還有其他問題需要澄清:伍德瓦德所指的數據究竟是什么?主體層面的“理論”和經驗的本質怎樣解釋?數據推理的本質又是什么?為了澄清這些難題,我們需要對另一個重要概念——“信息”——進行澄清,然后比較信息與數據的關系。其實,正是信息哲學幫我們澄清了科學哲學對數據本質的爭論,對于相關的科學哲學難題,也需要從信息哲學的立場來解決。下文,先來對信息的本質進行分析,然后澄清數據與信息的關系。
香農論信息的本質。對于信息的本質,許多學者有著不同的定義。②目前主要包括六種信息的定義:費舍、香農、柯爾莫果洛夫、量子、主體狀態和語義定義。參見Adriaans,Pieter,“Informatica”,in Stanford Encyclopedia of Philosophy,2012,https://p lato.stanford.edu/entries/information/。目前來看,應用最廣泛的是香農在其通信理論的經典論文中提出的定義,香農的定義也被稱為經典定義,或MTC(Mathematical Theory of Communication)形式定義。其觀點可表述為:與某個消息(message)相關的系統的通信熵(communication entropy)為

其中pi是消息i在A中的概率,以2為底的對數使得該符號串能夠用二進制來表示。然后這個消息x所攜帶的信息就可以表述為

香農這種量化的信息定義,對其后發展起來的信息科學及認知科學有著深遠的影響,同時這個定義也可以用于對科學哲學問題的分析。這個定義的本質在于用對數與概率表示某個事物的信息本質,因此信息在本質上是對于事物x的概率關系。而x可以是所有的物質,因此萬物均可以信息化,于是可以認為萬物皆信息。香農的定義與計算方法使得二元制的語言可以表述一種作為概率形式的信息。
澄清數據與信息的關系。從香農的定義來看,他的公式所展示的信息,其實就是前文所分析的數據1,即作為關系實體的數據。在這個層面上看,數據與信息之間是沒有區別的。對照弗洛里迪的數據定義與香農的信息定義,可見對于x并沒有限定,x均可指任何事物:任何事物的存在狀態都可轉化為信息,同時也可以轉化為數據。因此這兩個定義也可解釋為:萬物皆可數據化或信息化,數據1與信息1并沒有本質區別。數據和信息的區別在于表示事物的關系的方法不同,因此這就不同于數據的信息解釋。香農的定義并沒有賦予信息語義層面的內容,然而在現實世界中,人類所接受到的所有的信息都是有意義成分的,對香農的信息定義來說,“蘋果是水果”跟“狗是動物”之間沒有信息差別,這也正是數據1所展示的關系。為此,需要引入更加實用的定義,弗洛里迪使用了《劍橋哲學詞典》中對信息的定義:
一種客觀(獨立于心靈的)實體。它可以由消息(語詞、句子)或其他認知者(解釋者)的產品生成或攜帶。信息可以被編碼和轉移,但是信息的存在獨立于它的編碼和轉移過程。①L. Floridi,“Is Semantic Information Meaningful Data?” Philosophy and Phenomenological Research,Vol.70,No.2,2005,p.352.
弗洛里迪將此定義稱為信息的標準定義(SDI),并指出其基本特性為DOS(可陳述的、客觀地、語義的)。最初信息的定義并未與主體、概率分布和決策過程等相聯系,在后期的信息論發展中才逐漸用語境的觀點來解讀信息,并將信息定義為:信息=數據+意義。弗洛里迪據此提出信息的語義解釋,即語義信息(semantic information),將意義和真理引入信息的解釋。這樣表述概率關系的信息就轉化為具有真理和意義的信息,同時數據1就轉化為數據2。有意義的信息,其實就是表征了事實的數據。為了清晰區分,我們將香農的信息定義用信息1表示,用信息2表示弗洛里迪的語義信息。至此,可以再次將前文的難題簡化,從而澄清數據與信息的關系:表示關系實體的數據1就是信息1,數據2就是信息2,雙方之間有著表述方式的差別。之所以開始會遇到各種難題,是因為對數據和信息本身的理解和定義的差異,在不同的語境中均有著不同的定義,其中意義或事實是否出現是關鍵所在,通過分析數據和信息的不同定義,就可以解決這些難題。①鄔琨教授認為,信息是分層次的,其實就是指的信息在不同的語境中定義不同。他在最初的定義上使用的是信息1,而在論述信息的作用時,使用的是信息2。對于這種區分,其他哲學家也曾進行過論述,如塞爾(K. Sayre)曾在一篇論文中用Info(t)表示MTC中對信息的形式定義(即技術定義),同時用Info(s)來表示語義信息,并提出Info(s)能夠解釋意向性現象。②K. Sayre,“Intentionality and Information Processing:An Alternative Model for Cognitive Science”,The Behavioral and Brain Science,Vol.9,1986,pp.121—166.可見,對數據和信息的本質的認識,并非僅僅是為了澄清數據與信息的關系,而是以此進一步分析其他哲學問題,而且是這些分析的出發 點。
本文從當前數據哲學的現狀分析出發,指出數據哲學尤其是與大數據相關的哲學爭論,對數據本身的定義尚未明確,為此提出應該澄清數據的定義,正確數據的本質。對數據本質的爭論近幾年日益增多,對數據的哲學探討,也成為當前科學哲學與信息哲學共同研究的基本問題。爭論的焦點體現在關系論和表征論之爭,即事實或意義是否屬于數據范疇之內。如果數據本身并未表征意義,那么數據就是事物的關系,而如果數據本身負載著意義,那么就說明數據就是在表征事實。對這個問題,信息哲學家和科學哲學家有著不同的理解,以弗洛里迪為代表的關系論,認為數據就是純粹的事物關系,只有對其進行加工,或者賦予意義之后,才成為科學中的數據。而以伍德瓦德為代表的科學哲學家,更傾向于認為數據本身就與事實的表征相關。
科學哲學家對該問題的爭論,與科學理論、可觀察性、科學事實與科學現象等問題糾纏在一起。因此,該問題又牽扯到爭論已久的由博根和伍德瓦德在1988年提出來的“數據與現象”相區分的問題。問題進入更加深入的層次,如果數據與現象相區別,那么數據就無須同與現象相關聯的事實發生關系,這樣數據就和表征事實區別開來。然而,雖然伍德瓦德等人做了大量工作,論證數據與現象之間的區分,但是伍德瓦德卻并非走出科學哲學的視野,他眼中的數據就是科學數據,這種數據并非純粹的無意義的數據,其本身就是被選擇加工了的數據,不可能與意義或事實相區別開來。為此,仔細分析信息哲學和科學哲學對于數據的不同理解后,本文提出了數據1和數據2的區分,并指出兩類哲學家之間的爭論其實是相容的,他們對于數據的定義是根據其討論問題的語境相關。從大數據的角度看,只要數據足夠“大”,就可以走出伍德瓦德后期認為的數據負載理論的迷霧??梢?,大數據是不需要理論作為基礎的,數據和現象之間是可以完全區別開來的,大數據為博根和伍德瓦德的早期的革命性觀點提供了支持,同時也支持了弗洛里迪的關系論。
以此為基礎,本文進一步從香農的信息形式(技術)定義出發,澄清了信息與數據的關系。信息的本質和數據一樣,有著多重語境定義,對于香農的形式定義,信息就是數據1,而對于弗洛里迪的語義信息定義,信息就相當于已經被加工了的、賦予了意義和真理性的數據2。為此,本文提出信息1和信息2的區別。從信息哲學層面,進一步澄清了科學哲學中的爭論,數據1就是信息1,兩者都是關系實體,數據2就是信息2,都是對單純的關系實體賦予了意義或理論的實體。
本文看似澄清了數據和信息的關系,然而卻引出許多新的哲學問題。包括與信息相關的真理理論是什么樣的真值論、信息語義學如何解釋語義信息、如何分析數學和分析命題的信息語義,以及知識如何進行信息解釋等等。同時,科學哲學中的理論、觀察、經驗和實驗等術語,也需要重新加以研究。此外,基于信息科技的人工智能為科學哲學帶來了更多的難題,包括認知與信息的關系、心靈哲學的信息論解釋、人機交互關系和計算主義智能等。希望本文對數據的本質以及數據與信息關系的研究,能夠為以上諸多哲學問題帶來新的思考和啟發。