魏 濤,杜國平
(1.中國社會科學院大學 哲學院, 北京 102488; 2.中國社會科學院 哲學所, 北京 100732)
現階段的人工智能是數學式的信息處理系統,在一定程度上可以回答問題、解決問題,但無法理解問題、思考問題,缺乏可解釋性。而因果性解釋能夠回答為什么的問題,是科學解釋的主要形式。朱迪亞·珀爾(Judea Pearl)將“為什么”作為科學解釋的核心問題,認為當前的“智能機器缺乏對因果關系的理解,這也許是妨礙它們發展出相當于人類水平的智能的最大障礙”[1]。基于統計學的視角,珀爾等人構建了一套能夠將預測、干預和反事實算法化的因果語言,通過因果模型表征因果知識,給出了因果關系的形式化、數學式的定義。HP定義是一種應用性定義,在一定程度上符合因果定義的基本要求:時序性、相關性和不間斷性;可為人工智能領域表征因果知識提供方法,為確立實際原因提供一般性原則。
20世紀以來,對因果關系的討論不再局限于哲學領域,還出現在統計學、心理學、物理學和人工智能等多個學科領域的研究中,由定性研究轉向定量分析,由還原分析轉向路徑分析,呈現出學科結合的研究趨勢。在哲學領域中,孔斯(Koons)認為:“近年來因果研究的分野主要來自對事件—類型間因果關系和事件—殊型間因果關系的關注。”[2]但是,從近幾年的文獻中可以發現,殊型和類型因果關系的研究并非是涇渭分明的,而是將反事實分析、語境、過程、時間等因素和概率因果論相結合,多元化地定義因果關系,并綜合考察事件間因果關聯的可能性。根據定義的不同出發點可將其分為3種:實質性定義、操作性定義和應用性定義。
休謨(Hume)認為,人類能夠經驗到的是相似物象的恒常匯合,而無法感覺到物象之間的任何紐帶,因此原因與結果之間不再具有必然性,而是一種或然性。物象出現時,會在心靈上產生一種習慣性的轉移,這種轉移實質上就是物象間的恒常匯合,也就是因果關系。由此,休謨給原因下定義為:“所謂原因就是被別物伴隨著的一個物象,在這里我們可以說,凡和第一個物象相似的一切物象都必然被和第二個物象相似的物象所伴隨。或者換一句話說,如果第一個物象不曾存在,那第二個物象也必不曾存在。”[3]休謨雖是在經驗范圍內追尋因果觀念的本質,但是并未涉及具體事物的特征、時間、地點等信息,是在類型上定義因果關系,力圖陳述的是“因果關系是什么”的問題,希望借助某種方式將物象間的接續關系還原到物象的性質、事態上。
在規則性定義中,休謨開創了反事實定義方法,還原因果關系的實質。而后的大衛·劉易斯(David Lewis)明確給出了因果的反事實定義。命題間的依賴關系包含了兩個條件句:O(c)□→O(e)和﹁O(c)□→﹁O(e),且命題間的反事實依賴關系可對應于事件間的反事實依賴關系。由此,事件e反事實地依賴于事件c,當且僅當兩個反事實條件句O(c)□→O(e)和﹁O(c)□→﹁O(e)為真。命題間的真值關系映射到事件間為(1)若c發生,則e將發生;(2)若c不發生,則e將不發生。當e和c的反事實依賴關系成立時,則c是e的原因。同時,為堅持因果關系的傳遞性,將因果關系定義為殊型事件之間因果依賴的傳遞閉包:“令c、d、e……是殊型事件的有限序列,d依賴于c,c依賴于d,諸如此類等等,這個序列為因果鏈條。一事件是另一事件的原因,當且僅當存在這樣一個連續的因果鏈條。”[4]因果鏈條的定義雖是為說明因果關系的傳遞性,但為因果關系的反事實依賴特征提供了有力辯護。
20世紀以來,因果論發展的主要方向是運用統計學中的概率刻畫原因和結果之間的關系,認為原因可改變結果發生的概率。概率的引入使得因果關系的探討從經驗范圍縮小到科學實驗中,通過觀察、測量變量(可以是事件、數據、現象)之間的相關數據變化,運用數學公式計算變量間因果關系的隨機性程度。概率計算的因果關系不再是一種“有或無”的關系,而是一種可能性分析。其中,概率因果論的代表性人物薩普斯(Patrick Suppes)追隨休謨,將物象之間的伴隨關系表示為一種概率關系,通過定義表面原因(prima cause)給出真實原因(direct cause)的定義,如下:
定義1:Bt′是At的表面原因,當且僅當
(i)t′﹤t; (t=時間)
(ii)P(Bt′)﹥0;
(iii)P(At/Bt)=P(At)。
定義5:事件Bt′是At的真實原因,當且僅當,Bt′是At的表面原因,且不存在t″和πt″,使得對于πt″的每個Ct″來說,
(i)t′﹤t″﹤t;
(ii)P(Bt′Ct″)﹥0;
(iii)P(At/Ct″Bt′)=P(At/Ct″)[5]。
薩普斯對真實原因的定義所要表達的意思為:若第一個事件的出現被第二個事件以較高的概率跟隨,且無第三個事件存在于第一和第二事件之間,則第一個事件是第二個事件的原因。概率式的分析斷言“X和Y是因果相關的”:在特定實例中,改變X的值將影響Y的值。這種改變往往發生在干預行為中,“相對于一個系統S,X引起Y當且僅當如果在系統S中發生了一個干預I,使得X的值發生了變化,相應的Y值也發生了變化,并且X與Y之間的這種關系是穩定的”[6]。對此,伍德沃德(James Woodward)從干預主義出發定義類型層面的因果關系:“X是Y的真實原因,當且僅當X對Y的影響不能被集合V中的任何其他變量所干涉,在下列意義上來說就是:當V中所有其他變量賦值與X變化無關的某固定數值時,存在對X的可能干涉將改變Y值或者Y的概率分布。”[6]
哈爾彭(Joseph Y.Halpern)和珀爾將反事實依賴擴展為“據情形的依賴”(contingent dependency)給出了實際因果關系(殊型因果關系)的“初版定義”,之后為消除混雜因子,通過增強條件做出微調得到“最終定義”。“初版定義”(稱為HP定義)如下:






HP定義是方程結構模型式的定義,主要運用于經濟學領域、社會科學領域和人工智能領域。結構方程模型建立在一般因果關系的知識基礎上,對特定事件相關的知識背景進行編碼,選定變量賦值,從而判定特定情形中具體事件的原因。結構方程模型也可稱為因果模型,也是一種預測模型,通過變量賦值來預測行為的結果和干預的結果。干預變量取值可推翻原來的因果關系結構,即在不會干擾其他變量取值的情況下,破環某個變量的初始取值,計算結論變量取值,從而發現真實的因果關系。模型化或者形式化的定義是一種實踐方法,基于知識和數據的組合闡明因果關系,進行因果推斷,證明、分析因果假設,預測行為和政策的結果,評估、解釋觀察到的事件和情形。
因果關系中的因和果可以是事物、現象、客體、情景等。從邏輯上來看,事物、現象、客體及情景都是關系者項,不同因果關系中涉及到不同的項,且可簡單表示為cRe或者R(c,e)。從形式來看,兩個變項c、e之間的因果關系是一種二元關系,基于實際中發生或者不發生取值0或1。c是e的原因當且僅當c=1和e=1,往往表示為c?e,即若c為真,則e存在原因,或者是c為e提供一種因果解釋。概率的表示方法為P(E=1|C=1)>P(E=1|C=0),意思為c出現時e出現的概率大于c不出現時e出現的概率。邏輯或者概率的表征方式取決于經驗世界中的因果關系,所以判定變項之間是否具有因果關系,需要從內容方面做出考量。基于事實經驗的要求,休謨認為符合通則的對象之間才有可能產生因果關聯,由此奠定了因果關系成立的基調:原因先于結果,原因和結果之間在空間和時間上是相互接近的。而后,因果定義中引入概率、時間等因素,且與過程、語境相結合也未能改變休謨的基調。
從邏輯上來看,時間是多維的,可劃分為3種:先于關系、同時關系和后于關系,即A先于B、A和B同時、A后于B。因果關系涉及到時間問題,即原因和結果在時間上的先后問題。“時間本來是有方向的,這已往致將來只是根據于時間固有的方向而說的話,說因致果也是根據于時間底方向而說的話。”[8]時間的方向性導致因果的方向性,意味著因和果不是同時發生的,而是有先后順序的,存在時間間隔。這種時間間隔的存在,不僅體現了因到果的一種變化,而且象征著因對果的作用需要經歷一個過程。若因和果無時間上的間隔,二者處于同一時間,或者同時產生,就無法區分原因和結果,就無所謂經驗上所認為的導致與被導致、引起與被引起的關系。因此,時間上的先后關系是定義因果關系的一種本質要求,確保了事件之間的關系是真實的,而非虛假的。因此,單純從時間上來看,因果關系是因和果之間的一種連續或者接續關系,這種接續關系由時間的一維性所決定。
因果關系者項是獨立且相關的兩個事件、現象等。從邏輯上來看,獨立意味著二者之間是不相容的,而相關性卻非邏輯上的相關,是經驗或者事實的相關,這種相關是由事物的內在結構所決定的一種相關。第一,相關性是一種質上的關聯,是事物性質間具有的某種聯系。比如,在火柴可以點燃木柴的案例中,涉及到的變項有氧氣、木材和火柴等,三者之間只有具備了一定的化學或者物理性質,在一定條件下才能夠產生因果關系。第二,相關性還是一種時空的相關性,要求變項在時間和空間上的間隔是恰當的,作為原因的關系者項在時間t1上產生的作用經過恰當的時間和空間才能夠形成結果,若空間距離過大、時間間隔過長,可能無法產生某種結果。比如,在球擊碎玻璃的事件中,若踢球的力度較小,球飛行一定的距離落地,無法達到窗戶也就不能導致玻璃破碎,球和玻璃之間不存在因果關系。所以,相關不一定是因果關系,但具有因果關系的事件之間必然具有相關性。
從原因到結果會經歷一定的時間和空間這樣一個過程。這個過程實質上是一個不間斷的鏈條,且無居間事件的存在。若從初始事件到結果的鏈條中,存在居間事件,即c→c1→c2→…→e,居間事件也可能遮斷初始事件到結果的關系。比如,登山者幸存的案例構造出的鏈條為:巨石滾落→巨石發出巨響→登山客驚覺→登山客躲避→登山客幸存,按照此鏈條得到不合常理的結論是巨石滾落使得登山客幸存。從經驗上來看,巨石滾落導致的結果應為登山客受傷,而這種結果之所以沒發生,則是“登山客躲避”而打破了原有的因果關系,而形成了新的因果關系,即登山客躲避導致登山客幸存。所以,從初始事件到結果的鏈條中,引發結果的不再是初始事件,而是距離結果最近的前置事件。正如因果模型中所示的,父變量是子變量的原因。在原因到結果的路徑上,簡單的圖型表示變量間的因果關系,即C→E,表示從C到E存在一個直接的路徑,C是E的原因。





基于結構方程語言,珀爾等刻畫因果關系成立的條件,結果并不總是反事實依賴于原因,而是在一定情形下依賴于原因,將傳統的反事實依賴擴展到依情形而定的依賴,是一種依賴于語境的因果關系。非本質性的定義具有一定的合理性。
1.非時序因果關系中的時間信息
關于時序信息,在HP定義中似乎無法直觀獲取。變量間的因果影響是從非時序性的數據中獲取的,即一種非時序性的因果關系。在此,基于統計學的觀點,時間信息并不是區分因果關系的唯一標識。但是在定義過程中,對時間信息還是給予關注。比如,在定義潛在原因(potential cause)和真實原因(genuine cause)時,都包含有時間信息。變量X對Y有潛在因果影響,其中一個基本考量就是變量X早于且臨近于Y才可能是Y的潛在原因或真實原因。結合時間信息可定義真實因果關系(genuine causation with temporal information):即變量X對Y有因果影響,若第三個變量Z和語境S,同時先于X發生,使得1.(ZYS);2.(ZY(S∪X)[10]。可解釋為:“基于Z=Yt-2和S={Xt-3,Yt-3},Xt-2作為Xt-1的潛在原因;基于Z=Yt-2和S={Yt-1},Xt-1作為Xt的真實原因。”[10]關于這一點,珀爾通過圖1給予說明,圖1可解釋為:在語境S中,若條件X可以將Z和Y之間的依賴關系轉為獨立關系,則X可調節Z和Y之間的依賴性;在Z先于X的情況下,這種調節蘊涵X對Y有因果影響。統計意義上談論的時間可以和物理時間相一致或相反,或者對應于馬爾可夫鏈中的任何方向。但是,在Z→X→Y鏈條中,作為一種由馬爾可夫鏈所決定的統計時間只有一種,且與物理時間相一致。因此,統計現象必須展現出基本的時序偏差。雖然時間信息并不是因果關系的唯一標識,但是不包含時間信息的概率函數并不能單獨推出模型中箭頭的方向,而變量間不同的箭頭方向有著不同的本質。所以,忽略時間信息所帶來的結果是無法形成一種確定性的,正如珀爾提到的:“假設V=0(可觀察變量)但缺乏時間信息,科學家無法排除基本結構是一種完備的、無環的和任意秩序的圖型的可能性——一種結構可以模擬任何模型的行為,而不考慮變量排序。”[10]所以,HP定義雖關于時間信息的討論并不直接,但是持一種認同態度。

圖1 包含時間信息的真實因果關系
2.模型中變量的相關性
HP定義中的因果關系者項為變量。在構建模型的過程中,首先面臨的問題是如何選取變量的問題,而變量選取的基本依據是相關性。這種相關性展現在語境和模型中。在定義中,AC3作為最小條件發揮了“剃刀”作用,剔除不相關因素。比如,在查尋森林著火原因的過程中,變量包含F(森林著火)、L(雷擊)和MD(縱火犯扔下點燃的火柴)等,而類似變量O(氧氣充足)則作為隱形條件一般不出現在模型中,不作為原因的考慮因素。基于實際需要而選擇的變量分為外生變量和內生變量。在理論上看來,內生變量集合V是未知的,可觀察的變量可通過不同因果關系連結,由此適合已知概率分布的模型有多個甚至是不受限制的。若模型無所限制,就無法對基本現象的結構做出有意義的斷言。因此,需要通過語境來約束變量的選擇及其取值。作為已知項的外生變量,其取值是確定的,構成了特定的語境,而內生變量作為原因的候選者,其取值由外生變量通過方程決定。若變量X1…Xm是Y的真實原因,則Y通過方程可表示為:Y=FY(X1…Xm),當對變量X1…Xm賦值時,將獲得Y的取值,當X1…Xm的值變化時,Y的值將發生變化。所以,方程模型不僅刻畫變量間的因果影響,還可以描述變量之間的依賴關系及反事實依賴關系,進而體現變量間的相關性。
3.因果圖中的“父子關系”
HP定義建立在因果關系的表征基礎上。其中,有向無環因果圖(DAG)是表征因果關系的主要方式。有向無環圖是一組有序對(V,E),其中V表示圖中結點的集合,E是連結結點的有向邊集合。從結點X到結點Y的有向邊表示X直接導致Y。X是Y的父結點,即X是Y的真實原因當且僅當從X到Y存在一條直接路徑。如圖2中,變量V={X,Y,Z,S,W},在S→X→Y→W的鏈條中,S是父結點,X是子結點,從S引箭頭到X表示S是X的直接原因,S的取值對X的取值有因果影響,且S通過其他變量不能產生對X的影響。同樣,在此路徑中,X結點阻斷了Z到W的路徑,即X遮斷了S和X的子孫之間的聯系,或者是結點S和X的子結點阻斷了結點S和結點Y之間的信息流通,導致結點S和結點Y不可直接用箭頭連接,S和Y、W是條件獨立的,根據S的值并不能給Y、W提供其他的信息。這種條件獨立體現在AC2條件中,在因果路徑上,X是Y的原因,X的取值變化時,Y的取值也將發生變化,在變化過程中其他變量取值并不改變;當其他變量的取值變化時,X的取值不變,Y的取值也將不變。Y的取值是否變化與X的取值直接相關,即X和Y之間是一條無居間變量的因果鏈條。

圖2 因果鏈條中的“父子關系”
“因果關系的HP定義是與模型相關的。在一種模型中,A可以是B的原因,但是在另一個模型中卻不是。”[9]同一情形的因果模型可以是多個,模型不同,因果歸因則不同。哪個模型更符合直觀和實際,面臨著模型選取的問題。造成結果差異的是變量的劃分:即外生變量和內生變量的劃分。“外生變量選擇的不同將導致不同的結論,雖然看起來似乎準確地描述了相同的情形。”[9]從總體上來看,變量取值在一定程度上具有客觀性,但是變量的劃分帶有一定的主觀偏好。一個變量作為哪種性質變量出現,取決于建模者的需要,即所考慮的語境。比如,一起交通事故的原因,剎車故障、道路設置的不合理、不嫻熟的駕車技術、酒駕、心理因素等都可能導致車禍。此時根據主體需要構建出的模型存在差別,車禍的歸因則不同。若律師將醉酒和下雨作為外生變量的話,則剎車壞掉是車禍的原因,即U={D(醉酒),R(下雨)},U={B(剎車),TA(車禍)},若B=1,則TA=1。此模型中結構方程集合為:B=1;TA=1。若將下雨、醉酒這些因素劃分內生變量中,則醉酒和下雨都是導致車禍的原因,即若D=1且R=1且B=1,則TA=1。形成的結構方程集合為:D=1;R=1;B=1;TA=1。模型無好與壞的區分,但責任劃分卻存在很大區別。對此,往往是通過增加一個或多個虛擬變量或者是工具變量來結構化情景而區分模型。比如,當D=0且R=0,B=1時即干預D和R的變量取值,而不改變關于B方程的取值,測量TA的取值。此構造的新模型的結構方程集合為:D=0,R=0,B=1,TA=?而TA的取值依賴統計數據,比如剎車的測量數據、駕駛者的心理因素等。變量間的因果影響的強度由數據決定,數據是否充分嚴重影響模型的穩定性。變量的選擇問題轉化了數據的充分性問題。此外,添加變量是否會模型變得雜亂或者無意義,也需要做出進一步的考量。

