許加明 陳友華
〔摘要〕 在社會科學定量研究中,高質量的觀察型數據的獲取非常困難,導致后期進行的統計分析極有可能淪為一種低效甚至無效的數字游戲。任何一種統計分析方法都是建立在特定的前提假設基礎之上的,社會科學定量研究中的很多前提假設本身可能就不成立,而且往往同時存在多種不同的前提假設可供任意選擇,導致后期的分析結果充滿不確定性與風險。在現實社會中,各種社會現象相互交織在一起,因而高度理想化的因果模型很難解釋復雜的社會現實。應當通過定量研究范式的創新、定性研究范式的復興以及大數據的運用,重構社會科學研究的新范式。
〔關鍵詞〕 定量研究,數據質量,前提假設,因果模型
〔中圖分類號〕C03 〔文獻標識碼〕A 〔文章編號〕1000-4769(2020)02-0130-10
實證主義和人文主義是科學研究中兩種最基本的方法論傾向,分別代表著兩種不同類型的知識探求方法,并由此形成了定量研究和定性研究兩種不同取向的研究范式。定量研究建立在推斷統計學(即概率論和統計學理論)基礎上,而定性研究則根植于邏輯學和集合論。①因此,定量研究側重于、且較多地依賴于對事物的測量和計算,而定性研究則側重于和依賴于對事物的含義、特征、隱喻、象征的描述和理解。②自然科學和社會科學是現代科學的兩大分支,從時間上來看,自然科學的誕生要遠早于社會科學,因而在科學發展史上一直占據主導地位。自然科學主要用來探求沒有“意義”的物質世界中普適的和永恒的真理與法則,重視研究結果的數量化和精確化,以定量研究作為基本的研究范式。社會科學誕生之后,為了確立自身作為“科學”的合法性地位,對自然科學研究進行了大肆模仿和借鑒,定量研究范式也因此被引入社會科學研究之中。
自20世紀50年代以來,定量研究和定性研究呈交替主導的狀態。從20世紀50年代到80年代,定性方法占據優勢,但20世紀80年代到90年代定量方法成為主導,1995年左右又被定性方法超越,而從2000年左右至今,定量方法再次超越定性方法成為社會科學研究的主流。③用研究物質世界的方法研究社會世界需要一個重大假設,即物質世界和社會世界的本質是一樣的。④由于社會科學擁有迥異于自然科學的研究目的和研究對象,因而定量研究范式對于社會科學而言并不具有像對自然科學那樣天然的親和力,由此導致社會科學定量研究在實際操作過程中經常面臨多重困境。定量研究范式在社會科學研究中的過度運用,極易導致奧迪斯·鄧肯(Otis Dudley Duncan)所說的“統計至上主義”(statisticism)的病態,即把統計計算等同于做研究,天真地把統計學當成科學方法論的全部基礎,迷信于存在能夠評價不同實質性理論之相對優點或一個因變量影響因素之重要性的統計公式。⑤詮釋學和實用主義者更是尖銳地指出,社會科學和自然科學之間存在著本體論層面的張力,社會科學的復雜性和獨特性使其難以采取自然科學的方法范式。⑥因此,在當前社會科學研究中定量研究范式大行其道、定性研究范式日漸衰微之時,必須對社會科學定量研究保持必要的警醒,進行深刻的反思,明確這一主流研究范式應用于社會科學研究所存在的缺陷和問題,以及應用過程中應有的條件和限度,以達至方法論上的自覺,防止定量研究的過度濫用給社會科學的未來發展帶來難以挽回的破壞和損失。
一、數據質量
定量研究是與測量和計算密切聯系在一起的,必須以數據作為直接的研究素材。一項社會科學研究,首先要對數據質量進行評價或判斷,只有在數據質量有保證的情況下,后面利用數據的研究才是有意義的。⑦因此,高質量的研究數據是定量研究科學性的基本保證。然而,社會現象自身所具有的一些不同于自然現象的特點,決定了社會科學中獲取的研究數據無法達致自然科學中的研究數據那樣的精確性和可靠性,獲取高質量的研究數據非常困難。
(一)社會現象的量化困難
研究對象的可量化性是對其進行測量的前提條件。從理論上而言,無論是自然現象還是社會現象,都具有質和量兩個方面的規定性。因此,社會現象也可以像自然現象一樣進行量化,這是毋庸置疑的。然而,可以進行量化并不意味著一定可以進行高度量化,也不意味著現在一定可以進行量化。事實上,量化是具有條件性和歷史性的。一方面,有些事物可以進行高度量化,有些事物只能進行低度量化,另一方面,有些事物現在可以進行量化,有些事物未來才能進行量化。除了社會調查中通常都會涉及的少數人口社會學變量(例如:性別、年齡、學歷、職業、民族、戶籍性質、婚姻狀況、地域等)之外,絕大多數社會現象都具有復雜性和易變性,充滿了模糊性與不確定性,并且還可能存在欺騙性,表象背后潛藏著復雜的內在結構與變動機理,因此只能進行低度量化,此外,由于人們認識水平的局限,加上現有量化技術和量化手段發展水平的不足,有些社會現象就目前看來還很難進行量化。一般而言,研究對象的量化程度越高,可以測量的層次就越高,對信息的利用就越充分,數據的內涵也就越豐富,反之,研究對象的量化程度越低,可以測量的層次就越低,對信息的利用就越不充分,數據的內涵也就越貧乏。因此,社會現象的低度量化甚至暫時難以量化決定了社會科學定量研究中無法取得像自然科學定量研究中那樣信息充分、內涵豐富的高質量數據。
(二)測量工具的信效度不高
定量研究所需要的數據是通過測量獲得的,測量工具的信度和效度直接關系到測量結果的可靠性和精確性。由于社會現象所具有的抽象性,使得對其進行測量之前必須先要經過一個概念的操作化過程,將無法直接測量的抽象概念轉化為可以直接測量的操作性定義。然而,概念的操作化具有很大的自由度,在方法和指標等方面存在多種可能性。這就意味著,一個抽象概念往往同時對應著多個可供選擇的操作性定義,不同的操作性定義反映抽象概念內涵和外延的尺度和標準等方面都存在很大的差異,永遠無法找到像自然科學測量工具那樣唯一的、絕對的測量尺度和測量標準。因此,對社會現象的測量是一種間接測量,而且依據不同的操作性定義對同一社會現象進行測量,就會得到不同的測量結果,由此導致社會科學中的研究數據遠不如自然科學中的研究數據那樣精確和可靠。此外,在社會科學定量研究中,主要通過調查問卷來收集數據資料,這些調查問卷的來源主要有兩個:一是國外引進,一是自主編制。由于文化背景的差異,國外引進的調查問卷在國內的適用性上或多或少存在問題,本土化的修訂也多是一些不觸及本質的小修小補,難以從根本上去除異文化的影響。自主編制的調查問卷往往缺乏統一、嚴格的標準和規范,問卷的信度和效度很難得到保證,經常在調查結束之后才發現某些題目的設計存在問題,甚至遺漏了一些關鍵變量,而此時已經無法補救。
(三)抽樣框的界定模糊
社會科學定量研究中的社會調查一般都是通過隨機抽樣來選取調查對象。在進行抽樣之前,必須首先明確抽樣范圍,即界定抽樣框,以賦予總體中每一個符合條件的個體以均等的入選樣本的機會。然而,由于社會現象本身具有的復雜性、抽象性、流動性、易逝性等特點,抽樣框的界定非常困難。正如萊文和福克斯(Jack Levin & James Alan Fox)所言:“隨機抽樣的這個特性要求總體的每一個成員在抽樣前必須被確定,通常是通過獲取一個列出了總體的每一個成員的清單來滿足這個要求。我們稍稍一想就會發現獲得這樣一個總體的完整清單不會是一個容易的任務,尤其是在研究一個巨大而復雜的總體時。”⑧此外,有些調查對象屬于隱藏群體,界定抽樣框就更加困難。如果抽樣框的界定不清晰、不完整,勢必造成一些符合條件的個體可能被排除在抽樣范圍之外,另有一些不符合條件的個體則可能進入抽樣范圍之中,由此不僅導致抽樣框中抽樣單位的性質發生異化,而且導致抽樣單位的數量發生失真,并進一步造成抽樣框中符合條件的抽樣單位被抽中的真實概率背離了其原本應有的隨機化概率。受此影響,原本就不可避免的抽樣誤差會被進一步放大,調查數據的質量會因此進一步降低。
(四)調查過程中的隨機性難以保證
社會調查最終關注的是總體而不是樣本,因此調查所得的樣本數據只有通過統計推論上升到對總體的認識才有意義。要保證樣本數據可以用來推斷總體,就必須使得樣本能夠最大限度地代表總體,這就對抽樣的隨機性提出了硬性要求。只有隨機抽取的樣本,才具備代表和推斷總體的可能性,一旦樣本喪失了隨機性,它對總體的代表性也就隨之喪失。然而,定量研究樣本選取過程不規范,沒有按照科學抽樣原理的情況屢見不鮮。⑨如果繼續用它來推斷總體,就會歪曲總體的本來面目,從而得出錯誤的結論。因此,研究者一般都會按照一套嚴格的操作規程和操作方法來設計抽樣方案,以賦予總體當中每一個符合條件的個體以同等的入選樣本的機會。然而,完美的抽樣方案在實際調查過程中并不一定可以得到嚴格執行。由于社會現象的流動性、易逝性等特點,事先設計好的隨機抽樣方案往往因為各種始料未及的現實困難而在實際調查過程中發生變異,最終異化為一種非隨機抽樣。從事過抽樣調查的研究人員應該清楚,即使有完整的抽樣框并進行隨機抽樣,在實際執行中也會因為空戶、拒訪、難以接觸到調查對象而調換樣本和調查員作弊等各種原因使隨機抽樣在操作中變形并引起抽樣誤差⑩,甚至可能進一步導致更加嚴重的系統性偏差,從而使得這一調查本身的隨機性下降。當然,有抽樣就一定會有抽樣誤差存在,如果抽樣誤差能夠控制在一定的限度之內,尚可通過統計手段進行控制和處理,一旦超出了可以接受的范圍,調查得到的實際上就變成了一個與原來的隨機抽樣方案不同的有選擇性的樣本,樣本數據便失去了對總體的代表性。
(五)調查結果容易失真
社會科學調查得到的是觀察型數據(observational data)。觀察型數據無法隔離外來因素的影響,即使可以通過統計手段控制一部分因素,但是不可能排除所有的外來因素,因此所有的數據或多或少都存在問題,因為它來自現實生活,受到其他因素的干擾太多。首先,社會調查的過程是由人來具體實施的,調查人員在責任心、態度、能力、經驗等主客觀因素方面存在的缺陷或不足會造成較大的登記性誤差,從而使得調查結果與真實情況之間產生較大的出入。其次,任何一項社會調查都是在特定的時空環境之中進行的,調查對象對調查問題的具體回答很容易受到時空環境中一些無關因素的干擾,如天氣狀況、調查場所、調查對象的健康狀況和心情等,由此導致同一個人在不同時空環境之中對同一問題的回答可能并不一致,甚至大相徑庭。第三,社會贊許需要比較高的調查對象,可能會刻意隱瞞自己的真實想法而做出社會“喜歡”的選擇,或者配合調查人員做出其“想要”的回答。第四,在一個誠信缺失的社會里,人們時刻保持著對外界的警惕心理,生怕一不小心給自己和家人帶來麻煩,出于自我保護的需要,很多調查對象在回答調查問題時往往會故意歪曲部分信息,特別是對于一些敏感性問題更是如此。第五,有些調查問題是調查對象無法回答的,因為他們自己也不知道真實情況是什么。比如調查對象的收入,究竟是指體制內的收入還是所有的收入,是僅指工資收入還是包含福利性收入,它們的差別是很大的。即使事先對收入進行了具體的界定,很多調查對象也不一定知道具體數字是多少。例如,即便在大學從事調查方法教學的教授也未必清楚自己的收入究竟是多少。如果硬要回答,就只能填寫一個大概的數字,甚至可能隨便填寫一個數字,這樣得來的調查結果沒有任何實質意義。第六,即使調查對象不想刻意隱瞞,他的回答也未必能夠反映他的真實情況。因為人的無意識動機很難洞察,人們往往在不自知的情況之下受無意識動機的支配而做出了失實的回答。第七,在今天這樣一個社會變遷如此迅疾的時代,事物發生量變的速度越來越快,調查數據的保質期越來越短,而一項規范的、大型的社會調查往往持續數月甚至數年的時間,其時效性更是大打折扣。最后,社會調查在決定是否給予調查對象報酬的問題上也陷入兩難困境。如果不給予報酬,可能招致調查對象直接拒絕接受調查,如果給予報酬,則可能導致調查對象為了獲取報酬而隨意應付了事。通過利誘而收集到的功利性調查數據,其質量可想而知。對于以上因素所導致的調查結果的失真,絕大部分很難通過事后的統計手段識別出來。除此之外,從實證研究過程來看,研究者在調查研究中會受到政治因素、經濟因素以及倫理因素的綜合影響,多種因素干擾會導致實際的調查研究過程難以真正做到完全的獨立,研究過程的依附性會直接影響到研究主題的選擇和數據資料獲取的真實性,進而影響到分析結果,從而使得實證研究的質量大打折扣。
二、前提假設
定量研究是一種非常嚴格和規范的研究范式,幾乎每一種具體方法的運用都需要滿足相應的前提條件。因此,在社會科學中開展定量研究,必須事先假定調查數據滿足特定方法所要求的前提條件,也就是設定某些前提假設。如果沒有前提假設,就無法開展社會科學定量研究。然而,在社會科學定量研究中,人為設定的前提假設很有可能是不成立的,而且往往同時存在多種可供選擇的前提假設。
(一)前提假設本身可能不成立
社會科學研究對象本身充滿了變異性,而且這種變異性比自然科學研究對象的變異性要復雜得多。不僅個體與個體之間存在差異,而且同一個體在成長的不同階段也會發生變異。尤其對于后一種變異而言,分析起來非常復雜,因為它往往同時受到很多而且是難以確定的因素影響。不僅對未來的預期會影響人在當前的行動,而且路徑依賴(path dependence)也會使得過去發生的哪怕只是一些微小的偶然的事件也可能會對當前的行動產生影響。因此,在社會科學定量研究中,即使知道存在一個潛在模型,它也會因總體中個體的不同而發生變化,這就是“總體異質性”。
由于“總體異質性”的存在,通過不同個體之間的比較來分析某種干預所產生的效應,勢必導致兩種類型的分析偏誤的產生。一種是異質性偏誤(heterogeneity bias),即不同個體的先天稟賦和后天條件原本就存在差異,因此他們在接受干預之前的初始水平是不一樣的,另一種是內生性偏誤(endogeneity bias),即不同個體即使接受完全相同的干預,也不會導致完全相同的結果,因為同一干預在不同個體身上所產生的效能是存在差異的。
為了消除由于社會現象“總體異質性”所產生的分析偏誤,使得不同個體之間的比較研究變得可能,就需要對觀察型數據做出個體同質性(homogeneity)假設,即不同個體在先天稟賦和后天條件上不存在本質上的差異,而且同一干預在不同個體身上所產生的效能也不存在本質上的差異。有了個體同質性假設,就可以通過對不同個體進行比較來分析干預所產生的效應。因此,個體同質性假設是開展社會科學定量研究的一個最基本的前提假設。然而,這樣的假設并不符合事實,即使通過社會分組,盡量擴大組間的異質性和組內的同質性,也不可能做到組內完全同質。社會分組只能使得個體同質性假設相對于不分組而言更加接近實際情況,但永遠不可能成為現實。因此,在大多數情況下,我們用基于個體同質性而計算出來的精算概率代替真正的個人概率,得到的是描述上準確但可能毫無理論意義且無預測能力的無用的統計數據。
在社會科學定量研究中,幾乎每一種具體的分析方法,都需要滿足與其相應的具體前提條件。然而,為了使用特定分析方法而設定的絕大多數具體前提假設都與個體同質性假設一樣,本身并不符合事實,至少無法證明它們是正確的。社會科學研究中定量分析模型的一個基本問題就是它們強迫分析者首先引入一個可能是錯誤的假設,否則,數學模型就沒有太多作用……這些模型可以做到極為漂亮,代表了非常杰出的智力成就,但是它們是否可以解釋真實的世界,則有相當疑問。這是因為,我們基本不可能從錯誤的假設中得出正確的結果。無論引入明知錯誤的假設使分析變得多么簡單,它都對我們找到正確的解釋無補,因為由此生成的理論在錯誤的地方“查找”答案。
(二)前提假設同時存在多種可能選擇
社會科學定量研究中的絕大多數前提假設的設定都是回溯式的,即先根據研究目的選定統計分析方法,再根據統計分析方法設定前提假設。因此,前提假設的設定具有明顯的目的性和隨意性,并未考慮或很少考慮到調查對象和調查數據本身的性質與特點。同時,為了達到同一個研究目的,可以采用多種不同的統計分析方法,而每一種統計分析方法都需要滿足特定的前提條件,因此前提假設的設定往往同時存在多種不同的可供選擇的方案,從而導致社會科學定量研究中前提假設的設定充滿了不確定性。這也就意味著,對于同一組觀察型數據而言,我們可以同時設定多種不同的前提假設,從而可以采用多種不同的統計分析方法進行統計處理。
在社會科學定量研究中,事物之間的關系通常用統計模型來反映。面對同一組觀察型數據,針對相同的分析變量,可以建立不同的統計分析模型,因為對社會現象做出的假設是不一樣的,一種假設用一種模型得到一串數字,另一種假設用另一種模型又得到另一串數字。但是,這些統計模型之間往往并不一致,甚至可能相互矛盾。然而,由于社會科學定量研究中的絕大多數前提假設都無法進行證明,基于不同前提假設所得到的不同統計模型也就難分對錯和優劣。根據不同的統計模型,可以解讀出不同的分析結果,進而得出不同的研究結論。對于某一種社會事實本身而言,正確的結論往往只有一個,如果基于多種不同的前提假設得到了多種不同的結論,要么只有一種結論正確,要么所有的結論全都錯誤。研究結論不正確,事實的真相也會因此被扭曲或掩蓋。這不僅違背了定量研究對分析結果的精確性的追求,而且擾亂了對事物之間真實關系的理解和認識。
三、因果模型
社會科學定量研究中最常用的分析方法就是建構因果模型。因果模型可以幫助我們通過對有關社會現象的數據資料的量化分析,形成對某一社會事實的原因的理解和認識,進而利用這種特定的因果關系對這一社會事實未來發展的方向和速度進行預測和控制。然而,社會現象本身非常復雜,影響因素很多,而且充滿了不確定性。通過定量方法建立社會現象之間的因果模型,在模型本身及模型的解釋力方面往往存在嚴重不足。
(一)建模方法不科學
社會科學研究在實際調查過程中使用的抽樣方法多不是簡單隨機抽樣,而是其他類型的抽樣,甚至根本就不是概率抽樣。通過非概率抽樣獲得的數據本身連最基本的隨機性都不具備,因而從方法論的角度而言,這樣的數據是不能用來推斷總體、建構模型的。即便是概率抽樣,從嚴格的統計學的意義上來講,不同類型的概率抽樣方法,其數據處理與統計分析的方法也是不一樣的。現有統計分析軟件用以建構因果模型的方法多是建立在簡單隨機抽樣基礎之上的,對于那些不是通過簡單隨機抽樣獲得的調查數據,嚴格來講是不能使用現有的統計分析軟件直接進行因果模型建構的。因此,如果不是簡單隨機抽樣,在數據處理與統計分析時就需要進行包括數據加權在內的復雜的數據加工過程,以便使得其他隨機抽樣形式得到的樣本數據盡可能地向簡單隨機抽樣靠攏,從而使其可以使用現有的統計分析軟件直接建構因果模型。然而,現實當中絕大多數社會科學研究工作者由于缺乏較為深厚的數理功底,往往把由復雜抽樣得到的數據看成是由簡單隨機抽樣得到的數據,并直接帶入統計軟件來進行分析,所以計算得出的各種評估指標和檢驗指標,都是存在誤差的。從統計學的角度而言,這樣建構起來的因果模型是有問題的,甚至可能是錯誤的。
(二)無法解決反事實問題
社會調查獲取的是觀察型數據,要想從觀察數據中發現相對穩定的因果關系,需要運用多種多樣的邏輯思維,試圖單純運用統計技巧去發現觀察數據中的因果關系幾乎是不可能的。對于樣本中的每一個個體而言,觀察型數據只能反映它接受或不接受某種干預所產生的兩種不同結果中的一種,而無法同時獲得它既接受干預又不接受干預所產生的兩種不同結果。例如,如果我們得到了一個人上過大學所產生的結果資料,就不可能同時得到他不上大學所產生的結果資料,同理,如果我們得到了一個人沒上大學所產生的結果資料,就不可能同時得到他上過大學所產生的結果資料。也就是說,對于每一個觀察型數據而言,我們不可能得到反事實的結果(counterfactual effect)。因果模型歸根到底就是研究反事實問題,需要對某種干預在同一個體身上所產生的效應進行分析并做出解釋。但是,觀察型數據自身的局限使得在同一個體身上比較接受干預與不接受干預所存在的差異是不可能的,因此這種比較只能在不同個體之間進行。然而,由于存在異質性偏誤和內生性偏誤,不同個體之間的比較無法析出純粹是由干預所產生的效應。除非我們使用類似于同卵雙胞胎或多胞胎作為比較研究的配對樣本,但是這樣的個案畢竟太少了,對于社會調查所要求的大樣本而言,幾乎是不可能的。因此,社會科學定量研究中的因果模型無法解決反事實問題。
(三)變量控制困難
因果模型就是通過比較個體接受與不接受某種干預所產生的不同結果,從而析出干預所產生的特定效應。因此,對于那些同樣可能對結果產生影響但我們并不關心的額外變量或無關變量,必須進行相應控制。然而,社會科學定量研究中的變量控制非常困難。首先,影響某一結果的額外變量和無關變量有很多,而且無時無刻不處于變化過程之中,因而很難進行捕捉和控制,其次,很多時候我們甚至可能對哪些變量對結果產生影響都不是很清楚,或者即便清楚,我們在實際調查中也沒有收集這方面的資料,從而不得不對這些影響結果的變量進行忽略,再次,對于社會調查而言,額外變量或無關變量無法在干預的同時進行限制和排除,只能在干預結束之后通過統計手段進行控制,而統計控制的作用非常有限,有時甚至無法確定哪些變量應該進行控制、應該如何控制,最后,變量控制的標準難以確定,不同個體之間往往同中有異、異中有同,同和異相互交織,控制了一個方面的同,又出現了另一個方面的異,難以按照統一標準同時控制各個方面的同。因此,由于社會人的異質性,基于非實驗數據的定量分析很難避免諸如遺漏變量、樣本偏誤、聯立性等內生性問題,這在很大程度上影響了因果推斷的有效性。
(四)忽視了人的內在意義
人是非常復雜的,既有豐富多變的情感,又有獨特的主觀能動性。因此,人的行為既有理性的一面,又有非理性的一面,既有有序的一面,又有無序的一面,而且是不斷變化的,很難用固定的、理想化的公式來充分表述。因果模型是借助于一些剝離了人的情感和主觀能動性的冷冰冰的數據而建構起來的,追求的是研究結果的規范化和精確化,只能在對數字進行統計分析的基礎上得出一些一般化的結論,難以反映人自身所具有的獨特的內在意義。正是由于定量研究對遮蔽在演繹邏輯之下的理論想象力的追求往往被研究者所忽略,因此很多學者批評定量研究刻板、瑣碎、乏味。這樣的統計分析,把原本意涵十分豐富的高級的人降格為低級的動植物乃至于無生命體,人本身所具有的不同于其他物種的本質屬性被抹煞,一個個鮮活的個體身上最重要、最獨特的方面被忽略了,而次要的、一般的方面卻被保留在了模型當中。因此,因果模型所研究的是千篇一律的異化的人,而不是真正意義上的人,人的內在意義在因果模型中被抽離出去,剩下的只是一個沒有思想的軀殼。
(五)缺乏個體層次的互動信息
社會科學定量研究主要采用的是大規模的調查數據,這些調查數據是通過對隨機選取的樣本當中所有個體進行相對獨立的逐一調查所得到的。也就是說,在社會調查過程中,每一個個體都被當成孤立于其他個體的社會原子(social atoms)來對待,由此我們雖然獲取了大量有關個體屬性的數據,但不同個體之間的互動信息卻被有意無意地忽略掉了。在社會科學定量分析中,社會互動似乎顯得微不足道。然而,任何一種社會事實都不是孤立的個體行動的直接結果,社會互動在其中發揮著非常重要的作用,并由此形成了十分復雜的運作邏輯。社會結果難以簡單地從個體所生成的屬性中加以“解讀”……即使是在特別小的群體中,行為者的行動極為簡單,并且還有很清楚的行動邏輯,我們也常常無法預期他們可能帶來的社會結果。因此,個體之間的互動對于特定社會結果具有非常重要的解釋力,即使是基于社會互動而建立起的相互關系之中一些看似細微的或無關緊要的變化,也可能經過一系列的復雜運作而對社會結果產生非常顯著的影響。把個體從互動中抽離出來進行孤立的研究,勢必大大簡化對事實真相的理解和認識,難以發現導致某一社會結果的真正原因。因此,基于缺乏個體層次互動信息的觀察型數據建構起來的因果模型,難以反映社會互動的真實內在邏輯,更無法從中知曉個體之間的互動如何形塑社會的模式。
(六)難以揭示真正的因果機理
模型追求的是簡約形式而非結構形式,而影響人的觀念和行為的因素是相當多的,而且各因素之間還存在著比較復雜的關系,人們很難窮盡所有的影響因素,也很難用一個簡單模型來模擬出所有變量之間真實的、復雜的關系。統計學中所列出的數學模型或者函數,只是函數中極少極少的一些特例,例如我們常用的線性回歸模型、Logistic回歸模型、對數線性模型等都是極其特殊的模型。這些模型在使用時對變量是有要求的,例如,在使用線性回歸模型時,必須滿足高斯條件。但現實中的很多變量根本就不滿足模型對變量的基本要求。這些模型之所以得到廣泛應用、甚至多是濫用,其原因是解釋起來簡單,僅此而已。實際上,現實社會中各種社會現象之間的關系是異常復雜的,現有的統計學模型卻是高度簡單化和理想化的。例如,在線性回歸模型中假設變量之間的關系是線性的,但現實社會中很少有變量之間的關系是線性的,而是非線性的。不僅如此,我們甚至都不知道變量之間究竟呈現一種怎樣的關系,也就是根本不知道變量之間呈現出一種怎樣的函數形式。在現實的統計分析中,我們實際上對變量之間的關系做了極其簡單化的處理,甚至人為建構變量之間的關系呈現出統計分析模型所要求的形態,這實際上是很荒謬的。因此,因果模型中反映出的因果關系通常與真實的因果關系相去甚遠。在因果模型中,如果一個因素和結果的期望值或者條件概率系統相關,那么這個因素就被說成是一個(概率性的)“因”。盡管在詞句上吹毛求疵沒有任何意義,但這里的“因”所包含的“原因”的旨意,少于“因果關系”中的“因”(也即通過統計學分析得出的“因”往往不是真正的“原因”)。
(七)變量之間可能存在雙向互構
變量之間的相關關系存在對稱與非對稱之分,非對稱的相關關系是指只存在一種變量對另一種變量的單向影響,而對稱的相關關系是指兩種變量之間存在交互影響。在自然科學中,因果關系屬于一種非對稱的相關關系,作為原因的是自變量,作為結果的是因變量,二者的產生和變化存在明顯的時間序列,自變量在前,因變量在后,而且只存在自變量對因變量的影響,不存在因變量對自變量的影響。但是,社會世界錯綜復雜,各種社會現象相互交織,它們之間很少存在簡單的非對稱的相關關系,而是以復雜的對稱的相關關系居多。例如,人際交往的頻率和人際關系的密切程度,二者之間存在明顯的雙向互構,人際交往頻率越高,則人際關系越密切,人際關系越密切,則人際交往頻率越高。社會現象之間的關系,大多不是一種單向影響關系,更多的是一種“雞生蛋、蛋生雞”式的雙向互構關系,結果的生成過程并非一蹴而就,而是經歷了不同變量之間多個回合的交互作用,根本就說不清哪個在前、哪個在后,何為因、何為果。一個變量與另一個變量發生的真實作用關系,可以是直接因果關系,或間接因果關系,或互為因果關系,這些都可能導致設定的直接因果關系被檢驗通過。因此,運用非對稱的因果模型來分析雙向互構的社會現象之間的因果關系,往往難以揭示其內在的真實的因果作用機制。
(八)完美的因果模型脫離了復雜的社會現實
由于不同社會現象的可量化程度以及量化技術存在差異,因此并非所有的社會現象都能建立因果模型。有些社會問題,已經能夠通過定量的科學模型開展研究,而有些社會問題則只能建立半定性半定量的模型,或者說是半經驗半理論的模型,還有一些問題則難以建立模型。然而,在社會科學定量研究中卻存在一種“社會學時髦”(sociological dandyism),即統計或理論模型的大行其道,并非因為模型可以帶來具有社會學實質性用途的結果,而僅僅是因為無論從抽象還是應用的角度,模型本身就具有內在的優美、凝練和精妙的特點。為了使得因果模型看起來更加完美、更加科學,越來越高深的方法被運用到模型的建構當中,越來越多的變量被引入到模型當中,導致模型本身越來越復雜,模型的穩健性越來越差。在西方政治學界,定量方法日益繁雜、深奧,出現為定量而定量的狀況,并且定量學者的學術著作日益“小眾化”和“圈子化”,形成了“定量霸權”的局面。人們在建構因果模型時考慮的不再是模型能否解釋社會現實,而是模型本身是否完美。這就意味著,社會科學定量研究不是為了認識社會現象而建構因果模型,而是為了建構因果模型而建構因果模型,因果模型已經從一種研究工具被異化成了研究目的,與社會現實漸行漸遠。
(九)因果模型的建構成為一種人為的選擇
在數據分析過程中,研究者往往嘗試使用多種模型進行統計分析,但是在最后的研究報告中卻是有意選擇自己想要的那種結果的模型,或者便于自己進行解釋的模型。研究者在統計分析中總是希望自變量對因變量有顯著的影響,為了這個目的,甚至把那些在統計學意義上對因變量沒有顯著性影響的自變量隨意地從模型中刪除。實際上,在定量分析過程中,研究者都是先從理論上分析變量之間可能存在的關系,把認為對因變量有影響的變量納入統計分析模型之中,然后從統計學上檢驗自變量是否對因變量有影響。這里需要注意的是,對因變量有顯著影響的自變量,實際上更多是與作者的預期和理論相一致的,倒是那些對因變量沒有顯著影響的自變量,恰恰說明與作者的預期和以往的理論存在某種矛盾與沖突,而這正是最需要深入研究與討論的。為什么統計分析的結果與作者的預期和以往的理論出現不一致,這是尤其需要特別加以說明的,但遺憾的是這些內容在統計分析中多是被忽略。由此可見,社會科學定量研究中的因果模型建構看似科學,但是在研究者的選擇性使用之下,建構起來的很多因果模型實際上是研究者自己選擇的結果。
(十)因果模型的解讀成為一種人為的建構
因果模型的一般表現形式是一個標準化的數學方程式,方程式中的各個數值反映了自變量和因變量之間存在的量化關系。從把涉及的概念統統量化為數字,在大量樣本中進行統計計算,到推斷出因果結論,每個環節都可能出現諸多問題,使得推斷出的所謂一般性因果關系值得質疑。對于這種數字層面的量化關系背后隱藏的真實社會意涵,更是缺乏一個統一的、確定的解讀標準或依據,因而仁者見仁、智者見智,分析起來具有很大的自由度。研究者對因果模型的討論往往都是嘗試性的,多是根據自己的觀察、知識儲備和研究假設把模型朝向對自己有利的或自己想要的方向進行解讀,導致對同一模型的解讀結果因人而異,表現出很大程度的主觀性和隨意性。雖然絕大部分因果模型建構者在他們的研究中都對社會學理論有所涉及,但是他們很少給予足夠的重視……理論闡釋已經變得與變量之間的關系假定同義,而且變量成為代替行動者的具有因果效力的能動主體。因此,通過對因果模型的解讀看似得出了一個嚴謹的、科學的研究結論,實則只是一個人為建構社會事實的“數字游戲”和“文字陷阱”,難以揭示社會事實的真相。
由此可見,定量分析在社會科學中看似科學與客觀,但實際上多是研究者主觀的人為建構物,定量研究方法只是為其提供的一個“科學”的道具而已,甚至研究者自己都無法察覺。現在使用統計分析方法進行社會科學定量研究的人,很多都是對統計學知識一知半解的人,正是由于缺少對統計學知識的真正理解,而對統計學迷信,因而出現對統計學的濫用與錯用。實際上,社會科學研究者應該加強對統計學的知識修養,不能這樣粗暴地對待與使用統計學。目前在社會科學定量研究中出現的問題,不是統計學本身的問題,而是人們一知半解與數據質量無法保證等所造成的問題。統計學方法始終存在著一個正確理解與正確使用的問題。正是因為如此,社會科學定量研究中經常出現不同學者運用同一調查數據得到不一致的研究結果,甚至自相矛盾。在當下的社會科學定量研究中,來自不同學者運用同一調查數據得到的結果之間的不一致甚至相互打架的現象已經成為一種“常態”,以至于自然科學研究者自始至終都在用另一種眼光看待社會科學研究者,也就十分自然。
四、結語
綜上所述,將定量研究范式運用于社會科學研究之中,在數據質量與代表性、前提假設和因果模型等方面皆存在很多難以解決的問題。由于這些問題的存在,使得社會科學定量研究的科學性高度存疑,從而導致近年來定量研究主導之下的社會科學研究表面看來一片繁榮,卻鮮有原創性和轟動性的研究成果誕生。因此,社會科學的未來發展,必須走出傳統的以調查法為主導的定量研究范式的窠臼,通過定量研究范式的創新、定性研究范式的復興以及大數據的運用,重構社會科學研究的新范式。
首先,傳統的社會科學定量研究以調查法為主,獲取的是觀察型數據,從而使得數據質量與前提假設難以得到保證。加上在現代社會中,由于誠信的缺失,人口流動性增加,社會變得越來越復雜等,使得抽樣調查變得越來越困難。將自然科學研究中的實驗法引入社會科學,既為中國實踐中早已存在的“實驗理念”進一步提煉成更具規范性的實驗性操作方法帶來機遇,也為社會科學因果機制探索提供了新的方法論工具。實驗法不僅可以在一定程度上克服調查法在數據質量和前提假設方面的問題和不足,而且能夠加深對行動過程的理解和認識,獲取更多的個體層面的互動信息。中國發展、轉型與崛起的宏大歷史進程,無疑為人類社會共同面對的諸多關鍵性挑戰和議題,包括經濟持續增長、科技造福人類、社會轉型與現代化、城鎮化等提供了有史以來的最大范圍的、獨一無二的社會實驗場景。因此,無論是從必要性還是可行性上來說,我們都應該對社會科學定量研究的具體方法進行重新認識,伴隨量化技術和控制手段的不斷提高與改進,越來越多地引入實驗法來彌補調查法的不足,把社會科學定量研究從過去的原子化和準行為主義的變量分析中解放出來。總之,實驗方法可以解決諸如行動邏輯、互動結構等等在傳統非實驗研究中不能解決的問題,雖然很多社會現象目前看來還難以進行實驗研究,但這類方法在社會學領域的應用也僅僅是時間問題。
其次,社會科學在開展定量研究的同時,也要加強對定性研究的重視。任何事物都具有質與量兩個方面的規定性,定性分析就是對研究對象進行“質”的方面的分析,所以定性分析對社會科學研究而言也是不可缺少的。定量研究與定性研究代表著科學研究中兩種不同類型的研究范式,本身并無明顯的優劣之分。它們之間的差別僅僅是風格和方法論上的不同,無論采用定量方法還是定性方法,所有高質量的研究所依賴的邏輯都是相同的,基于兩種方法的研究都是系統和科學的工作。社會科學的科學性并不取決于研究資料是數據資料還是文字資料,是對研究資料進行統計分析還是事實深描,而是取決于最終的研究結果能否揭示真正的社會機制和社會事實。無論是定性研究方式,還是定量研究方式,或是二者結合的方式,選擇的標準都只有一個,這就是回答研究的問題的合適性,即應該選擇和采用最為合適的研究方式,來達到研究目標和最好的研究效果。也就是說,社會科學研究應當從工具理性走向價值理性,甚或應該是兼顧工具理性與價值理性,不以研究范式作為研究好壞的唯一標準,而以研究結果作為研究成敗的主要依據。事實上,定量化、精確化并不能保證研究的可靠性、有效性、客觀性等科學性的基本要求,即定量化、精確化不等于科學化,自然科學定量研究中對自然現象的測量尚且還有測不準的時候,對于以錯綜復雜的社會現象作為研究對象的社會科學而言就更是如此。生活世界的不同面向和維度之間是相互關聯的,構成社會事實的統一整體,不同類型的方法只能著重把握某一個或某幾個面向和維度,只有將不同類型方法綜合起來使用,才能使我們全面深入地了解社會事實。因此,在社會科學研究中,要跳出定量研究與定性研究二元論的框架,超越關于定量研究與定性研究孰優孰劣的簡單爭論,根據不同的研究對象和研究內容選擇恰當的研究范式,以促進社會科學研究整體質量和水平的提高。
最后,雖然定量研究范式在數據質量及其代表性、前提假設、因果模型等方面存在很多問題,但定性研究范式在反事實、控制變量和文本等方面也存在無法克服的缺陷。因此,社會科學研究中一直存在定性研究范式和定量研究范式之爭,秉承不同學術偏好的研究者形成了相互對立的兩大陣營,相互攻訐,卻始終未能達成共識、形成定論。大數據為社會科學重新發現社會歷史發展規律提供了可能性,對傳統的定量研究和定性研究均造成了巨大的沖擊,更為定量研究的方法更新與變革帶來不可多得的機遇。大數據時代的到來使得社會科學研究在信息獲取、問題挖掘、研究方法等方面達到了新的高度,形成了一個介于定量研究和定性研究之間的混合地帶,在一定程度上彌補了定量研究和定性研究各自的缺陷和不足。對定性研究者而言,大數據可以通過海量規模的樣本直接發現和展示出社會現象的規律,既不需要控制變量來檢驗關聯,又能避免定性方法在案例選擇方面的樣本偏差,對定量研究者而言,由于數據的海量性甚至全樣本的性質,一旦把基于大數據的簡單關聯分析或時間序列分析結果與文獻中的傳統回歸分析進行比對,就能形成非常具有說服力的證據鏈。由此可見,大數據給社會科學研究帶來了新的希望和契機。在大數據時代,社會科學研究將凸顯出數據驅動的特點,傳統研究方法及研究范式將被重塑和再造,社會科學研究的實踐向度將逐漸從經驗研究轉向真實研究、個案研究轉向全面研究、斷面研究轉向交叉研究、表面研究轉向深度研究。當然,就目前而言,大數據分析方法還在建立過程中,而且大數據較難獲得,一般人尚缺少大數據分析的基礎知識,很難對大數據進行分析。但是可以預見,在不久的將來,隨著大數據分析方法越來越完善,大數據的獲取越來越便捷,越來越多的人掌握了大數據分析的知識和技術,傳統的定量研究范式和定性研究范式終將被大數據分析所解構,二者必將會從對立走向統一,從而重構社會科學研究的新范式。
① 加里·格爾茨、詹姆斯·馬奧尼:《兩種傳承:社會科學中的定性與定量研究》,劉軍譯,上海:格致出版社,2016年,第2頁。
② 風笑天:《社會學研究方法》,北京:中國人民大學出版社,2009年,第13頁。
③ 陳云松、吳青熹、黃超:《大數據何以重構社會科學》,《新疆師范大學學報》(哲學社會科學版)2015年第3期。
④ 朱天飚:《〈社會科學中的研究設計〉與定性研究》,《公共行政評論》2015年第4期。
⑤ Duncan, O.D., Notes on Social Measurement: Historical and Critical, New York: Russell Sage Foundation, 1984, p.226.
⑥ 王曉森、殷杰:《社會科學的自然主義進路何以可能——兼論塞爾的解決方案》,《科學技術哲學研究》2016年第5期。
⑦ 喬曉春:《中國社會科學離科學有多遠》,北京:北京大學出版社,2017年,第183、200、208、224頁。
⑧ 杰克·萊文、詹姆斯·艾倫·福克斯:《社會研究中的基礎統計學》,王衛東譯,北京:中國人民大學出版社,2008年,第168頁。
⑨ 劉潤澤、鞏宜萱:《回顧與反思:定量研究在公共管理學科的濫用》,《公共管理學報》2020年第1期。
⑩ 劉林平、范長煜、王婭:《被訪者驅動抽樣在農民工調查中的應用:實踐與評估》,《社會學研究》2015年第2期。
謝宇:《社會學方法與定量研究》,北京:社會科學文獻出版社,2012年,第58、23、29、51頁。
邱忠霞、胡偉:《我國社會科學定量研究方法問題的反思》,《學術論壇》2016年第11期。
彼得·赫斯特洛姆:《解析社會:分析社會學原理》,陳云松、范曉光、朱彥等譯,南京:南京大學出版社,2010年,第158、68、81、25、112、161頁。
Freedman D, Collier D, Sekhon J S, et al. Statistical Models and Causal Inference: a Dialogue with the Social Sciences, Cambridge: Cambridge University Press, 2010, pp.30-31.
陳啟達:《定性研究與定量研究相結合——國際問題研究方法之一》,《現代國際關系》1999年第8期。
鄭丹丹:《想象力與確定性——個案與定量研究的關系辨析》,《求索》2020年第1期。
孫小禮:《方法的比較:研究自然與研究社會》,北京:北京大學出版社,1991年,第11頁。
Goldthorpe J H., “Sociology as Social Science and Cameral Sociology,”European Sociological Review, no.20, 2004, pp.97-105.
葛傳紅:《西方政治學界對于“定量霸權”的反思與批判》,《國際政治研究》2019年第1期。
祁玲玲:《定量與定性之辯:美國政治學研究方法的融合趨勢》,《國外社會科學》2016年第4期。
臧雷振:《社會科學研究中實驗方法的應用與反思——以政治學科為例》,《中國人民大學學報》2016年第5期。
李強:《實驗社會科學:以實驗政治學的應用為例》,《清華大學學報》(哲學社會科學版)2016年第4期。
張彥:《論社會研究的定性分析方法及其建構》,《晉陽學刊》2018年第1期。
加里·金、羅伯特·基歐漢、悉尼·維巴:《社會科學中的研究設計》,陳碩譯,上海:格致出版社,2014年,第3頁。
風笑天:《定性研究與定量研究的差別及其結合》,《江蘇行政學院學報》2017年第2期。
嘎日達:《關于社會科學中量化研究的深層思考》,《北京行政學院學報》2006年第3期。
盛智明:《超越定量與定性研究法之爭——KKV對定性研究設計的啟發》,《公共行政評論》2015年第4期。
劉林平:《反事實、控制變量和文本——對定性研究的反思》,《云南大學學報》(社會科學版)2014年第1期。
劉林平、蔣和超、李瀟曉:《規律與因果:大數據對社會科學研究沖擊之反思——以社會學為例》,《社會科學》2016年第9期。
孫秀林、陳華珊:《互聯網與社會學定量研究》,《中國社會科學》2016年第7期。
倪萬、唐錫光:《大數據應用于社會科學研究的價值與悖論》,《東南學術》2017年第4期。
陳潭、劉成:《大數據驅動社會科學研究的實踐向度》,《學術界》2017年第7期。
章昌平、李大宇、林濤等:《第四研究范式:大數據驅動的社會科學研究轉型》,《學海》2018年第2期。
(責任編輯:何 頻)