凌昀 李倫
摘要:大數據和數據化促成了社會科學研究范式的轉變,催生了計算社會科學。計算社會科學具有超越傳統社會科學研究局限性的優勢,但也加劇了傳統社會科學研究面臨的倫理問題,同時在大數據背景下產生了新的倫理問題。為了確保大數據時代人的自由和權利,計算社會科學的研究應當更加重視社會科學研究倫理。
關鍵詞:大數據;計算社會科學;科研倫理;社會科學研究范式
基金項目:國家社會科學基金重大項目“大數據環境下信息價值開發的倫理約束機制研究”(17ZDA023);國家社會科學基金一般項目“開源運動的開放共享倫理研究”(17BZX022)
中圖分類號:B089.3 ? ?文獻標識碼:A ? ?文章編號:1003-854X(2020)09-0026-06
一、計算社會科學:數據化驅動研究范式的轉變
如果把沒有經過分析、沒有產生意義或價值的現象或行為稱為處于“自然狀態”或是“混沌狀態”的現象或行為,那么,把這種處于自然狀態或混沌狀態的現象和行為轉化成可量化分析的數據并由此產生新價值的過程就可稱為“數據化”(datafication)。我們無時無刻不在發生自然狀態的行為,例如上下班的路徑、其間使用的交通工具、順路去什么地方采購等,但這些僅僅是沒有經過數據化、處于“自然狀態”的行為,或者即便我們將這些交通信息有意識地進行一定的分析和規劃以提高自身的效率,這些信息也僅僅產生了小范圍的影響或是少量價值。得益于“數據化”,我們能夠清楚地認識到處于自然狀態的行為或現象通過量化分析能夠產生多大的價值,例如對一個城市人口上下班的路徑、所使用的交通工具進行分析就有利于對城市的道路交通進行規劃,而對人流量、周邊住宅區域等問題進行分析對于建造購物綜合體、農貿綜合市場的選址而言都必不可少。由此可見,數據化能夠將個人的日常生活和行為進行量化,直接與行政管理和經濟運轉產生關聯。
“數據化”是由肯尼斯·庫克耶(Kenneth Neil Cukier)和維克托·邁爾—舍恩伯格(Victor Mayer-Schenberger)于2013年提出的概念,特指將人類行為和社會現象轉化為計算機數據①。但是,數據化并不是近年來才出現的新趨勢,數據化的現象和思維方法早已有之,近代自然科學就是數據化的先驅,即將自然現象或是經驗現象還原為可量化分析的數據,再利用對數據的歸納分析得出自然的規律和一般理論。而將數據化從單純的自然科學研究擴展到更廣泛的社會問題研究同樣也不是現在才產生的,早在19世紀,一些哲學及社會學學者就試圖利用實驗科學的方法進行社會問題研究。孔德曾提出“社會物理學”的概念,認為人是自然界的一部分,人類社會秩序是自然秩序的延伸,可以用物理學方法來研究人類社會。雖然,囿于當時的技術條件,將實驗科學方法引入社會研究容易陷入機械論社會觀的困境,但這無疑是將數據化引入社會研究的先驅,是計算社會科學誕生的直接思想源泉。
隨著計算機技術和大數據技術的不斷發展,現在的數據化能夠更加深度、全面、準確地還原人類行為和社會生活的軌跡,從而不僅為社會科學研究的數據化帶來了新的生機,也能從研究方法和技術的角度回避機械論的困境。正如庫克耶與舍恩伯格所說,(人類行為和社會現象的)數據化是新技術的發展促成的一種新趨勢②。大數據技術和計算機技術為社會數據化提供了新的工具,使得計算社會科學應運而生。這個計算機科學與社會科學的新興的交叉學科,通過新的計算技術和方法來進行社會模擬、建模、網絡分析和媒體分析等,以研究社會和人類行為的關系和互動,其研究領域涵蓋計算經濟學、計算社會學、歷史動力學、文化學以及對社交和傳統媒體中內容的自動分析等等。
“社會物理學”一詞目前仍在沿用,但其含義比最初提出時已有了很大的變化,指的是利用受物理所啟發的數學工具來理解人類群體的行為③,在現代商業行為中,也指用大數據分析社會現象。因此,“社會物理學”與“計算社會科學”在當下的時代和技術背景下涵義基本等同。阿萊克斯·彭特蘭對于社會物理學的研究就明顯帶有新技術的特征,他引入“想法流”(idea flow)的概念,認為社會物理學就是研究“想法流”的科學。在他看來,傳統的物理學旨在了解能量的流動與運動之間的數學關系,而社會物理學旨在了解想法和信息的流動與人類行為之間的數學關系④。新想法的流動對于理解社會至關重要,新想法的傳播和結合是行為轉變和創新的推動力,而想法如何實現流動、傳播和結合,都離不開數據化。
對比19世紀的社會物理學,計算社會科學所采用的大數據技術彌補了前者的理論缺陷;與傳統社會科學相比,計算社會科學的不同之處則在于數據化驅動了研究范式的變革。大數據“正在引導一場計量方面的革命”⑤,對社會科學的研究范式,尤其定量研究中的種種研究方法和手段,都產生了巨大影響。
從研究方法來看,計算社會科學對傳統的調查分析、相關性分析、實驗等方式都有不同程度的改進。在調查方面,計算社會科學不再局限于問卷或訪談等方式,而是通過大數據和算法來對龐大的數據進行處理和分析。大數據打破了空間的限制,使取樣更為便捷和全面。更重要的是,計算社會科學擁有規避傳統問卷調查一直面臨的結果客觀性偏差的技術手段——直接利用人類日常生活中相應行為的大數據,顯然比本人填寫的問卷更加客觀。在實驗方面,傳統的實驗方法包括實驗室實驗和實地實驗,兩者有其不同的優劣勢。實驗室實驗在變量的控制上更具優勢,使相關性分析更為準確,但是選取的實驗參與者可能并不那么具有代表性;實地實驗更能反映真實情況,卻不如實驗室那樣能準確把握變量。為此,有些研究者會在研究中將兩者相結合,采取所謂的處于“實驗室—實地”連續體上的實驗。數據化則為這個二元的連續體添加了新的維度。馬修·薩爾加尼克(Matthew J. Salganik)在傳統的二元劃分的基礎上提出一種“模擬—數字”的實驗模式。數字實驗指的是利用數字基礎設施招募參與者、隨機分組、實施處理并測量結果的實驗,而模擬實驗則是在以上研究流程中完全不涉及數字基礎設施的實驗,許多實驗可能并不處于這兩極,而是處于其間的所謂“半數字”實驗。“數字系統為實驗—實地連續體上的所有實驗都帶來了新的可能性”⑥,傳統的“實驗室—實地”二元就變成了“(半)數字實驗室—(半)數字實地”實驗。
從研究對象來看,數據爆炸式增長極大地豐富了社會科學的研究樣本,而機器學習、統計、社會網絡分析和自然語言處理技術的不斷升級,又強化了這一趨勢⑦。同時,由于數據更加完整和準確,交互模型更加完善,新的交互關系也更容易被發現,催生了更多新興交叉學科和領域,從而大大拓展了社會科學的研究對象。
然而,計算社會科學蓬勃發展的形勢也不免引起一系列擔憂。數據化往往會放大傳統社會科學研究中所面臨的倫理問題,或者使原本被極其關注的倫理問題不再受到重視,甚至完全被忽略。此外,數據化還催生了一些傳統社會科學研究中不涉及或少有涉及的新倫理問題。下面我們將探討三個在計算社會科學研究中可能或已出現的倫理問題,并透過這些顯見的倫理風險探討普遍數據化可能遭遇的更為嚴重的境況。
二、個人數據權利問題
計算社會科學研究不僅會采用源于特定研究的數據,而且會采用源于其他機構日常管理和營運的數據⑧,而數據來源的混合則容易產生侵犯個人數據權利等問題。
個人數據權利是人的基本權利在數據領域內的具體化。主張這一權利,使人能夠控制自身數據,保障自由權、人格權和財產權等基本權利在數據領域內不受到侵犯。與之相對的,還存在機構數據權,即機構對于數據的采集和使用的權利。在計算社會科學的研究中,存在著個人數據權和科研機構數據權相對立的情況,其爭端暴露了目前數據權屬不分明的現狀。傳統社會科學研究中的數據采集目的相對單一,即科研,而計算社會科學研究中所使用的數據則不限于科研數據,還包括來自政府、金融機構、商業機構等用于管理和營運等采集目的的數據。這就產生了這樣一種情況:也許我們愿意授權給政府、金融或商業等機構用于管理和營運目的使用我們的數據,從而獲得這些機構的服務或商品,但并不希望自己的數據被用于社會科學研究。
當然,把管理和日常運行的數據用于研究目的并不是新現象,在臨床醫學領域早已有之。醫學研究者會利用臨床醫療數據進行醫學科學研究,對新藥、新技術使用進行后續跟蹤分析等。傳統社會科學研究也有利用已有的政府管理和企業營運數據進行研究的情況。但是,計算社會科學把其中的倫理問題放大了。一方面,社會數據可以涵蓋更廣泛的數據類型和使用領域;另一方面,醫學研究也可能比社會科學研究更容易得到數據提供者的同意或默許同意。此外,數據的第三方授權使用,數據的外包處理,甚至是跨境流通等情況,使個人數據權利所面臨的風險更為復雜多變,而個人數據權利的保障也更加困難。
一般來說,個人在機構面前都處于弱勢,信息安全、數據泄露等會直接造成對個人基本權利的侵害。這種侵害可能是名譽性的,也可能會直接影響財產權和人的身心健康。盡管計算社會科學的研究者們都聲稱研究所用數據經過了“匿名化”或者說是“脫敏”處理,但是這種“脫敏”效果可能并不盡如人意。由于人的信息被數個機構進行過收集,同一個人的相同或不同的數據可能同時存在于數個數據庫中,即使各個數據庫都沒有顯示敏感信息,但是將數據庫進行關聯分析就能夠暴露出敏感信息,這就是所謂的“再識別攻擊”。任何數據都有可能被再識別,并且所有的數據都可能是敏感的⑨。
這個問題看似陷入僵局,似乎只要存在數據的共享、傳輸,即使這種共享、傳輸是合規的,也同樣無法避免個人數據權利受到侵害。實際上,我們在面對這種倫理風險時并非完全無能為力,創建并遵循一個動態的數據保護計劃,不僅能夠降低泄露數據的概率,而且能夠在數據泄露發生后降低傷害。隨著時間的推移,數據保護計劃的具體項目,包括能夠使用的加密形式都在改進⑩。從另一個角度來說,如果對個人數據權利的絕對保護只能基于數據完全保密的話,人們自然會去權衡數據化下的研究帶來的利益和侵害。雖然我們會對風險有所擔憂,但大多數人不一定就此將自己與數據世界或這個信息時代完全隔離起來。
馬修·薩爾加尼克從收益—風險二元維度分析了數據使用和個人數據權利的保護。在一個收益—風險體系中包括三種數據使用或數據保護的方式:非公開、保護性公開、無特定對象公開。非公開是一種極端的數據保護措施,完全不公開個人數據供他人使用,風險最小且收益最小;無特定對象公開是一種極端的數據共享使用措施,所有人都可以使用經過“脫敏”處理的數據(無論脫敏是否達到想要的保護效果),收益最大且風險最大;介于兩者之間的就是保護性公開,也就是基于某種共識在達成共識的群體中進行數據的共享使用,這就是所謂的數據保護計劃。雖然這種保護性公開仍然會遇到不少問題,或者說在不同的案例中會存在不同的問題,但這種根據不同的情境做出適應性調整的、動態的、協商的模式可能是應對目前個人數據權利和科研機構數據權利對峙局面的良策。社會科學的研究是為了在不同的情境下促進公共利益以及個人利益,如果我們完全禁錮個人數據,將對社會科學的發展乃至個體和社會的發展都造成阻礙。保護性公開措施為在數據共享中平衡個人數據權利和機構數據權利、個人權利和公共利益提出了一種可供選擇的方案。
三、知情同意和隱私權問題
隱私權問題是大數據時代全社會各領域都在關注的倫理問題,主要表現在數據的使用和個人信息保護的爭端上。把隱私權問題放入計算社會科學研究的情境下,還會涉及對知情同意的挑戰。
如前所述,計算社會科學能夠繞開傳統的問卷調查,而將被研究者的相關行為數據化,直接獲得研究所需的數據。傳統社會科學中基于知情同意的研究倫理在計算社會科學中正遭受嚴重挑戰,計算社會科學中更為準確而全面的數據可能正是以知情同意的缺失或隱私權的喪失作為代價而獲得的。
當然,傳統的社會科學研究也并不會在任何實驗中都去征求所有相關方的知情同意,比如大多數研究就業歧視的案例中,會基于性別、種族等因素選取相應的被研究者,然后征求這些人的知情同意,但是少有研究會去征求雇主在這個實驗過程中的知情同意,甚至美國法院也支持在實地調查中缺乏同意和使用欺騙來衡量歧視的行為。如果我們在類似的對歧視問題的研究中以一種征得雇主同意的方式進行實驗設計和研究,那么被研究者反而會基于立場而做出偏頗的回答。同樣,某些針對敏感問題或某些揭露性的暗訪、臥底調查也不會征求知情同意。勞德·漢弗萊斯(Laud Humphreys)曾對圣路易斯城市公園公廁等公共場所里男性間普遍發生的、以即時滿足和不用負責為特點的性行為進行社會學研究。這項研究完全沒有經過知情同意,就是為了避免這些在社會主流空間中頗具名望的人在面對如此敏感和私密的問題時,自我和社會自我的割裂而導致的言行不一。也就是說,知情同意原則與社會科學的一些研究方法確實存在內在沖突。
而現在的情況可能更加糟糕,在計算社會科學研究中,完全不征求實驗對象同意的情況可能會越來越多,即使是不需要暗訪或是臥底調查的問題,知情同意也常常完全起不到作用。例如,我們可以時常見到一些大型的互聯網公司下設的研究機構做出的各類報告,其中使用的數據涉及其不同領域的下屬平臺,包括社交、購物、閱讀、金融服務等等。這些數據的使用僅僅是因為用戶選擇使用了這個平臺,但用戶用數據換取方便使用這個平臺的機會,并不表明同意將自己的數據用于研究。再如,用戶的數據常常在完全不知情的情況下被第一手采集者授權給第三方進行使用。除了知情同意被過于忽視,數據權屬不明的現狀也給知情同意帶來了額外的障礙——知情同意中涉及了過多的相關方,而對象卻不明確。
在隱私權保護方面,傳統的社會科學研究就已經存在隱私權與研究結果準確性的內在矛盾,在計算社會科學研究中,隱私權的保護則變得越來越困難。一方面隱私權的定義向來模糊且具有爭議,另一方面,以往的對于公共數據和私人數據的劃分對目前的隱私權保護來說顯然過于簡單了,許多問題并不能簡單地認為是公共數據和私人數據的沖突帶來的,而是涉及了更加復雜的公共利益與各方利益的權衡。尼森鮑姆提出的“情境完整性”的分析方法給隱私權問題的討論提供了一種新的視角。
情境完整性針對的是特定情形下的信息流通規范,由三個要素構成:角色(主體、發送者、接受者)、屬性(數據類型)和傳輸原則(數據流通限制)。在討論某種數據傳播和應用是否侵犯了隱私權時,需從這三方面進行考慮,而不是簡單地認為數據應當完全共享或者共享即侵權。尼森鮑姆認為,隱私權既不是保密權,也不是控制權,而是適當流通個人信息的權利。盡管隱私權的界定還具有爭議,隨著時代和社會的變化,其在信息社會應該會有不同于工業社會的內涵。但是,如何在以一定程度的欺騙、隱瞞獲得更為客觀的研究結果與保障隱私權、知情同意之間取得平衡,始終是需要解決的問題。
四、算法偏倚問題
首先需要明確的是,社會科學研究中的偏倚現象是一直都存在的,即使在沒有充分數據化的過去,當受訪者了解了問卷或訪談所針對的問題以及研究的動機,他們也有可能基于本人的立場而做出刻意夸大或者忽視的回答,從而導致整個研究的結論被放大或是小覷。計算社會科學顯然有彌補這一缺陷的優勢,不過,來自技術層面的新的偏倚近年來已初露端倪,尤其在網絡購物平臺的數據分析應用上。這種來自算法的偏倚不僅會對計算社會科學的研究結果帶來負面影響,更嚴重的是,一個有數據支撐的、似乎是客觀準確的結論更容易成為政治、經濟等領域公共政策制訂的基礎,而基于算法偏倚的公共政策將對社會產生不可估量的負面影響。“所有決策活動對經驗與直覺的依賴將逐漸減少,而對數據與分析的倚重將與日俱增。” 這種對于數據能夠帶來客觀結論從而更好地指導我們進行決策的推崇,讓算法偏倚導致的后果更加容易被忽視。此外,傳統的社會科學研究中存在的偏倚往往通過對變量、取樣進行控制而容易得到校正,但是,算法黑箱讓計算社會科學中的取樣和因果關系變得不再那么透明,從而導致研究結果存在的偏倚難以得到校正。
計算社會科學是如何產生并延續整個社會的固有偏倚或偏見的?這是機器學習必然導致的結果。機器學習是對過去的、已經發生的數據的學習,如果過去的數據是因為某種偏倚或偏見而形成的,那么以此為基礎的機器學習就是在延續這種已經存在的偏倚或偏見。如果計算社會科學僅僅是對這些由偏倚或偏見產生的數據進行分析并得出結論,那么由這樣的結論指導的實踐就會進一步將偏倚或偏見變得根深蒂固且難以應對。故而,比起自然科學或技術領域,機器學習在社會科學研究中的應用應當尤為謹慎。漢娜·瓦拉赫(Hanna Wallach)就從目標、模型以及數據三個方面,闡述了為什么機器學習在社會科學研究中尤為特殊。
從目標角度來看,計算機科學家和社會科學家有其完全不同的目標。計算機科學家注重預測,也就是用已經觀察到的數據來推測丟失的或尚未觀察到的數據;而社會科學家的目標是解釋,也就是為觀察到的數據做出解釋,再把這種解釋與已有理論進行比較或提出新理論,所以社會科學家的研究往往建立在一個清晰的可實驗的假設之上。從模型角度來看,計算機科學家和社會科學家的不同目標會導致不同的建模方式。基于預測目標的任務更注重預測的準確性而忽略因果性,因而模型結構可不受限制,一個需要大量數據進行訓練的算法黑箱也是合理的;與之相對的解釋目標則與因果關系密切相關,觀察到的數據是對因果關系的佐證或是反對,因此模型必須是透明、可解釋的。也就是說,預測模型通常被用來代替人的解釋或推理過程,而解釋模型是為人的推理提供信息或指導。從數據角度而言,同樣基于目標不同,計算機科學家和社會科學家會選取不同類型的數據,計算機科學家會選取海量的、任何類型的數據用作任意預測目的,而社會科學家則基于具體問題來收集相對小規模的數據。
由此可見,基于不同的目標及其衍生出的完全相反的建模方式,計算社會科學這一交叉學科可能比其他學科與計算機科學的交叉面臨更多爭議,這些爭議主要來自于倫理方面。也許這些倫理問題對于社會科學家而言并不陌生,或者說,倫理考量是社會科學研究工作中必不可少的環節,但是對于計算機科學家來說,這可能是容易忽略的問題,是他們曾經的工作中不必然會涉及到的。因此像計算社會科學這樣的跨學科研究在使用計算機方法的時候,必須謹慎考量倫理道德風險。
總而言之,一方面,就像帕梅拉·麥考達克(Pamela McCorduck)所指出的,對于女性和少數群體而言,“我更傾向于一臺公正的電腦”。她認為,在某些環境中,我們會更加傾向于自動法官和警察,而不需要人為的裁決。算法和機器學習對于社會科學研究消除偏倚或偏見是必要且有其優越性的,它把人的主觀偏見從決策過程中剝離了出來。另一方面,就像漢娜·瓦拉赫所說的,計算社會科學不是計算機科學和社會數據的簡單疊加,機器學習對于計算社會科學而言并不是一勞永逸的方法,如果我們想要以一種負責任且合乎倫理的方式利用機器學習來理解社會現象,我們仍然需要人類社會科學學者的工作。
五、數據巨機器問題
在評價19世紀的社會物理學時,許多人認為,當時的社會物理學學者把社會視為一部機器,人的主觀能動性和人與社會的交互被忽視,社會的變遷僅僅是“外力”的結果,故而造成了當時社會物理學理論的缺陷。隨著相關技術和學科水平的提高,數據化越來越能夠展示出人與人之間的差異性以及人與社會的相互影響,但是在這種理論缺陷得到彌補的同時,一種“數據巨機器”的可能性又展現在了我們眼前。
如前所述,機器學習可能會延續已有的偏倚或偏見,而當這種帶有偏倚或偏見的理論被用于實踐和決策時,就有可能固化偏見,并使其變得更難以動搖。由此可以發現,在計算社會科學中,雖然人與社會的交互作用能夠被發現,但是研究本身作為一種實踐活動,其與社會的交互卻可能被忽視。這種由研究與社會的交互帶來的互相影響、互相支撐從而將謬誤忽視掉或合理化的現象,就是所謂的“操演性”(performativity)干擾。
所謂“操演性(或述行性)”,是指當一個理論以使世界和理論更加符合為目的地改變著世界的時候,我們就說這個理論具有操演性。也就是說,計算社會科學研究不僅僅在解釋社會現象,同時也在改造社會使其發展與研究本身相符合。這種“操演性”在計算社會科學中的影響會比在傳統社會科學中的影響更大且難以發覺。例如亞馬遜AI招聘。亞馬遜的電腦模型通過對過去10年提交給該公司的簡歷進行學習,由此得出男性求職者適合電子商務行業的結論,以此來審查應聘者,并向男性推送更多的此類應聘廣告。這種通過機器學習得出的“男性比女性更適合電子商務行業”的結論就可能會通過招聘這一實踐行為的結果而得到固化,使這個行業真的成為男性主宰的行業。
同理,計算社會科學的發展對于“數據巨機器”的形成也可能會有這種操演性影響。正如前文所說,與傳統社會科學基于知情同意并以科研為目的來收集數據的研究方式不同,計算社會科學可以直接利用政府或是其他商業機構用于日常管理以及提供服務的現成數據來進行研究,那么整個世界都將可能成為一個泛化的實驗室,樣本和總體再無差別,甚至傳統的“實驗室—實地”二分的實驗模式在社會科學領域都可能會被消解,關于人和社會的所有數據都可以成為計算社會科學的現成樣本,從而形成一個基于社會科學研究的“數據巨機器”。
此外,計算社會科學通過將問題進行“理論構念”使之能夠進行定量分析,再將其與某些被數據化的行為或是現象聯系起來,從而使這些經過數據化的數據能夠作為被研究的社會問題的證據。例如,信用值就是將信用這一抽象要素通過構念變為一系列能夠被量化的指標,比如是否按時償還貸款、是否有違法犯罪記錄、租賃是否合規等,然后依此將信用通過數據表現出來。這就導致了這樣的情況,如果我們缺乏關于被理論構念的指標的數據,就可能難以構建起我們的數字身份,從而被計算社會科學研究邊緣化,也無法獲得后續的應用或服務。反之,如果想要在社會問題研究中占有一席之地,就必須將自己以某種方式數據化。也就是說,計算社會科學的發展要求全面的數據化以及數據的自由流通,而這就是數據主義的追求。
數據化從本體論和認識論的角度全面影響人們對世界的認識和把握,催生了數據主義的思潮。數據主義最初只是對大數據、數據化的哲學表達,是大數據時代所產生的一種哲學或是理念,但是隨著數據化對人的日常生活決策和社會運行的影響不斷加深,其正在轉變為一種崇尚數據自由至上的思潮。正如赫拉利所說,“數據主義一開始也是一個中立的科學理論,但正逐漸成為要判別是非的宗教”。
一方面,在社會科學研究中,有著數據支撐的、客觀準確的結論受到推崇,于是為了獲得這樣的結論,或者為了促進學科發展和公共利益,個人的權利和自由似乎就變得無足輕重了。另一方面,受自身操演性影響,計算社會科學可能會以一種數據主義的方式改造世界,直接加速數據巨機器的形成,導致人成為只是可以被任意使用、流通的數據。也就是說,在數據化影響計算社會科學研究的同時,計算社會科學的研究方法、研究成果的應用反過來鞏固了數據主義的地位,并可能生成數據巨機器。數據巨機器猶如“楚門的世界”:在楚門的世界,除了楚門,人人都是演員;在數據巨機器里,人人都是楚門,人人都是演員,無人是自己。目前,大數據能夠影響人的自主選擇已成現實,例如各平臺的大數據殺熟,劍橋分析公司對多國競選的操縱,亞馬遜AI招聘中的性別、種族歧視,等等。為了避免數據對人的自主行為的進一步操控從而形成數據巨機器,避免人被數據技術所控制而成為技術所奴役的對象,淪為這個數據巨機器中的螺絲釘,計算社會科學研究應當重視自身可能涉及的倫理問題和倫理風險,重視人在數據領域的權利和自由。作為解釋人類社會的學科,計算社會科學應當從一開始就自覺地擔負起這一責任。
注釋:
① Kenneth Cukier and Viktor Mayer-Schoenberger, The Rise of Big Data, Foreign Affairs, 2013, 92(3), pp.28-40.
② 維克托·邁爾—舍恩伯格、肯尼斯·庫克耶:《大數據時代:生活、工作與思維的大變革》,盛楊燕、周濤譯,浙江人民出版社2013年版,第123—124頁。
③ Gerard George, Martine R. Haas, Alex Pentland, From the Editors Big Data and Management, Academy of Management Journal, 2014, 57(2), pp.321-326.
④ 阿萊克斯·彭特蘭:《智慧社會:大數據與社會物理學》,汪小帆等譯,浙江人民出版社2015年版,第8頁。
⑤ 史蒂夫·洛爾:《大數據主義》,胡小銳、朱勝超譯,中信出版社集團2015年版,第6、9頁。
⑥⑨⑩ 馬修·薩爾加尼克:《計算社會學》,趙紅梅、趙婷譯,中信出版集團2019年版,第212、426、427、414、45頁。
⑦ W. Mason, J. Vaughan, H. Wallach, Computational Social Science and Social Computing, Machine Learning, 2014, 95(3), pp.257-260.
⑧ 盡管傳統的社會科學研究也可能采用其他機構產生的日常數據,但無論范圍和規模,都與計算社會科學研究不可同日而語。
這個案例已成為臭名昭著的社會科學研究倫理案例。
Helen Nissenbaum, Privacy in Context: Technology, Policy, and the Integrity of Social Life, Stanford Law Book, 2010, pp.67-89.
H. Wallach, Computational Social Science≠Computer Science+Social Data, Communications of the ACM, 2018, 61(3), pp.42-44.
Pamela McCorduck, Cli Cfe, Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence, A. K. Peters/CRC Press, 2004, p.356, pp.374-376.
李倫:《數據巨機器的“意識形態”——數據主義與基于權利的數據倫理》,《探索與爭鳴》2018年第5期。
尤瓦爾·赫拉利:《未來簡史》,林俊宏譯,中信出版集團2017年版,第346頁。
作者簡介:凌昀,大連理工大學大數據與人工智能倫理法律與社會研究中心、人文與社會科學學部博士研究生,遼寧大連,116023;李倫,大連理工大學大數據與人工智能倫理法律與社會研究中心、人文與社會科學學部教授,遼寧大連,116023。
(責任編輯 ?胡 ?靜)