邱仁宗
當我們讀到恩格斯[1]在《反杜林論》中說:“原則不是研究的出發點,而是它的終了的結果;這些原則不是被應用于自然界和人類歷史,而是從它們中抽象出來的;并不是自然界和人類要適應于原則,而是相反地,原則只有在其適合于自然界和歷史的情況之時才是正確的。” 這段話好像是針對一些試圖以哲學/倫理學研究來解決科技中的規范性問題來說的。他們的出發點是找到一些理想的哲學概念,然后從中演繹出對科技的規范性問題的解決。這就是恩格斯在《反杜林論》中批判的思路。筆者認為應該相反,生命倫理學/科學技術倫理學的徑路應該將科技實踐中的規范性問題作為生命倫理學/科學技術倫理學研究的邏輯出發點;這些規范性問題是在科技創新、研發和應用的實踐中才能鑒定(抽象)出來;在解決這些規范性問題中要形成一些倫理原則/準則/指南(研究的最終結果),即形成一個評價決策和行動是非對錯的框架,幫助科技專家和治理機構做出合適的決策,采取合適的行動。研究的終點不是發表文章(發表文章是重要的),而是用研究的結果改進實踐。因此,生命倫理學/科學技術倫理學研究的徑路應該是實踐-理論-實踐。從原則或哲學概念和理論出發,要求科技發展適應它,是我國倫理學研究的主要“疾病”,這種“疾病”是從西方某些學派傳染過來的。哲學界需要一次“改造我們的學習”。
隨著信息和通訊技術以及人工智能技術的創新、研發和廣泛應用,各企業、科研、醫院以及政府各機構(尤其是民政、衛生以及安全部門的機構)掌握著顧客、病人或公民大量、巨量或海量數據;技術先進和經營良好的數字企業在國際上日益擴展業務、國外數字企業也在我國經營,凡此種種使得數據保護和數據安全問題日益重要和緊迫。
國際上有一種說法:數據安全有兩種徑路,一種是歐美各國的徑路,重視個人數據安全;另一種是中國的徑路,重視國家數據安全。但確實,我國有《國家安全法》,個人數據安全只有《民法典》中八條。我國個人數據安全是一個重要問題,需要一部個人數據保護條例。
數據(data)往往被稱為新的煤炭或石油,后者推動工業革命,前者推動信息革命。數據類似煤炭和石油,經過加工后可從中提取價值。但有基本區別:煤炭和石油提取價值(能源)后被消費掉了,而數據經提取價值后沒有消費掉,數據可被再利用無數次而不被消費掉或減少;數據可共享或出售而無需最初加工者放棄它;數據可以多種獨立的,甚至未知的方式被利用,最初也許是不明顯的,也許僅僅在未來,也許當數據集被組合起來時才變得明顯。
數據的價值和價格取決于情境(context), 這也與化石燃料不同。數據僅在某種情境內存在。孤立的數、數目(number)不是數據。數成為數據僅當提供補充的元數據(關于數據的數據,如一個文件的元數據可包括類似作者、文件大小、文件建立日期以及關鍵詞等信息的集合),至少必須規定測量的單位。規定測量單位就是要將某一客體置于另一個客體的情境內進行比較。例如,41,單單41這個數不是數據,沒有價值。必須提供與41有關信息的數據集(元數據),使41處于一定的情境內才是數據。如我們說“第41個”,再進一步說前蘇聯有一部電影名為《第41個》。那么41這個數就處于與元數據聯系在一起的情境之內。有的俄羅斯電影制片商也許為電影故事的情節所感動決定重拍這部電影。但“第41個”也可以處于另一情境之內,這是講在阿爾卑斯山麓有一個圣伯納修道院,院長凡蒂斯養了一條名叫黑蒙的救生犬,經常救助爬山遇險的人,有一次在救出40個遇險者后,再去救第41個遇險的人,該人神志昏迷,以為黑蒙是一條狼,用槍把它打成重傷,黑蒙帶傷回到院長身邊死去,但這第41個人安然脫險了。39這個數字,如果是指體溫39℃,那么在感冒和新冠疫情的情境下就有不同的意義。在生物樣本和數據庫內,樣本的數據必須與臨床、行為方式以及環境的數據結合起來,才有很大的價值[2]。
在現代,數據科技影響社會,其驅動力之一是數據往往(并非總是)在某些活動過程中被自動獲取。這意味著在以后分析的大量數據集時無需追加努力或資源。這些數據是觀察性的,它們不是在干預(如臨床試驗)過程中有意收集的,因此就可能有未知的、未曾預期的(unsuspected)偏差和歪曲的風險。例如,我們每個人每天在微信上的聊天記錄都保存在騰訊公司,同樣我們在淘寶或京東購買商品,你的信息就會保留在淘寶或京東。這些公司積累的有關客戶的數據是被公司自動獲取的,不費他們吹灰之力。這不同于管理數據(administrative data),管理數據是政府或某個組織為了解發生的真實情況以及為了改善管理而有意收集的數據。這類數據更接近社會實際。因為這些數據告訴我們這些是什么人,他們干了什么;而不是數據綜述告訴我們,他們說他們是誰,以及他們聲稱他們干什么。
自動獲取數據的其他含義還有:(1)無需努力獲取數據后人們的態度往往是“可能有用,留著它”。可是僅僅因為擁有巨量數據,并不意味著它們一定對幫助解決我們的問題有價值。(2)“數據多多益善”。記錄一切的做法部分是因為數據在未來可能有用,部分是因為記錄這些數據太便宜了。這違反了數據最少化原則(data minimization principle),即應該僅儲存為了某個目的所需要的數據。(3)“數據陰影”。由于積累大量數據的成本低廉,使我們個人處于長長的數據陰影之中。這些數據痕跡產生于日常生活之中,如使用信用卡、旅行卡、參與社交媒體、網絡搜索、收發電子郵件、打電話等。這些痕跡揭示了人們做什么,他們與誰交往,他們的興趣是什么,甚至他們的信仰是什么。追蹤某人數據隱秘的能力可追蹤恐怖主義分子和不法分子,但也可能追蹤被冤枉的守法公民,或者被人訛詐。與實在的陰影不同,數據陰影可逗留很長時間,使我們在未來遇到可能的難堪,甚至更糟的處境[2]。
數據的大多數倫理問題與人(person)的數據有關。歐盟定義個人數據(personal data)為:“任何與已辨識身份或可辨識身份的自然人(數據主體)有關的信息;可辨識身份的自然人是可以直接或間接地通過參照一個身份辨識符,如該自然人的名字、身份證號碼、位置數據、在線身份標識符或一個或多個因身體、生理、遺傳、精神、經濟、文化和社會身份而異的因素而有可能辨識的自然人”[3]。這一條例增大了處理個人信息者的責任和問責層次,并要求各機構在數據嚴重泄露的情況下(如果可能的話),在24小時內盡快通知國家主管部門。它也給個人更大的控制權(自主性),個人將更容易獲得“自己的”數據,以及擁有“被遺忘的權利”(right to be forgotten),以使他們可以請求自己的個人數據被刪除,如果沒有正當持有的理由的話。對違反該條例的組織進行處罰(問責),罰款可能高達全球營業額的4%。
數據倫理學是倫理學的一個新分支,是研究與數據(包括生成、記錄、策展、處理、傳播、共享和使用)、算法(包括人工智能、機器學習和機器人)以及相應實踐(包括創新、編程、黑客行為和專業行動規則)有關的倫理問題,以提出和支持在倫理學上得到辯護的解決辦法(即正確的行動或正確的價值觀)。數據倫理學建立在計算機和信息倫理學基礎上,但它將從以信息為中心轉變為以數據為中心。這種轉變使我們集中于各種數據的不同倫理層面,即使這些數據尚未直接轉化為信息,但仍能被用來支持某個行動。這也強調數據科技提出的倫理挑戰的復雜性。由于這種復雜性,數據倫理學從一開始就應該是宏觀的,即在一個整體的、包容廣泛的框架內研究數據科學及其應用的倫理含義。在這一宏觀倫理學中,數據科技、數據背后的人以及社會之間的相互作用、相互影響都要考慮到。唯有這種宏觀倫理學,數據倫理學才能提供使數據科技對我們社會、對我們所有大家、對我們的環境的價值最大化的解決辦法。
由于數據及其使用的特殊性,使得數據科技與其他新興科技有所不同,例如,現代數據科技無所不在,與數學、邏輯、語言、交通一樣,已經成為社會基礎設施一個方面;數據之間相互聯系,有關旅行或購物的數據可能發現其他東西;數據具有動態性質,現代的數據與時俱進,不斷積累,使得在未來做出今天不可能做出的發現;有了數據就能做出實時和在線的分析與決策;通過合并和組合數據做出協同分析;數據不受空間、時間和社會情境的限制;能夠用于意料之外的目的,并揭示意料之外的信息(這是數據挖掘的核心目的);由于不可能避免個人數據儲存于多元數據庫,就有例外侵入的風險;有被誤用、隱私泄露、敲詐或其他犯罪的可能;微妙的所有權問題(“我的”);數據也許也是你的數據;我可以出賣“我的”數據同時保留這些數據,這些特殊性有可能提出新的挑戰[2]。
數據倫理學的基本倫理問題是:一方面要促進數據科技的發展和應用,另一方面要確保對數據后面的人的尊嚴與人權的尊重。魚和熊掌必須兼得。忽視倫理問題,會發生令人遺憾的后果,促進負面的影響,遭到社會的拒絕(social rejection)。必須考慮社會的可接受性(social acceptability)。社會的可接受性是基于倫理的可接受性[4]。轉基因是一個例子。筆者與做轉基因的科學家討論過,要證明轉基因食品的安全性,讓使用者放心,就要做動物實驗,像新藥的臨床試驗一樣。可是他們強調同質性以及“美國沒有做”,就一直不做。同質性是分子層面的,在亞分子層次有沒有差異呢?美國沒有做也不是理由。所以他們一再強調轉基因食品是安全的,但沒有臨床前證據。另外,我們強調安全性與消費者的知情選擇不是一個問題,即使轉基因是安全的,但是一些自然主義(崇尚自然)者或信奉佛教的人不愿意吃,我們應該給他們一個選擇機會。科學家和政府都不能強迫老百姓吃僅由他們提供的食品。所以這些科學家和廠商一直拒絕貼標簽,你不貼標簽,那些制造非轉基因食品的廠商他們貼標簽:這是非轉基因食品。這說明某些科學家對倫理問題不敏感,認為只要農業部支持他們就行了,不主動與公眾溝通,結果遭到社會的拒絕。
然而,過分強調個人權利的保護,可能導致太刻板的監管,反過來妨礙數據科技實現其社會價值的機會。在互聯網中我們要獲得一定的受益有時就可能冒一定的風險(如隱私泄露),我們不可能絕對地保護個人隱私。要絕對地保護個人的隱私權利,那就不要上網,這樣上網的受益也就沒有了。絕大多數用戶是做了受益與風險的衡量后決定上網的。
數據科技的倫理問題在這里主要討論核心的倫理學價值、風險-受益評估、尊重人的自主性和知情同意、算法偏差等幾個有特色的倫理問題。但先要談談不同文件強調的數據倫理學的核心問題。
《歐盟數據保護概述》的作者認為人的尊嚴(human dignity)是中心驅動力,更好地尊重和維護人的尊嚴可以用來抗衡無所不在的檢測以及個人現在面臨的權利不對稱[4]。因此,它應該成為新的數字倫理學的核心[5]。然而,從概念上說人的尊嚴是絕對的和平等的,這完全可以得到辯護,然而,在操作層面上難以給人的尊嚴下一個精確的定義或規定一個具體標準來測量某一行動是尊重或不尊重人的尊嚴。而且還有并非是人的,動物、植物、生態有無尊嚴問題。
由各大學組織的信息技術治理理事會(IT Governance Council)下屬數據治理工作組(Data Governance Working Group)則認為“人的繁榮”(human flourishing)應該是指導制定數據治理體系的支配一切的原則。“人的繁榮” 被定義為在一個更大的個人共同體的情境內取得自我實現(self-actualization)的努力,每個人都有權從事這種努力[6]。“人的繁榮”也是一個難以界定的概念,“自我實現”又是指什么,可能會有許多種解釋,因而也難以操作。筆者認為,核心價值永遠是兩個而不是一個:一個是我們發展科技是為了增進人的福祉 (human well-being):(1)個體、各類群體(性別、種族、民族、宗教、性取向等)、整個社會、人類、未來時代的福祉都要考慮在內;(2)福祉包括健康、安全、尊重、理性和情感方面、足量的美好生活(小康);(3)要發展科技使人的受益大大超過風險,不要追求零風險,而要確保風險在可接受的閾值以下。另一個就是對人的尊重,尊重數據背后的個人,對人的尊重包括對人的尊嚴的尊重,尊重人有明確的要求,尊重人主要是尊重人的自主性,因此產生了知情同意的倫理要求,尊重人也包括平等對待他人,不歧視人,保護人的隱私,以及科技成果的公平可及等[7]。
數據是有待發掘的礦藏。經過整合分析可提供:洞見(insight,深入的、抓住事物要點的、能從新的角度看問題的見解),決策(decision-making),做出無假說的科學發現(scientific discoveries without hypothesis),其終端產物是新型產品、新型服務、滿足新的社會物質文化需要、新療法、有效的疾病、污染和犯罪的控制和預防,等等。例如,從大規模收集的醫療記錄推論出疾病進展和有效治療的結論。顯然這使公眾受益,但同樣清楚的是,有關描述病人的數據在某一層次會被泄露,他的隱私可能處于風險之中[2]。
傷害/風險(可能的傷害)。目前在運轉中的數據可能產生兩類傷害:有形的傷害,如損害健康、財務損失或受到歧視;無形的傷害,如隱私被侵犯,個人可辨識身份數據落入那些會損害他們利益的人手中,引起人們極大的苦惱和焦慮;被排斥在服務、設施或機會之外。因此,各機構需要有發現和減輕因數據倫理薄弱而產生的風險的流程,未能辨認或處理誤用或誤解數據的風險,可能有嚴重后果。尤其是,這使在未來糾正積累的風險更難甚至不可能。如果這些風險未經核查留下來,一個產品或一項服務對數據的使用就有可能會降低甚至破壞一個消費者對品牌的信任。所以81%的執行官同意,隨著數據的企業價值增長,公司面臨的不當處理數據的風險呈幾何級別增長。與數據有關的風險往往有兩種類別:一類是無意泄露原始數據,如用戶的照片或他們的信用卡信息;另一類是基于一位用戶的數據做出不適當的決策。這些決策可以是人做出的決策(如決策是否服藥),或混合決策(如是否提供貸款的影響引用報告的決策),或機器決策(如根據流量數據改變自動駕駛車路線)。
減輕這種傷害并在它發生時做出反應的策略取決于所做的決策的類型,包括撤銷和分布式刪除。雖然發布前的設計對于滿足“不傷害”的期望非常重要,但是能夠適應發布后的設計也同樣重要。例如,用戶直接提供他們自己的數據的社交網絡 (無論是公共消費還是私人消費)很可能會從第一天開始就有隱私控制。然而,系統的所有者可能發現用戶不知道可得的隱私控制,那就要引入一個通知/提醒用戶可得設置的功能。在這種情況下,用戶應該能夠回顧性地影響他們過去共享的數據——即用戶對隱私設置的任何更改都不僅會影響未來共享的數據,還會影響之前共享的數據。通過這種方式,一種最初不能做到完全知情同意的系統可以隨著時間的推移被調整為允許撤銷同意。然而,這樣的能力要求系統設計者為適應和未來的變化做好規劃。
而且,考慮到各種軟件特性的相互依賴性,如果發生入侵或意外影響,計劃應該包括如何從整個數據供應鏈中移除數據——而不僅僅是一個公司的服務器。降低與數據使用相關的風險的一個做法是處于共享計算資源網絡中的利益攸關者之間進行協調。隨著數據分析能力的進一步發展,其數據被收集的人面臨的風險也在增加。以前匿名化的數據變得去匿名化的可能性隨著每次新的進展而增加。固有偏差是通過算法選擇、訓練數據和假設測試引入的,這會導致有偏差的自動決策。分析可以發現以前無法可得的信息,例如,在某些情況下,政府已經有可能利用大數據分析發現原本仍處于秘密的犯罪行為。我們應該如何處理這些信息?當罪犯是恐怖分子或性侵者時,這個問題是否更容易回答?如果政府是一個壓迫性的政權,而犯罪是違反了與審查有關的法律,那該怎么辦?很難想象這些領域中意外后果的潛在危害,更不用說采取積極步驟為這種傷害做好準備、減輕傷害并從中恢復[8]。
與傷害有關的問題是:數據的安全和安保。數據安全(safety)關注通過確保安全存儲和定期備份數據來保護數據不受損失。數據安保(security)關心的是保護數據免受未經授權的使用。未經授權的使用造成對個人、社會和國家的傷害:竊取、欺詐、訛詐、黑客攻擊、個人反社會行為(癱瘓電網)、恐怖主義襲擊等。必須明確誰可以訪問數據,誰不能;誰可以更改數據,誰不可以。
在生物醫學研究中知情同意這一倫理要求,不僅在實踐中更為具體化,而且有許多的論述已經得到科學界和監管界的公認,例如,將有關研究的信息全面忠實地告知患者,幫助患者理解提供給他們的信息,以及在不受強制和不當利誘的情況下自愿、自由地表示同意參加研究。這被稱為“有效的知情同意”。在數據科技的情境下有兩個特點:其一,現代大數據的未來應用是未指明的和未知的(實際上是不可知的)。其二,利用業已存在于數據庫的數據進行的研究大多數是非干預的。
歐盟《通用個人數據保護條例》概述指出,處理個人數據應該在有關數據主體同意的基礎上,或在法律限定的其他合法基礎上,才可成為合法。不過,出于公共衛生領域公眾利益的理由,未經數據主體同意而處理特定類別的個人數據可能是必要的[4]。
一般而言,使用數據的知情同意需要兩個條件:(1)了解該數據將來可能用于什么用途,以及(2)了解該數據將如何被使用。第一個條件有困難,因為如上所述未來的用途是未知的。此外,數據可能會與其他數據集合并以揭示二者單獨之中未包含的有價值的信息,但也許不可能說任何給定的數據集將做什么用途。數據集的合并對于探索一個群體的集合性質通常很有價值,如當兩個變量來自兩個不同的來源時,它們是否相關。然而,合并對于與個人相關的決策也很重要。許多分析的本質就在于,他人將來自個人的數據與來自這些個人組成的一個群體的匯總數據結合起來做出決策。例如,臨床試驗收集了來自受試者的數據,其結論隨后用于決定個體病人的治療方案和劑量[2]。
上述第二個條件假定被要求同意的人具有了解數據將如何被使用的專門技能和知識。這顯然比較困難。現代數據分析工具,如神經網絡、支持向量機和集成系統,相對復雜和難以做簡單的解釋。然而,數據主體有權獲取“有關相關邏輯的有意義的信息”,數據主體有權“獲得對評估后做出決策的解釋”[4]。這是一個難以做到的挑戰。
因此,在數據科技倫理方面,知情同意有兩方面的困難:知情的困難和同意的困難。知情的困難是由于未來的使用未知,而且可能與其他數據合并以揭示任何一個單獨數據未包含的有價值信息,也許不可能說出任何給定的數據集將對哪些使用做出貢獻。如何解決未來利用的未知性?期待人們列出所有未來使用領域似乎是不可行的。同意的困難是由于難以理解,現代數據分析工具(如神經網絡、支持向量機和集成系統)非常復雜,難以做出簡單的解釋。難以理解如何同意?建議是:(1)數據的再使用屬于非干預性行為,對數據主體的風險較小;(2)告知數據主體未來使用的未知性、不可預見性、難以理解性本身就是在知情要素范圍之內;(3)難以列出未來使用的范圍,但可以列出可能的負面清單。
算法本身是計算機處理數據方法所不可缺少的。換言之,算法是計算機采取的一系列步驟以解決一個特定的問題或達到一個規定的結局。算法的作用有:確定優先次序,當算法確定優先次序時,它們會不顧及其他事物,讓人們關注某些優先事物;分類,是通過查看任意數量的實體特性,將特定實體歸類為給定類的一個組成部分的決策;關聯,是標記關系;而過濾是排除信息(或其他輸入或輸出,取決于系統)的行為。并非所有的算法都引發倫理問題。但算法的屬性需要我們對算法進行倫理審查:復雜性和不透明性、把關功能、主觀決策。
3.4.1 復雜性和不透明性
足夠復雜的算法通常對外部觀察者來說是不可理解的,甚至對人來說是難以理解的,即使它們的源代碼與有能力的觀察者共享。在有很多選擇的地方,就有內置的價值、偏差和潛在的歧視,這些并不總是容易看到或得到的。廣泛的輸入范圍,加上內部步驟和分叉的范圍,以及與環境的動態相互作用,意味著算法行為在某種程度上類似于生物體:不容易理解或預測它們做什么以及如何做,即使我們對它們如何工作有一個大致的理解。復雜而不透明的算法可能使人們難以理解它們的過程或干預它們的效應。復雜而不透明的算法最明顯的例子是臉書的新聞推送,它的10億多用戶可以訪問家人、朋友、熟人、市民或公司頁面的更新,而新聞推送是由一個算法來策劃的,這個算法決定什么該顯示,什么不該顯示。算法由一個26歲的工程師領導的研究團隊每周進行調整。筆者猜測在我國絕大多數使用社交媒體的人都不知道有算法存在。正如這個例子所說明的,足夠復雜的算法對外部觀察者來說實際上常常是不可理解的,盡管它們不可避免地有內置的價值、偏差和潛在的歧視。在呼吁對算法進行監管或對它們要問責時往往忽視算法操作的復雜和不透明的本質。
3.4.2 把關功能
算法需要倫理考慮的另一個原因是,它們扮演著把關人的角色。越來越多的算法幫助我們做出更好的決策,但由于算法也時常發生偏倚,依據算法的決策也許是錯誤的,甚至是歧視性的。在將人工智能應用于醫學時尤其應該注意。例如,在醫用人工智能系統中我們依靠算法檢查出疾病,改善診斷和治療,管理慢性病,做出疾病流行的預測,提供醫療和公共衛生服務,改進臨床試驗以及發現新的藥物。這幫助我們應對重要的醫療衛生挑戰,但如果所得的數據有限或質量不高,尤其是數據中包含對某個群體(如女性、少數民族)的歧視,就會出現種種倫理問題,如做出錯誤的決策。例如,在2015年的一項臨床試驗中,一款人工智能APP被用于預測哪些病人在患肺炎后容易發生并發癥因而住院。但由于其算法不能考慮情境信息,這款APP錯誤地指示將居家哮喘病人收住入院。如果算法所依據的數據含有對性別、種族、殘疾和年齡的歧視,那么算法就會反映和強化過去數據中的偏倚與歧視。算法和機器學習利用來訓練人工智能的數據集可能不代表整個人群,結果可能做出反映歧視的不公平決策,從而影響屬于受到歧視的群體(如女性、少數民族和老年群體)的病人的生命和健康[9]。另有文章也指出,人工智能系統本身往往具有歧視性,因為訓練算法的數據集本身有種族偏倚,這個數據集是由占病人大多數的白人的數據構成的,因此,醫生利用人工智能系統治療病人時就會發生種族偏倚:他不能給黑人或其他有色人種的病人提供合適的治療[10]。
算法扮演的把關角色還包括招聘和解聘。例如,在招聘決策(以及解雇決策)中,算法正越來越多地發揮重要作用。招聘和就業對個人和社會都有重要的影響。在招聘、解雇和類似領域的歧視有可能產生終身影響。招聘(解雇)是研究算法倫理的重要案例,因為它們表明答案不能簡單地是“人做得更好”,追溯幾十年的研究也表明,人類管理者在招聘方面存在顯著偏見,如人們傾向于從自己的社會階層、種族和性別中招聘。面試是一個令人擔憂的部分,因為持續數小時甚至數天的面試并不能很好地預示未來的工作表現。非洲人的“名字的聲音”——在美國就業市場,即使擁有學院學歷,沒有犯罪背景,但有一個聽起來是非洲裔美國人名字的申請者,與沒有學院學歷、有犯罪記錄的,但有一個聽起來像白人名字的申請者相比,往往處于不利地位。在過去,女性很少在公開試唱中被選為著名交響樂團成員。然而,在越來越多的投訴之后,評判員使用了簾子,只聽到演奏的樂器聲,而沒有看到音樂家。這使得更多的女性通過了測試。顯然,人力招聘系統遠非完美。目前,越來越多的公司開始采用算法招聘,在某些可衡量的維度上,算法比人工招聘更加精確。與所有這些系統一樣,該系統的力量部分來自于輸入該系統的越來越多的個人數據,以及輸入系統的未來績效評估。事實上,許多算法正在變成越來越能學習的算法。這意味著算法不需要被告知規則是什么,而只需要提供輸入和期望的輸出。
3.4.3 算法的主觀性決策
很多關于算法和自動化的辯論都集中在有正確答案的案例上,這些問題是,算法是否能找出這些問題的答案與人一樣好,或比人更好。IBM的人工智能計算機沃森能戰勝《危險邊緣》競賽節目超級冠軍肯詹寧斯(他贏了74次,獲獎252萬美元)嗎?自動化系統能控制飛機或駕駛汽車嗎?電腦可以理解人們用簡單的語言交談,而不需要我們把它翻譯成計算機可讀的格式?算法能像醫生一樣預測心臟病發作嗎?算法在有正確答案的地方,如醫學診斷或駕駛飛機,提出了許多重要的問責、就業和人類技能在我們這個世界的作用等問題,但是評價這些算法的情境與沒有可檢查正確答案的地方的算法迥然不同。
隨著算法從下棋轉向在線配對約會和選擇新聞閱讀,這些算法回答的是一個全新類別的問題。什么是重要的? 什么是相關的? 什么是愛?什么值得注意?什么應該被忽視或壓制?你應該看什么或讀什么?誰對公共安全構成威脅?誰對公共安全不構成威脅?應該允許誰去開飛機?你應該和誰約會?這些類型的決策是與純粹基于過硬事實做出的客觀性決策,不同于主觀性決策,摻雜個人視角、情感和意見在內。而在大數據時代,我們越來越多的、悄無聲息地交給算法去做決策。2014年初,芝加哥警察局因探訪被認為最有可能參與暴力犯罪的居民而成為全美的頭條新聞。警察局使用了一種試圖預測未來參與暴力犯罪的算法。這個算法列出了一份可能要探訪的名單。雖然官員們已經給出了一些算法是如何運行的跡象(如它要考慮遭逮捕記錄),但沒有公開描述算法的操作或輸入。美國的《信息自由法》要求人們能夠看到名單上的名字,但遭到拒絕。無論某些系統是否能有效地減少犯罪,基于許多理由用算法預測未來犯罪行為都存在問題。主要的擔憂是,這種自動化系統可能會產生一種“回音室”(在一個人僅僅遇到與他們自己的信念和意見一致的環境下,他們現有的觀點會加強,而不考慮其他的想法),或自我實現的預言(一種使預言成為現實的社會心理現象,卡爾·波普爾稱之為“俄狄浦斯效應”)。警力更多的地區或社區也會增加犯罪被發現的可能性,因為更多的警察意味著有更多的機會觀察居民的活動。與此同時,對特定地區或社區的關注可能減少了其他地方的警力。此外,“預測”就是預測,不能保證它們都是正確的,有假陰性(未來的犯罪沒有發現)和假陽性(尋找不存在的犯罪)。如果警官們根據不正確的預測行事,他們可能會因抓不到真正的犯人而感到內疚。除了在接受調查之前受到訊問或受到密切觀察的消極影響外,警察人數的增加可能在法律適用方面有系統偏見的地區造成進一步的復雜情況。專家們建議為解決算法引起的倫理問題,應該采取算法透明和通告,增加算法可問責性,以及政府對算法進行直接監管[11]。
另一個要考慮的問題是機器決策與人的決策之間的區別。人們相信智能手機可以跟蹤日歷事件,或者連接恒溫器來控制家里的溫度。然而,許多人會猶豫是否接受一個對人類生活有直接和重要影響的機器決策。研究表明,人類對他人所犯的錯誤更寬容,對算法所做的決定更挑剔。這種有偏見的反應有兩個基本理由。第一,人不會對機器有同情心,因為機器是沒有生命、沒有思維的系統。在法官決定判處一個人終身監禁時,要考慮該人在犯罪行為發生時的生活背景和精神狀態。對一臺機器來說,很難考慮這些情況。第二,機器的“思維過程”通常被認為是冷酷無情的。與之相對照,對人而言,倫理決策需要同情心、對人類價值觀的理解,以及在多種情境下同時評價決策的能力。如果人類不相信機器有這種認知能力,那么他們自然會懷疑機器在涉及倫理的情況下做出的決定,或者更糟的是,在決定另一個人的未來生活的情況下做出的決定。
專家們建議系統的設計和使用必須充分考慮這些倫理挑戰,以實現其使社會充分受益。設計師和用戶在認識到這些倫理問題后可避免對他們自己和他們希望服務的社區的重大負面后果。監管和政策必須在管理這些算法“生態系統”和減輕此類風險方面發揮作用。更好的監管和政策可以通過制定更好的預防危害的防范措施來幫助解決問題。在這樣做的時候,監管機構可以要求各機構考慮他們的算法行為的影響,并要求他們為這些算法執行中的倫理失誤問責[12]。