人工智能發展中“算法公開” 能否解決“算法歧視”

2019-12-06 06:24:04王夙欒群

中國計算機報 2019年39期

關鍵詞：主體

王夙欒群

算法公開（透明）無法根治算法歧視

針對算法歧視，算法公開呼聲頗高。算法是人工智能技術的核心基礎，潛在的算法歧視則是公眾擔憂的焦點。不同領域的專家針對算法歧視提出不同的解決方案。比如，加州伯克利大學的研究者們就提出“算法的可解釋性”，即在設計算法時加入另一個算法對其算法決策的過程進行忠實記錄等。在眾多方案中，算法公開呼聲頗高，理由是算法公開能夠曝光歧視性算法的惡意代碼，并有效嚇阻企圖編制歧視性代碼的程序員等。

針對算法歧視，算法公開的有效性有夸大之嫌，還有許多副作用。一是算法公開并不必然保證公眾知情權。算法通常表現為繁蕪的程序、枯燥艱深的代碼，體現了極強的專業性和技術性，一般社會公眾根本不具備理解和識別算法的能力。因此，對公眾而言，公開僅僅是形式而已。二是算法公開有時效方面的局限性。算法公開應當以算法的固定不變為前提，但隨著機器學習水平的不斷提升，算法程序可能會升級轉化，即使是算法的最初設計者也無法完全理解迭代升級后的算法。此時，迭代后的算法早已不是最初公開的算法。三是算法公開不具有解決方案的整體性。算法歧視并不必然由算法程序本身產生，即使是中立性的算法，如果輸入有偏見的歧視性數據也會導致算法歧視的發生。算法公開對數據層面的歧視并沒有矯正效果，相反，單純要求算法公開反而會幫助輸入歧視數據者擺脫歧視指控。四是算法公開有違現代基本商業準則。算法是人類有意識的創造物，是知識產權的保護對象。同時，算法的具體內容對商業主體能產生直接的經濟利益。強制算法公開可能侵害知識產權和商業秘密，也會破壞商業主體研發算法的動力。五是算法公開導致風險可控性減損。算法公開后，不法分子了解了算法程序的內在邏輯，反而更加容易操縱算法程序，客觀上破壞算法的“中立性”。

數據比算法本身更容易導致歧視性后果的出現

算法通常不是算法歧視發生的直接原因。包括算法歧視在內的各種不同形式的歧視都根源于現實，是對現實歧視的映射。算法的優化往往有助于減少歧視的發生。現實歧視分為有意識歧視和無意識歧視兩種。一是針對有意識的歧視。在現實中之所以存在故意歧視現象，很重要的一個原因就是事后沒有充分的證據證明歧視行為曾經發生過，因而無法對歧視者施加制裁。但是，算法的編制者（程序員）卻很難將腦海中的偏見直接灌輸于算法中，這并非技術方面存在難點，而是因為一旦因為發生歧視性結果導致訴訟，進而引發強制披露，則算法的歧視傾向將被揭露。即使包含歧視傾向的算法沒有引起訴訟糾紛，進而幸運地躲避過了強制披露，但也不代表歧視性算法沒有曝光幾率。因為算法的編制通常并非一人之力能夠完成，而是涉及共享程序代碼的團隊，事后還面臨不同人的審閱和調試，要保證算法的歧視性不被識別，有很大困難。而一旦算法被強制披露或被其他人識別，則明確的、有記載的代碼恰恰成為了證明歧視存在的證據。這在歐美等國家和地區嚴厲懲治歧視行為的社會生態下，要背負沉重的法律代價。二是針對無意識的歧視。在現實生活中，每個人基于不同的生活經歷、認知水平和文化背景，會對同一事物形成差異化的前見。這些前見通常是無意識的產物，與歧視在表現形式上很難截然分開。因此，現實中無意識的歧視行為可能暗藏于任何人的任何行為中，且難以防止和復查。但算法的最終生成是由編制者（程序員）一個代碼一個代碼地書寫而成，它是程序員意識控制行為的后果，程序員對算法所追求的效果有清晰的預期。同時，現代編程實踐也要求程序員記錄（注釋）程序正在做什么。正是得益于這種復雜繁瑣的算法編制過程和明確的記錄要求，大多數無意識的歧視會被剔除。

數據是更容易導致算法歧視出現的變量。鑒于數據具備導致歧視性后果出現的“天性”，輸入具體算法的數據往往預先帶有歧視性。一是數據采集的片面性。數據是對各種信息數字化處理后的具體表現形式，是統計學意義上的樣本。樣本采集面愈廣、多樣性愈足，分析處理過程中的誤差愈小，結論的客觀正確性愈高。在現實生活中，采集所有人、所有區域、所有時間段的數據并不具備可操作性，數據的采集依然離不開樣本的操作思維。這就意味著輸入算法的數據永遠是片面的，區別只在于片面的程度不一。另外，算法之間亦有復雜和相對簡單之分。越是復雜繁瑣的算法，其鏈條越長，輸入數據的片面性就會被放大得越多，計算后果的歧視性偏差也會越明顯。二是數據“正義”的相對性。按照字面理解，避免算法歧視的出現，必備條件之一就是數據是正義的，即平等的、公正的。但是，平等、公正本身就需要切合具體場景，場景的轉換極易使得此場景下正義的數據在彼場景下顯得非正義。例如，在運用算法計算腦力勞動者的工作效率時，年齡數據的意義不大，執意輸入年齡數據，可能導致出現年齡歧視后果。但是用相同算法計算體力勞動者的工作效率時，年齡是重要的考量因素，輸入了年齡的運算結果才是實事求是的。在實踐中，許多數據對不同場景的正負效應并不如年齡的例子那樣明顯，很難輕易判斷出來。這種“正義”的相對性增加了數據取舍的難度。三是數據信息的可替代性。數據本身只是一個載體，其意義在于其需要傳達的信息。這就意味著不同數據承載的信息可能是重復的，即數據 A 和數據 B 都含有相同信息 C。數據輸入者的本意是想輸入數據 A 承載的信息 C，但是為了避免發生輸入數據 A 的表象行為，選擇輸入數據 B 從而實際代入了信息 C，這樣表面整個運算過程與數據 A 無關，但實際結果與輸入數據 A 相同或類似。例如，某家用人單位偏重于男性求職者，但是想從海量的求職者中只挑男性，無疑會觸犯性別歧視的禁忌。因此，直接輸入“性別”是不可取的，但并非沒有曲徑。現實中，男性的身高和體重通常會高于和重于女性。用人單位可以選擇輸入“身高”和“體重”數據從而達到實際排除女性的效果。由此可見，許多敏感的、歧視性的數據是可以被看似“無害”的數據替代，從而發揮數據輸入者想要的后果。

結論與對策

算法歧視無法避免，只能盡可能控制。一是算法的事后公開審查。當出現算法歧視的后果之后，應當要求使用算法的商業主體向相應的主管部門公開算法，并闡釋算法的內在邏輯，以供主管部門判斷擔責與否。不過，這種公開應當局限在一定范圍內，僅向主管部門公開，供其審查。同時，這種公開應當是在歧視結果發生之后，因為事前公開不具備道義上的合理性，還可能泄露商業秘密。二是輸入數據的存證備查。鑒于有傾向性的數據更容易導致算法歧視發生，對輸入數據的監管應是重點。應要求商業主體秘密存儲輸入算法的數據，同當初有關這些數據選擇、收集和排除歧視性數據的相關活動都應被完整記錄下來。當主管部門向商業主體質詢時，商業主體應當提供上述記錄，從而證明己方已盡到“合理”的注意義務，從而在數據輸入層面對算法歧視后果沒有過錯。三是算法的固定周期復核機制。業界對人工智能的算法存在一種擔憂，即隨著機器學習的水平不斷提高，算法會自動升級，發生不同于最初設計的異變，從而違背設計的初衷。為了防止這些現象出現，可安排對算法的定期復核，主要內容是算法是否發生變化、變化的具體影響。

明確算法歧視的責任主體和歸責原則，嘗試引入“純粹經濟損失”制度。一是明確算法歧視的責任主體。為算法歧視承擔法律責任的，主要是那些注入歧視因子或有義務卻未能及時排除歧視因子的主體。一方面，如果算法本身就包含歧視內容，則算法編制者是責任主體; 另一方面，數據的選取、收集、輸入者，在對數據進行選取、收集和輸入的過程中，如果故意有歧視性操作并造成算法歧視后果的，也應承擔法律責任。此外，因為算法可能會自我迭代進化，需要對算法進行定期核查。如果是核查者玩忽職守甚至于忽略自我進化后的算法呈現新的歧視傾向，則要承擔相應法律責任。二是確定算法歧視的歸責原則。算法歧視會給被歧視者造成精神或物質層面的損害，理應受到侵權法的規制。但算法歧視應當適用何種歸責原則，即以什么樣的標準來判斷相關主體是否應為算法歧視負責需與傳統情況有別;按照現有侵權法歸責原則，主要有過錯原則、過錯推定原則和無過錯原則。雖然侵權法以過錯原則為大多數情況，但針對算法歧視的歸責原則應當以無過錯原則為準。因判斷過錯要透過責任者的外部行為，但算法涉及高深的專業知識，被歧視者通常不具備理解能力，更遑論透過算法判斷商業主體的主觀狀態了。即使采用過錯推定原則，商業主體也可以憑借專業知識和財富能力，證明自己并無過錯，被歧視者亦無駁斥能力。因此，從救濟被歧視者和增強公眾信心的角度出發，以無過錯原則更為合適。三是關注算法歧視帶來的“純粹經濟損失”。“純粹經濟損失”是損害賠償法的重要概念。一個經典的案例是：工人過失挖斷電纜，因停電而導致工廠停工、冷藏庫商品失效等。在這一系列的后果中，工人的行為只是直接損害了電纜，工廠主或者冷藏庫主的財產、人身雖未受到工人挖斷電纜行為的直接侵害，卻因此蒙受經濟損失，由此發生的損失被稱為純粹經濟損失。實際上，純粹經濟損失的提出，是為了給予受害者充分完全的損害救濟，但因為擔心將此概念完全貫徹于立法會導致“訴訟泛濫”和每個人對自己行為后果的不確定性，因此各國立法普遍對純粹經濟損失持十分慎重的態度，除了極為特殊的情形，一般不予適用。在人工智能的算法時代，純粹經濟損失有了全新的意義。基于算法歧視的人工智能處理結果可能只是一個判斷或決定，或許并未“直接”傷害受害者的人身和財產，但是受害者基于人工智能的算法歧視間接、客觀地蒙受了巨大經濟損失。按照一般的侵權損害賠償原理，間接經濟損失無法獲賠，直接的經濟損失又微不足道。“純粹經濟損失”則既能通過拉長損害賠償的因果關系鏈條而實現充分賠償，又具備理論合理性，是破解算法時代賠償困局的法律方案中的一個重要方法。