信息過載時代海量信息的碎片化很大程度上導致了信息接收利用的低效化,加之個體和群體的信息技術素養的鴻溝也在不斷加劇社會撕裂,人類轉而向大數據技術和智能算法尋求理性解決方案,擁抱算法社會。然而,算法社會終究還是人的社會,只有結合中國國情力求客觀全面地對算法社會做到預判預防才能夯實未來社會穩定的基礎。
算法的定義最早從Tarleton Gillespie 的假設開始,即“算法不需要是軟件,在最廣泛的意義上,它們是基于指定計算將輸入數據轉換為期望輸出的編碼過程。這個過程既指出了一個問題,也指出了解決這個問題的步驟”[1]。國內學者則指出,算法在本質上是“以數學方式或者計算機代碼表達的意見”,算法偏見則是在算法程序自輸入-學習-輸出-應用循環閉環中由所產生的失去客觀中立立場的表現,影響著公眾對信息的客觀全面認知。
雖然目前我們還處在弱人工智能(Artificial Narrow Intelligence,ANI)階段,但是公眾傾向于認為以數據和算法為基礎的機器決策可以較大程度地克服人類因認知局限或主觀任意而導致的偏見,促進結果的客觀、準確和公平。這也正是今日頭條的個性化智能推送、犯罪風險智能評估系統COMPAS 等人工智能產品廣受追追捧的原因。然而,由算法主導的人工智能的價值觀并不能完全中立,甚至非常隱匿地攜帶著人類社會所固有的劣根性——偏見。
就算法本身而言,“不存在價值中立的平等算法”這一觀點的提出打破了人們的美好愿景。丁曉冬(2017)以美國聯邦最高法院兩個著名的教育平權案件:Grutter v.Bollinge 案和Gratz v.Bollinger 案,案件相似而判決不同的角度,驗證論述了人工智能時代大數據算法同樣難逃不中立難公平窠臼[2]。而隨著人工智能技術的逐漸應用普及,越來越多的算法偏見事實也迫使人們理性關注這一現象,劉友華(2019)將算法偏見對公眾權利的侵害表現分為3 類,損害公眾基本權利如種族和性別歧視等、損害競爭性利益如利用算法設置貿易壁壘等和損害特定個體利益如大數據價格“殺熟”等[3]。更細化的行業表現則以新聞業和法律界最為明顯,新聞算法推薦系統在提高信息獲取效率的同時,也會成為偏見、劣質信息的傳聲筒和媒體負面效應的放大器。美國部分法院采用的犯罪風險智能評估系統COMPAS 被證明存在明顯的種族歧視,或將強化司法不公的影響。
Batya Friedman 等人將計算機系統偏見按照來源的不同分為3 類[4],相似的算法偏見也可以分為先行存在偏見(Pre-existing Bias)如文化偏見、社會制度差異等、技術性偏見(Technical Bias)如計算能力、硬件限制等及突發性偏差(Emergent Bias)如新的社會現象和知識成果等變動。
人類根深蒂固的文化偏見存于與人類社會同構的大數據中,并且作為人類思維的外化物,偏見性也是算法的“生物學”表現。除了上算法偏見的內在成因,從技術角度看,偏見進偏見出,大小樣本的懸殊以及像深度學習一類不能觀察甚至不能理解的“黑箱”,加劇了信息的不對稱性。
“期望算法、模型等數學方法重塑一個更加客觀公正的現實社會”的“數學洗腦”式想法未免過于一廂情愿。正確認識算法偏見可能帶來的后果才有利于我們采取正面積極的態度加以應對。
2018 年今日頭條肆意挑釁《英雄烈士保護法》看似屢教不改無視警告,但深究其原因還是因為其協同過濾算法本身的缺陷——只要低俗、惡搞類新聞信息達到一定的用戶熱度而被算法選中,那么傳播就會形成愈演愈烈的態勢,而同時,大量優質UGC 卻無法被展示在聚光燈下,被算法冷落,加劇了信息傳播的偏態。同時,2016 年5 月“Facebook偏見門”中運營團隊常規性地壓制美國有意保守派信息,2018 年3 月“劍橋分析”事件都暴露出新聞算法的人為偏見的可操作性,嚴重違背了新聞客觀公正的理念。
算法的本身如果用過去不準確或者有偏見的數據去訓練算法,其輸出的結果自然而然也是含有偏見的;然后再以其輸出產生的數據對系統進行反饋,則會使算法偏見得到鞏固,如果在司法判決的智能產品中會帶來一系列類型案件的決策造成影響,長此以往會對司法系統造成系統性威脅。然而更值得關注的是隱匿的算法偏見所傳播的歧視性信息,在潛移默化之中會一直攜帶著歧視性基因并在算法的“反饋循環”中被鞏固加強,固話和限制了受眾的思想,甚至形成極端的社會撕裂。
我們正在進入“算法統治的時代”,成為了“物聯網時代”的“量化自我”或“可測量自我”,當算法應用于社會福利等資格審查監測當中,算法測量和建構出的公民畫像是被圈定在原社會條件和位置上的,底層公民、劣勢群體、少數族群擁有的通往更多機會和資源的的途徑和幾率愈來愈少(例如女性在求職網上受到高職位簡歷算法推送的概率要遠小于男性用戶),最終,算法偏見將導致社會資源的“馬太效應”進一步被放大。
國內較大一部分學者的研究是結合相關行業背景對行業內智能產品所包含的算法偏見成因、影響及應對措施為切入點進行探討的,在此基礎之上需要站在更為宏觀的角度結合中國特殊國情討論在中國語境下算法偏見的應對挑戰和監管措施。
良好可控的算法程序的編寫實踐除了需要有堅實的專業知識背景,同時還需要具備大數據智能倫理的意識,具備信息理論的基本規范。我國的中小學的信息倫理教育開始于21 世紀,相較于歐美日等國家相對較晚,為了從根本上培養年輕一代具備良好的信息倫理觀念,需要結合國情適當增加基礎教育階段適齡學生的信息倫理教育內容,培養信息倫理教育的教育隊伍。
此處的相關行業并不僅僅指信息編程類工作,而包括了絕大多數人工智能時代的產生大量可供分析的數據的行業,通過利益相關人的信息倫理意識的提高,以保證算法輸入端的輸入數據的客觀公正性,從源頭處提高算法運算的公正性。
針對算法黑箱問題,不僅僅存在著諸如深度學習等不可控,難觀察,難解釋的運算過程,還存在著由于商業利益,資本控制等等因素所導致的算法不公開,此時,需要政府頒布相關法律條例,以增加相關企業尤其是涉及到公眾利益的企業的算法的透明度,并且要求企業將算法進行可解釋性的注解,及時進行事前的審查,提前進行風險的防范。