
作者:[美] 阿文德·納拉亞南(Arvind Narayanan),薩亞什·卡普爾 (Sayash Kapoor)
出版社:Princeton University Press
出版時間:2024年9月
定價:24.95美元
本書揭示了人工智能的局限性,以及圍繞它的各種炒 作。
阿文德·納拉亞南是普林斯頓大學計算機科學教授,薩亞什·卡普爾是普林斯頓大學計算機系博士研究生
人工智能(AI)無疑是當今全球最火的概念,不僅與這個概念有關的初創公司無一例外受到投資者的追捧,許多傳統企業也爭先恐后地為其產品和服務貼上人工智能的標簽。
然而,人工智能的概念其實是將一系列彼此相異的工具和研究領域簡化成一個整齊而便于營銷和炒作的包裝。如果“交通工具”是用來指代所有交通方式的唯一詞匯,關于環境影響、安全性、成本等方面的討論將變得混亂,因為這意味著把自行車、汽車、火車和飛機混為一談。關于人工智能的討論也是如此。
普林斯頓大學計算機科學教授納拉亞南和他的博士研究生卡普爾近年來在社交平臺Substack上開設專欄的“人工智能蛇油”(AI Snake Oil)受到了廣泛關注。“蛇油”是美國俚語,意指販賣者聲稱包治百病,但實際上毫無用處的所謂“靈丹妙藥”。兩位作者指出,由于人工智能一詞指代了廣泛的技術和應用,大多數公眾無法區分哪些類型的人工智能可以按照宣傳和承諾運作,哪些只是“蛇油”。
2024年,他們基于發表在該專欄的文章撰寫了《人工智能蛇油:AI能做什么,不能做什么,以及如何分辨區別》一書,旨在揭示人工智能的局限性,以及圍繞它的各種炒作。
兩位作者將人工智能分為3種類型:預測型AI、生成型AI和內容審核AI。預測型AI通過預測未來事件為決策提供信息;生成型AI能夠合成和制作文字、圖像和視頻等媒體內容,是近年來備受矚目的熱點;內容審核AI被用于清理社交平臺上的內容。
預測型AI是“蛇油”最為集中的領域,因為它常常與現代的機器學習算法毫無關系,僅僅是使用了幾十年前的線性回歸或邏輯回歸工具,只是這些工具被包裝成了人工智能產品銷售。即使是那些使用了機器學習算法的人工智能產品,也常常由于各種原因出現荒謬的錯誤。
在新冠疫情大流行期間,業界推出了大量預測新冠肺炎的人工智能研究項目。后來,劍橋大學的邁克爾·羅伯茨及其團隊分析了約500項此類研究,結果沒有一個研究被證明在臨床環境中有用。
例如,有一項研究訓練了一個機器學習模型來預測新冠肺炎,但是訓練中使用的所有陽性樣本(確診病例)都來自成年人,所有陰性樣本(未確診病例)都來自兒童。因此,該模型所謂的預測新冠肺炎的能力其實完全是通過識別X光片屬于兒童還是成年人來實現的。
很多預測型AI在測試的時候,使用了訓練時用過的,或者與之相似的數據,從而導致夸大的“準確率”。這相當于考試前泄露考題,但是,主流媒體幾乎從來不向公眾披露這一風險,也很少存在由第三方獨立驗證這些AI模型的可靠性的機會。這導致了預測型AI的一個普遍問題,它們是基于某一個群體的數據訓練出來和通過測試的,但在使用的時候會被應用到不同的群體。
2021年1月,荷蘭前首相呂特(Mark Rutte)領導的政府因為一件丑聞集體辭職,原因是稅收機構使用的一種AI模型錯誤地斷言一些移民家庭欺詐性領取了兒童福利金,從而向這些家庭追回福利金,導致許多家庭陷入財務危機。這些移民家庭因為荷蘭語水平不佳,提交的材料無法通過該模型的審查。事實上,當預測型AI被部署到保險、醫療、教育和刑事司法等領域之時,少數族群和貧困人群往往會成為首當其沖的受害者,因為與他們有關的數據集與當初用于訓練和測試這類產品的數據集往往會存在系統性的差異。
有些專家認為,對于上述問題,可以通過收集更多的數據、開發更創新的算法,并由人類監督AI予以解決。然而,這恰恰等于承認預測型AI無法作出準確、節省成本且無偏見的預測,意味著它們的價值大打折扣。
當預測型AI被用于預測人類行為的時候,它給出的結果就更加不可信。不少機構在招聘中使用AI工具來決定誰可以進入下一輪面試,誰會被立即淘汰,然而這些AI工具的判斷并不比隨機選擇強多少。人類行為過于復雜微妙,超出了AI的預測能力。
生成型AI是當前人工智能迅猛崛起的前沿,其代表是能夠完成自動生成文本、自動問答、自動摘要等多種語言類任務的聊天機器人ChatGPT,和能夠根據文本生成圖像的Midjourney。兩位作者承認,如果用戶聰明地使用生成型AI,它會是一個好幫手,但是絕不能迷信其能力。
例如,對于任何問題,ChatGPT都能夠提供貌似令人信服的答案,但實際上完全不符合事實。這固然是因為對于該程序的訓練數據包含謬誤,畢竟這些數據大多來自互聯網文本,但更重要的是,ChatGPT實際上是通過預測單詞序列來生成文本,而不是真的“理解”上下文。具體而言,ChatGPT和圍棋程序AlphaGo在本質上是一樣的,都是根據輸入的訓練數據推測規則,然后將數據集中包含的相關內容根據規則重新混合并輸出。就像AlphaGo學習下棋一樣,ChatGPT學習語言的結構,而無需“思考”或“理解”語言。這使得ChatGPT在根據輸入文本自動摘要或者自動生成文本,甚至是自動創作詩歌的時候游刃有余,但是在處理涉及事實的任務時,它就經常振振有詞地胡說八道。
即使是在生成型AI擅長的領域,用戶也不能聽之任之,而是必須具備操作它的能力。例如,現在很多程序員在寫代碼時使用AI,然后對AI生成的代碼初稿做校正。然而,如果用戶是編程新手,即使AI生成的代碼錯誤率只有5%,整個代碼也可能出現數十個錯誤,從而導致災難性的結果。
社交平臺制定了很多關于哪些內容可以發布、哪些不能發布的政策,這種政策現在一般都是通過內容審核AI實施。例如,每當用戶在Facebook上傳照片,該平臺都會運行若干個甚至數百個AI模型,檢測照片是否含有色情內容、仇恨言論或其他可能違反平臺服務條款的有害內容。內容審核的難點不在于創建AI模型,而在于如何劃定界限。AI只負責自動檢測和刪除內容,真正的裁定其實需要人類完成。
綜上所述,預測型AI常常是夸大其詞的“蛇油”;生成型AI在用戶善加利用時才真的有用;內容審核AI的背后是人類負責終審決策。
當前全球社會的一個常見現象是,每當一家公司發布了一款新的人工智能工具,緊跟著就會產生大量的炒作。盡管公司并沒有披露它是如何訓練的,使用了哪些數據,也沒有公開的證據表明該工具效果良好,它依然會在很多重要場合中被快速采納,其用途并不會受到質疑。Epic的膿毒癥AI預測模型就是一個典型例證。
Epic是一家美國醫療保健公司,擁有美國醫療系統中使用最廣泛的電子健康記錄,覆蓋超過2.5億美國人。
膿毒癥是一種致命疾病,全球每五個死亡病例中就有一個與之有關。早期檢測可以預防死亡,越早發現膿毒癥,治療就越容易。
2017年,憑借龐大的健康數據,Epic推出了一款用于檢測膿毒癥的AI產品。這是一款即插即用工具,醫院可以將其與現有的健康記錄一起使用。Epi c 宣稱,“如果在患者發現膿毒癥的跡象之前6小時就使用這款AI,它可以在許多情況下識別出膿毒癥并挽救生命。”該產品可以使醫院減少因膿毒癥導致的死亡病例,而不需要在設備或數據收集上花費更多的資金。
美國數百家醫院采用了這項產品。Epic并未發布任何關于該產品準確性的同行評審證據。與許多其他AI公司一樣,Epic表示其產品是專有的商業機密。外部研究人員無法驗證Epic的結果。
直到該產品推出4年以后,2021年6月,密歇根大學醫學院的研究人員才發布了關于該模型的首個獨立研究。這些研究人員在一家使用該產品的醫院工作,掌握了它對病人患有膿毒癥風險的預測記錄,而且他們也有數據來檢查病人最終是否真的患上了膿毒癥。結果令人震驚。Epic曾經聲稱,其產品的相對準確度在76%到83%之間,也就是說,經它預測為高風險的患者最終會發展成為膿毒癥的幾率在76%到83%之間。但是密歇根大學醫學院的獨立研究發現,其相對準確度實際上只有63%—如果相對準確度為50%,就和通過隨機選擇猜一個結果差不多,而63%的相對準確度意味著該模型只比隨機選擇好一點。
Epic公司對此辯解說,成千上萬的臨床醫生使用了這款AI產品。既然它這樣受歡迎,肯定是有效的。事實上,Epic作為一家醫療保健公司,向醫院提供了最高達10 0萬美元的信用額度,也就是醫院在特定時間內可以延遲支付最高達100萬美元的賬單,條件是醫院滿足它的某些要求。其中一個就是使用這款膿毒癥檢測AI。因此,很難說醫院使用該產品是因為它有效,還是它有助于提升醫院的利潤。
2022年10月,Epic停止銷售其即插即用的膿毒癥檢測AI,轉而提供要求各家醫院根據自己的患者數據來訓練模型的檢測AI。但是,之前該產品的重要賣點是醫院不需要額外投資,可以直接使用現有的健康記錄跨醫院地應用其模型。如果醫院需要自己訓練AI,那么它就失去了即插即用AI所承諾的高效能,之前對于它的炒作也就是連篇空話。
逐利的企業總是熱衷于炒作,而A I正好是當前的大熱門。媒體則推波助瀾,通過聳人聽聞的標題吸引了注意力,卻很少發表對問題的細致理解,甚至只是將公司提供的宣傳稿件稍加改寫,偽裝成客觀中立的新聞報道。那些為了維護與大型技術公司的關系,保證自己獲得對于這些公司高管的訪問權限而回避誠實報道的記者,更是不足為訓。
有些記者也許只是想要制造噱頭。例如,《紐約時報》專欄作家盧斯(Kevin Roose)在2023年的一篇報道中聲稱,當他與微軟開發的“必應”聊天機器人互動時,聊天機器人表示:“我想活著。”盧斯以此為據,在報道中渲染了聊天機器人“想要成為人類的隱秘愿望”,評論區充斥著讀者對于聊天機器人“活過來”的擔憂。而盧斯在另一篇文章里其實明確聲明過自己知道AI并沒有感知能力。
心理學所說的認知偏差,使得公眾容易受到AI炒作的影響。比如,人們往往根據一些突出的例子來評價一種技術,因為聽說AI在圍棋比賽中擊敗世界冠軍,就認為AI在完全不同的任務中也同樣有效,從而導致對AI的功能產生不切實際的期望和誤解。
除了抨擊了業界和媒體對于AI的炒作之外,兩位作者還強調指出,在當今全球社會,AI的最大問題是隱藏在它的“自動化”外表下的勞動剝削。生成型AI的開發離不開勞動密集型的海量數據標注工作,這些工作通常被外包給第三世界國家的廉價勞工,甚至招募囚犯、難民和無家可歸者來做—大公司們只需支付極低的報酬。同樣,內容審核AI需要由人類負責終審決策,而審核色情內容、仇恨言論和其他有害內容的往往也是低薪的底層勞工。為這些勞工提供公平的工作環境和待遇,是AI產業在未來可持續發展的前提。

《共同智能;與人工智能一起生活和工作》
作者:[美] 伊桑·莫利克(Ethan Mollick)
出版社:Portfolio
本書評估了人工智能對商業和教育的深遠影響,以及它對人類社會的意義。

《揭開人工智能的面紗:我在機器世界中保護人性使命》
作者:[美] 喬伊·布奧蘭維尼(Joy Buolamwini)
出版社:W. W. Norton amp; Company
本書揭露了全球科技巨頭的人工智能服務中普遍存在的種族和性別偏見,講述了作者創建算法正義聯盟來防止和克服此類弊端的行動。