南之瑉

當人工智能取代你的工作時,你可能不會失業,但你的工作可能會變得更加陌生、孤立和枯燥,就像那數以百萬計的廉價數據標注員一樣。
| 神秘而枯燥的標注工作 |
從內羅畢一所大學畢業幾個月后,30歲的喬找到了一份數據標注的工作,主要是處理用于訓練人工智能的原始數據。人工智能可以借助大量數據學習模式和規律,但首先,這些數據必須由人類進行分類和標注。這些標注員數量龐大,常常隱藏在機器之后,不為人知。喬的任務是為自動駕駛汽車標注圖像數據,逐幀識別所有攝像機角度下的車輛、行人、騎自行車的人以及司機需要注意的其他細節。這是一項繁瑣而重復的工作,一段幾秒鐘的視頻片段可能需要標注八個小時,而且,喬僅僅為此獲得約10美元的報酬。
好在2019年,出現了一個新機會:喬替一家急需標注員的新公司開展標注訓練,收入是之前的四倍。每兩周就有50名新學員在內羅畢的一棟辦公樓開始學徒期。他們給對鏡自拍照中的衣服分類,通過掃地機器人的眼睛定位其所在的房間,并在摩托車的激光雷達掃描圖上畫框。一般情況下,會有超半數的學員未完成訓練營就選擇放棄。“有些人從來不懂什么叫堅持。”他輕描淡寫地解釋道。同時,他也承認,這份工作確實單調乏味。

但至少,這是一份工作,而當地的工作機會并不多。喬已培養數百名畢業生。訓練結束后,他們回到家里獨自工作,且不得向外人透露具體內容。實際上,這也并不是什么問題,因為他們自己也對此知之甚少。為自動駕駛汽車進行數據標注還可以理解,但如果是標注一段對話片段,區分它是由機器人還是人類說出的呢?上傳自己茫然地盯著某個攝像頭的照片、咧嘴一笑的照片或者戴上摩托車頭盔的照片,這又是在做什么?每個項目都是某個較大工序的一個小小的組成部分,因此很難準確獲悉它們究竟要訓練人工智能做什么。這些項目的名稱也不會暴露任何蛛絲馬跡:螃蟹世代、鯨魚片段、林地陀螺和藥盒烤腸……都是些毫無邏輯的代號。
在內羅畢讀大學的標注員維克多曾連續工作36個小時,為照片中的人群標注肘部、膝蓋和頭部——他完全不知道為什么要這么做。他有些無奈地說:“如果我的工作讓某人成為億萬富翁,而我每周只能掙幾塊錢,我難道不是在浪費生命嗎?”此前也有報道稱,開放人工智能公司利用廉價的非洲勞動力進行數據標注,參與數據標注的工人因為長期接觸“有毒內容”,心靈受到了不可逆的傷害。
至于雇用他們的公司,大多數人只知道它叫“雷默任務”。它運營著一個面向所有英語流利者的求職網站。喬并不知道“雷默任務”其實是硅谷數據供應商“規模人工智能”下屬的子公司。規模人工智能估值數十億美元,其客戶包括開放人工智能公司和美國軍方。雷默任務和規模人工智能的網站都沒有提及對方。
| 非傳統工作 |
對于開放人工智能公司的聊天生成式預訓練轉換器(ChatGPT)等語言模型,公眾最為關注的往往是它們似乎準備自動化所有工作。然而,即使是最卓越的人工智能系統,背后也是人,是大量標注數據來訓練它并在數據混亂時整理數據的人。只有買得起數據的公司才能參與競爭,而這些公司也極有動力對數據保密。所以,除了少數例外,人們對這些塑造人工智能行為的數據知之甚少,更別提那些默默標注數據的工作者了。
喬的學生們所從事的,與傳統意義上的“工作”大相徑庭:沒有固定的時間表,沒有團隊協作,他們甚至不清楚自己的任務內容或是為誰工作。事實上,他們也很少稱之為“工作”,那只是一個個分散的“任務”,而他們是任務執行者。
當前的人工智能熱潮——幾乎能以假亂真的聊天機器人、僅憑簡單提示就能生成藝術作品的智能工具以及這些技術背后的估值數十億美元的公司——基于一項前所未有的單調而重復的勞動。

2007年,專注于研究人工智能的普林斯頓大學學者李飛 飛懷疑,要改進基于神經網絡的圖像識別技術(一種當時已持續多年無進展的機器學習方法),關鍵在于對更多數據進行訓練,即數百萬張標注圖像而不是數以萬計。問題是,她的本科生研究團隊如果要標注這么多照片,可能需要幾十年時間和數百萬美元的成本。
李飛 飛在亞馬遜的眾包平臺“機械特克”上找到了數千名來自世界各地的“工人”,他們愿意以低廉的價格完成小任務。由此產生的帶有標注的數據集“圖像網”實現了機器學習領域的一次重大突破,并推動了該領域后續十年的發展。
數據標注至今仍然是人工智能不可或缺的組成部分。公司能以盡可能低的成本收集大量的標注數據用于訓練模型。如果模型運作有效,至少理論上來講,就不再需要數據標注員了。然而實際上,數據標注的工作從未真正停止過。正如研究者所言,機器學習系統非常脆弱,極易受到那些所謂“邊緣案例”的影響而出現問題,甚至導致災難性后果。2018年,優步一輛自動駕駛測試車就因未能正確處理“行人騎自行車穿越馬路”的情境,導致一名49歲的女性被撞死。隨著越來越多的人工智能系統被用來提供法律咨詢與醫療救助,可能產生的極端情況也就越多。這就需要更多的人來對數據進行分類和整理。這一現象催生了一個全球性的行業,像喬這樣的人正利用他們獨特的人類能力來支持機器的發展。
| 標注是一門大生意 |
很多數據標注員都在訓練最前沿的聊天機器人,他們實際做的工作卻大多瑣碎又重復,旨在維持人工智能系統的正常運行。這些工作包括分類抖音視頻的情感內容、甄別垃圾郵件的新類型以及評估在線廣告的內容是否恰當等等。有的標注員則分析信用卡交易與購物行為的關聯,或檢查電商平臺推薦的效果,以判斷購買特定襯衫的顧客是否會對推薦的另一件襯衫感興趣。數據標注員的日常工作還包括糾正客服聊天機器人的回復、處理亞馬遜智能助理的請求,以及對視頻通話中的情緒進行分類。此外,他們在標注食品時需要足夠細致,以防智能冰箱在遇到新包裝時判斷失誤,還要在安防攝像頭發出警報前進行校驗,甚至幫助困惑的無人駕駛拖拉機識別玉米。
人工智能合作組織的項目和研究負責人索南·金達爾說:“業界普遍認為,數據標注并非開發工作的關鍵部分,也不認為它是長期需求。所有激動人心的部分都圍繞著構建人工智能系統展開,一旦我們構建成功,數據標注就變得無關緊要了,所以為什么要在意它呢?然而,數據標注是人工智能的基礎設施,人類智能是人工智能的基礎。我們必須認識到,數據標注是人工智能經濟中的一項真實工作,它將在一段時間內長期存在。”
在開放人工智能、谷歌和微軟等知名企業背后,有著形形色色的數據供應商。有些是私人承包商,設有類似于呼叫中心的辦公室,例如位于肯尼亞和尼泊爾的“云工廠”公司。在轉到雷默任務工作之前,喬就是在那里以每小時1.2美元的報酬做標注工作。還有像機械特克和點擊工人這樣的眾包平臺,任何人都可以注冊來做任務。此外,還有規模人工智能這樣的服務提供商,任何人都可以注冊,但都必須經過培訓、通過資格考試并接受績效評估。
標注已成為一門大生意。2021年,規模人工智能的市值已達73億美元。2016年,亞歷山大·王創立這家公司時年僅19歲,被《福布斯》稱為“最年輕的白手起家型億萬富翁”。
有業內人士透露,那些購買數據的企業要求嚴格保密,數據標注工作可能泄露太多有關正在研發的系統的信息。由于需要大量工作人員,防止信息泄露變得極其困難。數據標注員被不斷告誡不能向外界透露任何關于工作的細節,包括他們的朋友和同事在內。由于都是用的公司別名和項目代號,而且標注者的勞動分工高度細化,即便標注者想要分享工作細節,也沒有足夠的信息可供談論。很多標注員為了防止被平臺封號,會使用化名。盡管確切的人數難以估測,但可以確定的是,數據標注員的人數非常龐大,并且仍在持續增長。谷歌研究部門最新的一篇論文估計這一數字達到了“數百萬”,而且有潛力發展到“數以十億計”。
| 人工智能如何改變工作?|
自動化常常以我們意想不到的方式展開。醫療數據標注公司“半人馬實驗室”首席執行官埃里克·杜海姆回憶道,幾年前,一些頂尖機器學習工程師預言人工智能將讓放射科醫生的工作變得多余。這一預測并未成真,人們轉而開始相信放射科醫生會借助人工智能來提升工作效率。但如今,杜海姆看到的情況并非如此簡單。他指出,人工智能非常擅長處理某些具體任務,因此工作被拆分給專門的算法系統和專業人才承擔。例如,人工智能系統或許能夠發現癌癥,但可能僅限于識別來自特定類型掃描設備的特定類型圖像;所以,現在你需要有人來確認人工智能輸入的數據類型是否正確,另一人來審核人工智能的分析結果,再有一個人利用人工智能來撰寫報告,然后再將報告發送給另一個人,如此等等。“人工智能并沒有取代工作崗位,”他說,“但確實重塑了工作的組織結構。”
在新技術的未來主義光芒下,隱藏著龐大的生產裝置及其操作者。杜海姆表示,這是硅谷典型勞動分工合作的最新形式,是從工匠手藝轉變為工廠流水線工藝的數字版本:原本連貫的技藝流程被拆分成了許多小任務,在流水線上一一進行,其中一些任務由機器完成,而其他的仍然需要人力,但兩者的工作方式都已不同以往。
人們擔憂人工智能帶來全方位顛覆。對此,有一種觀點認為,人工智能會自動化某些任務,而非完整的工作,雖然工作會因此變得單調乏味,但同時人們可以投身于更有成就感和更人性化的工作。人工智能也可能像電話或打字機一樣——這些節省人力的技術在當時可是大大減輕了繁重的信息傳遞和手寫工作,同時創造了大量的通信、商務和文書工作,新辦公室需要新型員工來勝任這些工作,比如文員和打字員。所以說,當人工智能取代你的工作時,你可能不會失業,但你的工作可能會變得更加陌生、孤立和枯燥。
| 不斷轉移地點的標注工作 |
2022年底,喬開始注意到他的學生們常常抱怨無事可做。不久后,一封電子郵件告知他肯尼亞的培訓營即將被關閉。他還可以繼續在線上訓練數據標注員,但他開始擔憂自己的職業未來。他聽說標注業務正遷離肯尼亞,轉移至尼泊爾、印度和菲律賓。“這些公司將業務從一個地區轉移到另一個地區,”喬說,“它們無需在當地建基礎設施,可以靈活地將工作轉移到運營成本更低的地方。”
與手機和汽車制造業不同,人工智能行業有著極大的流動性。這項工作可以輕易而迅速地得以重新配置,轉移到勞動力技能、帶寬條件和工資水平都更理想的任何地點。
2023年5月,規模人工智能公司在自己的網站上列出數據標注職位,招募人工智能有志于征服的幾乎每個領域的優秀人才。這些人工智能培訓師具備的專業知識涵蓋健康指導、人力資源、金融、經濟、數據科學、編程、計算機科學、化學、生物學、會計、稅務、營養、物理、旅行、基礎教育、體育新聞等多個領域。你可以每小時賺45美元教機器人法律,或者每小時賺25美元教機器人詩歌。還有人專門協助訓練軍事人工智能。規模人工智能公司正在測試一款名為多諾萬的大語言模型,該模型被稱為“人工智能戰爭中的彈藥”,并已獲得美國機器人戰車項目的合同。
標注員安娜在得克薩斯州訓練聊天機器人。她希望這份工作可以成為一份長期的職業。她并不擔心因為自動化而失業。“我的意思是,它的功能令人驚嘆,”安娜在談到聊天機器人時說,“但有時,它還是會做出一些非常奇怪的事情。”
編輯:周丹丹