彼得·卡佩利 普拉桑納·塔姆比 瓦萊麗·雅庫博維奇

大語言模型(Large Language Model, LLM)是在數據科學領域帶來范式變革的一項創新。它拓展了機器學習模型的能力,可以根據各種定性提示詞生成相關文本和圖像。這類工具價格昂貴且開發難度高,但是大量用戶可以既快又便宜地用其執行某些基于語言的任務,而這些任務以往必須由人工完成。
這就提出了一種可能:隨著這項技術被廣泛采用,人類的許多工作會被取而代之或大量削減,尤其是主要從事文本或代碼處理的知識密集型工作。然而在現實中,要在組織環境下有效使用大語言模型,遠比人們通常認為的更復雜。與此同時,對于知識工作者在既定崗位中要執行的全部任務,它們是否都能令人滿意地完成,尚有待證明。
大語言模型的潛在應用領域主要集中在現有信息的處理利用方面,而這些信息大多是因組織而異的。這方面的應用包括總結內容和生成報告(據調查,這占到用例的35%),以及從文本(例如包含財務信息的PDF文件)中提取信息,并據此創建表格(占用例的33%)。大語言模型還有另外一些熱門的有效利用方式,包括使用Dall-E 2等工具創建圖像,或在實際數據難以獲取時為應用程序提供合成數據,例如用于訓練亞馬遜Alexa等語音識別工具的數據。
絕大多數使用大語言模型的組織仍處于探索階段。在客戶服務、知識管理和軟件工程這三個領域,各組織開展了大量生成式AI(人工智能)的實驗。例如,奧迪公司(Audi)聘請某供應商為其構建和部署了一款基于大語言模型的定制聊天機器人,它能夠回答員工關于現有文檔、客戶詳情以及風險評估的問題。聊天機器人在各類專有數據庫中實時檢索相關信息,在可用數據不足的情況下,也會對有些問題不予作答。公司使用了亞馬遜云科技(Amazon Web Services)針對檢索增強生成(retrieval augmented generation, RAG)開發的提示工程工具,這種常見的定制化方法使用組織的專有數據,但無須修改基礎模型。
與需要有固定輸入、明確流程以及唯一正確輸出的傳統自動化工具不同,大語言模型工具的輸入和輸出都是可變的,而生成回應的流程則是一個黑箱。管理者無法像對待傳統機器那樣評估并控制這類工具。因此,在組織環境下使用這些工具之前,還有一些實際問題必須回答:由誰來決定輸入?由誰來評估輸出的質量,誰又有權限使用它?
在這一節里,我們重點討論在組織中運用大語言模型時可能遭遇的五項關鍵挑戰,以及這當中為何需要人類員工的持續參與。
1.知識獲取問題 組織會制造出自身難以處理的大量專有文字信息,包括戰略計劃書、崗位說明書、組織結構圖和工作流程圖、產品文檔、績效評估報告,諸如此類。受過這方面數據訓練的大語言模型可以給出組織此前或許無從得到的洞察。這或許是使用大語言模型帶給公司最重要的好處。
組織要想充分利用大語言模型,可以通過自有數據來源為其提供信息,生成專門針對自身需求的輸出。例如,對于企業來說,“中國消費者的關注點可能有哪些?”這個問題就不如“我們應該如何針對中國消費者調整我們的產品?”那么切中要害。為了有效回答后一個問題,大語言模型需要使用組織的專有數據。而模型回應的質量,則取決于用于訓練大語言模型的數據質量如何,是否有針對性。
組織制造的大量垃圾數據或無關數據清理起來也相當費力。因此,為大語言模型提供正確信息絕不是什么輕松任務。組織文化方面的有用知識、面向員工的調查結果,等等,都需要花不少時間才能收集和整理好。即便如此,有許多重要的知識,對于個人來說可能心知肚明,但并未記錄在案。在一項研究中,只有約11%的數據科學家報告稱,他們能夠利用所需數據對大語言模型進行微調,以給出切合組織實際的恰當答案。這個過程要花費大量資金,需要強大的處理器、數以千計的高質量訓練與驗證示例、大量工程實踐,還要持續進行更新。
在大語言模型內部還面臨著數據污染問題:如果來自組織中任何地方的劣質數據被輸入了大語言模型,它不僅會影響當前的答案,還會影響未來的回答。應當制定一套關于訓練大語言模型所用數據的管理規則,組織中也必須有人對這方面的活動加以監管。
因為定制大語言模型必須有大量的高質量數據,公司必須整理顯性知識并將其標準化,編纂成標準的操作流程、崗位說明、員工手冊、用戶指南、計算機算法以及其他的組織知識單元,以供大語言模型調用。計算機編程是顯性知識尤為重要的領域之一。在回答編程問題方面,大語言模型已經派上了很大用場,而且也有許多基于大語言模型的工具,比如,GitHub的Copilot和Hugging Face的StarCoder,都可以實時為人類程序員提供協助。一項研究表明,程序員更喜歡使用基于大語言模型的工具來編寫代碼,因為與在線搜索現有代碼并改寫相比,它們提供了更好的起點。不過,這種方法并不能提高編程工作的成功率。目前的主要問題在于,大語言模型生成的代碼還需要另外多花時間去調試和理解。
組織在知識獲取工作上遇到的困難,可能推動產生新的工作崗位,比如數據館員(data librarian),其職責是整理組織用于訓練大語言模型應用程序的專有數據。在某些場景下,這可能是至關重要的崗位。
2.輸出驗證問題 在針對編程工作的大語言模型輸出被正式應用、產生實際影響前,可以先對它的正確性和有效性進行測試。然而,大多數工作任務并不能這樣做。例如,戰略建議或營銷創意的輸出就不容易測試或驗證。對于這類任務來說,一個輸出要做到有用,只需要“足夠好”,而不用絕對正確。大語言模型給出的回答在什么時候算是足夠好?對于簡單的任務來說,具有相關知識的員工只需要讀一讀大語言模型的回答,就能自行做出判斷。
迄今為止,在是否會認真對待輸出檢查工作這件事上,用戶的表現并不理想。在一次實驗中,白領工作者可以選擇使用大語言模型完成寫作任務。那些選擇使用該工具的人,還可以選擇編輯文本后再交稿,或者不做編輯直接交稿。大多數實驗參與者選擇了后者。
在判斷大語言模型更復雜、更少見但又更重要的輸出時,如果員工缺乏所需的知識,又會發生什么?我們對所問的一些問題,可能并不清楚“足夠好”的答案是什么樣的。這就需要在評估和應用大語言模型的輸出時,有更高明的人工判別能力。
與大語言模型不同,人類員工對自己的產出負責,而過往表現出的高準確率或良好判斷力,可以讓雇主對其未來的產出情況有所預判。人類員工還可以解釋他們如何得到某些結論或做出某些決定。對于大語言模型來說,情況并非如此:每條提示詞會發送一個問題,沿著復雜路徑穿過知識庫,產生一個獨特且無法解釋的回應。此外,大語言模型會“忘記”怎么完成它們之前表現很好的任務,這就讓保證這些模型的服務質量變得很難。
說到底,還是要由人來評估大語言模型的輸出是否足夠好,而他們必須認真對待這項任務。將大語言模型的輸出與人類監督相結合的挑戰在于:在許多情況下,這個人必須對這個領域有所了解,才能評估大語言模型輸出是否具有價值。這意味著,對具體領域的知識無法“外包”給大語言模型——在將其投入使用之前,還是需要由領域內專家評估大語言模型輸出是否足夠好。
3.輸出判定問題 大語言模型擅長總結大量文本。這可能有助于為決策提供有價值的數據,并讓管理者能夠檢查關于特定主題的了解程度。例如,在過往調查中,員工對具體某項福利都有哪些看法。不過,這并不意味著大語言模型的回應比人類決策更加可靠或偏見更少:提示詞可能讓大語言模型根據同一數據得出不同結論,甚至在不同時間給相同的提示詞,其回應也可能有所不同。
這也使得組織內部各方很容易產生彼此沖突的輸出。例如,如果具有不同利益的個人或團隊想要生成支持其自身立場的大語言模型輸出,那么,領導者就要去針對這些分歧做出評判。這種挑戰在大語言模型出現之前就已經存在,只不過如今創建新內容的成本遠低于評判成本,管理者面臨著比以往任何時候都更復雜的新任務。
評判大語言模型輸出的任務是加給現有崗位還是要另設新崗,則要看學習的難易程度。認為用上了大語言模型,低級別員工就有能力承擔原本屬于高級別員工的工作,這樣的想法還是過于樂觀了。對于崗位職級體系,人們存在已久的看法是,就職者需要的是從實踐中獲得的技能和判斷力,以及處理某些工作的意向,而不僅僅是大語言模型當場給出的書本知識。長期以來的挑戰在于,如何推動管理者授權員工去多使用這些知識,而不是替他們做決策。管理者之所以不愿這樣做,更多的是因為不夠信任,而非員工缺乏知識或能力。前面已經說過,要對大語言模型的輸出做出有效評判,可能也需要具備豐富的領域內專業知識。這進一步限制了將這類任務委派給低級別員工的程度。
對于影響重大的輸出,同時解決決策權與可靠性問題的一種做法,是集中使用大語言模型。設置一個職位使用大語言模型編制組織的關鍵報告,既有助于發展對這類工具的運用能力,又能減少使用組織專有數據生成的文檔數量。
設置一個集中作業崗位以規范方式編寫報告,也有助于避免處理輸出沖突的問題,并且不用再對內容的出入做出評判。一個大語言模型辦公室完全可以自行完成穩健性測試,觀察針對數據、安全護欄和提示詞的小幅調整會如何改變輸出。這將使評判者的角色從技術層面更多轉向合規層面,因此,這個職位也就很容易作為一個信息技術崗,設置在公司的法律總顧問辦公室。
4.成本收益問題 在組織內使用大語言模型輸出的收益可能難以預測。例如,大語言模型擅長起草簡單信函,因為這些信函通常只需合乎要求即可??墒牵愃聘犊钣馄诳蛻舾嬷@種重復發送的簡單郵件,已經通過格式信函實現了自動化。而簡易機器人也已經能很好地接待客戶和其他人,引導他們找到組織推薦的解決方案(雖然未必是客戶真正想要的)。呼叫中心里針對客戶最常見問題量身定制的模板和話術腳本更是一應俱全。
一項關于客戶服務代表的研究發現,在現有的部分計算機輔助手段之外,再組合引入大語言模型和經過成功客戶互動訓練的機器學習算法,可以將問題解決率提高14%。對于這項通常被認為很適合采用大模型的工作來說,這種提升算是巨大飛躍還是微不足道,以及就成果而言,實施的成本是否值得,都還沒有定論。一項面對波士頓咨詢公司(BCG)758名咨詢師的預注冊實驗表明,GPT-4大幅提高了咨詢師在某些任務上的生產力,但在另外一些任務上顯著降低了其生產力。在這些工作中,核心任務非常適合由大語言模型完成,其提升生產力的效果雖然是實打實的,但還遠遠談不上令人印象深刻。
雖然大語言模型有可能給出比現成模板和聊天機器人更好也更精準的回應,但問題在于組織能否看到使用它們的必要性。它們可能會選擇將其用在銷售電話之類的場景中,因為這樣做可以獲得很大的收益,但可能不會用在客戶服務場景下,因為組織對于利用已有資源提高績效并沒有多大興趣。
此外,大語言模型在各種應用場景下節省的時間和成本,可能會被隨之而來的其他成本抵消。例如,將聊天機器人轉換為大語言模型是一個相當艱巨的任務,哪怕它最終能派上用場。此外,讓客戶與大語言模型支持的聊天機器人直接對話,可能會使組織面臨安全和品牌風險。無論是由人還是由大語言模型起草,重要信函或信息通常還是必須交給律師或媒體傳播專家審查,而這道程序費用高昂。
5.工作轉型問題 大語言模型將如何與員工合作?預測這個問題的答案絕非易事。首先,考慮到員工通常承擔著多項動態變化的任務和職責,接管某項任務的大語言模型無法取代整個職位,也無法取代所有單獨的細分任務??梢曰叵胍幌乱階TM的效果:雖然這些機器能夠完成銀行出納承擔的許多任務,但它們并沒有顯著減少人工數量,因為出納除了處理現金以外還有其他工作,騰出空來之后又接手了新的任務。
在任何工作流程中,是否需要大語言模型也存在著多變性和不可預測性,這個因素從根本上保住了現有工作崗位。如今的多數工作并不需要經常使用大語言模型,也很難預測它們何時會要用到。大語言模型最有可能取代的,當然是那些占用人們大部分時間但利用技術總是可以正確完成的工作。
但即使是在這類情況下,也要做一些鄭重的提醒。大語言模型會造成大量失業這一預測取決于一個隱含的假設,即工作任務可以直接在員工間重新分配。這可能適用于老式的打字組,其中所有員工都執行同樣的任務。如果小組的生產力提高了10%,就有可能重新分配工作,將打字員人數縮減10%。但是,如果員工并未組織成一個聯合小組,同時又沒有對工作場所做重大且昂貴的轉型,這種精簡就不可能實現。此外,顯而易見的是,倘若某位高管個人助理的工作效率提高了10%,我們也不可能把這個人裁掉十分之一。
相比正式雇傭來說,外包工作更容易縮減人工。如果部分外包工作可以由大語言模型來做,組織就可以通過談判,降低購買供應商外包服務的花費或時長。在規模最大的科技供應商,比如那些巨型IT外包公司那里,最常見的是大量程序員在做很方便互換的工作(就像打字組那樣),因而最有機會實現人員精簡。AI帶來的成本降低,會在多大程度上拉低客戶價格還是提高承包商利潤,仍是一個懸而未決的問題。
獨立承包商也岌岌可危。的確,承包商使用大語言模型可以比不使用時完成更多工作,但對員工來說也是如此。如果要做的工作減少了,公司可能會先削減承包商的數量,然后再裁員,因為這樣做更容易。和外包供應商一樣,公司也可以嘗試和使用大語言模型的承包商重新談一個更低的價格。初步證據表明,隨著大語言模型的引入,可以交給承包商完成的標準化零工數量大幅下降了。
還有一種可能的情況是,大語言模型可以充分提高整個組織的生產力,因此不會對特定職業造成影響,而是會影響整體的勞動力需求。這一點目前還沒有證據證實,但對于許多商業領袖來說,這可能會是一個可喜的影響,因為美國和其他地區的生產力增長都非常緩慢,還有許多雇主報告正面臨招工難。
大語言模型有一個讓人意想不到的用武之地,是在我們認為最人性化的領域:那些提供一對一反饋的工作,比如,教練、咨詢和輔導。有證據表明,在這些情境下,人們更喜歡和AI聊天機器人而不是真人打交道,至少在初次互動時是這樣,因為他們覺得這樣沒那么嚇人。
IT相關的創新歷史表明,創新的影響因工作、組織和行業而異,并且需要很長時間才能充分展現。大語言模型工具一直在變得更加容易使用,并且正在與微軟Office等廣泛應用的軟件產品相結合,這讓它有可能更快得到應用。不過,我們的討論表明,眼下大多數組織還只是在一些小范圍內嘗試使用大語言模型。
組織應該如何為大語言模型做好準備?
首先,應當制定并發布適當的使用規范。阻止員工嘗試大語言模型可能不太現實,但即使是在初期階段,也必須制定出使用大語言模型的基本規則。例如,禁止將專有數據上傳第三方大語言模型,以及披露在準備共享的任何文件中大語言模型是否會被使用、怎樣被使用。合理的使用政策必然要對員工使用公司設備和工具的方式加以約束。另一種做法則是使用像Amazon Q這樣的工具。這是一種生成式AI聊天機器人,可以專門定制,使其符合組織在大語言模型訪問權限、可用數據等方面的合理使用政策。
其次,有必要考慮組建一個中心辦公室,至少在一開始由其負責產出所有重要的大語言模型輸出,確保人們對合理使用規范的遵守,并處理數據污染等問題。中心辦公室還可以根據最佳實踐,為創建提示詞和解讀答案變化提供指導。它們還讓實現規模經濟成為可能。指定一名數據館員負責所有可用于分析的公司數據,要比讓每一位可能的用戶自行負責更加高效,也更容易管理。
至少在剛開始的時候,制定規則和行為規范需要召集一個特別工作組,其中要包含來自IT、總法律顧問辦公室和可能用戶的代表。這個工作組以及之后的中心辦公室,可以幫助應對數據管理挑戰,正是這些挑戰減緩了機器學習與數據分析的應用。作為第一步,只需要確定哪些數據尚未共享、哪些無法共享(比如說,因為其在供應商的手中),或者哪些數據尚未編碼,這將是朝著打破這些條塊以便提供更多更好信息的一大步。
第三,任何可能想要得到或需要用到大語言模型報告的人,都應該參加簡單的培訓,以了解這類工具的奇特之處——特別是它們讓人產生幻覺的能力——以及如何評估AI生成的文檔和報告。下一步則是對員工進行提示詞設計和改進方面的培訓。同樣重要的是,在使用大語言模型輸出之前,要說清楚、講明白,達到什么標準算是“足夠好”。中心辦公室可以為最適合本組織的培訓創造便利條件。
雇主應該調整未來工作的招聘標準,還是開始制訂裁員計劃?大眾媒體上關于AI將如何消滅大量工作崗位的諸般說法,會給投資人和利益相關者帶來裁撤這些崗位的壓力。提醒他們那些預測有多么不準確可能會有幫助。例如,到目前為止,關于卡車司機大多要被機器人取代的預測根本沒有發生。
從長遠來看,一旦我們摸清了將大語言模型應用于工作的各種可能方式,我們就會知道是否可以對工作進行重構,從而提升效率。急著改寫供應商合同或啟動裁員,皆非明智之舉。
技術的發展歷程表明,從長遠來看,新技術所創造的就業機會,多于其縮減的就業崗位。那些關于IT創新特別是AI會造成大量失業的預測,并沒有成為現實。工作任務分配方式的改變,通常是以緩慢的方式進行的。我們預計,大語言模型的使用會更加普遍,但并不會造成太多失業,即使在大語言模型得到廣泛使用的地方也是如此。那些認為這類工具可能全盤取代人類工作的人,必須直面這樣一個現實:大語言模型能做的簡單工作已經在某種程度上實現了自動化,在特定工作中大語言模型能做的那些最重要的任務,又可能會帶來新的任務,而想要通過重新安排現有員工的工作來找出可以裁減的冗余崗位,既不容易做到,也不劃算。技術決定論——認為技術進步是塑造社會的主要因素——是一個備受技術創造者歡迎的理論,但在技術研究者看來并沒有什么可信度。
翻譯:徐廣彤