遲珊


伴隨著AI大模型的興起,對人工智能訓練師的需求也在持續增長。
2024年“五一”假期,不少人自駕去淄博吃燒烤,八大局、海岱樓等網紅打卡地車流激增。不過,許多司機發現,這里的道路并沒有想象中擁堵,反而路口綠燈出現頻率要比外地高。河北游客司思就是眾多體驗者之一。司思說:“跟著智行淄博APP的提示走,綠燈通過了好幾個路口,雖然路上看著車很多,但是通行起來非常順暢?!?/p>
通行暢通的背后是因為紅綠燈有了“聰明的大腦”。當地把AI大模型引入交通信號系統,利用5G技術,實時采集車流量、紅綠燈等路況信息,由AI基于實時交通狀況進行判斷并對信號燈施以自動控制。以薩技術股份有限公司研創中心人工智能部副總監盛校粼說:“就比方說有一段路其實很空,但是它還有一個30秒左右的紅燈,這個時候就可以把這個紅燈給取消掉,這樣會大大提高交通運輸的運轉效率?!?/p>
要讓AI判斷車流量大小,首先要讓它能在復雜的路口準確識別出機動車。與肉眼識別不同,工程師先要對路口監控視頻抽幀,把圖片上所有的信息進行數字化?!拔埂苯oAI足夠的數據讓其學會識別之后,它就能自動處理數據了。不過,在復雜的交通環境下,要讓AI能夠控制信號還需要更多的訓練。工程師會輸入大量的歷史交通數據,使AI積累經驗并進行模擬推演。
AI的成長,離不開一群人工智能訓練師的數據“投喂”。根據《人工智能訓練師國家職業技能標準(2021年版)》的定義,人工智能(AI)訓練師是指“使用智能訓練軟件,在人工智能產品使用過程中進行數據庫管理、算法參數設置、人機交互設計、性能測試跟蹤及其他輔助作業的人員”,工作內容包括數據采集和處理、數據標注、智能系統運維、業務分析、智能訓練、智能系統設計、培訓與指導等。
近幾年,隨著AI技術不斷發展,人工智能訓練師這個職業也逐漸壯大。作為“數字職業”之一,人工智能訓練師的出現,加速了AI由技術研發走向行業應用的過程,將產生較高的經濟價值和社會價值。
讓AI更“聰明”
“畫一幅驢肉火燒?!?/p>
人工智能訓練師趙佳明在對話框里輸入了這行文字,向生成式AI “文心一言”發出指令。
不到1秒鐘,AI就生成了一幅畫——一頭驢,站在一簇火堆旁,火燒得很旺,火里烤著一塊肉。
“你看,驢、肉、火、燒,4個要素全齊了,但這個結果讓人哭笑不得。這就是最初的,還比較‘笨,只能把你提出的幾個元素簡單機械地組合起來。而我們的工作,就是訓練AI,讓它越來越聰明,直到學會畫出真正的驢肉火燒?!闭f完,趙佳明又向AI發出同樣的指令。
這次,文心一言生成了一幅燒餅里面夾著肉的圖片。“這就是我們訓練過的AI,聰明了很多吧!”
那么,如何訓練AI呢?“就是將大量的文字、語音、圖像打上標記,AI模型識別了這些標記,就能被訓練出更強的分辨能力?!壁w佳明解釋道。
AI寫詩、編程、篩選簡歷……給AI“喂數據”,讓其“長智慧”,這是人工智能訓練師的主要工作。
然而,AI總會存在錯誤、偏差。因此,趙佳明和同事們的工作,就是使它離完美更近一步。于是,更高級別的人工智能訓練師會根據AI的表現來對其不斷進行糾正和提升,從而使其快速迭代。人工智能訓練師猶如AI的老師,通過向AI投喂海量的文本、圖像和語音等,不斷訓練和調整,使AI模型變得更聰明、更智能。
在武漢光庭信息技術股份有限公司的辦公樓里,一名人工智能訓練師正在對自動駕駛特殊場景的圖片進行標注,比如打傘的行人、非正常停放的機動車、帶雨棚的電動車等。隨后,訓練師用特定的文字、數字等數據,將標記的圖片結合,再用AI算法分析道路上可能影響車輛行駛的相關實體。
“通過對AI暫時識別不了的數據進行標注、回灌、反復‘喂養,AI的算法智商可有效提高。”該公司數據驅動研發實驗室主任郝江波解釋道,人工智能訓練師工作的過程就像教師教育學生的過程,他們需要找出學生(即AI)不會的題目,向它傳達準確的答案,然后不斷地進行訓練。
以自動駕駛中感知部分的AI為例,人工智能訓練師需要了解感知識別的類型、給予模型充足的基礎數據訓練、檢測模型在哪些場景下“看不清”,有針對性地搜集、標注好這些典型數據,給模型訓練。與此同時,人工智能訓練師還要研究智能化標注平臺,讓價值數據的挖掘和標注實施更為高效。
一個好的AI模型,不僅需要工程師搭建框架、告訴它如何學習,還需要訓練師提供具體的實踐案例、用數據“喂養”它進步。人工智能訓練師的主要職責就是為AI產品打造不同應用場景,提供各種各樣的“攻擊方式”,從而獲得數據反饋給工程師。
浪潮智能終端人工智能研發經理尹青山表示,人工智能訓練師在AI技術落地、AI產品優化中發揮著舉足輕重的作用。比如視覺類AI可以替代人工檢驗商品的瑕疵并進行分揀;智能駕駛可以識別道路上的人、車以及障礙物,然后進行自動避讓,這些都有人工智能訓練師的身影。
中國電信研究院大數據與人工智能研究所、大數據與認知計算研究中心副總監胡婕表示,當前AI大模型浪潮之下,主要人才缺口存在于訓練穩定性保障、硬件集群運維、提示詞工程以及大模型精調等環節。而人工智能訓練師們的主要工作與大模型精調環節相關?!斑@一類職業往往入門門檻不高,但是進階的天花板較高,有經驗的精調工程師能夠幫忙節省很多的算力。”
可以說,在快速發展的AI領域,人工智能訓練師很重要。
人工智能訓練師人才需求增長
近年來,我國對AI發展的機遇和頂層設計給予了高度重視,發布了多項AI支持政策。國務院于 2017 年發布了《新一代人工智能發展規劃》;科技部等6部門于 2022 年印發了《關于加快場景創新 以人工智能高水平應用促進經濟高質量發展的指導意見》;2024年,“人工智能+”首次被寫入政府工作報告。
2024年3月22日,在昇思人工智能框架峰會上,工業和信息化部科技司科技發展處王正表示,從產業規模看,截至2023年年底,我國人工智能產業規模已經形成了京津冀、長三角、珠三角三大核心發展區,核心企業的數量超過了4400個,居全球第二。
從加快新藥研發、精準預報天氣,到縮短工廠產品交付周期、提高辦公效率,越來越多的行業大模型正加快落地。截至目前,中國開發的AI大模型已經在智慧礦山、藥物研發、氣象、政務、金融、智能制造、鐵路管理等領域展現出巨大的應用潛力。據賽迪顧問發布的《2023年中國生成式AI企業應用研究》預測,2035年中國企業生成式AI(AIGC)采用率將達到85%。
AI大模型通常被用來處理大規模數據并生成復雜的輸出。這些模型通過預訓練海量語料庫數據,學習到了自然語言中的規律和模式,并在生成式任務中有出色的表現。大模型通常用于自然語言處理、圖像識別、語音識別等領域,以實現更準確的預測和決策,是具有巨大參數數量和計算能力的深度學習模型。
伴隨著AI大模型的興起,對人工智能訓練師的需求也在持續增長。無論是企業的研發部門、科研院所,還是互聯網公司、醫療健康領域、金融行業等,都需要人工智能訓練師進行數據分析和模型訓練,以實現智能化的決策和服務。
2024年開年以來,Sora的誕生給人們帶來前所未有的視覺震撼,將生成式AI的文生視頻功能提升到全新高度,這也導致了該領域的人才需求激增。數據顯示,2024年一季度,生成式AI相關職位需求同比增長超3倍。
從企業端來看,前不久,央視財經記者采訪了某家大型 AI 軟件公司負責人,該公司主要負責開發基于大模型的辦公協作類軟件,近期計劃升級一款面向程序員的代碼工具,但在拓展至移動端時候苦于人手不夠。
報道稱多數 AI 業務團隊長期處于招人狀態。招聘崗位涉及從底層算力、芯片設計,到模型訓練、商業落地等多環節、全鏈條,招到一個生成式AI崗位的平均耗時是普通崗位的兩倍左右。
不只是科技類企業,生成式AI由于商業應用廣泛,人才稀缺也蔓延到了其他行業。在一家連鎖餐飲企業,技術部門負責人表示,企業的后臺系統數據龐大,有千萬量級的客戶評價,而傳統分析方式要么不夠精準,要么耗費大量人力。企業急需利用生成式AI技術,來更精準地響應客戶評價。
未來,隨著生成式AI時代來臨,大模型向百業千行滲透,增量需求不斷釋放,人工智能訓練師的崗位需求將會越來越大。
中國新時代 2024年6期