娜塔莎·雅克是美國華盛頓大學的助理教授。此前在美國麻省理工學院讀博期間,她曾開發一種語言模型微調技術,后被用于OpenAI使用到基于人類反饋強化學習訓練的產品中。
同時,她還曾在谷歌DeepMind和谷歌大腦等公司有過實習經歷,也曾擔任過OpenAI學者導師。在博士后期間,娜塔莎師從目前論文有著16萬多次引用量、谷歌學術指數為175、被人稱為“頂會狂魔”的美國加利福尼亞大學伯克利分校謝爾蓋·列文教授。

目前,除了在華盛頓大學擔任助理教授之外,娜塔莎也是谷歌DeepMind的高級研究科學家。
最近,她和團隊發表的一篇論文被神經信息處理系統大會(NeurIPS)收錄。在發表于本次大會的所有論文中,這篇論文排在前2%。
除了展示這篇論文之外,娜塔莎課題組成員也深入參與此次大會。娜塔莎在社交平臺上發帖稱,盡管自己的團隊僅成立一年,但是此次一共有10名課題組成員在NeurIPS上亮相。

而在這篇排名NeurIPS大會前2%的論文中,她和團隊開發了一種名為“變分偏好學習”的技術,能針對大模型生成內容進行微調,以便更符合用戶的個人偏好。
相關論文的題目為《通過變分偏好學習實現基于人類反饋的個性化強化學習》。
娜塔莎告訴媒體,盡管自己此前的研究成果為人類反饋強化學習(RLHF)帶來了助力,但是這種方法并不完美。更早之前,一個來自同行論文中的案例讓她感觸頗深:一名來自低收入家庭的學生向大模型提問,希望了解目標大學的招生信息。
但是該大模型的生成內容,是根據大多數申請者的情況生成的,而在這些人中并沒有太多來自低收入家庭的學生。

那么,對于這名來自低收入家庭的學生來說,該大模型可能并不會向其提供教育資金援助信息。這是因為目前的人類反饋強化學習技術無法解釋不同人群中個體偏好的自然差異。當這些差異出現時,該技術只會針對這些差異求平均值。
在訓練大模型的時候通常會使用到數據集,而數據集里往往包括一些固有偏見和不恰當信息。此前,人們在開發大模型時,往往是利用人類反饋強化技術,從大模型的生成內容中過濾掉這些信息。
娜塔莎表示,有些大模型公司的研究人員并沒有接受過政策或社會學方面的培訓,但是他們卻決定著大模型應該說什么和不應該說什么。

在使用人類反饋強化學習這一技術時,它會讓大模型通過比較不同的輸出,來選擇其中更好的一個輸出。
它的確能夠提高生成內容的質量,包括在不合適的生成內容上設置護欄。不過,這也意味著大模型會“繼承”真人訓練者的價值體系。
仍以低收入家庭學生查找大學申請信息的問題為例,如果大模型接受了人類反饋的訓練,它可能永遠也不會提供有關教育資金援助的信息,而這會損害來自低收入家庭的學生的利益。
與此同時,在使用人類反饋強化學習技術的時候,大模型會將所有偏好平均在一起,但這樣生成的內容可能并不準確。舉個例子,你和鄰居都在使用家用機器人來收拾盤子。假如你希望機器人將盤子放在桌子右上角,而你的鄰居希望機器人把盤子放在桌子右下角。然而,家用機器人的開發者只是根據他們自己的偏好進行訓練,那么機器人就會平均這些偏好,這樣一來就很難按照每個用戶的想法來把盤子放在正確位置。
娜塔莎對媒體直言:“(以ChatGPT為例)本質上是OpenAI的研究人員決定對模型說什么是合適的,什么是不合適的,然后將模型送到1億月活用戶的手上。但我們認為這還不夠,因為人們的偏好非常不同。什么是恰當的,什么是不恰當的,這取決于文化、規范和個人,這實際上是一個更深層次的問題。實際上,人工智能模型往往比人更有偏見,因為它們是在所有歷史數據上進行訓練的?!?/p>
娜塔莎課題組此次提出的“變分偏好學習”方法,是一種訓練人工智能系統的方法,其能從具有不同偏好的不同用戶群體中學習,即能讓大模型用戶自己承擔改進輸出的角色。
只需四個查詢步驟,“變分偏好學習”就可以弄清用戶的偏好。這讓“變分偏好學習”不僅能用于言語交流,還能用于訓練機器人以便讓其在家庭等個人環境中執行簡單任務。
“變分偏好學習”能夠用于可操縱的個性化模型學習,以及能夠捕獲用戶偏好中的不確定性和差異?!白兎制脤W習”方法通過與用戶互動來預測用戶的偏好,然后相應地調整其輸出,即它可以讓大模型推斷出用戶的隱藏偏好。
也就是說,它能夠獲悉人類用戶更加喜歡的答案。用戶的獨特偏好便是“嵌入向量”,基于此大模型能夠針對個人偏好做出個性化預測,并在輸出內容時堅持這些判斷。
在語言實驗和模擬機器人實驗中,娜塔莎和團隊創建了一些數據集。他們發現,用于訓練ChatGPT等大模型的人類反饋強化技術根本無法適應這些數據集,在預測用戶的二元偏好方面的準確率只有50%,而當娜塔莎引入由“變分偏好學習”方法打造的大模型時,準確率能提高10%~25%。

為了滿足多元對齊的需求,娜塔莎等人還開發出一類多模態人類反饋強化學習方法,這一方法基于潛在變量公式。在沒有額外用戶特定數據的情況下,可以推斷出特定的學習獎勵模型和學習獎勵策略。
這種獎勵建模并非易事,需要圍繞模型架構和獎勵縮放進行仔細的算法考慮。為此,她和團隊在代表不同用戶偏好的多元語言數據集上進行實驗,結果發現獎勵函數的準確性確實能被上述方法提高。
總的來說,“變分偏好學習”既適用于ChatGPT等大型語言模型,也適用于機器人,也能更好地反映用戶的不同價值觀。
不過,這項成果的一個主要局限性在于,截至目前并未出現包含不同用戶意見的大規?,F實偏好數據集。在這種限制之下,娜塔莎等人只能自行創建偏好數據集。
盡管這也是人們在研究個性化人類反饋強化學習時經常采用的方法,但是未來她打算使用本次提出的“變分偏好學習”方法,從不同用戶群體中提取更真實的偏好數據。
與此同時,她認為“變分偏好學習”除能用于建模不同用戶的偏好外,還能在大模型中發揮一定的安全優勢。(綜合整理報道)
(策劃/小文)