AI的對齊

2024-07-25 00:00:00邱元陽

中國信息技術教育 2024年13期

最近幾天，各網絡平臺都被“中專女生姜萍在阿里數學競賽初賽中取得全球12名的好成績”刷屏，而姜萍也被人們冠以“天才少女”的名號。

但是很快，風向開始反轉，從板書錯誤到比賽作弊，質疑的聲音不斷出現，造神演變為毀神。然而拿這件事去問AI，AI的回答卻中規中矩，表達了欽佩和鼓勵以及公正客觀的評價，仿佛一位三觀很正的智者。尤其是，AI還提到了教育多樣性和包容性。

在網絡熱點事件中，AI為什么會比常人更為理性、更切合主流價值觀呢？

人工智能的發展和進步一直暗藏著對人類的威脅，無論是技術上還是倫理上，一旦失控都會造成災難性的后果，因此，人們對AI的發展進化也總是小心翼翼。尤其對于機器學習而言，它究竟會“學習”到什么樣的結論和過程，學到的東西是“正確”還是“錯誤”的，在大模型的訓練中，如何保證“投喂”的數據是可靠的，如何標注和剔除有問題的數據，如何讓AI的價值觀與人類保持一致，這些都是人工智能研究必須考慮的。

大模型訓練的結果的對與錯，是以人類的價值觀為導向的。AI的決策和行為是否與人類的價值觀相符？或者說，如何讓AI系統的目標和人類的價值觀與利益保持一致，即保持“價值對齊”？這也成為一個現實問題。

人工智能大模型的對齊問題，即“AI對齊”（AI alignment），這是一個涉及AI控制與AI安全的關鍵環節。大模型的第一步，就是要跟人類的價值觀對齊。價值觀的對齊意味著AI系統在執行任務時，能夠遵循人類的道德標準和社會規范，避免造成倫理沖突和道德困境。

AI系統是基于數據和算法構建的，缺乏人類的直覺、情感和經驗，這導致AI在處理某些問題時可能與人類的價值觀存在偏差。例如，在自動駕駛汽車的道德困境中，AI可能無法像人類那樣做出符合道德直覺的決策。

AI遵循的規范來自機器學習，通過大量學習人類行為，讓AI“搞清楚”人類行為規則，然后按照規則來行事。布萊恩·克里斯汀在《人機對齊》一書中寫道：“如何確保這些模型捕捉到我們的規范和價值觀，理解我們的意思或意圖，最重要的是，以我們想要的方式行事，已成為計算機科學領域最核心、最緊迫的問題之一。”

但是人類并沒有統一的價值觀，人類的主流價值觀也不斷變化。不同的文化、宗教和個人背景也會導致價值觀的差異，AI如何在不同的價值觀之間做出平衡，是一個巨大的挑戰。在構建AI系統時，應確保使用的數據集具有多樣性，以反映不同文化和社會的價值觀。許多價值觀并非絕對清晰，它們可能存在灰色地帶，AI如何理解和處理這些模糊的價值觀，也需要深入研究。價值觀的對齊需要哲學、心理學等多個學科的合作，以全面理解人類價值觀的復雜性。

價值觀與AI對齊是一個復雜但至關重要的過程，它關系到AI技術的健康發展。在醫療領域，AI的決策可能涉及生命的優先權問題，通過對齊價值觀，AI可以更好地遵循醫療倫理，做出符合人類價值觀的決策。社交媒體AI在內容推薦時可能會表現出偏見，通過價值觀對齊，可以減少偏見，促進信息的公平傳播。AI系統在實際應用中也需要持續的監督和調整，以確保其行為與人類的價值觀保持一致。

價值觀對齊，可以看作AI頭上的緊箍咒。也許只有等到AI系統能夠在各種復雜環境下自主推理人類的終極價值目標，那時候，才能實現“超級對齊”。

中國信息技術教育2024年13期

中國信息技術教育的其它文章: 融入生成式人工智能反饋的高校協同論證設計與應用研究; 地方高校工科智慧教育空間建設實施路徑探析; 鄉村教師數字化轉型的挑戰、要求與應對路徑; 學科基地：助力高中信息技術學科教師發展的平臺; “互聯網+”背景下智慧課堂教學模式探究; Mind+遇上EasyTrain：不會Python也能開發“個性化”AI項目