最近幾天,各網絡平臺都被“中專女生姜萍在阿里數學競賽初賽中取得全球12名的好成績”刷屏,而姜萍也被人們冠以“天才少女”的名號。
但是很快,風向開始反轉,從板書錯誤到比賽作弊,質疑的聲音不斷出現,造神演變為毀神。然而拿這件事去問AI,AI的回答卻中規中矩,表達了欽佩和鼓勵以及公正客觀的評價,仿佛一位三觀很正的智者。尤其是,AI還提到了教育多樣性和包容性。
在網絡熱點事件中,AI為什么會比常人更為理性、更切合主流價值觀呢?
人工智能的發展和進步一直暗藏著對人類的威脅,無論是技術上還是倫理上,一旦失控都會造成災難性的后果,因此,人們對AI的發展進化也總是小心翼翼。尤其對于機器學習而言,它究竟會“學習”到什么樣的結論和過程,學到的東西是“正確”還是“錯誤”的,在大模型的訓練中,如何保證“投喂”的數據是可靠的,如何標注和剔除有問題的數據,如何讓AI的價值觀與人類保持一致,這些都是人工智能研究必須考慮的。
大模型訓練的結果的對與錯,是以人類的價值觀為導向的。AI的決策和行為是否與人類的價值觀相符?或者說,如何讓AI系統的目標和人類的價值觀與利益保持一致,即保持“價值對齊”?這也成為一個現實問題。
人工智能大模型的對齊問題,即“AI對齊”(AI alignment),這是一個涉及AI控制與AI安全的關鍵環節。大模型的第一步,就是要跟人類的價值觀對齊。價值觀的對齊意味著AI系統在執行任務時,能夠遵循人類的道德標準和社會規范,避免造成倫理沖突和道德困境。
AI系統是基于數據和算法構建的,缺乏人類的直覺、情感和經驗,這導致AI在處理某些問題時可能與人類的價值觀存在偏差。例如,在自動駕駛汽車的道德困境中,AI可能無法像人類那樣做出符合道德直覺的決策。
AI遵循的規范來自機器學習,通過大量學習人類行為,讓AI“搞清楚”人類行為規則,然后按照規則來行事。布萊恩·克里斯汀在《人機對齊》一書中寫道:“如何確保這些模型捕捉到我們的規范和價值觀,理解我們的意思或意圖,最重要的是,以我們想要的方式行事,已成為計算機科學領域最核心、最緊迫的問題之一。”
但是人類并沒有統一的價值觀,人類的主流價值觀也不斷變化。不同的文化、宗教和個人背景也會導致價值觀的差異,AI如何在不同的價值觀之間做出平衡,是一個巨大的挑戰。在構建AI系統時,應確保使用的數據集具有多樣性,以反映不同文化和社會的價值觀。許多價值觀并非絕對清晰,它們可能存在灰色地帶,AI如何理解和處理這些模糊的價值觀,也需要深入研究。價值觀的對齊需要哲學、心理學等多個學科的合作,以全面理解人類價值觀的復雜性。
價值觀與AI對齊是一個復雜但至關重要的過程,它關系到AI技術的健康發展。在醫療領域,AI的決策可能涉及生命的優先權問題,通過對齊價值觀,AI可以更好地遵循醫療倫理,做出符合人類價值觀的決策。社交媒體AI在內容推薦時可能會表現出偏見,通過價值觀對齊,可以減少偏見,促進信息的公平傳播。AI系統在實際應用中也需要持續的監督和調整,以確保其行為與人類的價值觀保持一致。
價值觀對齊,可以看作AI頭上的緊箍咒。也許只有等到AI系統能夠在各種復雜環境下自主推理人類的終極價值目標,那時候,才能實現“超級對齊”。