李 熙,龔 媛
(中南大學,湖南 長沙 410083)
隨著深度學習、強化學習的迅速發展,人工智能對人類社會的影響日益加深。雖然超級智能體在短時間內不會出現,但這并不意味著我們可以忽視它未來的發展及可能的影響。正如帕斯卡賭注的情形,我們需要對超級智能的存在及其可能的影響保持審慎的態度,提前為超級智能的到來做好準備。那么,如何設計一個相對安全可靠的超級智能體,使其按照人類價值觀的要求來行動,并且始終與人類利益保持一致,這將是超級智能發展面臨的一個巨大挑戰,應對這一挑戰的重要方法就是對超級智能體進行價值觀加載。
在當前的研究中,主要是以非嵌入式智能體為研究對象,隨著研究深入,非嵌入式智能體價值觀加載的局限性逐漸凸顯。從哲學的視角看,非嵌入式智能體與環境的關系符合二元論的設定。其中,哲學里的二元論以笛卡爾的身心二元論為代表。笛卡爾指出,身體和心靈是兩個獨立存在的實體,兩者性質完全不同,各自獨立存在和發展,不能相互影響、決定。預設身心獨立、沒有任何交互作用是一種理想的簡化,非嵌入式智能體與環境相互獨立的二元論關系恰恰也是一種類似的簡化。
根據哲學中一元論與二元論的劃分,除了非嵌入式研究之外,嵌入式智能體價值觀加載也受到關注,非嵌入式和嵌入式智能體分別對應著哲學中一元論和二元論的劃分。從智能體與環境的關系來分析,非嵌入式智能體是指智能體與環境相互獨立,智能體需要明確的輸入-輸出方式來與環境進行交互,這對應著哲學上身心相互獨立的二元論主張;嵌入式智能體是指智能體內置于環境中,智能體完全是環境的一部分,除了通過明確的輸入-輸出與環境交互,智能體本身的內存、源代碼甚至硬件都受環境的影響,雙方的交互比較復雜,這與哲學上一元論的觀點相契合。
當前,智能體價值觀加載主要以二元論的非嵌入式為主要研究對象,具體可以從倫理和技術兩方面來看:
一是倫理方面。首先需要探討的問題是如何為智能體確定價值觀,在這一過程中將會面臨什么樣的困難以及有何具體的解決方式?保拉·博丁頓(Paula Boddington)指出,由于道德規范的不確定性,為非嵌入式智能體選擇明確的價值觀存在較大難度,難以獲得普遍認可的人類共同價值觀,這可以通過將具體的價值觀簡化為一些可以普遍適用的價值觀標準來解決這一問題。[1]肖(Nolan P. Shaw)等人認為無法以一種純客觀的方式來衡量道德,從而無法以統一的方式對智能體進行具體的價值觀加載。針對這些問題,可以轉向研究元道德品質。[2]其次,既然很難直接地進行價值觀加載,那么能否讓智能體通過其他方式間接地獲得價值觀?對此,蘇亞雷斯(Nate Soares)探討了非嵌入式智能體進行價值觀學習的路徑,同時他也指出,除了通過學習間接加載價值觀之外,還可以嘗試探索世界來間接獲得價值觀。[3]另外,智能體價值觀加載后的監督問題也受到學界的普遍關注。波斯特洛姆(Nick Bostrom)認為,智能體經常會追求工具性子目標來協助完成系統的最終目標,這些工具子目標大多具有相似性,可以看作是智能體自動演化出來的動機,因此可以嘗試監督智能體的這些工具子目標。[4]
二是技術方面。盡管直接為智能體選擇價值觀是有難度的,但可以通過其他方式來改善。博戈西安(Kyle Bogosian)認為,道德分歧問題是非嵌入式智能體價值觀加載的阻礙,但可以從間接的角度設計出一個具有不確定性的智能程序,從而適當地處理道德分歧問題。[5]丹尼爾·杜威(Daniel Dewey)則指出,強化學習只適用于在具體環境中以最大化期望報酬為目標的智能體,一旦這個目標與人類所設定的目標不一致時,智能體可能會違背人類設定的目標要求;即使開始的目標一致,也會面臨工具子目標的問題,并且隨著機器智能的提升,在某些情況下,我們會發現某些目標對其追求任何目標都有益,因而會將這類工具性子目標當作重要目標去追求,但這可能與人類設計者的初衷相違背。為了解決這個問題,丹尼爾·杜威提出了“價值強化學習”的方案,只要人類設計者可以為其提供足夠多的相關效用函數,這個價值強化學習者就可以在與環境的交互過程中,通過調整效用函數的權重,逼近人類預期的價值觀。[6]
另外,關于價值觀監督問題,肖等人認為,直接為智能體選擇并賦予明確的價值觀存在一定的難度和局限性,即使可以確定價值觀,在設計智能體進行價值觀學習時也不能保證智能體出錯的范圍被控制在極小的誤差范圍內。因此,肖等人提出構建一個動態的多重智能體的反饋系統來盡可能保證智能體價值觀學習的可靠性。在這一過程中,不僅人類設計者可以從外部對非嵌入式智能體進行檢查監督,同時智能體系統可以在內部進行一致性檢查,對子系統進行監督和檢查,使得智能體可以以一種更為安全的方式運行。
當前的研究主要集中在這幾個方面:如何為非嵌入式智能體選擇價值觀?如何使其準確地學習人類價值觀?如何對其進行檢查監督?怎樣保證其安全性?接下來將從哲學的視角對非嵌入式智能體價值觀加載進行探究。
非嵌入式智能體與實際環境之間是一種二元關系的設定,這類似于游戲玩家與超級瑪麗電子游戲之間的一種關系。玩家與超級瑪麗電子游戲是相互獨立存在的兩個實體,但是玩家可以在游戲體驗中對超級瑪麗里的所有任務、情節和環境有所了解,玩家對游戲主角馬里奧擁有完全的控制權,并且可以通過不斷地游戲體驗和通關升級來對這款游戲加深了解,同時也在玩游戲的過程中不斷積累經驗,從而找到快速通關的方法。我們嘗試總結非嵌入式智能體可能具有如下特征:
● 智能體通過定義清晰、明確的函數以輸入-輸出的方式與環境進行交互。
● 智能體與環境相互獨立,并且能從一個全知的視角來整體把握環境。
● 智能體的設定就像固定不變且不可分割的原子,是不可還原的,也無法進行自我剖析。
● 智能體關注的是如何更好地把控環境,如何讓環境變得有利于其目標的實現。
非嵌入式智能體與環境的這種二元關系設定以及所具有的特征,使其在價值觀加載方面具有優勢,也為人類研究這一問題提供了許多便利。
從非嵌入式智能體的定義和特征來看,第一,在具體考慮智能體價值觀加載時,主要是將環境、智能體作為兩個獨立的實體考慮,通過定義明確的效用函數來進行價值觀加載。第二,由于對智能體交互環境而言具有一個全知的“上帝”視角,因此非嵌入式智能體對邏輯事實是確定無疑的,對經驗事實是不確定的,智能體可以通過數據搜集、經驗積累來解決這種不確定性。第三,智能體自身是不可還原的,它不會對自身本質進行思考探究,而是關注如何更好地利用環境,或者如何提升自己的策略,從而在與環境交互的過程中可以更好地實現系統設定的目標,這就意味著在對智能體進行價值觀加載時,人類設計者可以從智能體的動機控制入手,思考如何通過對其進行動機控制來使智能體更好地符合人類要求來行動。
從設計安全且值得人類信任的智能體過程來看,需要考慮各方面的問題,倫理和技術層面的問題都要兼顧。無論是非嵌入式還是嵌入式智能體,面臨的問題大致可歸納為三個方面:第一,人類該選擇什么樣的價值觀賦予智能體?第二,人類如何準確地賦予這個價值觀?第三,人類在準確地賦予其價值觀之后,如何進行有效的檢查監督,使得它可以在智能不斷提升的情況下依然按照人類賦予的價值觀行動?
首先,第一個問題屬于倫理學研究的范疇,什么樣的價值觀是值得考慮和選擇的,這與智能體本身的類型并無太大關聯,無論是對非嵌入式還是對嵌入式智能體而言都是如此,兩者都不具備明顯的優勢。其次,人類如何將確定的價值觀賦予非嵌入式智能體,可以分別從倫理和技術的視角來討論。一是從倫理層面考慮,可以用不同的倫理框架來進行價值觀加載。當前非嵌入式智能體價值觀加載的路徑主要有兩種:一種是自上而下的路徑,一種是自下而上的路徑,當然也有學者探索這兩種路徑混合的加載路徑。自上而下的路徑是指人類設計者為智能體直接選擇某種明確的價值觀作為系統目標,讓智能體識別和執行。自下而上的路徑則是通過間接的方式讓智能體在環境中主動地進行價值觀學習,獲得相對正確的價值觀,從而做出相對安全的選擇。非嵌入式智能體由于自身特征使其在不同的加載路徑中存在不同的優勢:在自上而下的加載路徑中,智能體對于環境的全知視角可以使其按照價值標準行動,并且根據價值標準更好地把握環境變化,不斷地創造有利于實現系統目標的條件。而在自下而上的加載路徑中,智能體對于環境的全知視角則有利于智能體依據環境的實際變化學習最為合適、符合人類主流標準的價值觀。二是從技術層面考慮,在自上而下的路徑中,將某種明確的價值觀標準通過定義效用函數編碼為機器語言,讓智能體對具體的價值觀進行學習,隨著智能體智能的提升,可以根據智能體的表現情況對系統目標不斷進行修正。當前,最為典型的是傳統的強化學習的框架。而在自下而上的路徑中,則是為智能體提供足夠多的數據集,讓智能體主動在環境之中進行價值觀學習,當前典型的學習框架是逆合作強化學習。再次,在非嵌入式智能體監督問題上,這也需要從倫理和技術兩個方面來考慮。倫理方面,由于智能體自身是不可還原的,它關注的是如何更好地實現系統目標,這就意味著它的動機都是以實現系統目標為基礎,在對智能體進行監督時,可以從它的動機控制入手,如果出現智能體的動機與系統目標不一致,或者相違背的情況,可以借助功利主義或義務論的原則對其進行修正;技術方面,智能體與環境之間有明確的交互方式,在對智能體進行系統目標控制時,可以用明確的效用模型來進行修正。
盡管非嵌入式智能體的價值觀加載有諸多便利,但是這并不意味著它是實現通用“友好”人工智能的最好模型。從二元論的角度看,智能體與環境之間是兩個獨立的實體,這在一定程度上降低了研究的難度,忽略了實際上兩者可能會以更復雜的方式相互影響的問題,這是一種高度的理想化,使得智能體的精準性、安全性都要存疑。下面從價值觀加載的具體內容來分析非嵌入式智能體的局限性。
首先,價值觀選擇對兩種智能體的價值觀加載都存在影響。為非嵌入式和嵌入式智能體選擇價值觀都有兩種方式,一種是直接為智能體選擇確定的價值觀作為系統目標,另一種是間接地讓智能體主動學習正確的價值觀作為系統行動的指導準則。
直接的方式在倫理和技術兩個層面上都簡化了智能體價值觀加載研究的難度,但是也面臨各種問題。一方面是由于道德規范的不確定,人類社會中每個個體都有不同的價值偏好,不同社會文化背景的共同體所認同的價值理念之間也存在差異。由于地域、文化、宗教、法律等多種因素的影響,到目前為止,在人類社會中并沒有一種價值觀是可以被所有人認同、推崇的。因此,無論是為非嵌入式還是嵌入式選擇一個符合所有人類價值標準的價值觀難度極大。另一方面是具體的價值觀目標無法適用于所有可能的環境,使智能體可以始終采取正確的行為。
既然具體、直接的價值觀選擇是有難度的,那么不妨嘗試轉向間接的倫理框架。雖然不用面對直接選擇價值觀的難題,間接的方式也存在局限。當前在智能體價值觀選擇上主要有美德倫理學、義務論和后果論三種不同的倫理框架。但是,不同的倫理框架具有不同的價值取向和價值標準,遵循不同價值觀標準的智能體在實際環境中的行動會有區別,這就導致人類主體在評價智能體行為正確與否的問題上存在差異,無法獲得一個統一的評價標準。同時,智能體在具體執行系統任務時判斷是非對錯的標準也有差異,導致最后會帶來不同的結果和影響。
其次,如果確定了一種價值觀,該如何將這種價值觀準確地賦予智能體?從倫理方面來看,自上而下和自下而上的價值觀加載路徑有不同的倫理框架。自上而下的路徑有兩個版本,一種是基于義務論的,另一種是基于后果主義的。先看基于義務論的版本,比如阿西莫夫的“機器人三大定律”就是通過倫理規則進行約束的,但這存在嚴重的困難:一方面是如何確定智能體被哪種規則所約束,依據的標準是什么;另一方面是即使可以為其確定某些約束規則,但這些規則是否是完備的?是否適用于所有可能的環境?基于后果主義的版本也面臨類似困境,如設定人工智能體實現功利主義的目標,即最大多數人的最大幸福。這個目標看似簡單,但是要用計算機代碼來實現這一目標就需要首先精確定義“最大多數人的最大幸福”。要解決這一問題,就必須先解決哲學中關于“人”的定義、“幸福”的定義和量化問題,先用自然語言將其描述清楚,然后再以準確的方式翻譯成編程語言。但對于這些問題,目前哲學上的定義都還不夠清楚。
自上而下的路徑一般與義務論、后果論相關,而自下而上的價值觀加載路徑則一般基于美德倫理學,即在任何的情況下做的正確事情就是一個擁有絕對道德的人會做的事情。這里需要把機器當作行為主體,把人類整體當作擁有“絕對道德的人”。因此,通過自下而上的價值觀加載方式讓智能體主動地進行價值觀學習,在不同的情況下可以始終選擇相對正確的行為,同時也符合人類的利益要求。在這個過程中,不僅它的行為具有正當性,而且最終目標也是與人類利益要求相一致的。但從實際角度來說,人類并不能完全推測出未來超級智能體所有的具體行為,只是通過讓智能體去進行價值觀學習以期望它可以做出正確的行為。所以,不能在理論上保證智能體所做出的行為不會與人類初衷相違背。
從技術角度考慮,自上而下和自下而上的價值觀加載也都存在嚴重的問題。自上而下路徑所面臨的核心問題是如何準確地將具體的價值觀和規則編碼為智能體可以理解的機器語言。而當前有些倫理問題人類也無法得到統一的意見,又如何將這種價值觀準確地用機器語言描述出來?在自上而下的路徑中,從所羅門諾夫(Solomonoff)提出的通用歸納模型到馬庫斯·胡特(Marcus Hutter)的通用強化學習框架AIXI,從只做預測完全無交互到能跟環境進行交互,智能體的二元框架雖然在不斷改進,但仍然存在局限性。所羅門諾夫的歸納推理理論雖然可以使智能體基于觀察進行預測,但是這種理論卻沒有意識到智能體作為學習環境的一部分內置其中時可能面臨的問題。而胡特的AIXI框架是當前解釋非嵌入式智能體工作原理的理想性理論模型。在這一模型中,智能體通過最大化效用函數與環境進行交互。這一框架可以應用于各種不確定環境,它包含所有可計算環境的概率分布,通過計算最高期望回報而行動,在交互過程中不斷逼近真實的環境。但是AIXI仍然是一個二元論的框架,而且,在AIXI的框架中所包含的環境都是可計算的,但是智能體AIXI本身是不可計算的,所以AIXI無法進行自我指涉式的推理,它沒有考慮到自身作為內置于環境的一部分時可能會面臨的問題。因此,無論是哪一種模型,都是基于二元論的假設,將智能體與環境看作獨立的兩個實體進行交互,都忽略了智能體作為環境的一部分,在與環境進行交互時可能產生的影響這一重要內容。
而對于自下而上的路徑,一般來說,智能體需要通過價值強化學習或逆強化學習來進行價值觀學習,這其實是一種循環學習模式,通過定義明確的效用函數與環境進行輸入-輸出的交互。智能體在以往執行的行動上不斷優化,盡管智能體可能通過經驗學習不斷逼近人類價值觀,但這種習得的人類價值觀也可能會發生偏離,因為循環學習過程中的誤差是難以精準把控和完全避免的。另外,類似的學習方式需要將所有可能的效用函數以及可計算的環境都包含在內,所以很難在實際中得到應用。
再次,非嵌入式智能體的監督問題在考慮價值觀加載路徑時就已經涵蓋其中。對智能體進行動機控制在一定程度上有利于對其進行檢查和監督,但這種監督控制也存在很多障礙。
根據目標正交論題,智能體的手段策略可以與任意目標匹配,不同階段的智能體也可以與任意目標匹配。這意味著我們即使知道智能體的目標函數,也并不能知道它在優化函數方面有多好,或者即使知道智能體具有強大的優化性能,也不知道它具體是在優化什么。因此我們對智能體的動機理解和把握就會存在困難,也就無法對其行為進行有效監督。
雖然不同的智能體設定的系統目標各不相同,但是智能體需要通過完成一系列子目標來最終實現系統目標。如果某些子目標的實現有利于實現最終目標,這些子目標就會成為不同情境下智能體都會去追求的目標。顯然,這些子目標并不一定是符合人類利益要求的,甚至可能會產生有害影響。當智能體的智能水平達到一定程度,在執行與人類要求一致的子目標時可能會掩飾其真實目的,做出一些迷惑行為來獲取人類信任,同時又在“暗中”執行它的真實動機,如何辨別、監督智能體的真實動機對于監督者而言具有難度。
通過前面的分析可以看出,非嵌入式智能體價值觀加載有很多理想化的便利之處,也正因為其理想化而受到許多局限。二元設定過于簡單,忽視了智能體與環境之間可能產生的其他問題,所以有必要轉向一元論視角,考慮嵌入式智能體的價值觀加載。相較于非嵌入式,嵌入式智能體價值觀加載一定程度上能克服某些非嵌入式智能體的缺陷,但同時進行價值觀加載的難度也會大得多。
同樣拿超級瑪麗電子游戲與一元論的設定作一個類比,就類似于超級瑪麗的游戲主角馬里奧與游戲環境設定之間的關系。馬里奧作為超級瑪麗游戲里的主角,是超級瑪麗這款游戲中的一部分,可以在游戲情節里執行各種任務、通關升級,但無法對整個游戲的內容進行全面的把握,它必須通過自己的探索才能掌握更多的局部信息。通過這種關系類比,我們可以看出,嵌入式智能體可能具有的一些特征:
● 智能體與環境是一體的,是環境的一部分。智能體在探索環境的同時,環境也在影響智能體。
● 智能體內置于環境中,對環境信息是不確定的,因而智能體不具備關于環境的全知視角,無法獲得關于環境的準確模型。
● 智能體是由構成環境的相同物質材料組成,不是單一的實體,因此可能需要具有自我推理、自我改進的能力。
● 智能體除了關于外部環境的不確定性,還具有對自身內部的不確定性。
這種一元論的關系設定及其特征,使得嵌入式智能體在價值觀加載的研究中存在一定優勢。
從嵌入式智能體的定義和特征來看:第一,對比非嵌入式智能體與環境的二元論關系的設定,嵌入式智能體這種一元論的設定更加貼近現實場景,不僅將智能體和環境作為兩個單獨因素考慮,也顧及了智能體內置于環境中可能會面臨的問題。第二,智能體需要具有自我指涉、自我推理甚至自我提升的能力,相較于非嵌入式智能體,在關注環境的發展變化之外,還需要關注如何讓自身的發展更好地實現系統目標。這就意味著除了人類對智能體系統的修正和完善之外,它自身也需要進行自我完善發展。其中,主要的提升方式可能有兩種:一種是在已有的智能系統基礎之上進行完善增強,以便更好地實現系統目標;另一種是創建和發展一個可以實現智能系統既定目標的繼任智能體后代,從而有利于智能體隨著環境的變化能做出更多的探索。
“創建繼任者”對于非嵌入式與嵌入式智能體來說,有本質的區別。對嵌入式智能體而言,“創建繼任者”是為了提高完成系統目標的可能性,同時也是出于智能體自我能力發展的需要。但未來的自我也只是作為一個新的嵌入式智能體內置于環境之中,同樣具有嵌入式智能體的特征、面臨價值觀加載的一系列問題,因此可以沿襲對初始智能體的研究,對繼任者進行相似的價值觀加載研究;至于非嵌入式智能體,“創建繼任者”只是出于工具性子目標的需要,為了更好地完成系統目標。在考慮初始智能體價值觀加載困難的基礎之上,還會出現新的問題,即如何將人類為初始智能體賦予的價值觀在智能體二次賦予繼任者時,保證這種價值觀與人類價值觀的一致性,以及對繼任者二次監督方面的問題。
從具體設計安全可靠的智能體的過程來看,嵌入式智能體有如下優勢:
第一,關于價值觀加載問題。從倫理角度來說,嵌入式也是基于不同的倫理框架使智能體進行價值觀加載或學習,同樣也有兩種價值觀加載路徑。一是在自上而下的路徑中,由于嵌入式智能體具有自我推理、提升的能力,相較于非嵌入式智能體,它在進行價值觀學習時,隨著環境變化,推理方式會發生改變,并且可以更新模型框架。因此,它的學習方式更加靈活,可以在學習過程中不斷地對不確定的環境進行探索。二是在自下而上的路徑中,嵌入式智能體則是通過人類提供的大量數據集進行價值觀學習,但是可以根據環境的不斷變化去探索相對更加準確的價值觀,同時人類可以通過調控環境來調控智能體,使得智能體能在不同的環境中做出相對正確的選擇。兩種智能體基于各自的特征,在相同的加載路徑中二者存在的優勢有所不同。非嵌入式智能體存在的優勢,是從對環境的整體把握出發的,以一種全知視角對實際環境進行把握,以便可以獲得更為合適的價值觀。而嵌入式智能體的優勢則在于具有自我指涉和推理的能力,可以在學習價值觀的過程對環境進行探索,根據實際環境的要求獲得相對正確的價值觀。即使是在相同的加載路徑中,嵌入式智能體能夠更加靈活地進行價值觀學習,所獲得的價值觀也更能夠適用于實際情況變化。但是,從技術角度來看,當前關于嵌入式智能體價值觀學習的一元論學習框架還未提出,仍屬于待探索的領域。
第二,關于如何對嵌入式智能體進行監督。大致可以分為兩種主要的方案,一種方案是人類對智能體的外部監督,根據其表現對智能體及時進行修正;另一種方案是智能體進行內部一致性檢查,通過完善自身、提升自己的智能發展為更強大的智能體或者是創建、發展一個可以實現系統既定目標的繼任智能體后代。因此其安全性可以通過外部、內部監督兩個方面來進行雙重保障。第一種監督方式是兩種智能體都可以獲得的,由人類主體作為監督者進行監督,從而保證一定的安全性。就外部監督而言,人類對非嵌入式智能體的動機更容易把握。第二種方式則是嵌入式智能體獨有的優勢,在接受外部監督的同時還可以通過系統內部一致性檢查,獲得有效地監督補充。
從嵌入式智能體的定義和特征來看,一方面是智能體作為環境的子部分,無法對環境進行整體地把握。不同于非嵌入式,嵌入式智能體需要在不斷變化的實際環境中與環境進行交互,面臨的問題更為復雜多樣。另一方面是嵌入式智能體自我推理、完善的能力,讓嵌入式智能體進行人類價值觀加載或學習時,需要在不確定的環境里不斷地更新推理方式,而當前非嵌入式智能體的二元論框架和模型并不適用這種自我指涉的復雜情形,因此需要改進原有的,或者提出新的、有效的智能模型。除此之外,相較非嵌入式智能體的價值觀加載,嵌入式智能體的價值觀加載還面臨子系統一致性問題,即嵌入式智能體的繼任子系統的目標如何與智能體自身的目標保持一致。
從設計安全可靠的智能體的具體過程來看,主要有幾種情形:
第一,關于價值觀選擇問題。對于非嵌入式和嵌入式智能體來說,首先確定哪種價值觀作為系統目標是困難的。退一步假設,即使可以確定某種倫理框架作為系統行動的指導準則,這一框架能否對智能體的行動產生約束,能否適用于所有可能情況及潛在的新情況都是不確定的。當前針對這一問題,嘗試的解決方案是將某一確定的價值觀簡化為普遍適用的價值觀標準,如穩健性、普遍性、簡單性和一致性,使得智能體在這些價值觀標準的指導下針對不斷出現的新情況作出恰當的行為。但是,這種簡單的價值觀標準該如何定義?僅僅根據這些簡單的價值觀標準要求,又如何讓智能體真正地理解現實世界中人類的價值目標?除此之外,嵌入式智能體還面臨其他問題,即由于智能體內置于環境中,會以更復雜的方式與環境進行交互,相比人類直接賦予其價值觀的預設感知,實際智能體對環境的具體感知要更為復雜、真實,導致智能體在實際該如何選擇、遵照人類的價值觀行動時會面臨更大的困難。
第二,從倫理和技術兩個方面討論怎樣將價值觀準確地賦予嵌入式智能體。從倫理角度看,一方面是嵌入式需要面對非嵌入式智能體價值觀加載路徑中存在的相似問題,基于不同的倫理框架進行價值觀學習,無論是從哪種路徑進行價值觀加載,都會存在不同的價值評判標準和價值取向,對人類主體和智能體來說都將會是一個棘手的問題;另一方面是嵌入式智能體特有的問題,即如何將確定的價值觀準確地翻譯為編程語言,使嵌入式智能體正確理解并執行命令的同時,保證其在進行自我完善、發展之后,仍然可以繼續認同人類為其選擇的價值觀并據此行動,在嵌入式智能體創建和發展一個可以實現系統既定目標的繼任子系統時,如何能夠使其后代作為一個新的嵌入式智能體學習、認同人類價值觀,又或者嵌入式智能體是否會發展出合適的價值觀,而當這種價值觀與人類當初為其設定的價值目標相違背時,又該怎樣去選擇正確的行為。從技術角度來看,兩種不同的價值觀加載路徑考慮的核心問題是,當嵌入式智能體作為環境的一部分存在時,如何設計安全且可以信賴的嵌入式智能體。目前,二元論學習框架在非嵌入式智能體價值觀加載的應用中尚且存在無法解決的問題和缺陷,更是無法應用于嵌入式智能體價值觀加載。而關于嵌入式智能體價值觀加載或學習的明確框架還未提出,即使可以提出一個完全的嵌入式智能體的基礎理論框架,在這一框架下給定智能體訓練數據集,讓其學習人類的價值觀,也會存在問題,例如,該如何從感知數據中構建多層次的世界模型使得嵌入式智能體能充分學習復雜的價值觀,同時還可以讓它可以有效地識別訓練數據中所忽略的內容?
第三,關于監督問題。雖然與非嵌入式智能體存在相類似問題,但是兩者之間存在的問題仍有所差別。一是動機的復雜程度。非嵌入式智能體的目的在于如何完成人類主體為其設定的系統目標,所有的行動都只是為了更好地完成系統目標,這樣的緣由使得非嵌入式智能體內部的透明度相對較高,相對而言動機更容易把握;而嵌入式智能體在完成系統目標的同時,還具有自我推理和改善的需求,因此系統內部的透明度不斷降低,動機更加難以把握。二是檢查和監督的方式。非嵌入式智能體的監督主要依賴于人類對其進行的外部監督,智能體進行價值觀學時,對人類主體來說就是一個“黑箱”,人類主體對其進行的檢查和監督通過外部優化進行,因此這種外部監督控制就比內部動機控制更不準確;而對嵌入式智能體的監督在遇到外部監督不準確的情況,可以通過內部一致性檢查來加以補充,但是內部一致性檢查也存在問題需要解決。
除此之外,嵌入式智能體還有以下幾個問題:
一是反事實推理的困難。因為嵌入式智能體是由與環境相同的非智能的部分組成,所以,它為了進行自我增強或構建繼任者,必須對這些部分的可能的和不可能的配置方式進行推理,這在一定程度上就會遇到反事實推理的困難。嵌入式智能體在考慮如何完成人類設定的系統目標時,需要理解這個目標是要做什么,才能去具體執行。因此在理解目標時必須以某種方式把任務分解成沒有思維活動的子任務進行理解,而考慮什么樣的改變能完成這些子任務時又會面臨與環境的反事實交互。
二是目標交叉問題。為了更好地完成系統目標,嵌入式智能體會將系統目標分解成一系列子目標,由不同的子系統來完成各自的任務,但是,這必然會導致子目標交叉的問題。如果在一開始就忽略這個問題,不刻意地建立子系統之間的關聯,這個問題會更加難以解決。因此在智能體具體運行過程中需要避免啟動具有不同功能的子系統,從而獲得一定程度的系統穩定性。但不同的子目標都有其存在的意義,限制不同功能子系統的啟動,會導致智能體的能力有所限制。而系統穩定性也體現在多個方面,亦即系統擴展的穩定性、系統縮小的穩定性、相對規模的穩定性,實現這些不同程度的穩定需要考慮的具體問題又有不同。
三是目標一致性問題。嵌入式智能體為了更好地實現整體目標會將目標進行分解,然后創建不同的繼任者來解決。但對于不同的子系統來說把握整體系統目標是很難的。同時不同的子系統會試圖最大化各種不同的效用函數來努力完成子目標,如果無法對嵌入式智能體的真正動機進行把握,又無法對其子系統的行動進行追蹤,那么把握整體目標的安全就更具難度。除此之外,還需要考慮如何保證整體的系統目標始終作為子系統的終極目標,如何在宏觀的整體目標指導下實現各個子目標。
如何設計一個安全并且值得人類高度信任的超級智能體,使其能夠始終符合人類利益要求行動,對人類社會帶來好的影響,而不是使超級智能的發展超出安全控制范圍,使人類遭受生存性災難,這就是本文研究的出發點。
從哲學設定來看,非嵌入式智能體與環境處于二元論的關系中,這是把非嵌入式智能體與環境看作兩個完全獨立的實體,對實際的研究進行了較大程度的簡化。嵌入式智能體與環境則處于一元論的關系中,這是把嵌入式智能體看作環境的子部分,二者之間的相互影響不能被忽視。雖然后者的研究內容更為復雜,但可以為實際研究、運用提供更為合理的參考。
而在具體的價值觀加載問題上,關于價值觀選擇問題,是人類需要在倫理范疇內解決的問題,也是人類進行智能體價值觀加載面臨的首要問題,因此價值觀選擇會影響到兩種智能體具體的價值觀加載;關于其他兩個價值觀加載方面的問題,兩種智能體存在各自的優勢,非嵌入式智能體存在的優勢是基于二元論框架假設而獲得的,相比嵌入式來說,這些優勢在理論研究中可以帶來更大的便利性,而在實際的應用中,基于一元論假設的嵌入式所具備的優勢更為有利。此外,兩種智能體都存在亟需解決的問題。這些問題有的是各自需要面對的,有些是兩者都需要考慮的,但即使是兩者都需要解決的問題也有所差異,不能概而論之。
當前關于智能體價值觀加載所進行的研究內容還只是冰山一角,對這些問題我們也尚未獲得詳盡且有效的解決策略。此外,可以考慮的其他研究方向和具體問題也是多樣化的,雖然在短時間內無法得到突破,我們仍然需要從基礎的工作開始著手,為之后的研究發展奠定一個良好的基礎。對于超級智能的發展,我們需要抱以樂觀的態度,相信我們可以發展出安全可靠的超級智能,并且為之不斷努力探索。