■徐英瑾
人工智能專題【三篇】
【編者按】國務院不久前印發的《新一代人工智能發展規劃》,從戰略態勢、總體要求、重點任務、資源配置、保障措施和組織實施共六個方面,為我國人工智能的發展指出明確的方向并做出科學的規劃,在社會各界引起巨大反響和熱烈討論。為此,我刊組織三篇以人工智能為主題的文章,從不同角度闡發人工智能的發展已經或可能出現的問題。徐英瑾指出當代人工智能主流算法存在的缺陷,應該從伽達默爾對“成見”的理解中汲取思想資源,并主動吸納心理學關于捷思法的研究成果,這對具體的科學問題提供的哲學參考;蔡恒進長期從事軟件教學與研究,不僅指出人工智能發展的關鍵是找到“認知坎陷”,還對其必需的人文環境和教育模式給出了實質性建議;高奇琦、張結斌則從政治學視角對人工智能可能帶來的失業問題提出前瞻性意見。三篇文章從微觀到宏觀,既有對現有科學問題的考察,又有對未來社會問題的關切,充分體現了人工智能的發展是一項復雜的系統工程,需要我們高度重視,并充分思考其對方方面面的深度影響。
伽達默爾的“成見”觀、捷思法與人工智能
■徐英瑾
伽達默爾;成見;捷思法;人工智能
按照通常人的理解,人類設計人工智能系統的初衷之一,就是利用這些系統運作的 “客觀性”,來消除人類決策過程中難以避免的種種偏見或者成見。譬如,根據大多數人的期望,人工智能系統應當能夠幫助人類法官在審理案件的過程中更好地檢查證據鏈的融貫性,或者量刑的合適性,以免人類的主觀偏見使得判案出現偏差,等等。但是,從哲學角度看,這樣的俗常見解預先已在所謂“主觀成見”與所謂“客觀見解”之間劃下了楚河漢界,并在此基礎上賦予了前者以負面價值。然而,這樣的預設是否經得起哲學的仔細推敲,則依然值得深入探討。
德國哲學家伽達默爾(Hans-Georg Gadamer)在其名著《真理與方法》中便明確地挑戰了上述預設:
在理性的絕對自我構造的觀念下,被表現為“有限制的前見”的東西,其實屬于歷史實在本身。如果我們想要正確地對待人類的有限的歷史的存在方式,那么我們就必須為“前見”概念根本恢復榮譽,并承認合理的前見的存在。[1](P355)
這里需要指出的是,伽達默爾在此所說的“前見”,就是平時我們所說的“成見”或者“偏見”。但為了肅清觀察賦予“成見”一詞的種種負面情緒,他寧可使用平時人們較少使用的“前見”一詞,其德文為“Vorurteil”,其中“vor”這個前綴表示“前”,而“Urteil”這個詞干表示“判斷”。不過,由于“Vorurteil”的拉丁文形式為“prae-judicium”,而后者的在英文中的對應詞正好是“prejudice”(即漢語中所說的“成見”直接對應的英文詞),因此,在下文的正面敘述中,筆者將不再區分“前見”與“成見”這兩個提法。
有的讀者或許會說,僅僅用不那么帶有貶義的“前見”來替換帶有更多貶義的“成見”,就想徹底“洗白”我們對于“成見”的種種負面看法,這樣的論證恐怕很難服人。然而,更為認真地閱讀《真理與方法》的文本,卻可以使我們確信,在伽達默爾的上述引文背后,其實至少有兩個論證來支持他的觀點。下面便是筆者根據自己的理解,對伽達默爾相關思想的重構。
論證一:1.任何詮釋活動都必須依賴于一些自身不需要被反復檢驗的前提,否則相關的詮釋活動都無法避免“元語言層面上解釋資源不足”的困境;2.如果我們按照啟蒙主義者的要求,對所有詮釋活動的前提都按照理性的最高標準加以檢驗的話,那么我們就不得不陷入“元語言層面上解釋資源不足”的困境;3.所以,為了避免陷入上述困境,我們就不能認為所有的前見都是有問題的;4.但我們也必須承認:某些詮釋活動的結果的確是錯誤的,而其之所以錯誤,就是因為它所依賴的前提是錯誤的;5.所以,出于立論穩妥性的考慮,我們就必須承認:至少有一部分所謂“成見”是豁免于理性檢驗程序的審查的。
論證二:1.個體理性是有局限性的(譬如,在知識范圍、推理能力與決策時間方面的種種局限);2.所以,“訴諸集體智慧”就是在個體理性遭遇“決策信息資源不足”問題時不可避免地采用的一種策略;3.集體智慧本身就往往是“歷史權威”的代名詞;4.因此,個體的社會人對于權威的接受本身,就是某種“認可集體智慧”的社會心理機制作用的結果,并且是為了應對個體決策資源不足而不得不采取的措施——而并不像偏狹的啟蒙主義者認為的那樣,意味著對于理性的全面拋棄;5.這種對于權威的接受活動本身就意味著“前見—成見”的最根本來源;6.所以,對于“前見—成見”的采取,乃是個體為了應對資源不足問題而不得不采取的措施。
在筆者看來,伽達默爾的上述觀點(嚴格來說,是筆者所重構的伽氏觀點)雖然沒有直接涉及今日如火如荼的人工智能研究,卻在客觀上觸及了任何人工智能系統的設計都難以回避的兩個問題。
第一,系統運行的原始數據的來源問題。我們知道,任何計算系統的運作都需要人類社會“喂入”初始數據,而這些數據很難不體現特定工作領域人類的“權威”或者“成見”。換言之,如果任何個體人類的詮釋活動都無法脫離“成見”而存在(這是前述“論證一”所指出的),那么,對于以任何一種技術路徑為依托的人工智能系統而言,其運作也無法脫離人類成見的預先介入,故而,從某種意義上說,人工智能系統只是人類成見的“自動加工器”而已。由此看來,向機器“喂入”怎樣的成見以使得其后續運作的產出能夠符合人類用戶的需求,也便成為所有的人工智能系統設計者都必須面對的一個重要課題。
第二,系統自身的運行資源有限性問題。具體而言,無論是運算能力如何強大的人工智能系統,它依賴的信息資源與計算資源都是有限的,因此,一個足夠智慧的系統就應當能夠根據某種既定的“捷思法”,以便從既有的歷史資源——即伽達默爾所說的“權威”——中獲得啟發,以最終減少系統的計算負擔(關于“捷思法”的討論詳后)。從這個角度看,前述“論證二”對于人類個體之理性有限性的提示,就具有了一種兼及人造機器的普遍性意義。
不過,盡管伽達默爾對于“成見”重要性的辯護具有向人工智能系統設計的領域延伸的潛在價值,對于大多數的人工智能工作者來說,伽達默爾的詮釋學依然是一種相對陌生的思想資源。同時,由于伽達默爾本人的文本寫作方式過于依賴純粹人文領域內的學術經典,他對二戰后認知心理學對于其立論的某種潛在的“補充說明”作用,也缺乏相應的自覺。而依據筆者淺見,伽達默爾立論中最為粗疏之處,便是忽略了:(甲)決策資源相對匱乏的社會個體在訴諸“集智”時,其實并不總是按照某種單一的路徑來紓解信息匱乏的問題的——相反,可能會導致具有不同算法特征的不同“捷思法”在不同語境中被激活;(乙)某種更為廣泛的“集智”也將包含單個的信息處理系統自身的微觀運行歷史,而伽達默爾的立論則過分強調來自社會共同體的集體權威與社會共同體的宏觀運作歷史。從這個角度看,要將伽達默爾的哲學洞見與人工智能研究的工程學實踐相互打通,我們還需要一個中介理論層面的介入,這就是認知心理學對于所謂“捷思法”的研究。這也就構成了本文討論的基本路線圖:先通過深挖心理學界對于“捷思法”的研究的哲學意義來夯實伽達默爾的“成見”觀的經驗內容,再反過來“拷問”人工智能的現有研究路徑。
在專業的理論心理學研究中,“成見”并不是一個被廣泛使用的術語。一個與之密切相關的術語是“捷思法”,英文為“heuristic”,有“發現”、“找到”的意思。需要指出的是,盡管這個詞在中國現行的大多數心理學與人工智能文獻中都被譯為“啟發式算法”,但依據筆者淺見,這個譯法不如“捷思法”更能抓住英文原詞的真正含義。非常粗略地說,“捷思法”就是某些特定的推理竅門,以便幫助信息處理系統能夠在資源相對匱乏的情況下也可以給出問題的答案。雖然這些竅門一方面既不能保證其運作符合邏輯與概率論的要求,另一方面也并不保證輸出的解是“最優解”,但在吉仁澤(Gerd Gigerenzer)等心理學家看來,“捷思法”的存在能夠使相關的信息處理系統以最節儉的方式輸出適應性的行為,因此其存在是符合自然選擇的原理的(我們知道,自然選擇并不關心生物體的信念是否是精確的,而只關心其信念是否能夠滿足其生存的需要)。①
而“捷思法”之所以與我們前面討論的“前見—成見”相關,也恰恰是因為它與“前見—成見”一樣,均由于強調“節儉性”而或多或少地違背了啟蒙主義者對理性思維的種種規范性要求(因為對于這些規范的全面落實,往往會逼迫智能體以更不“節儉”的方式付出更大的計算資源)。此外,種種“捷思法”的存在本身,也為個體在決策匱乏的情況下汲取“集智”或“社會權威見解”提供了具體的心理操作路徑。
為了更直觀地說明“捷思法”的特點,筆者將詳細討論三種經常在心理學文獻里提到的“捷思法”,并分別提示它們各自與規范理性要求之間的張力。
錨定捷思法大體是指這樣一種心理現象:人們往往依賴對事物的第一印象來作出決策,卻對有關該事物的后續情報表示相對的麻木,或即使作出了某些偏離于被錨定印象的策略調整,調整的幅度也要小于正確決策所需要的幅度。站在啟蒙主義者的立場上看,“錨定效應”顯然是種種不合理偏見的一個重要源泉,因為該效應無法使決策者根據環境的變化迅速調整決策的方向,并由此陷入各種推理陷阱。比如,商家先將某種汽車的初始定價定得很高,以便為消費者設定某種“錨定效應”,爾后再削價讓消費者更容易接受新價格——盡管新價格可能依然是超出了商品自身的價值。很顯然,正是因為錨定效應的存在,才使得消費者更容易注意到離原價格較近的新標價,而不是離原價更遠的商品實際價格。更有甚者,心理學家特沃斯基(Amos Tversky)與卡內門(Daniel Kahneman)還根據心理學測試的結果指出:“錨定效應”使得被試者在計算長數列的乘積時,更容易注意到數列中的前幾個數字而忽略數列中的后幾個數,并由此在估算乘積總數的測驗中獲得低分。[2]②
然而,只要我們調整一下自身的評價坐標系,啟蒙主義者對錨定效應的這種批評意見就未必站得住腳了。我們不妨將問題反過來想:如果一個智能體不使用錨定捷思法,那么其信息處理進程又當是如何的呢?答案就只有一個了:在得到汽車的任何一次報價后,始終期待著下一次報價,并忽略每次報價之間的先后關系。但在筆者看來,在決策的時間資源不足的情況下,這樣的決策方式并不能帶來決策系統對于環境的“適應性”。我們不妨再來假設這樣一種情況:汽車經銷商的每次報價之間的時間間隔是1分鐘,而且總的報價次數是10次。這樣的話,一種不受錨定效應影響的信息處理系統,必須花費至少10分鐘才能夠完成關于“是否接受出價”的決策。但如果系統得到的決策時間只有5分鐘的話,這樣的系統顯然沒有辦法完成相關的決策任務。與之相對比,基于錨定捷思法而運作的決策系統,卻完全可能在如此巨大的時間壓力下完成類似的任務,盡管其輸出的解未必是最優解,但這總比沒有任何輸出要好。
啟蒙主義者可能會辯駁說,對于錨定效應的依賴,分明已經讓不少人在市場上受到了奸商的誆騙,或在計算數列時給出了錯誤得離譜的答案。難道一種得到啟蒙精神滋養的成熟心靈,就應當甘于受到種種基于錨定效應的社會愚弄機制的操控嗎?
對此,筆者的意見是,在市場上受到虛假報價的愚弄當然不是什么好事,但考慮到如下兩個理由,筆者并不認為,對于這些愚弄的擺脫,需要我們付出拋棄以錨定效應為代表的種種認知成見的代價。理由(甲):利用錨定效應而去誤導受眾認知的社會機制,是在人類特定歷史發展階段而出現的新事物,而在此之前,在漫長的人類演化史中,錨定效應已經幫助人類解決了與生存有關的各種決策問題。因此,僅僅因為某種心理學效應可能產生的負面效果而否認其產生的整體利益,乃是不明智的。理由(乙):在實際生活中,對于汽車實際價格的了解,其實并不是來自于啟蒙主義者看重的某種毫無成見滲入的客觀計算,而是依然來自于特定專業領域內的“權威見解”。而對于這種權威見解的消化過程,很可能也帶有某種更深層次的錨定效應。比如,某位汽車界業內人士的對于某款汽車的內部報價,也會在聽者那里產生錨定效應,并由此使得其從經銷商那里聽到的報價造成的心理效應被大大沖淡了。由此看來,那些在市場上能夠作出更多正確決策的成功人士之所以成功,很可能也并不是因為他們的決策過程并沒有受到錨定效應的影響,而是因為,由于純粹的偶然原因,第一次進入他們心智的情報的確具有較高的情報價值。
大致而言,在這種捷思法的幫助下,如果心理主體被要求對兩個事件的發生概率進行評估的話,那個相關示例更容易在記憶中被喚起的事件,往往更容易受到心理主體的偏好。譬如前面所提到的特沃斯基與卡內門,提出的另一個在認知心理學文獻中廣為引用的案例。如果懂英文的人被問及這樣一個問題:“在英文單詞中,以字母‘k’開頭的單詞多,還是以字母‘k’為第三個字母的單詞多?”大多數被試者都會認定“以字母‘k’開頭的單詞多”,盡管實際答案是“以字母‘k’為第三個字母的單詞多”。而大多數被試者之所以那么想,顯然是因為“以字母‘k’為第一個字母的單詞”更容易在記憶中被喚起。[3]而在新聞媒體的運作中,不少從業人員也利用這種捷思法設置思維陷阱,誘使公眾認為那些更具“新聞價值”的事件要比其實際上更具普遍性。
對于該捷思法的產生機制,不同的學者有不同的看法。譬如,特沃斯基與卡內門就在前面引用的關于單詞數量估計的實驗報告中認為,“以字母‘k’開頭的單詞”的數量之所以被大多數被試者高估,就是因為在歷史上,他們實際調用此類單詞的頻率的確比較高。而施瓦茨(Robert Schwarz)等人則給出了不同的診斷意見。在他們看來,對于相關事項的信息提取的難易度才是使得“以字母‘k’開頭的單詞”勝出的關鍵因素:因為它們顯然要比“以字母‘k’為自身第三個字母的單詞”更容易被提取到工作記憶之中。[4]
不過,無論對這種捷思法的哪一種解釋是正確的,啟蒙主義者肯定不會在健全的理性思維方式中為基于“可獲取性”的心智算法預留空間。其理由也是非常明顯的:在他們看來,這樣的算法會引導我們對于事件發生的概率作出錯誤的估計,并由此配置錯資源。比如,醫療部門就可能由于受到此種捷思法的影響,低估某些不那么容易想到的疾病風險,并由此作出對公眾整體健康前景不利的決策。啟蒙主義者或許還會補充說:哪些事項更容易在記憶中被喚起,乃是一個非常偶然的心理學現象,僅僅從這種偶然的線索出發就作出對于世界的實際狀態的評估,實在是太不負責了。
對于啟蒙主義者的這種見解,筆者的回應是:“偶然性”并不是心智構架中可以被完全排除的因素。具體而言,如果一個心智系統的長期記憶地址儲藏的信息數量已經遠遠超出其工作記憶的最大容量,那么,這樣的智能系統就必須具有某種特定的算法,以便只把長期記憶庫中與當下任務有“相關性”的信息引入其工作記憶池。很顯然,在特定的時間壓力下,為了判斷長期記憶庫中的哪些信息與當下任務“相關”、哪些又“不相關”,系統就只能按照系統運作的內部特征來確立相關的篩選標準。譬如,根據相關事項在歷史上被調用的頻率,或根據調用這些事項的簡易程度。但顯而易見的是,系統內部的運作邏輯與外部世界的運作邏輯之間存在天然的差異,對于外部世界而言,這些經由系統內部運行歷史而形成的內部參數的配置顯然帶有某種“偶然性”。但反過來看,若沒有任何一種武斷的、偶然的內部信息篩選標準,系統也就無法在浩瀚的信息海洋中找到方向,進而也就無法對外界作出任何回應。由此我們甚至可以設想:倘若我們為了杜絕各種偶然因素的“干擾”,而強制一個信息處理系統在不依賴“可獲取性”的捷思法的前提下去進行推理活動,那么,這個信息系統的工作進程又將如何呢?很顯然,在面對“在英文單詞中,以字母‘k’開頭的單詞多,還是以字母‘k’為第三個字母的單詞多”這樣的問題時,啟蒙主義者偏好的那類信息處理系統,只能傻乎乎地將兩類字母從頭到尾都數一遍,此類工作需要的時間資源與信息資源,顯然都是驚人的。
當然,面對筆者的這種批評,啟蒙主義者或許會這樣繼續為自己辯白說:“這樣的信息處理過程固然耗時,但總比倉促地得出一個明顯的錯誤結論來得好。”但這里必須要提出的一個更深的問題是:對于面臨巨大生存壓力的先民而言,知道“以字母‘k’為第三個字母的單詞”的數量,的確多于“以字母‘k’為首的單詞”,到底有什么價值呢?從概率論角度看,這樣的問題顯然都涉及對于兩類對象的“基礎比率”的比對問題(所謂基礎比率,就是指一類對象在所有統計學對象中占據的百分比),因此它涉及的只是某種非常抽象的知識罷了。但生存斗爭首先是關于個體及其行動的,而上述這類抽象知識除非通過某些“中項”的過渡機制而進入實踐推理,否則就難以兌現為個體的實際行動,并由此增強其適應性。
為了理解這一點,我們不妨再來思考一個與“估字母數”的案例平行,但更具演化論氣息的新案例:對于一個原始人的生存而言,他更需要獲知的是“被蚊子叮咬而死的原始人是否多于被劍齒虎攻擊的原始人”這一問題的答案,還是“到底是被劍齒虎攻擊更容易死,還是被蚊子叮咬更容易死”這一問題的答案呢?很明顯,前一問題采用了基本比率的格式后,后一問題則采用了后驗概率的格式,一個理智正常的原始人顯然應該對后一個問題的答案更感興趣,因為對于前一個問題的知識,其實是無法指導原始人在面對真實的劍齒虎時該怎么做的(這又是因為:“劍齒虎所吃掉的人占據的基本比率”的高低,在數值上無涉于“在遇到劍齒虎攻擊后原始人的生存率”的高低)。從這個角度看,基于“可獲取性的”心智算法之所以會在面對“估單詞數量”這樣的任務時“出丑”,恐怕也是因為這樣的任務已經脫離了自然選擇面對的原始環境,而不具有與人類生存的直接關聯性了。
根據該心智算法,如果兩個對象對主體而言,一個是比較熟悉,而另一個則難以辨識,那么,更容易被辨識者就會被估測為具有更高的價值。下面的心理學測驗,則為這種捷思法的運作提供了具體的案例。假設有這樣一張考卷,考卷上有一列由美國城市名字構成的對子,如“史普林菲爾德—舊金山”、“芝加哥—小石城”,等等??忌娜蝿眨闶菑拿總€對子里找出城市居民比較多的那個城市(在此期間任何考生不允許參考任何書籍以及網絡上的相關信息),考官則根據考生的答對率進行判分?,F在我們將考生的考卷分為兩組:中國學生的答卷與美國學生的答卷。你猜哪一組的平均分會更高一點呢?
很多人都會認為美國的學生考分會高一點,因為在他們看來,美國學生總要比中國學生更熟悉美國城市的情況。然而,這個看法其實是有失偏頗的。作為一個大國,美國的行政區劃以及相關的人口情況異常復雜,即使是一般的美國人,也僅僅是“聽說過”不少城市的名字而已,并不太清楚所有城市的人口規模。而作為中國學生,事情就要相對簡單一點。他們做題的時候遵循的是一條非常簡單的“捷思法”:凡是中國人容易辨識出的美國城市,一般都是大城市,而大城市一般人口就多??傊?,面對兩個城市的名字“二選一”的時候,選那個看起來眼熟的地名就是了。而或許讓人感到驚訝的是,這種看似“簡單粗暴”的解題思路,成功率卻相當了得。譬如,德國心理學家吉仁澤與其合作伙伴真做了這個實驗,由于他是德國人,他當然是以德國大學生——而不是中國大學生——作為美國大學生的對照組,結果發現,德國學生的平均成績明顯要比美國學生好;而當別的研究者以“兩個英國足球隊中的哪一個會在聯賽中獲得更好的成績”為問題,分別測試土耳其的學生和英國本土的學生后,他們同樣驚訝地發現:答案正確率高的,再一次是相對不熟悉英國本土情況的土耳其人。[5](P43-44)簡言之,將正面的屬性(如人口多、體育強等)指派給你相對熟悉的地名,便是在上面的實驗中德國學生與土耳其學生得以打敗其美英本土競爭者的“制勝捷思法”。
關于辨識的捷思法的存在,無疑對啟蒙主義者的理性觀提出了更大的挑戰,因為與前幾種捷思法不同,人類對此類捷思法的運用,并沒有導致明顯的錯誤輸出。更值得玩味的是,對于此類捷思法的使用體現出某種“多即少”(more is less)的效應,即“知道的多,反而猜對的少”。啟蒙主義者的理性觀顯然是難以解釋這種“多即少”效應,因為在啟蒙主義者看來,“多獲取各方面的情報”恰恰就是避免主觀偏見的有效途徑。而依據基于個體信息處理資源之有限性的考量,這種“多即少”效應卻很容易得到解釋:當一個人對某個對象O有比較豐富(但卻遠遠談不上完整的)知識的時候,“可辨識度”這一指標就會被淹沒在大量的其他指標中,而失去了“第一向導”的作用。在這種情況下,被試者就不得不對大量指標與目標屬性之間的關聯進行逐一排查,由此即降低了信息處理的效率(這是由考慮的參數增多引起的),又降低了信息處理結果的品質(這是由于考慮的參數彼此之間的沖突引起的)。
由于篇幅的限制,在本節中正面涉及的“捷思法”便主要是以上這些。③現在,我們有必要從一個更抽象的角度來評估這三種“捷思法”的共性,這就是:三者都是對系統內部運行的歷史都有一種間接表征,并由此在一定程度上體現了系統的運行過程中的“歷史智慧”。具體而言,在錨定捷思法中,第一印象的時間優先性本身就意味著某種微觀意義上的歷史權威;而在關于“可獲取性”的捷思法中,某種通過調用數據的既有習慣構成的歷史路徑,則成為指導心理主體調取當下數據的隱蔽歷史權威;與之類似,在關于“辨識”的思捷法之中,心理主體對于被辨識對象的辨識歷史,則構成了其猜測相關對象之內在價值的主要依據。換言之,上述捷思法在人類思維中的廣泛運用,恰恰證明,人類是一種依據從歷史累積而成的思維習慣,從而與“未來之不確定性”進行戰斗的智慧存在者。
從一個更宏觀的角度來看,心理學界對上述這些捷思法的研究成果,既印證了前節提及的伽達默爾的“成見”觀,又對其作出了有力的補充,相互印證之處體現在,二者都對人類個體的理性有限性以及其對于歷史權威的依賴性,作出了重要的提示;而捷思法研究對于伽氏之論的補充價值,則又體現于此類研究揭示的一個要點:在人類共同體的集體智慧與個體的實時決策活動之間,決策個體的自身的心理史必然會起到某種重要的中介作用。譬如,在錨定捷思法中,來自社會群體一端的某種權威信息,很可能就是以“錨定印象”的方式進入個體的心理運作歷史,并對后繼的相關決策活動產生影響。從這個角度看,在伽氏的論述框架中初步呈現出來的“社會—個體”二元關系,還需要通過認知心理學話語框架的重述機制,而進一步細化為某種自上而下的四層結構:社會權威(群體歷史)、心理架構對于社會信息的提取裝置、個體心理習慣(個體歷史)、當下決策活動。很明顯,在這種四層次結構中,本節提到的種種“捷思法”,便為個體與集體智慧意義上的歷史權威之間的聯系管道提供了大量的實現手段,同時也為種種“成見”的產生,提供了一種具有初步技術細節的說明。
通過上面的分析,讀者很容易產生這樣一種期望:通過“對于捷思法的算法化”這一重要的環節,我們就可以很容易地將伽氏的哲學洞見引入人工智能的工程設計。然而,真實的情況卻并沒有這么簡單。正如下節要揭示的那樣,目下人工智能發展的令人遺憾的現實便是,人工智能界的主流,并沒有主動地吸納心理學界關于捷思法的研究成果。
對于筆者在上節末尾給出的這番評論,熟悉人工智能發展情況的讀者或許會感到驚訝:難道“捷思法”(heuristic)不也正是在人工智能領域廣泛使用的一個術語嗎?憑什么說心理學家對于捷思法的研究成果,尚且沒有被人工智能學界所廣泛吸納呢?筆者的應答是:人工智能領域內的捷思法,雖然和心理學意義上的捷思法一樣,均具有“減少信息處理系統計算負擔”的功能,卻并沒有真正體現信息系統處理的個體運行歷史,并在這種意義上體現出足夠的“心理學”意味(遑論在此基礎上成為引續共同體之集體智慧的“引水渠”)。下面,筆者便將通過對于相關技術案例的詳細解釋,來闡明這一論點。
在計算機科學文獻里經常提到的一個運用捷思法的案例,乃是所謂“行銷商旅行路徑擇優問題”(travelling salesman problem),簡稱為“TSP問題”。④這個問題是說,如果我們已知地圖上有若干個城市,以及城市兩兩之間的距離,我們又如何能夠為一個行銷商找到最短的一條路徑,使他能以某個特定城市為出發點兼回歸點,并能夠經過所有城市呢?從數學角度看,這樣的問題帶來的計算負擔是非常大的,而為了減少此類負擔,人工智能專家就會采用一種叫 “貪婪算法”(greedy algorithm)的捷思法。[6](P414-450)“貪婪算法”的基本技術思想是,首先不去尋找問題的全局最優解(因為這帶來海量的計算負擔),而僅僅滿足于尋找局部最優解,并期望局部最優解的積累可以使系統慢慢接近全局最優解。將這個思路運用到TSP問題上去,由此產生的問題解決思路就是:從當下的城市坐標出發,訪問與之最接近的一個城市坐標,即至少保證在局域環境中旅行者的行程是最短的。然后通過迭代,使得由此產生的旅行距離可以被延伸到更遠的城市坐標去,最終完成全局路程規劃。
雖然有研究指出貪婪算法并不能導致系統得到全局最優解[7],但筆者批評此類捷思法的著眼點并不在此。這里更需要提醒讀者注意的,乃是此類捷思法與心理學捷思法之間的重要差異。很明顯,執行貪婪算法的系統是沒有長期記憶的,它只能關注到目下的坐標周圍的那些城市坐標,并基于這種觀察機械地丈量這些坐標之間的距離,由此再機械地移動到下一個觀察點上去。因此,貪婪算法的運作并不包含著對系統既有運作歷史的一種哪怕最弱意義上的表征(譬如,當系統像蠕蟲一樣爬到第八個城市時,它已經不記得它在第一個城市時選擇的下一個城市了)。與之相對比,一個完整意義的人類心理主體,恐怕并不是按照這種愚蠢的捷思法來運作的。人類主體在面對此類問題時更可能采取的辦法,是回憶他上次進行此類路程規劃時給出的方案(此即“錨定捷思法”),或是去更偏好那些在視覺上更為直觀的路徑規劃(此即關于“可獲取性”的捷思法),或是去偏好那些首先經過那些更有名的城市的路徑規劃(此即關于“辨識”的捷思法)。不難看出,人類主體對于上述這些捷思法的運用,顯然已經預設了人類的認知架構是能夠調取長期記憶中的信息,并能夠賦予每一個城市以相關的語義的。但這樣的能力顯然是“貪婪算法”所不具備的。
那么,為何預設了人類語義與記憶機制的人類捷思法,要比“貪婪算法”更優異呢?道理很簡單:僅僅只能反映局域坐標點之間關系的“貪婪算法”,由于一開始就放棄了對于全局情況的把握,因此最終接近全局最優解的機會本來也就不會太大。與之相比較,“錨定捷思法”、關于“可獲取性”的捷思法與關于“辨識”的捷思法都能夠幫助心理主體提取路徑規劃的整體特征,由此“自上而下”地進行路徑優化選擇。不難想見,如果心理主體事先就獲得的關于路徑規劃的歷史信息的確比較有價值,那么,這種“自上而下”的規劃路徑顯然就更有希望幫助主體找到全局最優解,或至少更接近之。
那么,為何現有的人工智能系統的設計者沒有首先去將人類心理的捷思法“算法化”,而是要另起爐灶,去構建專為機器所用的捷思法呢?其道理其實也不難想見。很多從事人工智能研究的從業者都是數學專業(而不是心理學或語言學)出身,因而習慣于將各種人工智能問題視為數學問題的變種。從純數學角度上看,在平面上擺放的各個城市的確就是一個個抽象的點,它們也的確并不承載任何文化或歷史的意義。因此,在他們看來,人類捷思法預設的意義、記憶、文化與權威,既然在數學上無法處理,故而一種“干凈”的人工智能之解法就應該將它們“約分”掉。但從心理學哲學的角度看,這樣的處理卻恰恰丟失了捷思法存在的最基本意義,即在個體富有意義的當下的決策行為與同樣富有意義的歷史信息庫之間建立溝通管道。打個比方來說,抽離了意義的捷思法,就像切斷了與自來水廠聯系的水龍頭一樣,只能成為純粹的擺設。
熟悉人工智能發展歷史的讀者或許還會辯白說,在人工智能元老司馬賀(Herbert Simon)、肖(John Shaw)和紐艾爾(Allen Newell)對于“通用問題求解器”(General Problem Solver,簡稱GPS)的設想之中[8](P256-264),研究者們既設計了“長期記憶庫”,又在記憶庫中預存了大量的“捷思法”。同時,司馬賀與紐艾爾設計GPS的初衷,便是希望系統自身能夠在資源有限的前提下,通過更為經濟的方式來獲得自己的推理目標。由此看來,通過GPS規劃,心理學家對于捷思法的種種設想,已經得到了算法化的處理。
但在筆者看來,這樣的判斷依然是粗疏的。為了說明這一點,我們不妨先來查看一下,在GPS架構通常具有的“手段—目標”進路(means-end-analysis approach)中,捷思法究竟扮演了怎樣的角色。筆者對“手段—目標”進路的流程概述如下:
(1)先確定系統希望達到的理想狀態B,然后再觀察系統目前所面對的現狀A。由此,系統就得到了對于當下目標的刻畫:把A轉變為B。
(2)找出A和B之間的差距D,若D目前無法克服,便確立子目標:縮小差距D。
(3)在方法庫(method store)中,搜索可以滿足子目標的捷思法Q,具體手段是:找到一個備選的捷思法,若它能通過初步的可行性測試,就將它應用于最初的狀態A,由此給出結果A*。若它無法通過最初的可行性測試,則系統開始尋找下一個備選的捷思法,直到找到為止(“可行性檢測”是指,面對表征這些備選操作手段的表達式,系統一一加以檢測,以判斷其中哪些可滿足一個合格的操作手段所應滿足的語義限制)。
(4)找出A*與B之間的差距D*,爾后確立新的子目標:找到差距D*。若找不到D*,任務結束。
(5)在任務沒有結束的前提下,系統會搜索可以滿足新的子目標的操作手段Q*,具體手段是:找到一個備選的捷思法,若它能通過初步的可行性測試,就將其應用于狀態A*,由此給出結果A**。若它無法通過最初的可行性測試,則系統開始尋找下一個備選的操作手段,直到找到為止。
(6)比照A**和B,若二者無差距,任務結束。若存在差距D**,則重復上述操作,直到系統找到一個操作手段,直至產生一個與B重合的結果。
在這里特別需要關注的乃是步驟(3)。不難看出,在這個步驟中,GPS設計者提到的那些捷思法,是作為一種僵死的對象現成地擺放在方法庫里,而系統對它們的提取過程本身則完全是隨機的。與之相比較,以“辨識捷思法”為代表的人類捷思法,則首先是用以提取長期記憶中相關信息的捷思法,也就是某種用以克服上述這種“純粹的隨機性”的信息流動捷徑。順便說一句,在人類的心智架構中,這些捷徑的形成固然受到某些偶然性因素的影響,但這種偶然性畢竟是具有歷史維度的,因而并不能被消解為純粹的隨機性。從這個意義上說,在GPS中缺乏的,實際上就是某種用以調取既有捷思法的高階捷思法,而能夠與人類捷思法對應,并由此能夠與人類的集體智慧相聯系的,恰恰就是這種高階捷思法。此外,在我們評價GPS時還需要考慮的一個因素是,上文給出的“手段—目標”進路的五個計算步驟,每完成一次運行,整個系統就會歸零,這也就是說,在第一個輪回中,即使系統發現方法庫中的捷思法H對于解決問題P是非常有價值的,它也不會在未來解決一個與P非常類似的新問題時去優先考慮H,因為GPS既缺乏對于問題之間的類似性關系的高階表征能力,也不包括對于自身運行歷史的“自傳式記憶”的表征能力。
有的讀者或許還會辯白說,人工智能界完全可以不顧心理學界對于捷思法的既有研究成果,而通過某種更為簡單、粗暴的方式,以使得人類的集體智慧與人工智能系統相互接駁。譬如,我們可以通過“人工神經元網絡”(artificial neural network,深度學習技術的基本母型)或“聯接主義”(connectionism)的計算框架,把人類的權威見解順利地復制到計算系統中去。
那么,人類成見究竟是如何在人工神經元網絡的框架中得到體現的呢?要說明這一點,我們還需要對人工神經元網絡的運行有一番基本的了解。非常粗略地說,神經元網絡技術的實質,就是利用統計學的方法,在某個層面模擬人腦神經元網絡的工作方式,設置多層彼此勾聯成網絡的計算單位(如輸入層—隱藏單元層—輸出層等)。由此,全網便可以通過某種類似于“自然神經元間的電脈沖傳遞,導致后續神經元觸發”的方式,逐層對輸入材料進行信息加工,最終輸出某種帶有更高層面的語義屬性的計算結果。至于這樣的計算結果是否符合人類用戶的需要,則取決于人類編程員如何用訓練樣本,去調整既有網絡各個計算單位之間的權重(參見圖1)。⑤

圖1 高度簡化的人工神經元網絡結構模型
大致而言,在人工神經元網絡的上述運作流程中,人類成見主要有三個機會介入系統的運作:(甲)通過精心設計系統的訓練樣本(尤其是通過對輸入添加大量標簽)來向系統“喂入”某些對于問題求解來說非常重要的先驗知識;(乙)通過預先給出的理想解規定系統的學習目標;(丙)通過預先給出的反饋算法來規定系統的權重調整方式。但是,雖然通過這些手段,人類設計者姑且能夠粗略地調整系統的性能,但人類設計者往往并不是特別清楚為何特定的系統參數變化能夠導致系統運作性能的變化——這一點在人工神經元網絡的內部架構已經空前復雜的今天,則顯得尤其凸出,這也是人工神經元網絡算法時常被稱為“黑箱算法”的原因。從這個角度看,一個得到充分訓練的人工神經元網絡固然在某種意義上可以說是“復制了人類的成見”,但富有諷刺意味的是,人類設計者自身也說不清它們是如何完成這種復制的。更重要的是,對人工元神經網絡的初始輸入進行人工標注,往往會消耗人類程序大量的精力,同時,在隱藏計算層的數量激增的情況下,系統自身消耗的運算資源也是驚人的。換言之,與心理學意義的捷思法對于人類智能“節儉性”的彰顯構成鮮明對比的是,目下的神經元網絡—深度學習技術對于人類成見的復制機制,恰恰是建立在海量的數據輸入、強大的硬件配置與海量的計算量之上的。⑥因此,這種意義上的人類成見復制機制,在工作原理與工作目的上均與人類自身的心智架構相去甚遠,或者說,比起前面提到的GPS對于捷思法的粗糙刻畫來說,這樣的人工智能設計思路其實顯得更不具有智慧性(如果我們將“智慧”或“智能”理解為在“系統相對匱乏的環境資源下對于環境的適應能力”的話)。
綜合本節的討論,我們可以得出:目前的主流人工智能研究——無論是符號主義進路的還是聯接主義進路的——都沒有真正消化心理學界對于捷思法的研究成果,遑論在這種情況下落實伽達默爾關于“成見”的種種洞見。那么,路在何方呢?
通過上節的分析我們不難發現,就目下的人工智能研究來說,將心理學研究的捷思法加以算法化的最大障礙,便是對于語義表征的算法化。而這一問題之所以成為問題,則又是因為:一方面,研究捷思法的心理學家總是預設人類心智是具有語義表征能力,而另一方面,人工智能專家又總是傾向于通過剝離語義的方式而將日常生活中的種種具體問題“純化”為形式問題(無論這種形式是數學的、邏輯學的還是統計學的)。兩類學者之間工作理念的這種反差,自然就為人工智能界汲取心理學界的思想營養制造了觀念上的障礙。不過,我們也應當看到,在主流的人工智能研究路徑之外,將語義予以算法化的努力其實早就已經出現了。譬如,在美國天普大學(Temple University)的計算機科學家王培發明的“納思系統”中,在長期記憶庫中出現的任何一個詞項的語義都可以通過某種可計算化的方式得到定義。⑦而且納思系統本身的運作也在相當程度上基于其自身的系統運作歷史,并因為這種依賴性而能夠模擬諸如“錨定捷思法”這樣的人類捷思法。不過,由于篇幅的限制,筆者在此無法充分解釋相關的技術細節。但不幸的是,盡管筆者在不少場合都提到納思系統的巨大潛力⑧,但它依然沒有得到主流人工智能界的足夠重視。而更令人擔憂的是,在當下的各種媒體平臺上,對于主流人工智能技術路徑(特別是深度學習路徑)的吹捧始終不絕于耳,同時,卻很少有人談及,主流人工智能進路搭建的計算框架,實際上只在一種很微弱的意義上關涉心理學家發現的人類智能架構。簡言之,現有的人工智能系統其實還非常“不像人”。
面對這樣的批評,主流人工智能的辯護士或許會說:我們根本不用關心人工智能的架構是否真像人,我們只關心它的輸出是否能夠滿足人類用戶的需要。但這里的問題便是,如果機器的“輸入端”與“輸出端”之間的“黑箱”即使在某種非常抽象的層面上都非常不類似于人類自身的心智架構,我們又可以在多大程度上擔保其“輸入—輸出”關系能夠與人類的“輸入—輸出”關系相互吻合呢?就拿前面討論的神經元網絡系統來說,為何這種系統的良好運作,往往要以輸入數據的人工標注為先驗前提,而人類的心智架構卻可以容忍那些缺乏人為標注的“粗糙輸入”呢?很顯然,除非人工智能專家低下頭來,認真向心理學家學習,否則“人工智能”作為“人力智能”之裝飾品的本質就不會改變。
主流人工智能的辯護士或許還會說,人工智能專家已經向各行各業的人類專家虛心學習了——譬如“專家系統”對各種人類既有專業知識的學習——為何對心理學的學習就顯得格外重要呢?在筆者看來,在回答這個問題之前,復習伽達默爾的詮釋學資源便非常必要。從伽達默爾哲學的立場看,人類的集體智慧是通過某種隱蔽的說服機制而成為個體的“前見—成見”的,而個體與其歷史傳統的不同互動方式,也會為不同意義上的“成見—前見”結構的形成預備了機緣。而在目下主流的符號人工研究智能中,特定專業學科領域內的人類集體智慧,并不是通過對于個體操作系統的“說服”而進入長期記憶地址的,而是通過某種極為粗暴的“代碼寫入”方式而成為其先驗知識。同時,對于同一個型號的人工智能系統而言,批量產生的系統之間也分享完全相同的先驗知識,故而,在任何一個這樣的個體系統與人類的既有智慧之間,就不存在著進行任何一種意義上的互動的可能性,遑論在這類多重互動可能性的基礎上形成不同的“成見—前見”。這也就是說,個體與歷史之間相互影響而又相互創造的微妙關系,在現有的主流人工智能系統之中是無法被復制出來的,除非主流的人工智能專家能夠改弦易轍,轉而去嚴肅對待個體心理結構用以獲取“集智”的、作為信息快捷道的種種“捷思法”。
主流人工智能進路的辯護者或許還會說,我們為何要復制出所謂的“個體與歷史之間相互影響而又相互創造的微妙關系”呢?為何不能始終讓人類開創知識前進的歷史,而始終讓機器去復制人類前進的腳步呢?對此,筆者的回答是:從定義上看,這種只能拓印人類前進腳步的“人工智能”系統是沒有資格去盜用“智能”的名義的,因為真正的“智能的”信息處理系統的“成見—前見”結構應當是具有自己的個性的(如果我們將“個性”視為“智能”或者“創造性”的題中應有之義的話),而人類歷史自身,也恰恰是借由這些個性化的“成見—前見”結構之間的彼此沖撞,才得以開創出種種新的局面。但在主流的人工智能的成見復制機制中,我們卻看不到任何得以創生出真正的新事物的機緣。而這又是因為,在主流的人工智能研究那里,前面提到的“歷史權威—捷思法—個體心理史—當下決策”的四層架構關系的中間兩層已被抽空,并由此使整個結構的動力學機制崩塌??梢院敛豢鋸埖卣f,未來對于任何一種真正意義上的人工智能系統的嚴肅研究,都必須以修復這個坍塌的層次結構為前提。
注釋:
①吉仁澤表達類似觀點的文獻很多,較新的文獻為Gerd Gigerenzer:Simply Rational:Decision Making in the Real World.Oxford:Oxford University Press,2015.
②譬如,當被試者要求在5秒內計算8個數字的乘積的時候,這些數字進入被試者視野的次序,就會對其估測結果產生致命影響。當數列是以“1×2×3×4×5×6×7×8”的形式出現的時候,被試者會傾向于大大低估算式的值(因為首先出現的都是小數),而當數列是以“8×7×6×5×4×3×2×1”的形式出現的時候,被試者則依然會傾向于低估算式的值,盡管低估的程度稍有緩解(順便說一句,這個式子的值為40,320,而被試者第一次估算的平均值是520,第二次估算的平均值是2,250)。
③關于捷思法問題更全面的心理學哲學討論,參見拙著《認知成見》,復旦大學出版社2015年版。
④對于該問題的討論文獻很多,綜合性的討論文獻參見David L.Applegateamp;Robert Bixby:The Traveling Salesman Problem:A Computational Study.Princeton:Princeton University Press,2007.
⑤對于神經元網絡技術的更詳細介紹,請參看拙著《心智、語言和機器——維特根斯坦哲學和人工智能科學的對話》,人民出版社2013年版,第43—53頁。
⑥生物統計學家里克(Jeff Leek)最近撰文指出,除非具有海量的訓練用數據,否則深度學習技術就會成為 “屠龍之術”,參見Jeff Leek:Don't use deep learning,your data isn't that big,https://simplystatistics.org/2017/05/31/deeplearning-vs-leekasso/。
⑦“納思系統”的英文全稱為“Non-Axiomatic Reasoning System”(非公理推理系統),“NARS”為其縮寫,“納思”為該縮寫的漢語音譯。關于納思系統的文獻很多,其中最重要的是Pei Wang.Rigid Flexibility:The Logic of Intelligence.Netherlands:Springer,2006。
⑧相關成果主要集中于拙著 《心智、語言和機器——維特根斯坦哲學和人工智能科學的對話》,人民出版社2013年版。
[1](德)漢斯·伽達默爾.真理與方法——哲學詮釋學的基本特征(上卷)[M].洪漢鼎,譯.上海:上海譯文出版社,1999.
[2]Amos Tversky,Daniel Kahneman.Judgment under Uncertainty:Heuristics and Biases.Science,1974,(185).
[3]Amos Tversky,Daniel Kahneman.A v ailability:A heuristic for judging frequency and probability.Cognitive Psychology,1973,(2).
[4]Norbert Schwarz et al.Ease of retrieval as information:Another look at the availability heuristic.Journal of Personality and Social Psychology,1991,(2).
[5]Gerd Gigerenzer et al.Simple Heuristics that Make Us Smart.Oxford:Oxford University Press.
[6]Thomas Cormen et al.Introduction to Algorithms(the Third Edition).Cambridge,MA:The MIT Press,2009.
[7]G.Gutin,A.Yeo,A.Zverovich.Traveling Salesman should not be Greedy:Domination Analysis of Greedy-type Heuristics for the TSP.Discrete Applied Mathematics,2002,(117).
[8]A.Newell,J.C.Shaw,H.A.Simon.Report on a General Problem-Solving Program.Proceedings of the International Conference on Information Processing,1959.
【責任編輯:趙 偉】
根據伽達默爾的哲學詮釋學思想,“成見”是人類個體借以獲取集體智慧之結晶,以便彌補個體理性之不足的重要途徑,因此,俗常人們賦予“成見”的種種負面印象,在相當程度上是有所偏頗的。而當代心理學對于“捷思法”的研究,則可以被視為對于伽達默爾的“成見”觀的有益補充,因為所謂“捷思法”,在本質上就可以被視為心理主體調取歷史信息資源的某些心理捷徑。然而,盡管人造的信息處理系統像人類心理結構一樣,肯定也會遭遇到“決策資源不足”問題的困擾,伽達默爾的“成見”論與心理學界對于“捷思法”的研究成果的精髓,卻一直沒有被主流人工智能界所吸取。毋寧說,目前主流人工智能所運用的“捷思法”在運作機制上是與人類“捷思法”相去甚遠的,因為前者既不能像人類“捷思法”那樣表征語義,也不能像人類“捷思法”那樣體現心理系統自身的運行歷史。從這個角度看,目前的主流人工智能系統缺乏“在決策資源匱乏的情況下靈活應對環境壓力”的能力。
B017
A
1004-518X(2017)10-0005-13
國家社科基金項目“自然語言的智能化處理與語言分析哲學研究”(13BZ X023)、國家社科基金重大項目“基于信息技術哲學的當代認識論研究”(15ZDB020)
徐英瑾,復旦大學哲學學院教授、博士生導師。(上海 200433)