999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對注意的再思考:一個注意的強化學習模型*

2017-03-02 01:36:27程少哲史博皓徐昊骙周吉帆沈模衛(wèi)
應用心理學 2017年1期
關鍵詞:理論資源心理

程少哲 史博皓 趙 陽 徐昊骙 唐 寧 高 濤 周吉帆沈模衛(wèi)

(浙江大學心理與行為科學系,杭州310028)

對注意的再思考:一個注意的強化學習模型*

程少哲 史博皓 趙 陽 徐昊骙 唐 寧 高 濤 周吉帆**沈模衛(wèi)**

(浙江大學心理與行為科學系,杭州310028)

本文在分析總結(jié)現(xiàn)有注意理論的基礎上,假設注意是一種信息選擇現(xiàn)象,而非心理結(jié)構(gòu)或資源。通過借鑒人工智能領域強化學習算法的思想,筆者提出了一種可以表現(xiàn)出注意現(xiàn)象的人類強化學習模型。該模型描述了人與環(huán)境交互的過程:人接受環(huán)境的反饋,根據(jù)自身心理狀態(tài)調(diào)整行為策略,以最大化所獲收益。該過程中,注意體現(xiàn)為高價值信息逐漸獲得優(yōu)先加工的現(xiàn)象。因此,本文對注意的本質(zhì)進行了重新思考,為未來注意研究提供了新思路。

注意 強化學習 計算模型 人工智能

1 什么是注意

日常生活中,每時每刻都有大量相關和無關的信息通過各種感覺通道進入大腦,認知系統(tǒng)可以有效地忽略無關信息,執(zhí)行有效的認知加工。這種將認知加工聚焦于部分信息的機制通常被心理學家稱為注意(Kinchla,1992;Buschman&Kastner,2015)。正像James(1890)曾說過的“每個人都知道注意是什么”,人人都擁有對注意清晰的主觀體驗,我們卻難以給它下一個明確的學術定義。研究者們對注意的描述和解釋,往往需要通過各種隱喻來完成。早期的研究者將注意比作過濾器(Broadbent,1958),認為注意的主要作用是以“全或無”的方式對信息進行選擇。該理論得到雙耳分聽實驗(Cherry,1953)的支持,只有那些從追隨耳進入受到注意的信息得到了進一步加工。后續(xù)研究發(fā)現(xiàn),非追隨耳中呈現(xiàn)的人名等有特殊意義的刺激也能捕獲注意,表明注意并非以嚴格的全或無方式過濾信息,而是以相對溫和的衰減器(Treisman,1960)方式調(diào)節(jié)輸入信息的強度。另有研究者認為,注意選擇是發(fā)生在反應階段而非感知覺加工階段,并據(jù)此提出了反應選擇模型(Deutsch&Deutsch,1963)。視覺注意的研究者們對注意所做的比喻則更具視覺特色,將其比喻成聚光燈(spotlight)(Posner,1980;LaBerge,1983)、變焦鏡(zoom-lens)(Eriksen&Yeh,1985)等。這類模型認為視覺注意存在一個焦點,在焦點附近的信息會獲得更好的加工。上述各類注意的隱喻理論表明,注意具有加工瓶頸的特點,同時暗示注意是一種選擇“裝置”,屬于信息加工系統(tǒng)中的一部分,負責將認知加工引導至某些特定信息。

上述理論試圖解釋注意的作用,而另一些理論則致力于回答“為何需要對信息進行選擇”。該問題的一個簡單而直觀的答案是,認知資源是有限的,因此只能選擇部分信息深入加工。Kahneman(1973)的注意資源理論認為,注意是用于執(zhí)行認知任務的有限的資源,注意資源的調(diào)用與喚醒水平緊密聯(lián)系。由于注意資源總體有限,認知任務只能在受限的范圍內(nèi)進行。在過去的30年中,注意資源說一直在變化盲(change blindness)(Simons&Levin,1997)和非注意視盲(inattentional blindness)(Simons&Chabris,1999)等實驗的解釋中占據(jù)一席之地。這些對各類明顯的視覺刺激和變化視而不見的現(xiàn)象,往往被歸因于在認知資源有限的條件下目標刺激未得到充分的認知加工。隨后的研究則進一步將注意資源進行了細分,提出了基于客體的、空間的和特征的注意等概念(Kastner,Pinsk,Weerd,Desimone,&Ungerleider,1999;Mc-Adams&Maunsell,1999;Moran&Desimone,1985;Treue&Martinez-Trujillo,1999;Maunsell&Treue,2006;Duncan,1984;O’Craven et al.,1999)。大量研究表明,不同類型的注意資源對執(zhí)行相應任務的績效存在特異性(e.g.,Shen,Huang,&Gao,2015;Gao,et al,2016)。

可見,當前心理學中的主流注意理論都將注意視為執(zhí)行信息選擇的心理結(jié)構(gòu),或認知資源,成功解釋了許多與注意相關的實驗現(xiàn)象。然而,注意理論的天空中卻長期飄著幾朵“烏云”——各種注意理論均存在一些懸而未決的問題。例如,注意的聚光燈隱喻實際上是意識劇場隱喻的一個變種,若將注意比作聚光燈,那么是誰在觀看燈下照亮的場景,又是誰在控制聚光燈的焦點?追問之下,這種隱喻似乎意味著意識小人(conscious homunculus)的存在,它控制了我們的注意,產(chǎn)生了我們的主觀體驗。那么問題就變成意識小人如何控制注意,以及小人頭腦里是否存在另一個小人以實現(xiàn)控制過程,最終將陷入小人謬誤(homunculus fallacy)的陷阱中(Richard&Gregory,1987)。類似的困境也存在于過濾器等隱喻中,這些理論雖然解釋了注意的作用,卻隱含地假設存在著一個本身難以解釋的信息選擇主體。注意的資源說則面臨著另外一個問題,即資源究竟是什么。在注意資源說的表述中,注意資源似乎是萬能的,它可以加快加工速度、提高加工精度和準確性、導致更好更持久的記憶。此外,這種資源可以自由分配于各種不同的加工通道和加工階段,甚至它們共享同一個資源池,例如工作記憶與知覺共享注意資源(Cowan,1988)。然而,如此萬金油般的“資源”似乎既未找到對應的生理機制,也未得到計算理論的支持。此外,有關注意資源理論關鍵的研究問題應該是,為何注意資源可以如此萬能地幫助執(zhí)行各種不同心理過程。該問題尚未獲得令人滿意的答案。上述理論困境促使我們反思——將注意看作客觀存在的心理結(jié)構(gòu)或資源是否正確。

解決上述困境大致存在兩條途徑:其一是繼續(xù)推進現(xiàn)有理論框架下的研究,嘗試解決原有假設中存在的問題;其二是重新思考注意的本質(zhì),擺脫可能導致問題的舊假設,從新的基本假設出發(fā)理解注意。筆者認為,一種可能的假設是,注意是某些心理加工過程表現(xiàn)出來的一種現(xiàn)象。混淆了事物內(nèi)部本質(zhì)與其外在現(xiàn)象的例子在自然科學其他領域也并不罕見。例如,人類歷史上長期將火看作是一種基本元素,認為木頭燃燒釋放火元素后變成了灰(主要為土元素)。直到近代化學誕生后,人們才逐漸認識到火是劇烈氧化反應伴隨的發(fā)光發(fā)熱現(xiàn)象。之所以在不同的古代文明里火都被認為是基本元素,很大程度上是因為火具有鮮明的視覺形象:木頭燃燒過程中熊熊的火焰清晰可見,但氧氣的介入和二氧化碳的釋放卻看不見。這種“眼見為實”的感覺使火看起來像一種客觀存在的物質(zhì)。與之類似,我們對注意過程有明確的主觀覺知,但僅因此就將其視為客觀存在的心理結(jié)構(gòu)或資源可能不利于揭示其本質(zhì)。當代心理學已經(jīng)發(fā)現(xiàn)大多數(shù)心理過程可以在無意識狀態(tài)下進行;而且存在各種各樣的錯覺,抑或是虛假的主觀體驗。因此,注意有可能是某些心理過程(大部分是意識不到的)所伴隨的現(xiàn)象,這種現(xiàn)象在客觀上體現(xiàn)為對信息的選擇性加工,在主觀上體驗到精神集中狀態(tài)和主體控制感。那么,研究的關鍵就不是解釋現(xiàn)象本身,而是揭示造成該現(xiàn)象的原因,即考察導致注意現(xiàn)象的心理過程。

根據(jù)上述假設,注意研究的主要任務是描述一種可以表現(xiàn)出信息選擇現(xiàn)象的心理過程。要揭示這種心理過程的本質(zhì),不妨從信息本身入手,思考“認知系統(tǒng)選擇了什么信息”和“信息選擇的目的為何”兩個問題。事實上,已有學者提出類似觀點,并從上述兩個問題出發(fā)構(gòu)建理論模型。例如Krauzlis等人認為注意不過是一種現(xiàn)象,是決策過程中為了獲得更大價值所帶來的副產(chǎn)品,注意是決策過程的結(jié)果而不是原因(Krauzlis,Bollimunta,Arcizet,&Wang,2014)。根據(jù)這種觀點,認知系統(tǒng)選擇了對于當前決策而言具有高價值的信息,信息選擇的目的是為了價值的最大化。這種基于價值的信息選擇機制和策略的形成可能是學習的結(jié)果,它一部分是人類進化形成的,另一部分則是個體后天習得的。研究發(fā)現(xiàn),剛出生的嬰兒就表現(xiàn)出對生命信息(例如人臉和言語)的注意偏好(Frank,Vul,&Johson,2008),表明這種選擇機制可能是一種進化形成的特性(Haladjian&Montemayor,2015);同時與成人比較,嬰兒的注意在完成特定任務時還略顯“稚嫩”:如果將成人的注意比作聚光燈,能快速聚焦于關鍵客體,那么嬰兒的注意更像一盞燈籠(Gopnick,2009),更為擴散和隨意。一項有關兒童學習的研究發(fā)現(xiàn),4歲兒童在學習類別概念時,容易被新異的刺激所吸引而忽略客體的關鍵信息;6歲兒童的注意與成人基本相同,能快速地注意到那些決定物體類別的關鍵特征(Sloutsky,2016)。上述結(jié)果表明,選擇性注意是動態(tài)發(fā)展的,而且可能是在與復雜環(huán)境的交互中習得的。在一系列基于價值的學習過程中,認知系統(tǒng)完成了從信息無區(qū)別加工到有選擇加工的轉(zhuǎn)變,被選擇的這部分信息可使利益最大化。

人類受價值驅(qū)動的行為有著深遠的生態(tài)意義,與行為相聯(lián)系的獎賞直接影響著人們的注意捕獲和視覺工作記憶(Anderson,Laurent,&Yantis,2011;Gong&Li,2014)。而最大化行為效用,也是人類智能和機器智能共同追求的目標(Gershman,Horvitz,&Tenenbaum,2015;Jara-Ettinger,Gweon,Schulz,&Tenenbaum,2016)。為了獲得更大的價值,人們往往在內(nèi)部心理狀態(tài)(包括知識、信念、動機、目標等)影響下加工輸入信息形成心理表征,并根據(jù)心理表征做出行為反應,獲得相應的反饋。在行為—反饋的不斷交互中,為最大化行為所帶來的獎賞,我們逐漸習得了信息選擇性加工的策略。這種過濾信息的屬性,是我們在優(yōu)化行為決策時表現(xiàn)出的一種必然結(jié)果,是我們在面對復雜世界時高效學習的產(chǎn)物。這種通過以追求最大效益為目的的注意學習過程,與當前人工智能領域最為先進有效的算法——強化學習的基本思想完全一致。因此,我們認為注意背后的心理本質(zhì)是基于行為價值的強化學習過程,注意是該學習過程表現(xiàn)出的信息選擇現(xiàn)象,以強化學習算法為核心的計算模型可以解釋人的動態(tài)注意。該模型將在本文第三部分具體展開,在此之前,有必要回顧現(xiàn)有關于注意的計算模型。

2 當前的注意計算模型

傳統(tǒng)的注意計算模型,主要關注自下而上的注意,描述環(huán)境中那些突出、新異的刺激如何捕獲人們的注意。例如Itti等人(1998,2001)的顯著性地圖模型。近來,也有研究者把注意當作一種自上而下的推理過程(Vul,Hanus,&Kanwisher,2009),采用貝葉斯技術描述具體視覺場景下的注意分布。下面簡要介紹這兩方面的計算建模工作。

2.1 自下而上的注意模型

自下而上注意的計算模型中,顯著性地圖(Saliency Map)占據(jù)了主流地位。該模型認為,那些與背景差異顯著的區(qū)域會自動吸引注意。受到特征整合理論的啟發(fā),這類方法從圖像的低層信息,例如亮度、顏色、朝向中提取特征,并將其整合到顯著性地圖上,從中尋找高對比的區(qū)域作為注意的焦點。簡言之,該方法旨在尋找圖像背景(context)中含有不尋常特征的位置。顯著性算法主要借鑒了人類視覺感受神經(jīng)元的反應原理。此類神經(jīng)元僅在其感受野中心與周圍信號有明顯差異時開始放電,即當輸入圖像上該點突顯于背景時神經(jīng)元激活。顯著性地圖模型中就采用了對顏色、亮度、朝向等特征差異敏感的人工“神經(jīng)元”形成初級的特征地圖。

2.2 自上而下的注意模型

除了視覺刺激本身的特征外,注意還會受到人們不同的先驗知識、任務需求、動機等內(nèi)部心理狀態(tài)的影響。對于這種自上而下的注意,已有大量的心理學研究考察其認知機制(Yarbus,1967;Giesbrecht,Woldorff,Song,&Mangun,2003),然而解釋其具體運作方式的計算模型仍較為罕見。近來有學者提出用貝葉斯推理過程描述自上而下的注意,并得到實驗證據(jù)的支持(Vul,Hanus,&Kanwisher,2009;Chikkerur,Serre,Tan,&Poggio,2010;Borji,Sihite,&Itti,2014)。這些模型的基本假設是,注意是與個體感覺—運動協(xié)作(sensory-motor coordination)緊密聯(lián)系的:任一時刻對場景中客體的注意影響當前時刻的行為,并且該時刻的注意會影響下一時刻的注意;此外,注意還會受到個體當前時刻的心理狀態(tài)以及場景特征的影響。各種影響因素以貝葉斯網(wǎng)絡的方式共同作用,動態(tài)決定注意分布。

2.3 當前計算模型的局限

在顯著性地圖模型中,“顯著性”僅由刺激的物理屬性定義,忽略了注意的心理屬性,知識、期望、目標等內(nèi)在心理過程并未參與其中。而基于貝葉斯理論的注意模型加入了上述心理變量,將注意描述成一個向前推理的過程。然而,此類模型與傳統(tǒng)心理學理論相同,假設了一個獨立的計算模塊執(zhí)行信息選擇過程,仍然未能徹底回答注意選擇是如何產(chǎn)生的,以及為何需要進行注意選擇。

3 強化學習框架下注意的計算模型

與之前的理論和模型不同的是,我們的模型并未假設特殊的計算結(jié)構(gòu)用以實現(xiàn)信息的選擇,而僅僅描述了一個強化學習的過程。在智能體與環(huán)境交互情境中,為了最大化價值反饋,強化學習過程可以自然表現(xiàn)出一系列行為策略的動態(tài)調(diào)整和信息的選擇性加工現(xiàn)象。

模型結(jié)構(gòu)如圖1所示,在一個強化學習的環(huán)境中,人(或智能體)當前的狀態(tài),由感知覺信息和先驗知識共同構(gòu)成。在該狀態(tài)下,人們做出行為,獲得相應的價值反饋。此后,根據(jù)獲得的反饋,改變自身心理狀態(tài),從而調(diào)節(jié)行為策略(π),不斷循環(huán)往復。在一系列的狀態(tài)—行為轉(zhuǎn)換過程中,由于個體行為發(fā)生改變,環(huán)境給個體的輸入信息也會隨之發(fā)生改變。為了得到更多的累積價值,行為策略將逐漸收斂至那些能帶來較多期望價值的“最優(yōu)化”策略,輸入的信息中具有較高價值的部分也會逐漸獲得優(yōu)先加工。該過程中表現(xiàn)出的過濾信息、選擇性反應的現(xiàn)象,便是注意。在該框架下,注意自上而下和自下而上的過程可以分別由強化學習中基于模型和無模型的兩類算法實現(xiàn)。下面依次介紹強化學習及有/無模型的兩類學習算法。

圖1 強化學習模型框架

3.1 強化學習

強化學習(reinforcement learning)是人工智能領域用于解決動態(tài)決策問題的一類算法,目的是讓智能體(agent)在與動態(tài)環(huán)境的交互中不斷優(yōu)化自己的行為策略,使收到的行為反饋效價最大化(Sutton&Barto,1998)。強化學習算法主要有兩方面的思想基礎,一方面是心理學中行為主義學派關于動物學習的理論(Pavlov,1927;Thorndike,1911);另一方面是數(shù)學中的優(yōu)化控制理論(Bellman,1957)。動物學習的研究發(fā)現(xiàn)了效果律(law of effect),揭示了個體行為與環(huán)境反饋之間的聯(lián)系,即刺激與行為的聯(lián)結(jié)在環(huán)境正反饋的條件下增強;而工程實踐上,貝爾曼方程(Bellman equation)和馬爾科夫決策過程(Markov decision process,MDP)的發(fā)明,解決了動態(tài)決策過程中優(yōu)化控制的數(shù)學問題。前者為獎賞提供了數(shù)學描述,使強化學習可以從數(shù)學上轉(zhuǎn)化為優(yōu)化控制問題;而后者,則為求解該問題提供了解決方案。

強化學習可以表達為一個馬爾科夫決策過程,由狀態(tài)(state)、行為(action)、獎賞(reward)三個環(huán)節(jié)構(gòu)成。以視覺注意為例,狀態(tài)表示與注意相關的心理狀態(tài),包括對外部視覺刺激的表征和包含先驗知識、自身信念、動機和目標的心理模型;行為表示會影響信息輸入的行為,例如眼動;獎賞表示收到的獎賞信號,即某個狀態(tài)下收到的正、負反饋,包括外部反饋(環(huán)境給予的現(xiàn)實獎賞)和內(nèi)部反饋(心理獎賞信號,例如視覺搜索任務中找到目標帶來的成就感)。在動態(tài)決策過程中,獎賞由當下的即時反饋和未來預期的反饋共同決定。由于MDP的馬爾科夫性質(zhì),即狀態(tài)轉(zhuǎn)移的概率只依賴于前一個狀態(tài),我們可以用貝爾曼方程以遞歸的方式表達價值函數(shù)V:

上述方程中,V函數(shù)表示在t時刻、s狀態(tài)下作出a行為時獲得的總價值,等于t時刻的收到即時獎賞r加上被折扣(γ<1)的未來(t+1時刻)獎賞,其中時刻間的轉(zhuǎn)移概率由模型P定義;π是強化學習產(chǎn)生的行為策略,代表狀態(tài)s到相應行為a的映射(此映射可以是決定性的a=π(s)或概率性的π(a|s)=P(At=a|st=s)。強化學習的目標即是學到一個最優(yōu)策略,使得期望的累積反饋最大。圖2展示了強化學習的迭代運算過程,個體通過行為與環(huán)境進行交互,并接受環(huán)境的信息輸入和獎賞反饋,根據(jù)反饋的結(jié)果調(diào)節(jié)心理狀態(tài),從而產(chǎn)生新的行為策略。隨著行為策略的改變,環(huán)境給個體的輸入也發(fā)生有規(guī)律的變化,表現(xiàn)為對特定信息的有選擇加工。以視覺搜索為例,當首注視點視野范圍內(nèi)不存在目標時,環(huán)境給予了負反饋,個體根據(jù)所獲得的場景信息以及當前搜索目標信息,猜測目標最有可能出現(xiàn)的位置,決定下一次眼跳落點,不斷嘗試直到找到目標獲得正反饋。行為現(xiàn)象上,該過程就表現(xiàn)為眼跳落點逐漸逼近目標,并受到各種顯著視覺信息的影響。這就是傳統(tǒng)意義上的注意現(xiàn)象,而該現(xiàn)象是可以由一個并不包含外顯信息選擇裝置的“強化學習機”產(chǎn)生。注意也可以隨著強化學習的過程變得更為高效,當為了最大化累積反饋不斷迭代學習后,便可以形成較為優(yōu)化的注意策略:自動選擇環(huán)境中那些能給我們帶來更多正反饋的信息。

圖2 強化學習的動態(tài)過程

在該模型中,注意所表現(xiàn)出來的自下而上和自上而下的特性,并不是相互割裂的兩個系統(tǒng)。如圖2所示,人的狀態(tài)由外部表征和心理模型兩部分構(gòu)成。外部表征是對外部環(huán)境的表征,由刺激輸入決定;心理模型包括先驗知識和動機、目標等內(nèi)在心理狀態(tài),這些潛在的心理狀態(tài)可以由層次概率模型(Tenenbaum,Kemp,Griffiths,&Goodman,2011;Ondobaka,Kilner,&Friston,2015)進行抽象表征。自下而上的注意主要是外部表征所起作用的體現(xiàn),而自上而下的注意主要是心理模型所起作用的體現(xiàn)。兩部分在強化學習的過程中相互影響,心理模型基于外部表征評價信息的價值預測未來的反饋,從而決定行為策略,而行為又反過來影響信息輸入。

3.2 無模型和基于模型的強化學習

注意作為一種現(xiàn)象,在本模型強化學習的語境下是優(yōu)化控制的結(jié)果。其本質(zhì)是智能體為了最大化獎賞而習得的一種最優(yōu)策略,它包括行為策略,和由表征方式和心理模型共同決定的內(nèi)部信息加工策略。而解決這個優(yōu)化控制問題,主要有兩類算法。

第一類我們可以直接從等式(1)左側(cè)的一系列V值中,通過時間差(Temporal-Difference;Sutton&Barto,1998)算法直接迭代求得,這種方法被稱為無模型(Model-Free)的強化學習,近來在人工智能領域有著優(yōu)異表現(xiàn)(Mnih et al.,2015);而與之對應是基于模型(Model-Based)的強化學習,該算法需要首先學到兩個關于環(huán)境的模型,P(st+1|st,at)和P(rt|st),分別代表了我們對于狀態(tài)和反饋的預測。此類模型是關于世界如何運作的一套因果關系概率描述,運用這套模型對環(huán)境做出預測,可以幫助優(yōu)化決策。

人類智能優(yōu)于人工智能的一個重要方面就是人類擅長構(gòu)建現(xiàn)實環(huán)境的因果模型。雖然直接從經(jīng)驗中學到獎賞與狀態(tài)—行動關聯(lián)的無模型強化學習在計算上較為高效,但在現(xiàn)實世界中,環(huán)境往往是部分可見(partially observable)且充滿了不確定性,獎賞信號可能并不時常出現(xiàn)。而基于模型的學習使我們能從有限的獎賞經(jīng)歷中學習到環(huán)境的知識,并利用這種知識(模型)幫助我們更好地預測環(huán)境,使學習過程可以不必完全依賴現(xiàn)實反饋,并減少蒙受實際損失的可能性。這種基于模型的強化學習能力往往代表了人類的“強認知”能力(Silver et al.,2016;Vigorito&Barto,2010;周吉帆等,2016)。此類能力同時也體現(xiàn)在注意的控制方面,我們不僅能注意到環(huán)境中那些突出的物理刺激,還能利用已有的知識控制我們的注意,使那些預期能帶來正反饋的信息得到優(yōu)先加工(Li,Delgado,&Phelps,2011)。

近來,計算視覺、人工智能領域的工程實踐越來越多地將注意機制加入到算法模型中,顯著提升了機器翻譯、客體識別、圖片注釋的績效(Bahdanau,Cho,&Bengio,2014;Mnih et al.,2014;Xu et al.,2015)。此類工作中,注意往往是一個給定的、擁有聚焦性質(zhì)的模塊,幫助機器解決學習過程中遇到的維度詛咒(curse of dimensionality)問題,縮小了假設空間,使一些高度復雜計算問題的解決成為可能。然而,當前人工智能中所謂的注意選擇往往只依賴于刺激特征與反饋的聯(lián)系,并未涉及因果關系,因此在面對場景理解等復雜問題時,機器的注意往往顯得不合邏輯(Lake,Ullman,Tenenbaum,&Gershman,2016)。如果要讓注意機制更為智能,那么自上而下的基于因果模型的控制過程是未來發(fā)展必不可少的一部分。如何產(chǎn)生靈活智能的信息選擇方式,并將其應用到復雜、動態(tài)、不確定的環(huán)境中,是心理學和人工智能領域共同面臨的一大挑戰(zhàn),也是后續(xù)研究的一個突破方向。

4 小 結(jié)

本文從注意是一種現(xiàn)象的假設出發(fā),提出在強化學習框架下研究注意的計算模型。與現(xiàn)有注意理論不同,該模型并不主張注意是一種固有的心理結(jié)構(gòu)或資源,而認為是強化學習過程表現(xiàn)出的信息選擇現(xiàn)象。該研究思路,相對于以往注意理論,具有如下進步:(1)該模型擺脫了假設選擇主體的存在而帶來的小人謬誤陷阱,也不受過于寬泛、難以驗證的資源假設的困擾。(2)該模型采用行為學習過程的一般算法作為理論基礎,可以用于描述各個階段的認知加工過程,從而能較好地解釋注意現(xiàn)象在認知加工中的普遍性。(3)模型以統(tǒng)一的框架解釋了自下而上和自上而下的注意,以及發(fā)生在知覺、決策、行為等各個階段的注意選擇。(4)以計算理論為技術手段,該模型可與人工智能相關研究實現(xiàn)直接對接,將心理學研究成果快速轉(zhuǎn)化為工程實踐中的生產(chǎn)力。沿著該思路,未來研究應著力于將模型進一步具體化,開發(fā)在具體情境下人類強化學習過程的實例,并將模型的表現(xiàn)與人類行為數(shù)據(jù)相比較,對模型進行驗證。在不斷完善模型、提高模型預測效力的基礎上,做出相應心理學解釋,為完善注意理論提供參考,同時為改進人工智能相關技術提供心理學依據(jù)。

周吉帆,徐昊骙,唐寧,史博皓,趙陽,高濤等.(2016).“強認知”的心理學研究:來自AlphaGo的啟示.應用心理學,22(1),3-11.

Anderson,B.A.,Laurent,P.A.,&Yantis,S.(2011).Value-driven attentional capture.Proceedings of the National Academy of Sciences,108(25),10367-10371.

Bahdanau,D.,Cho,K.,&Bengio,Y.(2014).Neural machine translation by jointly learning to align and translate.a(chǎn)rXiv preprint arXiv:1409.0473.

Bellman,R.(1957).Dynamic programming.Princeton University Press.

Borji,A.,Sihite,D.N.,&Itti,L.(2014).What/where to look next?Modeling top-down visual attention in complex interactive environments.IEEE Transactions on Systems,Man,and Cybernetics:Systems,44(5),523-538.

Broadbent,D.E.(1958).Perception and Communication.Oxford:Pergamon Press.

Buschman,T.J.,&Kastner,S.(2015).From behavior to neural dynam ics:An integrated theory of attention.Neuron,88(1),127-144.

Cherry,E.C.(1953).Some experiments on the recognition of speech,with one and with two ears.Journal of the Acoustical Society of America,25(5),975-979.

Chikkerur,S.,Serre,T.,Tan,C.,&Poggio,T.(2010).What and where:A Bayesian inference theory of attention.Vision Research,50(22),2233-2247.

Cowan,N.(1988).Evolving conceptions of memory storage,selective attention,and their mutual constraints within the human information-processing system.Psychological Bulletin,104(2),163-191.

Deutsch,J.A.,&Deutsch,D.(1963).Attention:Some theoretical considerations.Psychological Review,70(70),80-90.

Duncan,J.(1984).Selective attention and the organization of visual information.Journal of Experimental Psychology:General,113(4),501-517.

Eriksen,C.W.,&Yeh,Y.Y.(1985).Allocation of attention in the visual field.Journal of Experimental Psychology:Human Perception and Performance,11(5),583-597.

Frank,M.C.,Vul,E.,&Johnson,S.P.(2009).Development of infants’attention to faces during the first year.Cognition,110(2),160-170.

Gao,Z.,Yu,S.,Zhu,C.,Shui,R.,Weng,X.,&Peng,L.,et al.(2016).Object-based encoding in visual working memory:Evidence from memorydriven attentional capture.Scientific Reports,6,22822.

Gershman,S.J.,&Daw,N.D.(2015).Reinforcement learning and episodic memory in humans and animals:An integrative framework.Annual Review of Psychology,68(1).

Giesbrecht,B.,Woldorff,M.G.,Song,A.W.,&Mangun,G.R.(2003).Neural mechanisms of top-down control during spatial and feature attention.Neuroimage,19(3),496-512.

Gong,M.,&Li,S.(2014).Learned reward association improves visual working memory.Journal of Experimental Psychology Human Perception&Performance,40(2),841-856.

Gopnik,A.(2009).The philosophical baby.London:Bodley Head.

Haladjian,H.H.,&Montemayor,C.(2015).On the evolution of conscious attention.Psychonomic Bulletin&Review,22(3),595-613.

Itti,L.,&Koch,C.(2001).Computational modelling of visual attention.Nature Reviews Neuro-science,2(3),194-203.

Itti,L.,Koch,C.,&Niebur,E.(1998).A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on Pattern Analysis and Machine Intelligence,20(11),1254-1259.

Jara-Ettinger,J.,Gweon,H.,Schulz,L.E.,&Tenenbaum,J.B.(2016).The naive utility calculus:Computational principles underlying commonsense psychology.Trends in Cognitive Sciences,20(8),589-604.

Kahneman,D.(1973).Attention and Effort.Prentice-Hall.

Kastner,S.,Pinsk,M.A.,De,W.P.,Desimone,R.,&Ungerleider,L.G.(1999).Increased activity in human visual cortex during directed attention in the absence of visual stimulation.Neuron,22(4),751-61.

Kinchla,R.A.(1992).Attention.Annual Review of Psychology,43(43),711-742.

Krauzlis,R.J.,Bollimunta,A.,Arcizet,F(xiàn).,&Wang,L.(2014).Attention as an effect not a cause.Trends in Cognitive Sciences,18(9),457-464.

LaBerge,D.(1983).Spatial extent of attention to letters and words.Journal of Experimental Psychology:Human Perception and Performance,9(3),371-379.

Lake,B.M.,Ullman,T.D.,Tenenbaum,J.B.,&Gershman,S.J.(2016).Building machines that learn and think like people.a(chǎn)rXiv preprint arXiv:1604.00289.

Li,J.,Delgado,M.R.,&Phelps,E.A.(2011).How instructed know ledge modulates the neural systems of reward learning.Proceedings of the National Academy of Sciences,108(1),55-60.

Maunsell,J.H.,&Treue,S.(2006).Feature-based attention in visual cortex.Trends in Neurosciences,29(6),317-322.

Mcadams,C.J.,&Maunsell,J.H.(1999).Effects of attention on the reliability of individual neurons in monkey visual cortex.Neuron,23(4),765-773.

Mnih,V.,Heess,N.,&Graves,A.(2014).Recurrent models of visual attention.In Advances in Neural Information Processing Systems(pp.2204-2212).

Mnih,V.,Kavukcuoglu,K.,Silver,D.,Rusu,A.A.,Veness,J.,&Bellemare,M.G.,et al.(2015).Human-level control through deep reinforcement learning.Nature,518(7540),529-533.

O’Craven,K.M.,Downing,P.E.,&Kanwisher,N.(1999).fMRI evidence for objects as the units of attentional selection.Nature,401(6753),584-587.

Ondobaka,S.,Kilner,J.,&Friston,K.(2015).The role of interoceptive inference in theory of m ind.Brain and Cognition.

Pavlov,I.P.(1927).Conditional reflexes:An investigation of the physiological activity of the cerebral cortex.H.Milford.

Posner,M.I.,Snyder,C.R.,&Davidson,B.J.(1980).Attention and the detection of signals.Journal of Experimental Psychology:General,109(2),160-174.

Shen,M.,Huang,X.,&Gao,Z.(2015).Objectbased attention underlies the rehearsal of feature binding in visual working memory.Journal of Experimental Psychology:Human Perception and Performance,41(2),479.

Silver,D.,Huang,A.,Maddison,C.J.,Guez,A.,Sifre,L.,van den Driessche,G.,et al.(2016).Mastering the game of Go with deep neural networks and tree search.Nature,529(7587),484-489.

Simons,D.J.,&Chabris,C.F.(1999).Gorillas in our midst:Sustained inattentional blindness for dynamic events.Perception,28(9),1059-1074.

Simons,D.J.,&Levin,D.T.(1997).Change blindness.Trends in Cognitive Sciences,1(7),261-267.

Sloutsky,V.M.(2016).Selective attention,diffused attention,and the development of categorization.Cognitive Psychology,91,24-62.

Sutton,R.S.,&Barto,A.G.(1998).Reinforcement learning:An introduction(Vol.1,No.1).MIT Press.

Tenenbaum,J.B.,Kemp,C.,Griffiths,T.L.,&Goodman,N.D.(2011).How to grow a m ind:Statistics,structure,and abstraction.Science,331(6022),1279-1285.

Thorndike,E.L.(1911).Individuality.Boston:Houghton Mifflin.

Treisman,A.M.(1960).Contextual cues in selective listening.Quarterly Journal of Experimental Psychology,12(4),242-248.

Treue,S.,&Trujillo,J.C.M.(1999).Featurebased attention influences motion processing gain in macaque visual cortex.Nature,399(6736),575-579.

Vigorito,C.M.,&Barto,A.G.(2010).Intrinsically motivated hierarchical skill learning in structured environments.IEEE Transactions on Autonomous Mental Development,2(2),132-143.

Vul,E.,Hanus,D.,&Kanwisher,N.(2009).Attention as inference:Selection is probabilistic;responses are all-or-none samples.Journal of Experimental Psychology General,138(4),546-560.

Xu,K.,Ba,J.,Kiros,R.,Cho,K.,Courville,A.,Salakhutdinov,R.,et al.(2015).Show,attend and tell:Neural image caption generation with visual attention.a(chǎn)rXiv preprint arXiv:1502.03044,2(3),5.

Yarbus,A.L.(1967).Eye movements during perception of complex objects(pp.171-211).Springer US.

Rethinking on Attention:A Reinforcement-learning Model of Attention

CHENG Shao-zhe SHI Bo-hao ZHAO Yang XU Hao-kui TANG Ning GAO Tao ZHOU Ji-fan SHEN Mo-wei
(Department of Psychology and Behavioral Science,Hangzhou 310028,China)

Through summarizing and analyzing the current theories on attention,the present paper proposes a new hypothesis that attention is a phenomenon of information selection,rather than a mental architecture or cognitive resource.Inspired by the reinforcementlearning algorithm in artificial intelligence field,we suggest a reinforcement-learning model of human behavior that is able to show the phenomenal attention.This model describes the interaction between the agent and environment:the agent takes action to interact with the environment and gets feedbacks,by which the mental state updates to produce a new policy for taking the next-step action,to maximize the cumulative reward.In this learning procedure,attention emerges as a phenomenon that high-value information gradually gets the processing priority.This framework of modeling provides a new approach to rethinking the nature of attention.

attention,reinforcement learning,computational model,artificial intelligence

B842.1

:A

:1006-6020(2017)-01-0003-10

國家自然科學基金項目(31571119,31600881,61431015)和中央高?;究蒲袠I(yè)務費專項資金資助。

**通信作者:周吉帆,男,博士,浙江大學特聘副研究員,e-mail:jifanzhou@zju.edu.cn;沈模衛(wèi),男,博士,浙江大學教授,e-mail:mwshen@zju.edu.cn。

猜你喜歡
理論資源心理
看見具體的自己
光明少年(2024年5期)2024-05-31 10:25:59
堅持理論創(chuàng)新
當代陜西(2022年5期)2022-04-19 12:10:18
心理“感冒”怎樣早早設防?
當代陜西(2022年4期)2022-04-19 12:08:54
基礎教育資源展示
神秘的混沌理論
理論創(chuàng)新 引領百年
相關于撓理論的Baer模
一樣的資源,不一樣的收獲
心理感受
娃娃畫報(2019年11期)2019-12-20 08:39:45
資源回收
主站蜘蛛池模板: 精品无码国产自产野外拍在线| 久久免费视频6| 日韩区欧美国产区在线观看 | 国产综合另类小说色区色噜噜| 露脸国产精品自产在线播| 成人福利视频网| 一本大道无码日韩精品影视| 欧美一区二区自偷自拍视频| 国产成人夜色91| 久久精品亚洲专区| 欧美精品啪啪一区二区三区| av尤物免费在线观看| 免费a级毛片视频| 日本日韩欧美| 在线a视频免费观看| 久久鸭综合久久国产| 首页亚洲国产丝袜长腿综合| 国内熟女少妇一线天| 97视频精品全国在线观看| 黄片一区二区三区| 青草精品视频| 免费视频在线2021入口| 国产日韩欧美成人| 亚洲天堂在线免费| 蜜桃视频一区二区| 精品少妇人妻一区二区| 激情综合婷婷丁香五月尤物| 波多野结衣亚洲一区| 国产精品福利导航| av性天堂网| 91在线国内在线播放老师| 狠狠色婷婷丁香综合久久韩国| 性网站在线观看| 亚洲 欧美 偷自乱 图片 | 婷婷丁香在线观看| 精品福利视频网| 国产精品无码一区二区桃花视频| 亚洲日韩高清在线亚洲专区| 久久国产亚洲欧美日韩精品| 99er精品视频| 色亚洲激情综合精品无码视频| 91精品啪在线观看国产| 国模视频一区二区| 亚洲日本中文字幕乱码中文 | 亚洲91精品视频| 九九热视频在线免费观看| 日韩av手机在线| 欧美日韩精品一区二区在线线 | 免费Aⅴ片在线观看蜜芽Tⅴ| 无码在线激情片| 午夜国产理论| 日本精品视频一区二区| 欧美亚洲综合免费精品高清在线观看| 九色视频最新网址| 看国产一级毛片| 亚洲欧美综合在线观看| 国产三级国产精品国产普男人| 国产激情无码一区二区APP | 秋霞午夜国产精品成人片| 欧美国产日韩在线| 日韩欧美综合在线制服| 国产成人h在线观看网站站| 国产精品任我爽爆在线播放6080| 动漫精品啪啪一区二区三区| 91在线精品免费免费播放| 久久国产精品无码hdav| 狠狠躁天天躁夜夜躁婷婷| 九色91在线视频| 99re在线观看视频| 自慰高潮喷白浆在线观看| 国产成人精品一区二区三在线观看| 亚洲AV无码乱码在线观看裸奔| 五月婷婷欧美| 成人精品免费视频| 亚洲二区视频| 精品久久国产综合精麻豆| 午夜精品久久久久久久无码软件 | 国产亚洲一区二区三区在线| 黄色污网站在线观看| 中文字幕在线免费看| 国产精品大尺度尺度视频| 日韩精品资源|