
多巴胺是一種在大腦中起著重要作用的信號分子,影響著我們的情緒、動機、運動等多個方面。這種神經遞質對基于獎勵的學習至關重要,然而這一功能在許多精神疾病中可能會受到干擾,例如情緒障礙和成癮等。
近期,由美國麻省理工學院教授安·格雷比爾領導的研究團隊發現了一些意想不到的多巴胺信號模式,表明神經科學家可能需要重新審視他們關于大腦強化學習機制的理解。該團隊的研究成果已發表在雜志上。
多巴胺在幫助人類和其他動物學習如何識別與正負結果相關的線索和行為方面發揮著關鍵作用。一個經典的例子就是伊萬·巴甫洛夫訓練狗通過鈴聲預測食物的到來。格雷比爾教授,同時也是麻省理工學院麥戈文研究所的研究員,解釋道:根據強化學習的傳統模型,當動物接收到與獎勵相關的線索時,產生多巴胺的神經元最初會對獎勵本身做出反應。隨著動物逐漸學會了線索與獎勵之間的關聯,多巴胺的釋放時機會發生變化,最終與線索本身(而非獎勵)緊密相連。
然而,隨著新技術的出現,研究人員能夠更精確地分析大腦中多巴胺釋放的時機和位置。格雷比爾的團隊發現,傳統模型并不能完全解釋多巴胺的信號模式。早在十多年前,實驗室的研究生馬克·豪就注意到,與獎勵相關的多巴胺信號并非在獎勵到來的一剎那才釋放,而是在獎勵之前,隨著老鼠逐漸接近獎勵,信號逐步增強。研究人員推測,多巴胺可能是在向大腦其他區域傳遞獎勵接近的信號。格雷比爾表示:“這一發現完全顛覆了傳統的經典模型。”
在其他神經科學家探索如何將這些新發現融入強化學習模型時,格雷比爾教授和博士后研究員金敏貞決定更深入地研究多巴胺的動態變化。格雷比爾表示:“我們想,既然如此,不如從最基本的實驗做起來重新審視這一問題。”
他們的實驗采用了新型的靈敏多巴胺傳感器,追蹤小鼠大腦中多巴胺的釋放情況。在實驗中,小鼠學習將藍光與水獎勵建立關聯。研究團隊特別關注大腦基底神經節中的紋狀體區域,這一部分通過釋放多巴胺,參與與獎勵學習等多種神經回路的調控。

研究發現,多巴胺的釋放時機在紋狀體的不同部位有所差異。然而,格雷比爾團隊并未在任何地方觀察到經典強化學習模型所預測的關鍵變化,即多巴胺釋放時機從獎勵時間到線索時間的轉變。
在他們的一個簡單實驗中,每當小鼠看到燈光時,都會得到獎勵。在這種情境下,紋狀體外側部分在小鼠獲得水獎勵時,會可靠地釋放多巴胺。即便小鼠已經學會了將燈光與獎勵聯系起來,這種對獎勵的強烈反應依然沒有減弱。相反,在紋狀體的內側部分,獎勵出現時并未釋放多巴胺。盡管在學習初期,當小鼠看到燈光時,神經元會發放多巴胺信號,這與標準模型的預測相悖——按照模型,獎勵時才會產生多巴胺反應。格雷比爾表示:“這令人非常困惑,因為根據理論,多巴胺應該在獎勵本身出現時才有所反應。
當研究團隊將第二盞燈引入實驗時,結果更加出人意料。第二盞燈的位置不同,并不代表獎勵。小鼠只能將兩盞燈中的一盞作為線索,而只有第一盞燈會與水獎勵相配對。
在這些實驗中,當小鼠看到與獎勵相關的燈光時,紋狀體中央內側的多巴胺釋放顯著增加,且持續到獎勵出現。與此同時,在外側部分,盡管沒有直接與獎勵關聯,仍然保持著持續的多巴胺釋放,并維持在一個平臺期。
格雷比爾對實驗中引入第二盞燈后多巴胺反應的變化感到非常驚訝。盡管每次小鼠只能看到一盞燈,但每當另一盞燈在不同的實驗條件下出現時,獎勵燈的多巴胺反應發生了不同的變化。
她說:“這必然涉及一種認知因素,大腦似乎希望保留線索出現的信息一段時間。”研究團隊的實驗表明,紋狀體的細胞通過持續的多巴胺釋放來完成這一過程,這種持續釋放貫穿了光亮與獎勵之間的短暫延遲。格雷比爾指出,雖然這種持續的多巴胺釋放在過去并未與強化學習相關聯,但它與大腦其他區域,特別是與工作記憶相關的持續信號非常相似。
格雷比爾表示:“我們的許多研究結果并沒有完全符合傳統、經典的強化學習模型。”這表明,神經科學家對這一過程的理解將在腦科學不斷發展的過程中逐步演變。
“但這只是我們不斷完善理解的一步,目的是重新構建大腦基底神經節如何影響運動、思維和情感的模型。”她補充道,“這些新模型需要納入強化學習系統中的新發現,尤其是關于這些平臺期的部分,同時它們也可能為我們提供關于單一經驗如何在大腦與強化相關區域中持續存在的深刻洞見。”