多巴胺时钟:您的大脑如何预测您何时会感觉良好
        大脑的一个小区域,称为腹侧被盖区 (VTA),在我们处理奖励的方式中起着关键作用。 它产生多巴胺,这是一种神经调节剂,有助于根据上下文线索预测未来的奖励。 来自日内瓦大学 (UNIGE)、哈佛大学和麦吉尔大学的一个团队已经证明,VTA 更进一步:它不仅编码了预期的奖励,还编码了预期的准确时刻。 这一发现通过机器学习算法实现,突出了将人工智能与神经科学相结合。 这项研究发表在《自然》杂志上。

         腹侧被盖区 (VTA) 在动机和大脑的奖励回路中起着关键作用。 多巴胺的主要来源,这一小群神经元将这种神经调节剂发送到其他大脑区域,以触发响应积极刺激的动作。

         “最初,VTA 被认为只是大脑的奖励中心。 但在 1990 年代,科学家们发现它没有编码奖励本身,而不是对奖励的预测,“UNIGE 医学院基础神经科学系正教授 Alexandre Pouget 解释说。

         动物实验表明,例如,当奖励始终遵循光信号时,VTA 最终不是在奖励的那一刻释放多巴胺,而是在信号出现时释放多巴胺。 因此,此响应对奖励的预测进行编码 (链接到信号),而不是奖励本身。

         一个更复杂的功能

         这种需要最少监督的“强化学习”是人类学习的核心。 这也是许多通过训练提高性能的人工智能算法背后的原理,例如 AlphaGo,这是第一个在围棋游戏中击败世界冠军的算法。

         在最近的一项研究中,Alexandre Pouget 的团队与哈佛大学的 Naoshige Uchida 和麦吉尔大学的 Paul Masset 合作大学,这表明 VTA 的编码比以前认为的还要复杂。 “VTA 不是预测未来奖励的加权总和,而是预测它们的时间演变。 换句话说,每个增益都是单独表示的,并具有预期的精确时刻,“领导这项工作的 UNIGE 研究人员解释说。

        :“虽然我们知道 VTA 神经元优先考虑近时的奖励而不是更远的将来的奖励——但根据手中的鸟的原则是Worth two in the bush - 我们发现不同的神经元在不同的时间尺度上这样做,一些专注于几秒钟内可能的奖励,另一些关注一分钟内预期的奖励,而另一些则关注更遥远的地平线。 这种多样性是允许对奖励时间进行编码的原因。 这种更精细的表现为学习系统提供了极大的灵活性,使其能够根据个人的目标和优先事项进行调整,以最大限度地提高即时或延迟的奖励。

        人工智能和神经科学:双向街道

        这些发现源于神经科学和人工智能之间富有成效的对话。 Alexandre Pouget 开发了一种纯粹的数学算法,其中包含奖励处理的时间。 与此同时,哈佛研究人员收集了有关获得奖励的动物 VTA 活性的广泛神经生理学数据。

         “然后,他们将我们的算法应用于他们的数据,发现结果与他们的经验完全吻合调查结果。 虽然大脑激发了 AI 和机器学习技术的灵感,但这些结果表明,算法也可以作为揭示我们神经生理机制的强大工具。