多巴胺的作用不是传递快乐一一而是让我们追求快乐细节
当大脑大量释放多巴胺的时候,你精确的感觉不是快乐,而是想要去做一件可能会带来快乐的事。

多巴胺的原理是让大脑记住做什么事容易得到回报,然后下一次更想做这个事。

  • 比如有一天你心情不好,吃了点冰淇淋感觉就好多了,那么多巴胺就会让你记住“吃冰淇淋会让你感觉好”。
  • 下次感觉不好的时候,你一看见冰淇淋,多巴胺就会大量释放,提醒你这东西能解决问题。

多巴胺释放最多的时刻,不是在得到奖励之后,而是在得到奖励之前。

  • 这就是为什么悬念即将揭晓但还没有揭晓的那个时刻最吸人。
  • 这也是为什么“差一点就能得奖”这个感觉那么能激励你。
  • 这一局你明明输了钱,但老虎机的设定会故意把输钱包装成“差一点赢钱”,目标仿佛就在眼前,多巴胺大量释放,你必须再玩一把。
  • 不管不顾地玩一把再玩一把,都是因为陷入了稀缺性循环

工作机制

多巴胺是强化学习的关键。

  • 起初人们以为多巴胺是一种奖励物质。
  • 在实验中,给猴子喂点糖水,猴子大脑立即产生多巴胺,似乎多巴胺代表「喜欢」。
  • 但这样进行几次之后,研究者发现猴子大脑不再是得到糖水之后释放多巴胺,而是在之前,在它预期会得到糖水的时候,大量释放多巴胺。
  • 多巴胺是对好东西的预期,而不是好东西的奖赏。
  • 而且这个预期可以量化。
    • 预期的好东西距离现在越近,预期获得好东西的概率越高,多巴胺释放得就越多。这恰恰就是萨顿的时序差分学习算法中对强化训练A的信号的处理方法!

1997年,有人结合A的原理,用一篇论文彻底讲清楚了多巴胺的工作机制。

  • 多巴胺是一个强化信号,而不是奖励信号。
  • 多巴胺的作用是让我们「想要」,告诉我们好东西就在附近,你现在的做法是对的,继续前进!
  • 哪怕是最早的两侧对称动物,线虫,也有多巴胺。
    • 但线虫的多巴胺比较粗糙,只能告诉你附近有好东西。
  • 而脊椎动物的多巴胺则是一种量化信号:多巴胺越多,你就知道好事儿发生的可能性越高,时间越近,你的动力就越大。一个重要变量是时间感。
    • 脊椎动物有时间感,能精确感知两个事情间隔的时间长短细节
    • 而无脊椎动物,哪怕是其中比较高级的螃蟹、蜜蜂,都不能感知时间间隔,这就大大限制了它们的学习能力。
  • 在脊椎动物的大脑中,下丘脑负责释放多巴胺。
    • 它是一个奖励系统,只看结果,认为是好东西就释放多巴胺。
    • 但大脑真正的学习机制不是释放,而是感知多巴胺,这一步由基底神经结负责。
    • 基底神经结中有两个回路,一个扮演行动者,一个扮演批评者。批评者负责感知多巴胺,它们共同学习。
    • 猴子第一次喝到糖水的时候,下丘脑释放多巴胺,基底神经节就知道这个事件值得学习。几次之后,学习变得精确化,基底神经节的两个回路学会了判断奖励发生的概率,从而量化感知多巴胺,形成强化学习