多巴胺

多巴胺的作用不是传递快乐一一而是让我们追求快乐细节
当大脑大量释放多巴胺的时候，你精确的感觉不是快乐，而是想要去做一件可能会带来快乐的事。

多巴胺的原理是让大脑记住做什么事容易得到回报，然后下一次更想做这个事。

多巴胺释放最多的时刻，不是在得到奖励之后，而是在得到奖励之前。

工作机制

多巴胺是强化学习的关键。

起初人们以为多巴胺是一种奖励物质。
在实验中，给猴子喂点糖水，猴子大脑立即产生多巴胺，似乎多巴胺代表「喜欢」。
但这样进行几次之后，研究者发现猴子大脑不再是得到糖水之后释放多巴胺，而是在之前，在它预期会得到糖水的时候，大量释放多巴胺。
多巴胺是对好东西的预期，而不是好东西的奖赏。
而且这个预期可以量化。
- 预期的好东西距离现在越近，预期获得好东西的概率越高，多巴胺释放得就越多。这恰恰就是萨顿的时序差分学习算法中对强化训练A的信号的处理方法！

1997年，有人结合A的原理，用一篇论文彻底讲清楚了多巴胺的工作机制。

多巴胺是一个强化信号，而不是奖励信号。
多巴胺的作用是让我们「想要」，告诉我们好东西就在附近，你现在的做法是对的，继续前进！
哪怕是最早的两侧对称动物，线虫，也有多巴胺。
- 但线虫的多巴胺比较粗糙，只能告诉你附近有好东西。
而脊椎动物的多巴胺则是一种量化信号：多巴胺越多，你就知道好事儿发生的可能性越高，时间越近，你的动力就越大。一个重要变量是时间感。
- 脊椎动物有时间感，能精确感知两个事情间隔的时间长短细节
- 而无脊椎动物，哪怕是其中比较高级的螃蟹、蜜蜂，都不能感知时间间隔，这就大大限制了它们的学习能力。
在脊椎动物的大脑中，下丘脑负责释放多巴胺。
- 它是一个奖励系统，只看结果，认为是好东西就释放多巴胺。
- 但大脑真正的学习机制不是释放，而是感知多巴胺，这一步由基底神经结负责。
- 基底神经结中有两个回路，一个扮演行动者，一个扮演批评者。批评者负责感知多巴胺，它们共同学习。
- 猴子第一次喝到糖水的时候，下丘脑释放多巴胺，基底神经节就知道这个事件值得学习。几次之后，学习变得精确化，基底神经节的两个回路学会了判断奖励发生的概率，从而量化感知多巴胺，形成强化学习。