打个比方。你去弄一千个硬币,给每个硬币都编号设立档案
- 在两年的时间内,每天早上起来,在股市开市之前,你把这一千个硬币一个一个地抛,记录下来每个硬币的正反面,并且记录当天标准普尔指数是上涨还是下跌
- 两年之后,在这一千个硬币当中,你肯定能找到其中有一个硬币,当它正面朝上的时候,标准普尔指数大部分时间一一比如说 70%的时间吧一一是上升的。
- 那你是不是就找到了一枚幸运硬币,从此可以用它来以 70%的把握预测标准普尔指数呢?当然不能!
- 这枚硬币在两年中的优异表现,其实纯属巧合。你考察了一千个硬币,而且时间才两年,其中难免会有一个表现跟标准普尔指数有比较强的正相关。
所谓维度,从数学上讲就是你用了多少个变量。
- 一千个变量太多,两年的数据太少。
- 当你的维度太多而数据量太少的时候,你就容易发现这种假的强相关性。
- 实际上,如果你再用一组新的数据测试,你会发现那个变量根本不好使。
- 这个假相关性,会给人一个可预测的错觉。就连专业研究人员都可能会犯这样的错误。