大数据预测常常是这样:给你一组数据,你很容易找到一个看似好使的指标,但是换一组数据,这个指标就不好使了。
这是为什么呢?
赛斯说,这是因为一个搞大数据分析的人常犯的错误,叫“维度的诅咒(the Curse of Dimensions)
所以这也体现了“大”数据的必要性。
- 如果你的数据量不够大,千万不要贸然声称自己发现了什么隐藏的规律。
- 而对金融市场这样的领域来说,数据量再大也是无法预测的。
大数据还有一个缺点,我们会过高评价可量化测量的数据。
- 比如计步器,最开始是为了关心健康,最后开始痴迷增加步数
- 一个人的能力不好观测,但是毕业证书和考试成绩容易观测,于是我们就执着于学历和考试。
现在所谓“大数据”,应该 叫“薄数据”
- 因为你看的都是可量化测量、但是未必重要的指标。
- 而我们要想要真正理解一个东西,就需要 “厚数据”一一也就是那些不可量化的因素。
大数据的道德问题
- 你拥有一个别人没有的工具,洞见了一个隐藏的真相,那你要不要说出来呢?
- 了解大数据力量的人不会在 Facebook 上随便点赞,因为点赞会暴露一个人的智商。
大数据显示,喜欢莫扎特、雷暴雨、卷曲的炸薯条的人智商高
而喜欢哈利一戴维森摩托车、乡村音乐和“我爱做妈妈”网站的人智商比较低。
- 如果 Google 发现一个人在大量搜索怎么杀人或者怎么自杀的信息,那 Google 应该把这个事报告给警察吗?
什么东西非得靠大数据才能知道呢?
- 比如说人的真实想法。 可能他自己都不知道
- 但是 Google 可能知道。人们可能会偷偷地搜索一些东西,他的搜索关键词暴露了他的内心。
- 比如你要做一个调查,你想知道美国人民的性生活频率是怎么样的。
- 那么哪怕你这个调查是完全匿名的,我们也可以想象,人们面对这个问题一定会吹嘘一下。
- 根据一项非常权威的调查显示,仅限于异性恋,美国女性平均每年性生活次数是 55 次,其中 16%的情况下使用了避孕套
- 数据 那么按照这个数据计算,美国每年应该用掉 11 亿个避孕套。如果问男性这个数据会用掉 16 亿个
- 但你根据 Google 的记录,“无性婚姻”这个关键词组合的搜索次数比“不幸婚姻”高 3.5 倍,比“无爱婚姻”要高 8 倍。
- 比如真正能划分种族歧视的,不是政党也不是南北,而是东西
- 细节 美国东部的几个州,有更多人有种族歧视思想,而西部尤其是加州一带,人们的确没有什么歧视思想。
- 而这造成了特朗普当选那次预测界的一大耻辱,因为很多表面支持希拉里的,背地里偷偷投出了带有歧视的一票
- 比如搜索两个人信息的时候,你支持谁就会把谁放在前面