「数据说谎」有个著名的例子，关于生孩子的

漂亮的石头 · 2015-04-17

「数据会说谎」的真实例子有哪些？

田吉顺，新书《妇产科男医生告诉你》上市

你一定听说过“酸男辣女”的说法，就是妈妈爱吃酸就生男孩，爱吃辣就生女孩。当然，大多数人把这个当做玩笑话——如果妈妈爱吃酸辣土豆丝难道就要生个不男不女的了？

但是，你觉得妈妈的饮食情况会影响到孩子的性别吗？

2008 年，在权威杂志《英国皇家学会学报》上发表了一篇文章：《You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans》。研究人员就打算回答上面的问题。他们通过对 740 名女性进行分组研究，考察她们孕前、早孕期、中晚孕期的饮食情况对于胎儿性别的影响。研究人员对 133 种食物进行问卷调查研究，结果发现，怀孕前早饭吃更多燕麦的女性，更容易生男孩！而除了燕麦，调查的其他食物都和男女性别没有明显关联。

这篇文章一发表，马上引起广泛关注，Google 点击超过 50000。要知道，这可是一篇纯学术文献，也可以有如此之高的点击量！

如此高的关注度，自然逃不过学术界的质疑。2009 年，同样在《英国皇家学会学报》上，一篇针锋相对的质疑文章发表出来：《Cereal-induced gender selection? Most likely a multiple testing false positive》。提出质疑的，是三位统计学家：Stanley Young，Heejung Bang 和 Kutluk Oktay。他们撇开实验设计中的数据获取的问题，比如回忆偏倚、测量误差、精确测量的困难性等等，直接针对前一篇文章的统计学方法提出质疑。他们在对前一篇文章中提供的原始数据进行重新统计之后发现，那些数据其实全部没有相关性，而所得出的“吃燕麦生男孩”的结论，其实只是一个偶然事件。

也就是说，之前研究的那 133 种食物，对于生男生女的影响都是随机分布的；但是在那一次研究的时候，恰好发现那一批研究对象吃了燕麦更容易生男孩，这纯粹属于偶然事件。那篇文章把一个偶然事件当做结论报道出来了。

但是，做实验和统计分析，不就是为了尽可能的避免偶然因素的影响，来找到实际的关联性吗？那为什么在统计了这么多样本量和分析了这么多因素之后，竟然最终还是找出个偶然事件呢？

问题就在统计方法上。2008 年那篇文章的统计方法用的还是 p 值，但是，Stanley Young 他们指出，在做多重检验（multiple testing）的时候，使用 p 值是不正确的，而应该用校正后的 p 值（ajusted p-value），也就是要考察一个错误发现率（False Discovery Rate，FDR）。

这到底是怎么回事呢？

如果从统计学角度，原假设、备择假设、一类错误、二类错误的可能比较复杂，我尽量用最简单的话解释一下基本思想。

我们做的每一个判断都是有可能出错的，但是，我们希望经过我们的努力，使我们的判断出错的概率尽可能小。就是说我们允许自己犯错，但是不能太离谱，老是犯错就不对了。

我们在做统计研究的时候也一样，也是有一定的“容错率”的，比如说 1%。也就是我们做这项研究，按照这样的统计方法得出的结论，虽然有可能是错误的，但是错误的机会不超过 1%。这种小概率事件在一次试验中实际发生的机会其实微乎其微，于是我们认为结果是可信的。

但是，当我们研究的因素多起来，对这些因素同时进行统计分析的时候，本来一个因素 1% 的出错机会就被放大了。比如每个因素有 1% 的出错可能，当我们的研究因素增加到 100 个，那么就会存在一个结果是 100% 错误的。就好像如果一个疾病的发病率是 1%，那么在 100 个人当中，就会有一个是患病者。本来的小概率，当遇上更大的基数时，小概率事件就发生了！所以，就出现了上面提到的，虽然那 133 种食物的影响其实都是随机的，但是当对他们进行研究时，竟然出现了一个“有意义”的结论。

这样一来，本来只是一个很小的犯错几率，结果因为分析因素的增多，竟然真的出现了错误！

因此，在 1995 年，Benjamini 和 Hochberg 提出在多重检验时要考察 FDR 的概念，就是要限制这个被增大的错误机会。而当把 FDR 控制在一个可以接受的范围内时，再对 2008 年那篇文献的原始数据进行统计，就会发现那 133 种食物对于胎儿性别其实都没有特异性的影响。

目前，FDR 的概念被用于高通量的基因相关研究。因为基因片段实在太多了，量级可能不仅是几百几千，甚至上万，这时候如果继续使用 p 值检验，那么就会错得离谱。但是，试验在定 FDR 时，也不是越低越好，因为过低的话，可能本来有意义的结果，也因为过低的 FDR 而显示无意义了。所以，FDR 的确定，应该在一个平衡点，因此当我们考察 FDR 的时候，可能就有某个因素其实已经出错了，只不过这个错误的数量尚在可接受范围内。

这让我想到前些天，因为 Angelina Jolie 继乳房切除后又切除双侧卵巢输卵管，让有些人感觉依靠基因治疗癌症预防癌症好像指日可待。而且，很多科幻电影上，也不乏通过基因测定或者改造来判断和影响人体某些特性，或者治疗疾病。

确实，基因的发现对于生物医学来说，可谓意义重大；当科技领域的进步让人充满期待的时候，基因的出现让生物医学不至于太过寒碜。但是，作为医生我得说，我们可以期待科技领域的“日新月异”，但是在临床医学上，最好还是保守一些。基因确实对医学有帮助，但研究的同时，即使改进统计方法，也会带来实际出错的机会。而在生命和健康这么一个特殊的领域，我们的容错率是很低的。即使是实验室研究已经获得了令人欣喜的结果，在临床医学领域，我们还是要老老实实的设计严格的临床试验去验证，而很多时候，医学上的验证是需要时间的。

这还让我想到大数据。现在是一个逢人必说大数据的时代，而且大数据确实给我们的观念带来巨大的冲击。但是，大数据不牛逼，分析数据获得信息才更重要。因为有瑕疵的分析方法，就有可能会得出前面提到的“吃燕麦生男孩”的结论。如果这样的分析结果用在投资上，大不了就是一次投资决策失败，最多某人破产，他还尚有东山再起的机会。而如果这样的问题出现在医学领域，那么受影响的恐怕就是健康和生命，结局的可逆性就没有那么好了。

1988 年，Russell Ackoff 提出了 DIKW 金字塔。这个金字塔的最底层是数据，而塔尖则是智慧。在从数据通往智慧的路上，是信息和知识。所以，我们这个世界上不缺乏数据，缺乏的是通过合适的方法从数据中获取信息，进而从信息中提炼知识，上升到智慧的能力。

其实数据不会说谎，它们只是一些毫无意义的数字而已；但是当你对这些数字进行解读，从获取到分析，这个过程就可能出现问题，即使你的每个步骤都是合乎逻辑的。在医学上，这就是医学的不确定性带来的。

而且，医学还有它的特殊性。医学解决问题都是滞后的，一定是先出现疾病，然后我们才能认识到它，再去想办法去解决它。我们不会去预测新的疾病。当你已经知道事情的结局，企图对这个结局进行解释的时候，总是难免会不自觉的带入自己的偏见。而我们每个人都更容易发现别人的偏见，对别人的解释倾向于怀疑。这时候，数据就出现了。因为数据是最客观的东西，于是它就变成了最好的说服别人的方法。所以有时候我们分析数据的目的，可能还不是为了解释现象获取信息，其实仅仅是为了说服别人或者说服自己。

所以，当把大数据引入医学的时候，更应该时刻保持警惕。大数据分析的时候，可能出现问题的地方远不止前面提到的 FDR，还有很多，这就需要我们对结论时刻保持怀疑，并且留出足够长的验证时间。

查看知乎原文

登录或注册

「数据说谎」有个著名的例子，关于生孩子的

漂亮的石头版主管理成员

登录或注册

「数据说谎」有个著名的例子，关于生孩子的

漂亮的石头 版主 管理成员

漂亮的石头版主管理成员