1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

「数据会说谎」的真实例子有哪些?

本帖由 漂亮的石头2020-09-01 发布。版面名称:知乎日报

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    486,353
    赞:
    46
    [​IMG] 曾加,生活是一个大型试验场,不要拘泥于局部最优解。 阅读原文

    今天早上,我无意间看到一则微博,是在讲「上海出生率下降」的:

    [​IMG]

    看了这则微博,我的第一反应就是:数据不真实。

    「出生率下降」这个事实,我们都是知道的,你说出生人数降低一半甚至 70%,也许都有一定的可信度,但,1990 年的时候其实上海已经是在「计划生育」了,你要说 2020 年的出生人数是 1990 年的 6%,一代人就可以让出生率降一个数量级,打死我我都不会相信的。

    为了说明这个数据的荒谬性,我脑海里浮现出一组我所熟知的数据:

    2006 年,上海参加中考的人数大约是 12 万人。

    由于上海的在初中升高中(以及三校)的升学率很接近 100%,而这其中,绝大部分人都会参加中考,所以可以近似认为 1990.9~1991.8,出生的人数也应该在这个数量级,12 万再多一点,顶多 15 万吧。

    一年有 365 天,所以在 1990 年附近,平均每天出生 300 多个人,所以 1990 年 1 月 1 日出生 2784 人,这个数是绝对有问题的。

    可是,这条微博的作者傅蔚冈也算是有头有脸的人物,浙大毕业,上海金融与法律研究院 工作,不像是会信口胡说的人。而他所使用的数据源,「上海发布」公众号,也算政务号了,数据也不应该造假,那究竟是怎么一回事呢?

    我看了下公众号的数据,数据看起来好像是真的:

    [​IMG]

    那么,换个其他日期试试?

    的确,如果把日期换成了一个非特殊日期(比如 1 月 1 日、10 月 1 日),出生的人数会有所减少,但基本上也有 1000 多,那么如果把 1990 年出生的人数全部加起来,估计也至少有 50 万以上了。

    但这和上海 2006 年参加中考的人数完全对不上。肯定是哪里有问题了。

    于是我又看了一遍公众号的页面,终于注意到几个小字:

    「本市户籍人员」。

    本市户籍人员,并不一定需要参加中考,也并不一定要在本市出生,这其中有很大一部分,都是出生在其他城市,在本科或者研究生毕业以后,积分到位,拿到上海户籍的。当然,还有一部分是父母拿到了上海户籍,然后帮助孩子在大学毕业前就拿到户籍的(这也是 2000 年 1 月 1 日出生率偏高 的原因)。因此,在年龄还小的时候,他们是不会出现在这个统计里的。但如果你在 2050 年再去统计 2020 年 1 月 1 日出生的「本市户籍人口」,肯定也不会是 156,说不定有 1560。

    因此,对比 2020、2010、2000、1990 年的出生人数,并不能得出「出生率断崖下降」的结论,反而能得出:出生地不在上海的「新上海人」占比非常高。

    这就是「数据口径偏差导致的结论偏差」。

    阅读原文
     
正在加载...