chenqin,数据帝 阅读原文 根据官方发布基尼系数的《中国住户调查年鉴》,从 2003 年到 2018 年,中国的基尼系数走势是这样的: 在 2008 年前上升,从 2009 到 2015 年下降,随后再次上升。最新的基尼系数是 2018 年的 0.468。 当然我们都知道,有很多微观调查数据的基尼系数都和官方发布的基尼系数不太一样。这里我们主要会用到这样几份数据: 1,CLDS,2016 年调查 “中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS 的目的是通过对中国城乡以村 / 居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村 / 居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。 2,CHFS,2017 年调查 中国家庭金融调查(China Household Finance Survey,CHFS)是中心最早开展的全国大型抽样调查,旨在收集家庭的资产与负债、收入与支出、保险与保障、人口与就业等方面信息,全面追踪家庭动态金融行为。目前,中心已经成功实施三次调查。2011 年,收集家庭样本 8438 户,样本具有全国代表性;2013 年,收集样本 28141 户,样本在全国代表性的基础上增加了省级代表性;2015 年之后,样本扩大到 40000 余户,具有全国、省级和副省级城市代表性。 3,CFPS,2018 年调查 中国家庭追踪调查(China Family Panel Studies,CFPS)旨在通过跟踪收集个体、家庭、社区三个层次的数据,反映中国社会、经济、人口、教育和健康的变迁,为学术研究和公共政策分析提供数据基础。CFPS 重点关注中国居民的经济与非经济福利,以及包括经济活动、教育成果、家庭关系与家庭动态、人口迁移、健康等在内的诸多研究主题,是一项全国性、大规模、多学科的社会跟踪调查项目。CFPS 样本覆盖 25 个省 / 市 / 自治区,目标样本规模为 16000 户,调查对象包含样本家户中的全部家庭成员。CFPS 在 2008、2009 两年在北京、上海、广东三地分别开展了初访与追访的测试调查,并于 2010 年正式开展访问。经 2010 年基线调查界定出来的所有基线家庭成员及其今后的血缘 / 领养子女将作为 CFPS 的基因成员,成为永久追踪对象。CFPS 调查问卷共有社区问卷、家庭问卷、成人问卷和少儿问卷四种主体问卷类型,并在此基础上不断发展出针对不同性质家庭成员的长问卷、短问卷、代答问卷、电访问卷等多种问卷类型。 我们把这三份数据按照国家统计局的算法计算,可以得到这样一组基尼系数: 可以看到,每一个数据算出的基尼系数,都比国家统计局的 0.467 更高,其中最低的 CFPS 也有 0.545,而 CLDS 甚至接近 0.595。 问题出在哪里呢?谁的基尼系数才是对的?那我们要看看,这几个数据到底都长什么样。 上图呈现了以上三个微观数据的基尼系数洛伦兹图,横轴标识收入从低到高的人口累计占比,纵轴表示这部分人口的收入累计占比。可以看到上图的三条线都经过了(80,0.4)曲线,意味着收入最低的 80%人口占了社会总收入的 40%。用这三项数据计算,中国的基尼系数分别达到 0.545、0.584 和 0.595。 那么,统计局的数据结果如何?我这里有调查总队 2016 年在四川、上海、广东、辽宁四地的微观住户调查数据,把 CFPS、CLDS 和 CHFS 数据限制在四川、上海、广东和辽宁样本,拿来和统计局住户调查做一个对比,结果如下: 结果看来,四省基尼系数都要比全国要小一些(地区更少且地区贫富差距更小的情况下,基尼系数更低),其中统计局的基尼系数从全国层面的 0.465 下降到 0.422,CFPS 和 CHFS 也都下降了 0.05 左右,分别达到 0.498 和 0.525。CLDS 仍然在 0.568。 我们这里可以得到第一个猜想: 用微观数据计算基尼系数,在同样口径的情况下,统计局的基尼系数要比各项微观数据计算的结果低 0.08 到 0.15 左右。 接下来就来了第二个问题:各项微观数据算出的基尼系数为什么要比统计局调查的结果更高呢? 我们在答案的第一幅图中的 99 处加入一条线,他们代表收入最低 99%人口可占据的收入比例,见下图: 可以看到,在累计人口到了 90%的时候,收入曲线上移的速度陡然加快,累计人口从 99 到 100 时,累计收入上升了 10%以上。三个数据的前 1%人口和前 0.1%人口分别占社会总收入比值如下: 按照这个比例计算,在这些微观数据中,前 1%收入水平是平均收入的 15-16 倍;前 0.1%的收入水平是平均收入的 50-70 倍。 那么,统计局调查到的前 1%人口和前 0.1%人口,其收入占比是多少呢? 统计局调查到的住户中,前 1%人口的收入只是社会平均收入的 9.5 倍;前 0.1%人口的收入只有 26 倍。这要远低于 CFPS、CHFS 和 CLDS 的调查结果。 如果把这三组数据的前 1%收入去掉,则会出现下图: 可以看到,此时各数据的基尼系数都比之前降低了不少,CFPS 的基尼系数还剩 0.479,已经接近统计局的全国水平;CLDS 和 CHFS 也下降到 0.532 和 0.522。 因此,我们可以得到第二个问题的答案:有没有调查到富人,是统计局基尼系数和其他微观调查数据基尼系数产生差异的主要原因。 但顺势我们又有了第三个问题:统计局或各项微观数据,谁调查到的富人规模才能正确反映社会现状? 这里我们需要借助一些外部数据库,《2018 胡润财富报告》 胡润百富 - 胡润研究院发布《2018 胡润财富报告》 这份数据「采用微观和宏观的调研方法调研。微观调研上参考各个地区高档住宅数量、最近三年豪华汽车销量、个人所得税申报人数、企业注册资本和其他高档消费等相关指标。宏观上参考国家统计局最新公布的中国 GDP、GNP 数据,并结合洛伦兹曲线模型进行宏观分析统计」,估算了全国高净值人群的规模,他们发现,截止至 2017 年 12 月 31 日,中国大陆资产千万的家庭达到了 161 万户;资产亿元上的家庭达到了 11 万户。由于采用了宏观数据下推,这个估计应该说比较准确。 在三份微观数据中,仅有 CHFS 调查了家庭资产,在 4 万户 CHFS 被调查家庭中,资产在千万元以上的家庭有 522 户,按抽样权重计算并放大到全国,共可推算出 380 万户千万元以上资产的家庭,是《2018 胡润财富报告》推算的 2 倍多。如果按照人口占比调整(胡润财富报告按照每户人数相同计算),千万元以上资产家庭的户数进一步降低到 320 万户,是《2018 胡润财富报告》的 2 倍。 但亿元以上资产的家庭呢?在调查中有 522 户千万以上资产家庭,那么其中应当有几十户亿元家庭吧? 很遗憾,一户也没有。因为 CHFS 为了保护隐私,对每一户的资产进行了截尾,所有资产超过 3000 万的家庭,资产都记为 3000 万元;收入高于 500 万的家庭,收入都记为 500 万。在前文也可以看到,CHFS 的前 1%人口收入和另两个数据差不多,但前 0.1%人口收入就要低于另外两份数据,原因就在于这个截尾。 但截尾前的原始数字并不是完全不能推算出来,CHFS 有很复杂的数据结构,一些指标报告了原始值,例如房产等,他在数据库中也记录了原始值。我们利用这些原始值重新推算截尾前的家庭资产,结果发现,共有 6 户被调查对象在恢复了截尾前数据后得到了亿元以上的资产,按权重调整后推算全国,应有 4.6 万户家庭资产在亿元以上。 两相对比,有这样的结果: 千万元资产——CHFS,320 万户;胡润财富报告,161 万户 亿元资产——CHFS,4.6 万户,胡润财富报告,11 万户。 这个对比说明 CHFS 的调查还是相对比较准确的,尤其是对于占比如此低的极富人口调查,数量级能对得上,已经很不容易。 接下来就是激动人心的时刻:CHFS 调查到的富人——我们认为他比较接近真实水平——和统计局调查到的富人,其收入差别有多大? 我们可以算出,CHFS 调查中最富有的前 1%家庭的的每户人均收入情况是: 中位数为 70 万元,平均值 114 万元,最高值为 800 万元。 那么,在统计局的微观数据中,收入最高的前 1%家庭,类似的指标是? 中位数 25.2 万元,平均值 33.7 万元,最高值为 157 万元。 答案来了,统计局的基尼系数较低,并不是因为基尼系数真的很低,而是他的调查并没有覆盖到那群最富的人。统计局数据中的 99%分位数,相当于 CHFS 截尾前数据的 97.3%;CHFS 截尾前数据的 99%,在统计局数据中可以拍到 CHFS 截尾前数据的 99.9%;统计局的最高收入水平,仅相当于 CHFS 截尾前数据的 99.7%,其上还有千分三更富有的家庭,不在统计局的调查样本之内。 而加上在统计局数据中被大大稀释的前 1%富人,才能反映我国相对真实的基尼系数,真实的贫富差距。 现在,让我们给出最后一组计算——前文中的基尼系数,我们都用了截尾后数据,那么如果用恢复了截尾前原始情况的 CHFS 数据,能算出多高的基尼系数呢?结果如下: 将 3000 万元以上资产和 500 万元以上收入的家庭恢复到原始值,基尼系数达到了 0.671!考虑到 CHFS 对富人的抽样水平较高,在千万元资产和亿元资产的家庭数量的估计上与其他数据更一致,我认为这个数字更接近中国的真实水平。 综上所述,中国的基尼系数有不同的结果: 如果在统计局口径(几乎不包括前 1%人口),基尼系数约为 0.47; 如果包含富人,但是没能包含那些最富有的人口(如 CFPS、CLDS 和截尾后的 CHFS),则基尼系数约为 0.55 到 0.6 之间; 如果不仅包含了富人,还包括了那些亿万富翁,包括那些人均收入达到了平均水平上百倍的人(如截尾前的 CHFS),那么中国的基尼系数会超过 0.6,达到 0.67。 阅读原文