chenqin,数据帝 阅读原文 高考成绩终于公布了。 如果说高考成绩是对考生过去十多年苦读的最终总结,接下来的事情则需要考生们站在岔道口,和大部分同学少年挥手作别,选择未来数十年的人生走向。应该去哪一所学校?应该就读什么专业?我们用这篇文章试图给出一些参考依据。 ▍“天坑”和“热门”专业的转换 本文使用的数据是2005 年到 2021 年约 400 万条分数线数据,囊括了在这 17 年内全国大部分高校在所有省份、所有科类、所有专业上的分数线和招生情况。 我们将所有专业匹配至《普通高等学校本科专业目录(2020 年版)》后,计算每个专业在所有学校、所有地区招生时的平均百分位排序,算出每个专业在当年的“热门程度”。 例如甲校在 A 地的理科招收 20 个专业,其中计算机专业在 20 个专业分数线中排名第 3,则说明计算机专业在甲校、A 地、理科的招生中的百分位为 15%。将所有学校、所有地区、所有科类中计算机专业的百分位根据各自的招生数量加权平均后,得出的结果就是计算机专业在当年招生中的“热门程度”。 从 2005 年到 2021 年,各大类专业的热门程度如下图所示,这个数字在 0 到 100 之间,表示在各个学校平均能高于百分之多少的其他专业,越接近 100 越热门,越接近 0 越冷门。 上图列出了招生人数最多的 72 个专业在过去 17 年的热度变化。可以看到,许多专业的“热门”程度出现了很大的变化。口腔医学、软件工程、计算机科学与技术、统计学、数学与应用数学等五个专业成为热门程度上升最快的专业。材料科学与工程、土木工程、环境科学、生物工程、高分子材料与工程等五个专业成为热门程度下降最快的专业。 这些专业的热门走势并非单调上升或下降,一些专业出现了 U 型或者倒 U 型的曲线。 倒 U 型的曲线包括会计学以及金融学,2005 年时分别只有 50 和 63,2005 年开始上升,在 2015 年左右达到了热门的顶峰,为 75,随后开始下降,2021 年回落到 59 和 61。 金融和会计等专业只是回到了他们一开始的出发点,另一些专业则出现了“超额滑落”,主要集中在土木、建筑专业中。建筑学在 2005 年时的热门程度为 62,和当年的金融学类似,2014 年时达到了 77,随后迅速下降,2021 年时仅有 43,比 2005 年时还要低 19。土木工程从 2005 年的 53 上升到 2013 年的 70 再下降到 2021 年的 31;工程管理从 2005 年的 43 上升至 2014 年的 55 再下降到 2021 年的 22。倒 U 型的右半边终点比起左半边的起点更低了。 正 U 型的专业主要是和 IT 相关,例如信息与计算科学从 2005 年的 46 下降至 2012 年的 28 再上升至 2021 年的 57,软件工程从 2005 年的 40 下降至 2011 年的 27 再上升至 2021 年的 62,信息安全从 2005 年的 51 下降至 2011 年的 39 再上升至 2021 年的 65。最有代表性的莫过于计算机科学与技术,从 2005 年的 47 下降至 2010 年的 35 后,一路回升至 2021 年的 67。这些专业都经历了额度低谷,但近年来重新回升后,还超过了以往的高点。 始终下降的专业包括制药工程(从 2006 年的 50 下降至 2021 年的 27)、国际经济与贸易(从 2005 年的 63 下降至 2021 年的 43)、材料科学与工程(从 2006 年的 57 下降至 2021 年的 18)、环境科学(从 2005 年的 47 下降至 2021 年的 23)、生物医学工程(从 2005 年的 52 下降至 2021 年的 26)、高分子材料与工程(从 2007 年的 59 下降至 2021 年的 21)等。 十多年来基本处于上升范围的专业则包括法学(从 2008 年的 37 上升至 58)、数学与应用数学(从 2008 年的 42 上升至 2021 年的 63)、统计学(从 2006 年的 35 上升至 2021 年的 57)、口腔医学(从 2006 年的 51 上升至 2020 年的 80)。 金融和建筑类先热后冷,计算机类先冷后热。专业的热度变化,呈现的不仅是考生们的选择,更体现了中国经济大环境的需求变化。 ▍“师范”和“理工”的轮回 学校的变化同样有趣。我们从数据中选取了从 2005 到 2021 年全国范围内各地区招生数据最完整,且 17 年数据纵向可比的100 所高校,根据每一个专业的最低分(而非整所学校所有专业的最低招生分数)计算每一所高校在这 100 所高校内部的平均招生百分位排序。这种方式可以避免学校规模相差较大时全校最低分不可比的情况。2005 年和 2021 年的前 20 名高校和其平均招生百分位排序如下表所示: (中国科学院大学于 2016 年开始进入招生,在招生的省份中一般能够占据第三、第四名。但由于其招生省份较少,数据积累时间较短,为保证数据的纵向可比,未列入榜单内。) 从上表可以看到,中国高校招生的拔尖前八名座次在这些年来始终未变。前两名清华北大的排序保持不变,但清华的招生百分位更加拔尖了,原本在这 100 所高校的学生中平均能招收到前 1.24%的学生,现在可以招收到前 0.33%的学生。复旦大学和上海交通大学的座次在三四名中交换,但两所学校的招生百分位都有较大上升,复旦大学从之前招收前 5.4%的学生上升为招收前 3.7%的学生,上海交通大学从招收前 6%的学生变为招收前 2%的学生。在第五到第八名之间,2005 年的排名为中国人民大学、浙江大学、中国科学技术大学、南京大学,2021 年变成了中国科学技术大学、中国人民大学、南京大学和浙江大学。 与保持不变的前八名相比,第 9 到第 20 名可以说是城头变幻大王旗,2005 年时在前 20 榜中的北京外国语大学、对外经济贸易大学、北京航空航天大学、北京邮电大学和天津大学在 2021 年跌出前 20,华中科技大学、东南大学、华东师范大学、电子科技大学和中国政法大学进入前二十名。其中华中科技大学上升迅速,从二十名开外进入全国前十名。 中国科学院大学于 2016 年开始进入招生,在招生的省份中一般能够占据第三、第四名。但由于其招生省份较少,数据积累时间较短,为保证数据的纵向可比,未列入榜单内。个别高校由于招生数据不够完整,例如华南理工大学等,因此也未列入榜单内。图片比较小,请点击原图放大 从全国范围看,最难忽视的上升和下降的趋势,莫过于“师范”的崛起和“理工”的衰落。北京师范大学、华东师范大学、华中师范大学、南京师范大学……所有的师范大学,几乎都有不同程度的上升,平均百分位从 34 上升到 53。 而工矿、工程类大学,例如北京矿业大学、北京化工大学、哈尔滨工程大学等,则出现了一定的下降,平均百分位从 45 下降到 38。 类似的下降在理工类大学也出现了,北京理工大学、大连理工大学、华东理工大学等的平均百分位从 2008 年的 55 下降至目前的 47。 师范类、科技类大学的上升,以及理工、工矿类大学的下降,同样与中国的宏观经济相关。而最能体现宏观经济变局的高频数据,也最能决定不同大学、不同专业招生情况的数据是什么呢? 没错,正是我们下面将使用的招聘数据。 ▍从 2 亿条招聘数据看专业工资“溢价” 从 2015 年到 2022 年,我们收集了3.5 亿条招聘数据。招聘广告体现的是企业对劳动力的需求。当一个招聘广告在其职位描述中有明确的专业要求相关关键词时,将其标记为某类专业的“对口招聘”。我们一共提取出了2 亿条包含了专业需求信息的招聘广告,并通过下式计算每一个专业的工资“溢价”。 对每一年的所有招聘广告做一次以上回归,提取出每一年、每一个专业的的系数大小 ,这个系数大小就表示在同样时间、同样地点、同样的教育和经验需求下,对某一类专业有需求的岗位会具有多大的“工资溢价”。 (感谢加州大学圣迭戈分校(UCSD)杨阳 @SD 下海的杨大夫 提供的招聘相关数据) 上两图表示在 2021 年到 2022 年所有招聘职位中对某类专业有明确需求时的工资溢价。可以看到,前十名中最高的是航空航天专业,当一个岗位要求对口航空航天类专业时,这个岗位的工资会比均值高25%以上。口腔医学和数学排名第二、第三,工资溢价也在 10%以上。基础医学、物理学、电子信息、计算机科学与技术、金融学、临床医学和经济学分列 4-10 名。 而在倒数十名中,我们可以看到中药学、食品科学与工程、新闻传播学、公共管理等专业,他们的工资“负溢价”都达到了 15%以上。工商管理、旅游管理、美术学、心理学、工业工程、护理学等专业的负溢价也在 10%以上。 (前十名的“正溢价”和后十名的“负溢价”无法抵消,这是由于不同专业对口的招聘职位数量不同导致的。) 那么,这些专业的“工资溢价”和他们在招生时的“热门程度”之间存在什么关系呢?以 2021 年的工资溢价和热门程度为例,我们可以画出下图—— 上图的横坐标为 2020 年的分专业工资溢价,而纵坐标为 2021 年的招生百分位。可以看到,两者之间存在高度的相关关系——工资溢价越高的对口专业,在随后的招生中分数线百分位也会越高。 ▍“工资溢价”和“专业热门”的时间错位——随大流,还是搏一把? 上图呈现出的趋势是,某专业对口工资越高,人们对某专业越趋之若鹜,这很好理解。 但反过来,报考了热门专业,是否能保证在毕业时仍然有很大的需求市场,很高的对口工资呢? 正面的例子当然有很多,但也不乏反例。如 2011-2013 年之间选择了热门专业建筑、土木的学生,在 2015 年之后陆续毕业了,却面对的是一个逐渐冷却的劳动力需求市场。专业选择时间和实际就业时间之间长达4 年以上的间隔时间,存在较高风险。 到底是顺周期随大流,还是逆周期搏一把,是让每一个考生踟蹰不定的心结,也是填志愿、选专业时的千古之谜。 为了解开这个心结,我们做了一组研究,看每一年的劳动力市场招聘情况和之前每年的专业热度之间存在什么关系——热门专业是因为就业火热,但这个热度能维持多久?和毕业之后就业有多大关系? 具体来说,我们使用从 2005 年到 2021 年的历年分数线数据和从 2015 年到 2021 年的历年招聘数据,用 T1 年的专业热度去回归 T2 年的工资溢价,其中 T1 和 T2 之间的间隔为 T。对于每一个 T,计算两者之间的相关性和回归系数的平均值。 例如当 T 等于 5 时,包括以下七次回归,其中每一个工资溢价和专业热度的年份均相差 5 年: 将以上七次回归的系数和相关系数求平均,就得到了当 T=5 时专业热度和工资溢价之间的关系。从 T=-6 到 T=15 时,平均相关性和平均回归系数的变化如下两图所示: 这两张图显示,专业热度和工资溢价之间相关性最高的时候,T 等于 2,此时考生已经进入大学就读大二。随后这个相关性便开始下降。到了 T 等于 8 时,即从大学毕业四年后,专业热度和工资溢价之间的关系达到了最低点。 此时,可能是大家感觉到“逆周期”最明显的一段日子。明明把自己的考分用足了,才来到这所学校、这个专业。但毕业几年,却感觉到当初的高考结果与目前在职场上的回报越差越远了。 我是不是选错了? 当初要是逆周期赌一把,现在会不会过得更好一些? 这么多优秀的人都选择了这个专业,但毕业好几年了,市场并没有继续扩大,所以获得成功的人凭什么是我呢? 不少人会在这段低谷时期产生类似的自我怀疑。 但是,不要着急,再仔细看上图。 在上图的右半边,从 T=8 之后,一直到 T=15,高考专业分数线,又开始重新对当前的劳动力市场有着越来越高的解释作用了——尽管此时的劳动力市场状况距离高考的时间越来越远,已经超过十年,但两者之间的相关性竟然在提高。 常常有人说,从学校毕业,进入职场,很多东西都会归零,大家会重新回到同一条起跑线上。但是上文的研究却发现了相反的结果——时间距离高考越来越远,高考出分后那个星期所做的选择,对你人生的影响却越来越大。 非常匪夷所思对吧?但这也在情理之中。上个世 90 年代时,美国也出现了类似的现象,数量提高更快的高技能群体,却比数量增长缓慢的低技能群体有更快的工资上涨。人们用SBTC 效应(Skill-biased technical change,偏向于技能的技术进步)来解释这种看起来不符供需原理的现象,它需要三个条件: 1,具有某种技能的优秀人才在某个行业聚集。 2,这个行业有更快的技术进步,比其他行业的生产率更高。 3,这个行业的劳动力整体也享受到了更快的工资提升。 这些条件恰好在中国的许多行业成立。但这种进步可能不会很快出现,因此选择了热门专业的学生才会被逆周期的供需曲线冲击,在毕业后 3、4 年时会面临供给众多而需求不彰的窘境。但当我们将目光放得更长远,看到毕业后 5 年,10 年,甚至是 15 年的情况时,会发现这种冲击只是暂时的,人们的努力终将带来回报。 ▍结语 所以,2022 年的考生们,应该选择什么专业,什么学校呢? 很遗憾,数据并不能为个人提供万全的说明书,但数据能提供一个较大范围、较长时间内的统计规律。如果要用三句话总结这些规律的话,那么我要送给大家的是: 结合个人兴趣,参考长期趋势,避开投机取巧,忽略短期波动。 人生很长,在未来最好的四年中选择与最优秀的人在一起。 你,你们,终将改变世界。 阅读原文