在你的专业里,有什么基础知识是违背普通人的直觉的? 秦吉宁,博士生,未来统计员 Simpson's paradox(悖论): 美帝某校有两个学院,一个数理学院一个人文社科学院。 数理学院每年 500 个申请者,100 个女生,400 个男生,女申请者有 80% 的可能被录取,男申请者有 75% 的可能被录取;人文学院每年 200 个申请者,160 个女生,40 个男生,女生有 20% 的可能被录取,男申请者有 15% 的可能被录取。 在两个院女申请者被录取率都比男申请者高的情况下,全校录取率男生更高。有兴趣算算就知道了 道理很简单,像下面维基百科这张图一样,全校的男生录取率和女生录取率相当于一个加权平均,但是男生和女生分别由两个录取率非常不同的群体组成(文科生和理科生),并且这两个群体的比例在男生和女生中非常不同(男生理科生多,女生文科生多),加权平均的结果会一个更接近文科录取率、一个更接近理科录取率。 应用嘛,大概就是比如大家都觉得美国有色人种的犯罪率更高,但实际上控制了年龄、父母收入、受教育程度几个变量之后,人种对犯罪率的影响是不显著的(这是 Thomas Sowell 在 black rednecks and white liberals 里面说的),细看黑人和白人的人口结构,其实只是黑人里面十五到三十岁这个范围内的人比例更高,而无论人种,都是年纪轻轻还教育不足、游手好闲的人犯罪比较多嘛。黑人最近三五十年一直生育率较白人为高,年轻人所占比例更高,所以整体犯罪率也会更高。 Stein's paradox: 这个好像不够“基础”。 假设我们有 n 个独立的正态分布样本(每个 X 都是含有许多样本点的 sample) 当 n 大于等于 3 时,如果考虑的是所有 n 个均值的 squared error risk: 那么有比直观考虑每一维均值的 更好的估计量,这个估计量不会像上述统计量那样单独处理每一维度,而是将它们整合起来的如下估计量: 其中是所有样本的均值(grand mean),而是每一个样本的单独均值, c 被成为“收缩因子”(shrinkage factor),它的计算方法如下 这个 paradox 的反直觉之处在于,以上结论在这些 X 相互独立的情况下也成立,换一个说人话的例子来说,我想要估计科比、詹姆斯、保罗、杜兰特、安东尼、邓肯这六个人职业生涯投篮命中率这样一个向量,那么,最好的估计量并不是算出这六个人分别出道以来的投篮命中率,而是先把六个人整个的总投篮次数和总命中次数加起来,算一个总平均,然后每个人分别向自己的那个投篮命中率统计稍微挪一点。换句话说,想要同时估计这些人的命中率,那就得在杜兰特的预测值里面掺上一点科比的数据,才能获得最低的平方误差,即使这两个人自己投自己的,互相没有什么影响。 Stein's Paradox in Statistics 这篇文章里面用的例子来自于棒球里面打击率(batting average,简化一点就是轮到一个人打击时他击出安打的概率)的估计作例子,用下图表示直觉的均值估计量和 Stein's estimator 的对比 这里就可以直观地看出 shrinkage 的含义:每一维度上的估计都向 grand mean 方向收缩了。在这张图中,虽然大家的打击率估计都被改变了,但相对位置没有变化,排名维持不变。 在每一组数据方差相互不同的情况下,shrinkage 实际上可能会导致不同球员之间的顺序发生变化。 直觉上其实也很好理解,如果我刚巧被某个瞎眼的 nba 教练选中,跑到某个队里管了两个月饮水机,打了几场比赛的垃圾时间,5 投 4 中,然后就被裁掉了,我能之后在简历上写上“比杜兰特高 29%的命中率”去跟各队要求顶薪吗?由于数据量太少,我的投篮命中率并不是一个对于我的真实篮球水平的好的衡量,所以需要加入其他运动员的平均数据来加以修正。杜兰特 467 投 238 中命中率高于全 nba 均值 6.2 个百分点,比我 5 投 4 中命中率高于全 nba 均值 35.2 个百分点,在 Stein's estimator 和教练眼里一样,都要值钱得多。 Stein's paradox 在统计学的世界里广为人知,但是在此之外似乎没有很多人了解(包括机器学习界,那个,这是 larry wasserman 说的)。Stein estimator 也有在经验贝叶斯框架下的解释,我还没看过就不写了。 查看知乎原文