罗素悖论（罗素悖论内容）-全百科

罗素悖论（罗素悖论内容）

跟数据打的交道越多，就越可能对数据产生绝对的信赖感，但其实在实际业务中，数据往往会“说谎”，今天给大家介绍三个数据分析中常见的悖论：

1、辛普森悖论

辛普森悖论是数据分析中最常见的悖论之一，举个最实际的例子来说：

鸭堡某学期期末考试，考数学、物理、化学三科，A的数学比B高2分，物理比B高15分，化学比C高3分，请问A的总分是否比B高？

很多人会说，这不是废话么，问题太简单了，当然是A的总分比B高了！

实际上很可能A的总成绩低于B，别急着惊讶，我们不妨再看一个例子：

很多人都爱看NBA比赛，最近几年的骑勇大战，使得詹姆斯和库里在球迷心目中的印象非常深，有一场骑勇大战，詹姆斯和库里的两分球与三分球命中率如下表所示：

其中：

两分球命中率 = 两分球命中数 / 两分球出手数 * 100%
三分球命中率 = 三分球命中数 / 三分球出手数 * 100%

那么请问本场比赛，詹姆斯的投篮命中率，是否低于库里？

投篮命中率 = (两分球命中数 + 三分球命中数) / (两分球出手数 + 三分球出手数) * 100%

很多人也会说，这不是跟上面期末考试那个题一样简单嘛，这还用说嘛，肯定是詹姆斯的投篮命中率低于库里呀！我们把细项的数据拉出来看，确实是这样的：

但是，这真的是废话么？我们再来看另一场比赛这两位兄弟的表现吧：

这一场比赛，詹姆斯和库里谁的投篮命中率高呢？这次你如果还说这是废话，当然是库里的投篮命中率高了，那这回你可就没这么幸运了，让我们看看细项数据吧：

是的，你没有看错，詹姆斯的两分球命中率也低于库里，三分球命中率也低于库里，但是汇总起来看，詹姆斯的投篮命中率是要高于库里的！

问题来了，这是怎么回事呢？这不符合常理啊！

这个“不符合常理”的现象，在数据分析领域中会时不时遇到的，并且在业内有个专门的术语：辛普森悖论（Simpson's paradox）

具体来说，就是在进行分组研究的时候，有时在每个组比较时都占优势的一方，在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论。

现实中的很多数据，通过辛普森悖论，展现出引导性的错误结论。比如现实中的多干多错，少干少错，不干不错。

一个人经常犯错并不能证明他就比其他更少犯错的人能力低下，有可能是他从事更加复杂，出错率更高的工作的时间占比更大。

2、罗素悖论

罗素悖论属于数理统计学中永远无法逃避的一个悖论，这个悖论简约、美丽、诡异，甚至导致了第三次数学危机的解决。

罗素悖论的准确表达应该是：

如果存在一个集合是由所有一切不属于自身的集合组成的，也就是A={x | x∉ x }，那么A包含于A是否成立？如果成立，则不符合x不属于A；而如果A不包含于A，则符合x不属于A。

罗素怕这个悖论很多人看不懂，于是给出了一个通俗版本：

假如某个城市的所有人，都在一位理发师那里理发，而这位理发师突然说：“我只为本城市中，不给自己刮脸的人刮脸！”于是，其他人对理发师说：那么你给自己刮脸吗？

倘若他不给自己刮脸，那么他属于“不给自己刮脸的人”，按照他的说法他就要给自己刮脸；倘若他给自己刮脸，他又属于“给自己刮脸的人”，按照他的说法就不该给自己刮脸。

3、伯克森悖论

将不同组别的数据合并时，会导致各组原本表现出来的某种规律消失，当这种情况发生时，合并之后呈现出的新规律甚至可能与每组的原本的规律相反。

举个例子，某种治疗手段在不同的组别里对患者的身体恢复是有害的，但是将所有组别的数据合并起来看，我们却会发现它竟然对患者身体的恢复是有帮助的。

它是怎么发生的？

当组成各组的成分差别较大的时候，就可能出现上述现象。

如，对病人的数量进行筛选，使得两组试验中病人的组成差别很大（老人、小孩、成人的比例有很大的差别）时，将数据简单的合并之后就会得出这样的结论：有害的治疗变成了有益的治疗。

假设有一个双盲试验（在双盲试验中，受试验的对象及研究人员并不知道哪些对象属于对照组，哪些属于实验组），将患者分成两组，每组有120人，但是两组中患者的年龄结构有很大的差异（第一组分为10人、20人、30人、60人，第二组分为60人、30人、20人、10人）。第一组的患者将接受治疗，而第二组的患者不进行治疗。

总体结果表明，治疗对患者是有益的，接受治疗的患者的身体恢复率大于没有接受治疗的患者。

然而，当你深入研究两组中各个患者群体时，你会发现在所有的患者群体中，没有接受治疗的患者身体恢复率提高了。

我们注意到，每组中不同年龄的患者人数是不同的，甚至是差别很大的，这就是我们得出错误结果的原因。在这种情况下，如果简单的将两组数据合并，就容易得出错误的结论。

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

推荐阅读