辛普森悖论 | 你还相信数据吗

数据是一个有力的武器，它既能被用来澄清现实，也能被用来混淆是非

你知不知道，数据也会说谎？

一个栗子

假设您患有肾结石并去看医生。医生告诉你有两种治疗方法，治疗 A（开放手术 open surgery）和治疗 B（体外冲击波碎石术 ESWL）。

你问哪种治疗效果更好，医生说：“一项研究发现治疗 A 的成功概率高于治疗 B。”

你说：“我会接受治疗 A，谢谢！”

这时医生打断你，“但同样的研究还研究了哪种治疗效果更好，这取决于患者是大肾结石还是小肾结石。”

你说：“好吧，我有大肾结石还是小肾结石？”

你说话的时候，医生又打断了你，说：“其实没关系。你看，他们发现治疗 B 比治疗 A 成功的概率更高，不管你的肾结石是大还是小。”

你可能想知道你是否没看错。听起来不可能。但这是真的：在一项实际研究中，发现治疗 B 比治疗 A 对大肾结石和小肾结石起作用的概率更高，尽管事实上治疗 A 的总体概率高于治疗 B。这是研究数据：

表中的第一项显示，80 名大肾结石患者接受了 A 治疗，治疗帮助了其中 55 人，成功率为 69%。这不如治疗 B 好，它帮助了 263 名大肾结石患者中的 192 人，成功率为 73%。以类似的方式，第二行显示治疗 B 比治疗 A 对患有小肾结石的人更有效。

但是当你把每一列的数字加起来时，你会发现治疗 A 确实比治疗 B 整体效果更好。

值得花时间检查所有数字加起来检验一下，并说服自己我没有欺骗你.

刚刚展示的这种现象被称为辛普森悖论。如果你和包括我在内的大多数人一样，那么辛普森悖论在你第一次见到它时就会令人震惊。因为它违反了我们对世界推理的本能方式。而且，正如我们看到的那样，辛普森悖论不仅是一种怪异的现象，而且它经常在具有重要决策后果的地方出现。

我们抽离出符号表达：

如果

那么，推不出

以上就是辛普森悖论比较通俗易懂的表达式了。

从数据生成过程（因果模型）来看分析.

事实证明，小肾结石被认为是不严重的病例，治疗 B（体外冲击波碎石术 ESWL）比治疗 A（开放手术 open surgery）更加激进。

对于小肾结石，医生更有可能推荐保守疗法 A，因为病情不太严重，患者最有可能首先成功恢复。

对于严重的大肾结石，医生往往选择更激进的疗法 B。即使疗法 B 在这些病例中表现更好，由于是更严重的病例，疗法 B 的总体恢复率低于疗法 A.

在这个现实世界的例子中，肾结石的大小（病例的严重性）是一个混合变量，它会同时影响自变量（疗法）和因变量（恢复率）.

$疗法病例的严重性$

$恢复率疗法病例的严重性$

为了确定哪种治疗方法确实更好，我们需要通过对两组数据进行分离并比较组内的恢复率而不是按组聚合来控制混合变量。

$小肾结石恢复率疗法$

$大肾结石恢复率疗法$

这样看来激进的治疗 B（体外冲击波碎石术 ESWL）效果更好.

如果有潜在变量（特别是混合变量）存在，牢记：整体数据未必可靠，要通过科学合理的分组来查看具体细致的数据。

数据从来都不是完全客观的。我们必须对这些数字持怀疑态度.
辛普森悖论的出现是因为人们忽略了研究的因果关系，一旦我们理解了数据生成的机制，我们就可以寻找影响结果的其他因素，而图表不会告诉你这些.
充分考察事件的潜在影响因素和维度，系数消除分组数据基数差异造成的影响.
要求我们具备科学辩证思维，客观看待关联现象。很多时候，我们选择相信直觉，因为我们的直觉往往很准。但是，在信息不全或者信息非对称的情况下，直觉常常是是值得怀疑的。