在 高 维 列 联 表 分 析 中,有 一 个 很 有 名 的 例 子,叫 做 Yule-SimpsonParadox。此悖论表明,X和 Y 边缘上正相关,但是给定另外一个变量 Z后,在 Z的每一个水平上,X和 Y可能负相关。下面表 1 就是一个数值的例子(Pearl,2000)。 由表 1 可以看出,在整个人群中,吃药与康复之间存在正相关;然而,当用性别对人群分层后发现在男性和女性人群中,吃药与康复都是负相关。这就是 Yule-Simpson Paradox。
其实从初等数学中我们就可以证明以上阐述的这个悖论没有什么新奇之处,但是在统计上,这具有重要的意义 — 变量之间的相关关系可以完全的被第三个变量“扭曲”。更严重的问题是,我们的收集的数据可能存在局限性,忽略潜在的“第三个变量”可能改变已有的结论,而我们常常却一无所知。鉴于 Yule-Simpson 悖论的潜在可能,不少人认为,统计不可能用来研究因果关系。