用观测数据推断因果的问题(一文搞懂混杂因素、辛普森悖论)

2023-10-27

聊到因果推断与相关性的关系,大家其实都已经有一个认知叫做 相关性 != 因果性, 但学界从统计推断发展到后来因果推断是经历了一个漫长的过程,直到今天,我们仍然基础的对数据的处理和认知离不开统计推断的方法,所以学习了解用观测数据做因果推断可能导致的问题,能帮助我们在分析得到更准确结论的路上,走得更远一些!!

案例1: 中间变量做分层,引发悖论

现象:

  • 各血压分层段,都是使用止血带的组治疗效果更差;

  • 联来看,使用血压带治疗效果更好;

原因分析:

血压作为中间变量,血压带先作用于血压,在作用于治疗效果;

此外,血压还单独有部分对治疗效果的负向作用

因此,如果按照血压带进行分层,意味着在同分层内,只剩下负向效应,所以表现出不用血压带

 

案例2:混杂因素做分层,消除悖论

现象:

  • 各个年龄段都是运动越多,胆固醇会越小;

  • 联合来看,运动量越大,胆固醇越大;

原因分析:

存在age这个混淆变量,影响锻炼也影响胆固醇;

锻炼多的人,更多是年龄大的人,更容易胆固醇高

 

案例三:样本选择偏差的存在

现象描述:

不存在辛普森悖论,但是结果还是与预期不符合;

 

由于上面的数据收集都是已经活着到医院的人,对于那部分在到医院前死亡的人的数据没有收集,天然导致割裂了因果关系中的一个链路。

加入未入院人群的数据:

 

练习一下:伯克利入学录取率

 

现象:

总体来看,男生录取率远高于女生,但按专业分层后大部分专业都是女生录取率更高

解释:

专业是中间变量,不能基于此做分

总结:

由于未观测到和能观测的混淆变量、中间变量和样本选取偏差等等问题,直接用观测数据难以推测得到真实的因果效应,相关性 不等于 因果性 ;

相关系列更多知识:关注gzh 《大佬等我呀》

参考资料:

1、b站北大老师

因果推断(一)_哔哩哔哩_bilibili

2、饺子博士和饭老师

【因果推断入门】第1季第1集 课程简介 【Introduction to Causal Inference】 #统计机器学习课程_哔哩哔哩_bilibili

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用观测数据推断因果的问题(一文搞懂混杂因素、辛普森悖论) 的相关文章

随机推荐