聊到因果推断与相关性的关系,大家其实都已经有一个认知叫做 相关性 != 因果性, 但学界从统计推断发展到后来因果推断是经历了一个漫长的过程,直到今天,我们仍然基础的对数据的处理和认知离不开统计推断的方法,所以学习了解用观测数据做因果推断可能导致的问题,能帮助我们在分析得到更准确结论的路上,走得更远一些!!
案例1: 中间变量做分层,引发悖论
现象:
-
各血压分层段,都是使用止血带的组治疗效果更差;
-
联来看,使用血压带治疗效果更好;
原因分析:
血压作为中间变量,血压带先作用于血压,在作用于治疗效果;
此外,血压还单独有部分对治疗效果的负向作用
因此,如果按照血压带进行分层,意味着在同分层内,只剩下负向效应,所以表现出不用血压带
案例2:混杂因素做分层,消除悖论
现象:
-
各个年龄段都是运动越多,胆固醇会越小;
-
联合来看,运动量越大,胆固醇越大;
原因分析:
存在age这个混淆变量,影响锻炼也影响胆固醇;
锻炼多的人,更多是年龄大的人,更容易胆固醇高
案例三:样本选择偏差的存在
现象描述:
不存在辛普森悖论,但是结果还是与预期不符合;
由于上面的数据收集都是已经活着到医院的人,对于那部分在到医院前死亡的人的数据没有收集,天然导致割裂了因果关系中的一个链路。
加入未入院人群的数据:
练习一下:伯克利入学录取率
现象:
总体来看,男生录取率远高于女生,但按专业分层后大部分专业都是女生录取率更高
解释:
专业是中间变量,不能基于此做分
总结:
由于未观测到和能观测的混淆变量、中间变量和样本选取偏差等等问题,直接用观测数据难以推测得到真实的因果效应,相关性 不等于 因果性 ;
相关系列更多知识:关注gzh 《大佬等我呀》
参考资料:
1、b站北大老师
因果推断(一)_哔哩哔哩_bilibili
2、饺子博士和饭老师
【因果推断入门】第1季第1集 课程简介 【Introduction to Causal Inference】 #统计机器学习课程_哔哩哔哩_bilibili