为了说明经验累积分布函数,我们这里使用一个学生成绩的数据集。假设班有50名学生,这些学生刚刚进行了一个测试。这个测试的结果是以0-100的分数来体现的。我们要如何更好的可视化结果呢?例如确定成绩的最大值和最小值。
对于这个数据的可视化,我们可以先获得一个按照学生成绩升序排序的表格。
![864a3cd1b40a2b5caf94ced8b686fbf7.png](https://img-blog.csdnimg.cn/img_convert/864a3cd1b40a2b5caf94ced8b686fbf7.png)
在X轴映射所有学生的得分,在Y轴映射排名。最后通过点图和梯度连接线来进行可视化数据。就出现了简单的经验累积分布函数(ecdf)或简单地是累积分布。在这个图里面,每一个点代表一个学生的排名以及其得分。
![](https://img-blog.csdnimg.cn/img_convert/6502766d419e41f0f2f058ec23d97e94.png)
?的图形是按照递增的结果来进行展示的,如果我们要变成递减的话,那就变成?这个样子了。
![70e72bb6c383f8100099949954080824.png](https://img-blog.csdnimg.cn/img_convert/70e72bb6c383f8100099949954080824.png)
对于递增和递减的两个分布曲线而言,递增的更加常用。但是在可视化高度偏态的数据的时候,递减的结果可能更好一些。
?两个图形的Y轴,我们使用的是学生的绝对排名。同样的,我们可以把Y轴转换为学生的累积占比。这样的话,我们就可以直接获得一些数据的关键信息了。例如在大约有25%的学生的成绩是低于75分的。这个数据的中位值(0.5的位置)是81分左右。
![221dfb0bde1c0bc3e3e5399c724f4d2a.png](https://img-blog.csdnimg.cn/img_convert/221dfb0bde1c0bc3e3e5399c724f4d2a.png)