箱线图与箱线图有何不同?

2024-05-03

我想知道当我们在海生图书馆中有箱线图时为什么会有箱线图。
我知道一件事是箱线图优化了表示数据的方式,特别是对于大型数据集,但我不知道为什么,除此之外,我没有任何充分的理由使用箱线图。


箱线图将中位数显示为中心线(第 50 个百分位数),然后将第 25 个百分位数和第 75 个百分位数显示为框边界。然后使用 IQR 方法计算离群值边界(例如,上边界为 1.5 * IQR + Q3)。 Q3 是数据的第三个四分位数或第 75 个百分位数(75% 的数据低于此值)。异常值胡须之外的异常值显示为不同的点。

Boxenplots(实际上在原始论文和 lvplot R 包中称为字母值图)以不同的方式显示分布,并且更适合较大的数据集。经典箱线图可能有太多离群值,并且不能显示尽可能多的有关分布的信息。字母值图(箱线图)以中位数(Q2,第 50 个百分位)作为中心线。向外的每个连续级别都包含剩余数据的一半。因此,从中心线开始的前两个部分包含 50% 的数据。之后,接下来的两个部分包含 25% 的数据。这种情况一直持续到我们处于异常值水平。每个级别的阴影都变浅。有 4 种计算离群值的方法(论文中描述并在 seaborn 中可用)。默认情况下,每条尾部都会有大约 5-8 个异常值。

我用Diziet的漂亮图来说明:

The 原纸 https://vita.had.co.nz/papers/letter-value-plot.html(来自包括 Hadley Wickham 在内的作者)在seaborn boxenplot 文档中链接。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

箱线图与箱线图有何不同? 的相关文章

随机推荐