【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)

2023-11-11

觉得有帮助请点赞关注收藏~~~

一、属性及其类型

属性:(Attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(Dimension)、特征(Feature)和变量(Variable)表示相同的含义,可以在不同场合互换使用。

属性类型:属性的取值范围决定了属性的类型 一类是定性描述的属性 一类是定量描述的属性

 1. 标称属性

标称属性(Nominal Attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又可称为是分类的(Categorical)。

标称属性的值是枚举的,可以用数字表示这些符号或名称。常见的标称属性如姓名、籍贯、邮政编码或婚姻状态等。标称属性的值不仅仅是不同的名字,它提供了足够的信息用于区分对象

2. 二元属性

二元属性(Binary Attribute)是标称属性的特例,也是一种布尔属性,对应0和1两个状态。

二元属性分为对称的和非对称的。如果属性的状态结果是同等重要的,如抛硬币的结果状态,则该属性是对称的二元属性。一个非对称的二元属性其状态的结果不是同样重要的,如病毒检测的阳性和阴性结果。为了方便,用1对重要结果(通常是稀有的)编码,另一个用0编码。

3. 序数属性

序数属性(Ordinal Attribute)的可能值之间存在有意义的序或秩评定,但是相继值之间的差是未知的。

常见的序数属性如上衣的尺寸有S、M、L、XL,可以用数字如1、2、3、4分别对应属性的取值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。

4. 数值属性

数值属性(Numeric Attribute)是可以度量的量,用整数或实数值表示,常见的数值属性如年龄。数值属性可以是区间标度的或比率标度的。

区分区间标度和比率标度的原则是该属性是否有固有的零点,如摄氏温度没有固定的零点,其比值没有意义。所以是区间标度属性,而开式温度有固有的零点,比值有意义,是比率标度属性。

二、数据的基本统计描述

把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。

把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。

中心趋势度量:在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。中心趋势度量就是寻找数据水平的代表值或中心值。中心趋势度量包括均值、中位数、众数和中列数。

1.均值:数据集“中心”的最常用的数值度量是(算术)均值。

均值是描述数据集的最常用统计量,但它并非度量数据中心的最佳方法,主要原因是均值对噪声数据很敏感。

2. 中位数:中位数(Median)又称中点数或中值

在概率论与统计学中,中位数一般用于数值型数据。在数据挖掘中可以把中位数推广到序数型数据中。

当数据量很大时,中位数的计算开销会很大,此时可以采用近似估计的方法。假定数据可以根据数值划分为区间,并且知道每个区间的数据个数,可以使用如下公式计算中位数:

 

 

 例:某企业50名工人加工零件的数据如表3-1所示,计算加工零件数值的中位数。

可以算出中位数的位置是25 在120-125这一组 由上面公式可以近似计算得到中位数为123.31

 3. 众数:众数(Mode)是一组数据中出现次数最多的数值。 具有一个、两个或三个众数的数据集分别称为单峰(Unimodal)、双峰(Bimodal)和三峰(Trimodal)。一般具有两个或以上众数的数据集是多峰的(Multimodal)。在极端情况下,如果每个数值只出现一次则它没有众数。

对于非对称的单峰型数据集,一般有下面的经验关系:

4. 中列数:中列数(Midrange)是数据集中的最大值和最小值的平均值,也可以度量数值数据的中心趋势。

利用pandas统计中位数、均值和众数

import pandas as pd
df=pd.DataFrame([[1,2],[7.-4],[3,9],[4,-4],[1,3]].columns=['one','two']
print(df.median())
print(df.max(axis=1))
print(df.mode())

 数据散布度量用于评估数值数据散布或发散的程度。散布度量的测定是对统计资料分散状况的测定,即找出各个变量值与集中趋势的偏离程度通过度量散布趋势。

数据散布度量包括极差、分位数、四分位数、百分位数和四分位数极差。方差和标准差也可以描述数据分布的散布。

极差、四分位数和四分位数极差

极差(Range)又称范围误差或全距,是一组观测值的最大值与最小值之间的差距。极差是标志值变动的最大范围,它是测定标志变动的最简单的指标。

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

第1个和第3个分位数之间的距离为四分位数极差

统计数据的分位数等统计量 调用describe函数即可

 五数概括、盒图与离群点

五数概括法即用下面的五个数来概括数据,分别是最小值、第1 四分位数(Q1)、中位数(Q2)、第3 四分位数(Q3)和最大值

盒图的边界分别为第一四分位数和第三四分位数

在箱体上中位数即第二四分数处画垂线

虚线被称为触须线,触须线的端点为最小值和最大值

利用四分位数间距IQR = Q3-Q1,找到界限,超出即为异常值

IQR左 = Q1 - 1.5×IQR IQR右 = Q3 + 1.5×IQR 

创作不易 觉得有帮助请点赞关注收藏~~~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细) 的相关文章

随机推荐

  • C++11之for循环的新用法

    C 使用如下方法遍历一个容器 include stdafx h include
  • Redis 数据结构与命令

    一 数据结构 Redis是典型的键值数据库 key一般是字符串 而value包含很多不同的数据类型 Value结构 Key结构 Redis的key允许有多个单词形成层级结构 多个单词之间用 隔开 格式为 项目名 业务名 类型 id 如果Va
  • 平滑滤波第二节,中值滤波法(数字图像处理大题复习 P4)

    文章目录 中值滤波 1 圈出模板像素 2 列出像素找到中值 3 填入结果 如果 不要滤波后就替换 中值滤波 1 圈出模板像素 我们先观察这个模板 这里圈出来了5个像素 那我们也在图像中对圈出5个像素 和均值滤波一样 第一个点的选取 2 列出
  • python用input输入list_python怎么用input函数输入一个列表

    python怎么用input函数输入一个列表 函数 的是 数字 没有任何 赋值 python怎么用input函数输入一个列表 易采站长站 站长之家为您整理了python怎么用input函数输入一个列表的相关内容 在Python3 0以后 键
  • JS中设置backgroun-position不成功的问题

    今天在做个人主页的时候 准备把background position设置一下 可是用了很多种方法都没有能够成功 最后才发现了问题 在这里记录一下 如果可以 也很开心能够和你分享我的经验 原生javascript 在原生的js中 大家都理解的
  • vscode不能预览plantuml文件报错的解决方法

    vscode不能预览plantuml文件报错的解决方法 vscode在预览plantuml文件时报错 安装了jre 8u231 dotnet sdk graphviz node终于解决 报错信息如下 扩展宿主意外终止或者 Error wri
  • 数据可视化——Davinci

    数据可视化 Davinci对比及功能使用 一 数据可视化 个人引用部分 1 有趣的意义 2 常规的意义 二 图形的内涵 1 图形类型 2 优秀可视化的特点 三 可视化需求分析 1 四个问题 2 三个沟通点 四 Davinci功能详解 1 可
  • 六度空间理论

    六度空间理论 什么是六度空间理论 Six Degrees of Separation 它是数学领域的一个猜想 名为Six Degrees of Separation 中文翻译包括以下几种 六度空间理论 六度分隔理论 六度分割理论或叫作小世界
  • 论文理解记录:Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration

    论文核心 论文剪枝对象是卷积核 与其他论文不同点在于作者思考了 norm wise 作为卷积核重要性判断的弊端 并提出了 FPGM 算法 该算法先计算出所有卷积核的几何中心 作者把卷积核当作多维空间中的点 然后找到距离几何中心近的卷积核 并
  • robot framework 使用五:CentOS上运行robot framework 并自动发送测试结果

    操作系统版本 centos 6 0 x86 64 想要在linux上运行robot framework的测试用例 需要安装以下工具和软件 1 安装python 2 7 6 首先python version 查看系统是否装有python 并且
  • jQuery操作编辑页面,span与input标签之间的随时转换

    1 input select textarea转span var switchToSpan function console log this attr id var cId this attr id 获取当前点击input的id cons
  • IP:127.0.0.1详解,与localhost区别

    127 0 0 1 127 0 0 1是回送地址 指本地机 一般用来测试使用 回送地址 127 x x x 是本机回送地址 Loopback Address 即主机IP堆栈内部的IP地址 主要用于网络软件测试以及本地机进程间通信 无论什么程
  • AE表达式:利用wiggle和Math.sin制作蝴蝶动画

    AE表达式 利用wiggle和Math sin制作蝴蝶动画 B站链接 AE表达式 B站讲解最详细的Math表达式和蝴蝶动画制作 课程准备 蝴蝶AI素材 wiggle的用法 上次录了一节视频 链接 Math sin三角函数 函数原型 y A
  • php获取脚本执行的参数

    在看PHP文档到预定义变量时碰到了 argc和 argv 顺手记录下 getopt 从命令行参数列表中获取选项 arg getopt d n 只接收d n之后的参数 num arg n arg n 365 是得到的n后面的参数 这种属于短参
  • 流处理系统Heron——architecture

    简介 Heron是Twitter开源的分布式流处理系统 用来在Twitter内部替代Storm 它提供了和Storm兼容的API 并弥补了Storm中的不足 Storm的不足和新的需求 调试困难 在Storm中 一个topology的多个c
  • idea在maven中导入jstl无效解决办法

    第一种方法 首先在pom中添加依赖
  • Scrapy(二)翻页功能

    目录 方法一 利用框架内置函数 方法二 拼接URL 方法三 拼接简化版 Scrapy提供了很多种翻页的方式 记住其中常用的三种即可 下期会将一些CSS基本语法 这是spider pyl里设置即可 方法一 利用框架内置函数 好处 可以从自己设
  • 实例讲解Spring boot动态切换数据源

    前言 在公司的系统里 由于数据量较大 所以配置了多个数据源 它会根据用户所在的地区去查询那一个数据库 这样就产生了动态切换数据源的场景 今天 就模拟一下在主库查询订单信息查询不到的时候 切换数据源去历史库里面查询 实现效果 首先我们设置查询
  • ICASSP2020一些主题演讲

    https cmsworkshops com ICASSP2020 TechnicalProgram asp 文章目录 T 1 Machine Learning and Wireless Communications T 2 Distrib
  • 【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)

    觉得有帮助请点赞关注收藏 一 属性及其类型 属性 Attribute 是一个数据字段 表示数据对象的一个特征 在文献中 属性 维 Dimension 特征 Feature 和变量 Variable 表示相同的含义 可以在不同场合互换使用 属