数据挖掘中基本概念--数据类型的属性与度量

2023-11-15

当我们在学习数据挖掘算法或者机器学习算法时,我们都会发现某些算法只能应用于特定的数据类型,所以在学习数据挖掘算法或者机器学习算法前我们需要对数据类型的属性度量有一个很清晰的了解,如果在数据类型这一步就出现问题,不管算法再怎么优异肯定也是白搭!!

2.1.1  属性与度量

本节我们考虑使用何种类型的属性描述数据对象,来处理描述数据的问题。我们首先定义属性,然后考虑属性类型的含义,最后介绍经常遇到的属性类型。

1. 什么是属性

我们先更详细地定义属性。

定义2.1  属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。

例如,眼球颜色因人而异,而物体的温度随时间而变。注意:眼球颜色是一种符号属性,具有少量可能的值{棕色,黑色,蓝色,绿色,淡褐色,……},而温度是数值属性,可以取无穷多个值。

追根溯源,属性并非数字或符号。然而,为了讨论和精细地分析对象的特性,我们为它们赋予了数字或符号。为了用一种明确定义的方式做到这一点,我们需要测量标度。

定义2.2  测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)。

形式上,测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。这看上去有点抽象,但是任何时候,我们总在进行这样的测量过程。例如,踏上浴室的磅秤称体重;将人分为男女;清点会议室的椅子数目,确定是否能够为所有与会者提供足够的座位。在所有这些情况下,对象属性的"物理值"都被映射到数值或符号值。

有了这些背景,现在我们可以讨论属性类型,这对于确定特定的数据分析技术是否适用于某种具体的属性是一个重要的概念。

2. 属性类型

从前面的讨论显而易见,属性的性质不必与用来度量它的值的性质相同。换句话说,用来代表属性的值可能具有不同于属性本身的性质,并且反之亦然。我们用两个例子解释。

例2.3  雇员年龄和ID号  与雇员有关的两个属性是ID和年龄,这两个属性都可以用整数表示。然而,谈论雇员的平均年龄是有意义的,但是谈论雇员的平均ID却毫无意义。的确,我们希望ID属性所表达的唯一方面是它们互不相同。因而,对雇员ID的唯一合法操作就是判定它们是否相等。但在使用整数表示雇员ID时,并没暗示有此限制。对于年龄属性而言,用来表示年龄的整数的性质与该属性的性质大同小异。尽管如此,这种对应仍不完备,例如,年龄有最大值,而整数没有。

例2.4  线段长度  考虑图2-1,它展示一些线段对象和如何用两种不同的方法将这些对象的长度属性映射到整数。从上到下,每条后继线段都是通过最上面的线段自我添加而形成的。这样,第二条线段是最上面的线段两次相连而形成的,第三条线段是最上面的线段三次相连而形成的,依次类推。从物理意义上讲,所有的线段都是第一条线段的倍数。这个事实由图右边的测量捕获,但未被左边的测量捕获。更准确地说,左边的测量标度仅仅捕获长度属性的序,而右边的标度同时捕获序和可加性的性质。因此,属性可以用一种不描述属性全部性质的方式测量。

 

属性的类型告诉我们,属性的哪些性质反映在用于测量它的值中。知道属性的类型是重要的,因为它告诉我们测量值的哪些性质与属性的基本性质一致,从而使得我们可以避免诸如计算雇员的平均ID这样的愚蠢行为。注意,通常将属性的类型称作测量标度的类型。

3. 属性的不同类型

一种指定属性类型的有用(和简单)的办法是,确定对应于属性基本性质的数值的性质。例如,长度的属性可以有数值的许多性质。按照长度比较对象,确定对象的排序,以及谈论长度的差和比例都是有意义的。数值的如下性质(操作)常常用来描述属性。

(1) 相异性  = 和  。

(2) 序  <、≤、>和≥。

(3) 加法   和  。

(4) 乘法   和  。

给定这些性质,我们可以定义四种属性类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。表2-2给出这些类型的定义,以及每种类型上有哪些合法的统计操作等信息。每种属性类型拥有其上方属性类型上的所有性质和操作。因此,对于标称、序数和区间属性合法的任何性质或操作,对于比率属性也合法。换句话说,属性类型的定义是累积的。当然,对于某种属性类型合适的操作,对其上方的属性类型就不一定合适。

表2-2  不同的属性类型

标称和序数属性统称分类的(categorical)或定性的(qualitative)属性。顾名思义,定性属性(如雇员ID)不具有数的大部分性质。即便使用数(即整数)表示,也应当像对待符号一样对待它们。其余两种类型的属性,即区间和比率属性,统称定量的(quantitative)或数值的(numeric)属性。定量属性用数表示,并且具有数的大部分性质。注意:定量属性可以是整数值或连续值。

属性的类型也可以用不改变属性意义的变换来描述。实际上,心理学家S. Smith Stevens最先用允许的变换(permissible transformation)定义了表2-2所示的属性类型。例如,如果长度分别用米和英尺度量,其属性的意义并未改变。

对特定的属性类型有意义的统计操作是这样一些操作,当使用保持属性意义的变换对属性进行变换时,它们产生的结果相同。例如,用米和英尺为单位进行度量时,同一组对象的平均长度数值是不同的,但是两个平均值都代表相同的长度。表2-3给出表2-2中四种属性类型的允许的(保持意义的)变换。

表2-3  定义属性层次的变换

例2.5  温度标度  温度可以很好地解释前面介绍的一些概念。首先,温度可以是区间属性或比率属性,这取决于其测量标度。当温度用绝对标度测量时,从物理意义上讲,2°的温度是1°的两倍;当温度用华氏或摄氏标度测量时则并非如此,因为这时1°温度与2°温度相差并不太多。问题是从物理意义上讲,华氏和摄氏标度的零点是硬性规定的,因此,华氏或摄氏温度的比率并无物理意义。

4. 用值的个数描述属性

区分属性的一种独立方法是根据属性可能取值的个数来判断。

离散的(discrete)离散属性具有有限个值或无限可数个值。这样的属性可以是分类的,如邮政编码或ID号,也可以是数值的,如计数。通常,离散属性用整数变量表示。二元属性(binary attribute)是离散属性的一种特殊情况,并只接受两个值,如真/假、是/否、男/女或0/1。通常,二元属性用布尔变量表示,或者用只取两个值0或1的整型变量表示。

连续的(continuous)连续属性是取实数值的属性。如温度、高度或重量等属性。通常,连续属性用浮点变量表示。实践中,实数值只能用有限的精度测量和表示。

从理论上讲,任何测量标度类型(标称的、序数的、区间的和比率的)都可以与基于属性值个数的任意类型(二元的、离散的和连续的)组合。然而,有些组合并不常出现,或者没有什么意义。例如,很难想象一个实际数据集包含连续的二元属性。通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的。然而,计数属性(count attribute)是离散的,也是比率属性。

5. 非对称的属性

对于非对称的属性(asymmetric attribute),出现非零属性值才是重要的。考虑这样一个数据集,其中每个对象是一个学生,而每个属性记录学生是否选修大学的某个课程。对于某个学生,如果他选修了对应于某属性的课程,该属性取值1,否则取值0。由于学生只选修所有可选课程中的很小一部分,这种数据集的大部分值为0。因此,关注非零值将更有意义、更有效。否则,如果在学生们不选修的课程上作比较,则大部分学生都非常相似。只有非零值才重要的二元属性是非对称的二元属性。这类属性对于关联分析特别重要。关联分析在第6章讨论。也可能有离散的或连续的非对称特征。例如,如果记录每门课程的学分,则结果数据集将包含非对称的离散属性或连续属性。

 内容来源与参考:数据挖掘导论2.1.1节内容。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘中基本概念--数据类型的属性与度量 的相关文章

  • HTTP协议初探

    发现网络协议的知识对后台开发人员来说 还是非常重要的 所以特地去了解了以下 并作学习笔记 方便自己查阅 HTTP协议详解 HTTP就是一个基于应用层的通信规范 双方要进行通信 大家都要遵守一个规范 HTTP协议 HTTP协议从WWW服务器传
  • 数值计算 --- 三次样条函数插值(Cubic spline function interpolation)

    三次样条函数插值 Cubic spline function interpolation Part I 插值 预备知识 什么是插值 已知部分离散的数据 但不知道满足这些数据的函数表达式 插值 和拟合 都是为了找到对应的函数表达式 区别在于
  • Python 积累总结

    for i j in DataFrame 遇到的问题 for i j in new data groupby by embryo id company id if j shape 0 2 relationshipdata relations
  • Android中Log信息的输出方法

    共两篇文章 第一篇讲述了如何在程序中输出Log信息 第二篇详细的分析了Log信息的输出机制 下面是第一篇 转自 http blog 163 com binghaitao 126 blog static 3383532520099309366
  • Angular 4/5 form表单select初始化选中(简单string和复杂对象)

    1 问题场景 管理员增删改查中的 改 操作 管理员有性别 sex 和岗位 position 属性 其中 性别在后端为枚举类型 position为类 要求进入管理员修改页时 自动选择性别 通过接口获取所有岗位 并自动选中当前管理员的岗位 2
  • live555构建流媒体服务器(1)

    读test 264码流文件 客户端可以通过ffplay exe rtsp xxx播放出来 直接使用编译好的库 改自testOnDemandRTSPServer cpp include liveMedia hh include BasicUs
  • 【maven】论 maven settings 文件 mirrors 对 IDEA 的影响

    文章目录 1 概述 1 概述 事情是这样的 我们要升级flink 1 9 1 升级到 1 12 4 然后因为在内网 所以我拷贝了大量的jar包 然后先放在本地 然后再放入内网的私服上 结果 我的代码需要大量的显示引入包 才能因为依赖 不然到
  • 如何用ChatGPT制作xmind

    第一步 向ChatGPT提问内容Q 去旅游要分几个步骤 第二步 输出格式Q 转换markdown格式点击右上角 copy code注意 如果结果不是代码形式 补充一句提问 请用代码形式呈现 第三步 复制到text 改后缀 1 复制到text
  • Coverity 代码静态安全检测

    转自 http blog csdn net yasi xi article details 8349985 最近公司在推行代码Security检查 使用了Coverity代码静态检测工具 功能很强大 超乎我的期望 主要功能如下 列出不会被执
  • inline在c语言作用,[转载]C语言标准C99 内联函数(inline)总结

    1 定义 它们看起来象函数 运作起来象函数 比宏 macro 要好得多 使用时还不需要承担函数调用的开销 当内联一个函数时 编译器可以对函数体执行特定环境下的优化工作 这样的优化对 正常 的函数调用是不可能的 2 规则 inline关键字必
  • 【java】JDBC链接

    文章目录 一 JDBC API 二 JDBC加载 三 JDBC连接 MySQL8 MySQL5 四 API常用方法 Statement ResultSet 五 PreparedStatement 1 为什么要使用PreparedStatem
  • 英区智齿发炎自救 -- 牙周炎,抗菌治疗+止疼治疗+中医药辩证治疗

    英区智齿发炎自救 periodontitis 左下角半包半露的智齿又发炎了 这次来势凶猛 前阵子发炎我用Corsodyl漱口水 饭后盐水漱口就足够把他压下去 这次用了两天牙龈还是肿上天 严重的话超级有效的组合是阿莫西林 奥 甲硝唑 配合Co
  • open函数返回值为0

    open函数是我们开发中经常会遇到的 这个函数是对文件设备的打开操作 这个函数会返回一个句柄fd 我们通过这个句柄fd对设备文件读写操作 我们在对这个fd作判断的时候 经常会用到 fd open filename O RDONLY If f
  • [游戏开发]俄罗斯方块实现

    0 前言 整理一下 游戏开发的入坑作 俄罗斯方块 这里包含了 c 实现的俄罗斯方块处理 控制台 有界面 以及后续用 unity 做的版本 项目的代码太多 就都放在链接了 可以直接下载好了 就放百度云好了 也不会污染代码库 挠头 项目链接如下
  • 魔术师猜数

    在一种室内互动游戏中 魔术师要每位观众心里想一个三位数abc a b c分别是百位 十位和个位数字 然后魔术师让观众心中记下acb bac bca cab cba五个数以及这5个数的和值 只要观众说出这个和是多少 则魔术师一定能猜出观众心里
  • docker容器中elasticsearch配置跨域访问(elasticsearch-head插件访问不到es集群)

    问题 docker容器中elasticsearch配置跨域访问 elasticsearch head插件访问不到es集群 原因 elasticsearch head插件访问不到es集群 是因为调用过程中出现了跨域问题 解决方法 docker

随机推荐

  • 基于宝塔面板成功配置网站SSL安全证书(支持https访问)

    前提条件 你熟悉宝塔面板搭建网站 我这个建站老鸟都在用宝塔面板建站 主要就是图它的节省时间和精力 大家有不熟悉宝塔面板使用的 可以查看文章 宝塔面板添加WordPress站点详细图文教程 之后你就完全可以入门了 你拥有一台云服务器和一个万网
  • 服务器基准测试

    https bp aliyun com detail 189 Version 5 1 3 Based on the Byte Magazine Unix Benchmark Multi CPU vers
  • 每天Leetcode 刷题 初级算法篇-缺失数字

    题目要求 缺失数字 力扣题解 代码 import java util Arrays program mydemo description 缺失数字 author Mr zeng create 2021 03 03 09 49 public
  • 【ChatGPT】原生JS实现ChatGPT小型Demo

    初入前端的小白也可以尝尝鲜 无需科学上网 调用API2D的接口进行连接 也可以换成官方API 均有免费额度 第一步 注册API2D https api2d com r 187255 使用GitHub或邮箱进行注册登录 通过 GitHub 注
  • MySql详解(一)--架构篇

    MySQL架构篇 逻辑架构 Connectors 连接器 指的是不同语言中与SQL的交互 ManagementServeices Utilities 系统管理和控制工具 ConnectionPool 连接池 管理缓冲用户连接 线程处理等需要
  • no node folder is found in data folder(s), node has not been started yet?]

    报错 no node folder is found in data folder s node has not been started yet ES 角色调整后报该错误 过程 把 Master DataNode 节点 切换为纯 Mast
  • Linux 下ELF 文件理解及C/C++代码实现

    ELF 就是 Executable and Linkable Format 它定义了可重定位文件 可执行文件和 共享目标文件的结构 这种格式能让操作系统正确解释文件中的机器指令 理解ELF文件 目标文件 格式主要三种结构 可重定向文件 Re
  • perl实现,匹配并打印一个段落

    有一个应用场景 实现后 觉得还是记录下来 以后还会遇到的 举例 根据 这样的行 匹配并打印该段落范围的所有行 另外一点 打印出的内容 只允许存在max最大值和min最小值 sdsdfsdf 1123123 1sdfs 2saas max 0
  • 最浅显易懂的Django系列教程(49)-redis教程

    redis教程 概述 redis是一种nosql数据库 他的数据是保存在内存中 同时redis可以定时把内存数据同步到磁盘 即可以将数据持久化 并且他比memcached支持更多的数据结构 string list列表 队列和栈 set 集合
  • 数据分析基础理论

    什么是数据分析 收集大量数据 研究和概括总结 提取有用的信息形成概 帮助做出判断 以便采取适当行动 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析 将他们加以汇总和理解 以求最大化的开发数据功能 发挥数据的作用 数据分析的价值
  • CentOS7网络配置

    本文是我从另外三个文章中整合而来 用于自存 如有侵权请联系我删除 CentOS 7教程 二 网络设置 知乎 zhihu com VMware安装 Linux下CentOS7的配置及网络环境的配置 最新版特别全 centos7 配置 Cong
  • GET和POST的区别、Promise的两个方法及POST请求常见的参数类型

    GET和POST的区别 可能有纰漏 区别 GET POST 参数的位置不同 GET把请求参数直接暴露在URL上 因此GET比POST更不安全 不能用来传递敏感信息 GET请求发送的参数会被完整的保留在浏览器历史记录里 POST把请求参数放在
  • springBoot的配置文件

    目录 配置文件的格式 1 配置项的分类和中文支持 2 properties 配置文件 读取配置文件 优缺点分析 3 yml 配置文件 读取配置文件 优缺点分析 4 多个配置文件 5 properties 和 yml 的对比 在 spring
  • 2.1/2.2 系统目录结构 2.3 ls命令 2.4 文件类型 2.5 alias命令

    这个是同学提供的 2 1 2 2 系统目录结构 系统的目录 tree命令 yum install y tree 以树形结构显示文件目录 显示如下特别注意一下目录 root boot dev etc home bin srv usr loca
  • S11、反射系数、回损、VSWR之间的换算

    文章目录 1 S参数 2 反射系数 3 电压驻波比 VSWR 4 回损 RL 5 换算表 6 反射功率系数 7 传输功率系数 8 统一转换 参考 在学习天线设计过程中 遇到许多经常出现的参数 总结一下避免以后每次都去查找资料 1 S参数 S
  • Springboot2整合mybatis-plus+swagger+druid

    一 简介 1 版本 springboot版本为2 0 5 RELEASE mybatisplus版本为2 1 9 2 项目地址 https gitee com wbsxch ssm git 3 留个记录 方便查找 开发步骤 1 新建spri
  • 第四课:循环(一遍又一遍/重复/啰嗦)结构

    第四课 循环 一遍又一遍 重复 啰嗦 结构 一 掌握while循环结构 其次于for 1 初始化循环变量 xxxxx 2 循环条件 while 条件表达式 3 循环操作 循环体 4 更新循环变量 循环出口 二 掌握do while循环 前期
  • Unity游戏开发面试问题总结(含答案)

    马上金九银十了 今天就来给大家说说关于面试题的内容 给大家整理了9道Unity面试基本都会问到的问题 初衷也很简单 就是希望在面试的时候能够帮助到大家 减轻大家的负担和节省时间 对于没有跳槽打算的也可以复习一下相关知识点 就当是查缺补漏 1
  • Python时间序列分析3-非平稳序列的随机分析-SRARIMA

    import pandas as pd import matplotlib pyplot as plt import numpy as np from datetime import datetime timedelta from time
  • 数据挖掘中基本概念--数据类型的属性与度量

    当我们在学习数据挖掘算法或者机器学习算法时 我们都会发现某些算法只能应用于特定的数据类型 所以在学习数据挖掘算法或者机器学习算法前我们需要对数据类型的属性度量有一个很清晰的了解 如果在数据类型这一步就出现问题 不管算法再怎么优异肯定也是白搭