数据挖掘期末考试

2023-05-16

1理解概念

1.1数据挖掘 1.2关联规则 1.3数据预处理 1.4置信度 1.5聚类 1.6KNN 1.7SVM

2 分类器设计的三个过程

3 分类时常将样本怎样划分?

4 评估分类器性能的常用指标

5 数据挖掘常用技术有哪些?

6 数据预处理的主要方法?

7 决策树分类算法步骤

8 OLAP技术多维分析过程的多维分析操作有哪些?

9 数据可视化的分类方法有哪些?

10 数据规约的策略有哪些?

11 数据光滑的分箱方法有哪些?

12 数据挖掘的主要功能包括那几个方面?

13 基于密度的分类方法有哪些?

后面是问答

14 什么是决策树?

15如何利用决策树进行分类?

16 分类知识的发现方法有哪些?

17 分类规则的挖掘方法有哪些?和上面的答案一样

18 分类过程通常包括哪两个阶段?

19 回归和分类的区别?

20 什么是聚类?

21 聚类和分类有和异同?

22 聚类的挖掘方法有啥?

23 按聚类分析方法的主要思路可将聚类分析方法分为哪几种类型

24 什么是数据规范化?

25 数据规范化的方法有哪些?

以下几种算法认真看

 

26   26.1ID3决策树算法 26.2Aprior算法 26.3k_means算法 26.4Naïve Bayes算法

 

1.1从大型数据集(可能是不完全的,有噪声的,不确定的,各种存储形式的)中,挖掘隐含在其中的,且事先不知道的对决策有用的知识的过程。(广义)

从特定形式的数据集中提炼知识的过程(狭义)

1.2从给定的数据集中发现频繁出现的项目集模式知识,即x->y的蕴涵式。其中x,y分别称为先导和后继。

1.3 数据预处理:用各种方法对数据进行变换、加工,以便它适用于存储、管理及进一步分析和应用。主要内容包括数据清理、数据集成、数据规约、数据变换。

1.4 置信度:包含I1和I2的事务数与包含I1的事务数之比。

1.41支持度:包含I1的事务在数据集D上所占的比例。

1.5 聚类:通过最大化类内相似性,最小化类间相似性的方法将数据分为簇和组来分析数据对象。

1.6 KNN:(p68下面)计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。

1.7SVN

1.71SVM (支持向量机)支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。

2 划分数据集、分类器构造、分类器测试。

3  训练数据和测试数据

a保持方法(留出法):将样本划分为两个互斥的数据集,一个作为学习集,另一个作为训练集。

b交叉验证法:将样本划分为大小相似的k个集合,然后进行k次实验,每次实验用k-1个集合作为训练集,用1个集合作为测试集。

c自助法:对于有m个样本的数据集,随机抽m次得到训练集,剩下的作为测试集。

4 准确率、错误率、召回率、特效性、精度
(混淆矩阵、ROC曲线、AUC面积)
【不确定是哪个】

5 a人工神经网络、 b决策树、c遗传算法、d近邻算法、e规则推导

6 数据清理、数据集成、数据变换和数据规约。

7决策树生成和决策树修剪

8 钻取、上卷、切片、切块以及旋转

 

a基于像素的可视化技术 b几何投影可视化技术 c基于图符的可视化技术 d层次可视化技术 e可视化复杂数据对象和关系

10 维规约,数量规约,数据压缩 、数据立方体聚集 、离散化和概念分层

11 分箱方法主要有:用箱均值光滑、用箱中位数光滑、用箱边界光滑。

12 a类/概念描述:特征化和区分 b关联分析 c分类和预测 d聚类分析 e孤立点分析 f演变分析 (p6)

13 DBSCAN OPTICS DENCLUE

14 决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层结点是根结点。

15 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根节点开始,根据样本属性的取值,沿着树向下,直到叶节点。该叶节点代表的类别就是新样本的类别。决策树是高效的分类方法。

16 决策树法 贝叶斯法 人工神经网络法 粗糙集法和遗传算法。分类的过程包括两步,首先在训练集上根据属性特征为每一种类型找到合理的描述或模型,即分类规则。然后按照分类规则进行分类。

17 同16

18 分类的过程包括两步,首先在训练集上根据属性特征为每一种类型找到合理的描述或模型,即分类规则。然后按照分类规则进行分类。

19 分类和回归的本质都是一样的都是对输入作出预测,区别是分类输出的是离散型变量,是定性的,而回归输出的连续型的变量,是定量的。

20 聚类是将物理或抽象对象集合分组为多个类或簇的过程,使得在同一个簇中的对象相似度很高,而不同簇的对象之间差别很大。

21 聚类与分类不同,聚类要划分的类是未知的,而分类则可按已知规则进行;聚类是一种无指导学习,它不依赖于预先定义的类和带标号的训练实例,属于观察式学习。而分类是有指导学习,属于示例式学习。

22 a 划分聚类方法有 k-平均算法,k-中心点算法 b层次聚类方法 BIRCH聚类算法,CURE聚类算法 c密度聚类算法 DBSCAN算法 OPTICS算法那 d基于网格聚类算法 e神经网络聚类方法 SOM

23 

n划分法(Partitioning Methods):基于一定标准构建数据的划分。属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

n层次法(Hierarchical Methods):对给定数据对象集合进行层次的分解或合并。

n密度法(density-based Methods):基于数据对象的相连密度评价。

n网格法(Grid-based Methods):将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。

n模型法(Model-Based Methods):给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据子集。

24 数据规范化,即数据标准化,将数据按照一定规则缩放,使其落入一段特定的小的区间。目的是去除单位的限制,将其转换为无量纲的纯数据,便于不同单位的数值进行比较。

常用的方法:min-max标准化,归一化标准化  Z-score标准化。

第一个公式的右端的右端都是new  中间部分是主体 ,并且和分母很相像。三个公式都是分数形式

 

26 简述key-means输入输出和过程

输入:簇的数目k和包含n个对象的数据库。

输出:k个簇,使平方误差准则最小。

首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。

 

27 ID3 算法的主要思想和主要步骤

首先找出最有判别力的因素,将数据分为多个子集,每个子集又选最有判别力的因素进行划分,一直进行到所有子集中的数据都为同一类别为止,此时可以得到一颗决策树。

基本步骤:从训练集中随机选择一个即合正例又合反例的子集(称为窗口)

用建树算法对当前窗口形成一颗决策树

对训练集(窗口除外)中例子用决策树进行类别判别,如果存在错判的例子,把它们插入窗口,重复步骤2.

其他复习资料见书 ppt 和公开课

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘期末考试 的相关文章

  • C++工程:总结 CMake 添加第三方库依赖方式git submodule、 find_library、FetchContent、CPM等

    CMake 已经成为了C 43 43 工程管理的主流方式 xff0c 功能非常强大 xff0c 现在大多数的 C 43 43 库都已经支持CMake xff0c 下面以 jsoncpp 为例 xff0c 介绍几种引入第三方库的方式 1 代码
  • 医学图像——DCMTK、VTK、ITK、RTK、SimpleITK

    1 引言 https github com SINTEFMedtek ITK VTK xff0c 相关童鞋应该很熟悉的 xff0c 而CTK是一个较新的界面库 xff0c 主要用于方便前面两个 TK的界面设计 xff0c 当然也可以作为通用
  • C++中的volatile

    volatile的本意是 易变的 volatile关键字是一种类型修饰符 xff0c 用它声明的类型变量表示可以被某些编译器未知的因素更改 xff0c 比如操作系统 硬件或者其它线程等 遇到这个关键字声明的变量 xff0c 编译器对访问该变
  • 3DTiles】关于GeometricError几何度量误差

    在 3DTiles 的官方文档中详细介绍了关于几何度量误差 Geometric Error 的一些理念和内涵 xff0c 概括来说可以翻译为如下定义 xff1a 几何度量误差 xff0c Geometric Error xff0c 简称 G
  • glPixelStorei 详解 包括像素传输

    3 glPixelStore 像glPixelStorei GL PACK ALIGNMENT 1 这样的调用 xff0c 通常会用于像素传输 PACK UNPACK 的场合 尤其是导入纹理 glTexImage2D 的时候 xff1a C
  • ESLint 简介

    ESLint简介 ESLint是一个用来识别 ECMAScript 并且按照规则给出报告的代码检测工具 xff0c 使用它可以避免低级错误和统一代码的风格 如果每次在代码提交之前都进行一次eslint代码检查 xff0c 就不会因为某个字段
  • IOS VasSonic 粗略见解

    因为项目需求需要在本地缓存html页面 xff0c 优化用户体验 了解到VasSonic 百度了下源码解析但是没有发现IOS的所以只有自己慢慢摸索了 一 类的简单关系 1 SonicEngine 引擎类 代理为 UIWebViewContr
  • axios的详细讲解

    一 axios的特性 axios 是一个基于Promise 用于浏览器和 nodejs 的 HTTP 客户端 xff0c 简单的理解就是ajax的封装 特性 xff1a 从浏览器中创建 XMLHttpRequests从 node js 创建
  • 无人机飞控算法-姿态估计-欧拉角-旋转矩阵-四元数

    无人机飞控算法 姿态估计 此系列记录了我理解的卡尔曼滤波从0到1的过程 xff0c 从姿态估计到位置估计 xff0c 我们从核心点一个个出发 xff0c 并结合实际模块的应用来一一揭开卡尔曼滤波的神秘面纱 提示 xff1a 在系列文章中 x
  • BMP格式详解

    介绍 数字图像在外存储器设备中的存储形式是图像文件 xff0c 图像必须按照某个已知的 公认的数据存储顺序和结构进行存储 xff0c 才能使不同的程序对图像文件顺利进行打开或存盘操作 xff0c 实现数据共享 图像数据在文件中的存储顺序和结
  • WinHex使用方法详解

    WinHex是由X Ways软件技术公司 xff08 官方网站http www x ways net xff09 开发的一款专业的磁盘编辑工具 xff0c 该工具文如其名 xff0c 是在Windows下运行的十六进制 xff08 hex
  • three.js流动线

    效果 xff1a 先看最基本的 function initThree el options options 61 options const t 61 this appInstance 61 this const width 61 el o
  • OpenGL之FBO(Frame Buffer Object)和多次离屏渲染

    第一次听到离屏渲染的时候觉得很高级 xff0c 遥不可及 xff0c 直到后来做高斯模糊的时候 xff0c 需要通过两次处理来节省性能 xff0c 一直玩一次渲染处理的我这时候才认识FBO xff0c 继而明白了离屏渲染 xff0c 今天抽
  • Android驱动(一)硬件访问服务学习之(四)Android应用程序APP编写

    硬件平台 xff1a tiny4412系统 xff1a Android 5 0 2编译器 xff1a arm linux gcc 4 5 1 xff08 一 xff09 Android通过JNI访问硬件 http blog csdn net
  • gl_FragCoord 的含义

    gl FragCoord 表示当前片元着色器处理的候选片元窗口相对坐标信息 xff0c 是一个 vec4 类型的变量 x y z 1 w xff0c 其中 x y 是当前片元的窗口坐标 xff0c OpenGL 默认以窗口左下角为原点 xf
  • RoboMaster机甲大师——视觉组——计算平台的选型与感想(主流几款)

    RoboMaster机甲大师 视觉组 计算平台 xff08 工控机 xff09 的选型与感想 xff08 主流几款 xff09 FOR THE SIGMA FOR THE GTINDER FOR THE ROBOMASTER 简介 xff1
  • 如何在Linux命令行下发送和接收UDP数据包

    众所周知 在传输层有两个常用的协议 TCP 和 UDP 本文介绍在 Linux 命令行下 如何使用 nc 命令发送或接收 UDP 数据包 这些命令的用法对调试 UDP 通信程序将有所帮助 1 问题的提出 编写了一个使用 raw socket
  • 抽丝剥茧聊Kotlin协程之聊聊Job和SupervisorJob的区别

    1 前言 随着协程的普及 xff0c 协程知识越来越被面试官青睐 首先 xff0c 协程的面试题一般都很简洁 xff0c 一两句简单的话就能把问题描述清楚 xff0c 其次于面试官而言 xff0c 协程框架中精妙的数据结构与算法可以很好的考
  • Android 手机运行 JoyCon Droid 并且使用 Amiibo

    PS 整个过程耗时耗力 xff0c 经常会断开连接 xff0c 有些不想搞那么麻烦的人就不要搞了 xff0c 以免遭受刺激啊 xff0c 哈哈 前提 如果想使用并刷Amiibo xff0c 必须同时满足以下几个条件 xff1a 1 蓝牙版本

随机推荐

  • STM32F10X系列通用OTA bootloader移植与使用指南

    基于STM32F10X系列通用OTA bootloader原理 移植与使用全指南 写在前面这几天我都做了什么呢 xff1f 有什么感受 xff1f 开始移植 写在前面 从2020 1 26到2020 1 30这5天 xff0c 我的较多研究
  • FreeRTOS笔记——链表数据结构

    FreeRTOS链表实现 0 概述1 关键结构体1 1 链表基础知识1 2 链表数据结构1 3 链表操作 0 概述 部分内容参考野火的FreeRTOS相关开发资料 xff0c 在此做一个学习记录总结 1 关键结构体 FreeRTOS源码实现
  • pyqt5 状态栏(statusBar)永久显示

    在主界面加了一个状态栏 xff0c 作为简易操作说明 xff0c 但是点击菜单栏时 xff0c 不管是否选中菜单栏下的选项 xff0c 状态栏都会消失 网上给了很多关于永久显示状态栏的方法 xff1a self status 61 self
  • 树莓派4B部署Intel Realsense T265相机

    硬件 xff1a 树莓派4B 8G内存 系统 xff1a Ubuntu 20 最初我是参照这篇博客树莓派上部署英特尔深度相机IntelRealsense T265 xff08 他人8月7日刚写的 xff09 我树莓派上librealsens
  • Phpstorm2018 永久激活

    原文地址 1 安装phpstorm xff0c 安装包请自行官网下载 http www jetbrains com phpstorm download 2 下载JetbrainsCrack jar文件 xff0c 存放至你的phpstorm
  • VMware + fedora25下安装QT5.8

    失业了 xff0c 搞单片机太久忘了这个linux xff0c 但为了重新找工作没办法重新学习 xff0c xff1a xff08 这几天手提上安装VMware和Fedora25 xff0c 把QT5 8安装了 xff0c 过程曲折 xff
  • Reproducible Research in Computational Science

    Reproducible Research in Computational Science http www csee wvu edu xinl source html It doesn 39 t matter how beautiful
  • 无人机学习所遇问题动态记录

    问题一 QGC显示 xff1a Detected 0 radio channels To operate PX4 you need at least 5 channels 原因 xff1a RC插错位置 解决方案 xff1a SBUS对应的
  • 四轮全向轮是不是比麦轮的控制难度大?

    经过一番搜索 xff0c 就发现一个做四轮全向小车的大佬 xff0c 其他都是四轮麦轮 xff0c 做四轮小车是麦轮比较好 xff1f 优点有哪些呢 xff1f
  • NoValidHost: No valid host was found. : NoValidHost_Remote: No valid host was found.

    openstack的queens版本创建实例的时候实例状态ERROE 查看日志以下错误 2019 12 10 11 32 25 436 4805 WARNING nova scheduler utils req d3743b51 2f00
  • 解决Windows下Pixhawk(PX4)编译提示没有cmake的问题

    多谢楼下的提示 xff0c 原来是64位系统下环境变量中包含 xff08 x86 xff09 的问题 xff0c 所以下面的解决方法也是错的 xff0c 看看就好了 以前安装cmake的时候还会注意一下安装选项 xff0c 后来就潜意识认为
  • 嵌入式linux串口通信自发自收测试程序

    串口自收自发程序主函数 include 34 uart api h 34 int main int fd char buff BUFFER SIZE char buff2 61 34 Hello NUAA2440 n 34 int nrea
  • js删除对象的属性及封装方法

    javascript中可以通过delete删除对象的属性 xff1a 使用方法如下 xff1a span class hljs keyword style font family none border 0px background tra
  • XML 转sql

    XML 转 sql 思路一 用字符匹配 找到的例子 xff1a https github com hhyo mybatis mapper2sql https github com inanutshellus mybatis xml inte
  • 【无标题】

    学习目标 xff1a 分布式事务 学习内容 xff1a 1 CAP BASE 基本内容和实现 2 TCC SAGA 消息一致性 实现的最终一致性 3 CMQ https cloud tencent com developer article
  • dev 调试

    问题集锦 xff1a 1 dev的代码自动补全功能 xff08 vs的智能提示功能 xff09 的快捷键 2 调试时 xff0c 二维字符数组的样子 如图很是怪异 xff1a 3 这篇博文可以供以后出现问题后参考 xff0c 其主要改变的是
  • c语言scanf接收字符的问题

    scanf xff08 c xff0c amp c xff09 xff1b 与scanf xff08 c xff0c amp c xff09 xff1b 看上去差别很小实际上第二个仅仅多了一个空格 却差别很大 尤其是scanf接收的数据之前
  • 浮点错误

    转载部分 xff1a 浮点错误 您的程序运行时发生浮点错误 xff0c 比如遇到了除以 0 的情况 所以发生浮点错误应该考虑程序中 xff1a 是否可能出现了一个数除以0的情况 是否可能出现了一个数取余0的情况 是否发生了数据溢出而导致的除
  • 猿辅导2017 笔试题

    题目描述 小明认为某些数字不吉利 xff0c 付账时会尽可能少的多付一些钱 xff0c 使得价格中不包含这些不吉利数字 xff0c 并且不出现0 例如 xff0c 不吉利数字为1 xff0c 4 xff0c 7 xff0c 8 xff0c
  • 数据挖掘期末考试

    1理解概念 1 1数据挖掘 1 2关联规则 1 3数据预处理 1 4置信度 1 5聚类 1 6KNN 1 7SVM 2 分类器设计的三个过程 3 分类时常将样本怎样划分 xff1f 4 评估分类器性能的常用指标 5 数据挖掘常用技术有哪些