数据分析和数据挖掘的概念和理念

2023-11-15

1.数据分析和数据挖掘的定义和概念
2.数据分析及数据挖掘的层次
3.数据分析及数据挖掘的模型框架

1.1数据分析及数据挖掘的定义:

数据分析

数据分析是指用适当的统计方法对收集来的大量数据进行分析,提取有用信息
和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。是KKD(数据库中知识发现)不可缺少的一部分。

数据库中知识发现

输入数据数据预处理数据挖掘后处理信息

  • 数据预处理
    特征选取
    维归约
    规范化
    选取数据子集
  • 后处理
    模式过滤
    可视化
    模式表现

1.2数据分析与数据挖掘的差异:

数据挖掘及数据挖掘都是“投入数据,产出信息”的过程,有很多相同之处。

数据分析 数据挖掘
理论基础 基于统计推断的知识
(统计学、概率论和数理统计、多元统计分析、
时间序列、数据挖掘)
需要更多的计算机工程能力
(统计学、概率论和数据库、数据挖掘、JAVA基础、Linux基础)
数据量级 基于抽样或相对较小的数据量 大数据
业务理解 较强 较弱
工具 关注应用
Excel、SQL
可选:SPSS、R、Python、SAS等
更关注算力、储存、算法
Python、R、SQL、Hadoop、HDFS、Mapreduce、
Hive、Spark等


2.1数据分析与挖掘的层次

报表与查询 多维分析与警报 统计分析 预测及建模 优化
问题:发生了什么? 问题:问题出在哪里?
我们应该怎么做?
问题:为什么会出
现这种状况?
问题:将来会怎样? 问题:如何把事情
做的更好?
定期生成报表(日报、
周报等)或即席查询。能
够提供一定的决策依据,
单对于原因的解释和长期
指导是有限的
通过钻取,可以层层剥笋
发现部分原因,并且通过
警报,指出问题预防问题
通过频数、回归、相
关、聚类、因子分析
等方法、对历史数据
进行进一步分析,挖
掘原因,总结规律
通过趋势性分析(如时间
序列、面板数据),理解
未来趋势及其业务的影响
综合考虑资源及需
求,对业务进行
优化


3.1数据分析及挖掘三要素

  • 数据处理工具
  1. 数据获取:
    Mysql、ORACLE、HIVE
  2. 数据预处理:
    Excle、PPT
  3. 数据分析或挖掘:
    Python、SPSS、R
  4. 可视化:
    Spark、Tableau
  • 思维
    数据分析两种逻辑:“树,田”

    MECE分析法

    MECE(相互独立、完全穷尽)是麦肯锡思维过程的一条基本准则。
    “相互独立”意味着问题的细分是在同一维度上并有明确区分、不可重叠的,
    “完全穷尽”则意味着全面、周密。

    SWOT矩阵分析

    SWOT分析,即态势分析,
    就是将与研究对象密切相关的各种主要内部优势、劣势和外部的机会和威胁等,
    通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析,
    从中得出一系列相应的结论,而结论通常带有一定的决策性。

  • 理论

数据分析及挖掘的理论框架—总、分、总

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析和数据挖掘的概念和理念 的相关文章

随机推荐

  • Java web编写的志愿者系统(志愿者网络平台) 功能齐全、下载后即可以运行

    8月份由于公司的事情太多 基本上没有更新博客信息 今天稍微空了点 陆续为为大家介绍Java web项目 今天要介绍的是一个Java web编写的志愿者系统 志愿者系统通常是由非盈利组织或者政府机构建立和运营的 用于管理和协调志愿者的各种活动
  • How to delete local branches of GitExtension

    How to delete local branches of GitExtension Jin Qing s Column Dec 2021 GitExtension is a good tool After a long time of
  • 【trajectory optimization】1 intro

    满足所有constraints 的是feasible solution可行解 admissible control 容许控制 可行控制 轨迹优化是根据目标函数objective function 描述寻找最优轨迹optimal trajec
  • 【C语言】14个常用的字符串函数和内存函数

    文章目录 一 strlen 1 函数原型 2 使用介绍 3 三种模拟实现 计数器法 利用递归 指针相减 二 strcpy 1 函数原型 2 使用介绍 3 模拟实现 三 strcat 1 函数原型 2 使用介绍 3 模拟实现 四 strcmp
  • 论文笔记:COST: CONTRASTIVE LEARNING OF DISENTANGLEDSEASONAL-TREND REPRESENTATIONS FORTIME SERIES FOREC

    ICLR 2022 1 前言介绍 表征学习 对比学习 时间序列预测 首先学习时间序列解耦的representation 然后进行回归任务的精调 对比学习CoST包含时域和频域的contrastive loss gt 学习趋势和周期性repr
  • 【C++初阶】类和对象(下)

    一 再谈构造函数 构造函数其实分为 1 函数体赋值 2 初始化列表 之前所讲到的构造函数其实都是函数体赋值 那么本篇文章将会具体讲述初始化列表 初始化列表 语法 以一个冒号开始 接着是一个以逗号分隔的数据成员列表 每个 成员变量 后面跟 一
  • 2021年蓝桥杯

    专栏 蓝桥杯题目 一 卡片问题 题目解析 由于数据量比较小 直接暴力枚举即可 依题意可以很快知道 卡片最先用完的数是 1 因此遍历足够多的数 将每个数转换成字符类型 计算每个字符里面 1 的个数 注意 1 用完可能不是临界条件 有可能下一个
  • 傻瓜攻略(一)——MATLAB主成分分析(PCA)代码及结果分析实例

    主成分分析 收藏的能不能顺手点个赞啊 嘿嘿 主成分分析法 PCA 是一种高效处理多维数据的多元统计分析方法 将主成分分析用于多指标 变量 的综合评价较为普遍 笔者自从本科学习数学建模就开始接触该方法 但是一直没有系统地整理过 借这个机会总结
  • Python操作之MySQL

    目录 安装PyMySQL PyMySQL操作mysql步骤 创建表格 连接Mysql 游标 事务特性 事务提交 查数据库 增删数据库 封装mysql类 错误处理 总结 安装PyMySQL 在使用Python中我们都要安装相关的库 mysql
  • 7-20 打印九九口诀表 (15分) 下面是一个完整的下三角九九口诀表: 1*1=1 1*2=2 2*2=4 1*3=3 2*3=6 3*3=9 1*4=4 2*4

    7 20 打印九九口诀表 15分 下面是一个完整的下三角九九口诀表 1 1 1 1 2 2 2 2 4 1 3 3 2 3 6 3 3 9 1 4 4 2 4 8 3 4 12 4 4 16 1 5 5 2 5 10 3 5 15 4 5
  • PyQt5探索-1 开始第一个程序

    浅谈PyQt5 PyQt5并不向下兼容PyQt4 主要是由于其有几个较大的改变 虽不兼容 但是旧代码调整到新库并不是很难 它们的主要差异如下 Python的模块已经重新构建 一些模块已经被放弃 如 QtScript 其他的模块被分割到一些子
  • 突破ChatGPT限制:Chat-Upload方法为ChatGPT文件上传带来新的可能性

    大家好 在之前的文章中 我分享了一个关于如何突破ChatGPT无法读取PDF和图片文件的问题的方法 今天 我要继续探讨这个话题 并详细介绍我自己原创的一种文件上传方法 为学习带来了新的可能性 我开发的这个方法被称为 Chat Upload
  • 很抱歉,OneDrive服务器出现问题,请稍后重试。(错误代码:0x8004def5)

    问题来啦 很抱歉 OneDrive服务器出现问题 请稍后重试 错误代码 0x8004def5 微软自带的OneDrive 因可自动云端备份 同步 而广受欢迎 但有小伙伴发现 经常性的 OneDrive登录不上去 出现 很抱歉 OneDriv
  • GmSSL 在Windows上的使用(编译和使用)

    1 源码的下载 GitHub guanzhi GmSSL 支持国密SM2 SM3 SM4 SM9 SSL的密码工具箱 2 编译工具的下载 首先安装VS开发工具 接着下载ActivePerl 打开VS命令提示符 管理员权限 并切换到 Acti
  • 什么是nrm

    什么是nrm nrm是npm的源管理器 这里的源可以理解为是不同的地址 使用场景 因为npm当前的源只能有一个 当你需要使用的源不止一个的时候nrm就可以很好的帮助你管理npm源 安装nrm npm i nrm g 查看源列表 nrm ls
  • virtualbox虚拟机安装64位Linux

    1 准备工作 virtualbox下载地址 https www virtualbox org wiki Downloads 这里下载的是VirtualBox 6 1 30 for Windows hosts x86 amd64 同时还需要下
  • 【一起学Rust】Rust学习前准备——注释和格式化输出

    提示 准备热身 文章目录 前言 一 注释 1 普通注释 2 文档注释 二 格式化输出 输出字符串 输出带有占位符的字符串 输出带有指定格式占位符的字符串 指定宽度对齐 数字输出缺位补0 总结 注释 格式化输出 前言 在正式开始学习Rust之
  • linux : ubuntu JDK安装和环境变量设置

    1 下载JDK 官网下载链接 http www oracle com technetwork java javase downloads index html 华为镜像下载链接 https repo huaweicloud com java
  • C++ scanf语句的各种用法

    scanf语句 scanf本身是C语言的输入语句 但c 是兼容C语言的 头文件是iostream 用万能头的就不用管了 1 输入十进制的数 int a scanf d a scanf i a scanf u a 这三种写法都是可以的 在sc
  • 数据分析和数据挖掘的概念和理念

    1 数据分析和数据挖掘的定义和概念 2 数据分析及数据挖掘的层次 3 数据分析及数据挖掘的模型框架 1 1数据分析及数据挖掘的定义 数据分析 数据分析是指用适当的统计方法对收集来的大量数据进行分析 提取有用信息 和形成结论而对数据加以详细研