数据分析 —— 数据挖掘是什么、能干嘛、怎么做

2023-11-15

数据分析

数据挖掘

  • 什么是数据挖掘

    数据挖掘:用于寻找数据中隐含的知识,并用于产生商业价值的一种手段

  • 为什么要做数据挖掘
    在这里插入图片描述

    技术和商业就像一对双生子,在互相促进中不断演进发展。随之而来的就是个大公司的业务的突飞猛进,也涌现出很多的新模式,使得数据量激增。面对数以千万甚至上亿以及不同形式的数据。很难再用纯人工、纯统计的方法从成千上万的变量中,找到其隐含的价值。所以我们需要一种规范的解决方案,能够利用并且充分利用这些数据中每一个部分,通过一些自动化的机器学习算法,从数据中自动提取价值。

    数据挖掘提供了一系列的框架、工具和方法可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式

  • 数据挖掘的产生动因

    1. 海量数据
    2. 维度众多
    3. 问题复杂

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Od48RVS-1649587377085)(D:\Typora\img\MyBatis-Plus\image-20220410174702234.png)]

  • 数据挖掘的用处

    1. 分类问题 —— 对已知类别的数据进行学习,为新的内容标注一个类别
      在这里插入图片描述

      新浪导航栏图
    2. 聚类问题 —— 聚类的类别预先是不清楚的比较适合一些不确定的类别场景

    3. 回归问题

      回归问题的最大特点 ―— 生成的结果是连续的使用回归的方法预测北京某个房子的总价 (y)

      假设总价只跟房子的面积 (x) 有关,那么构建的方程式就是 ax+b=y

      回归方法 ―― 通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果

    4. 关联问题

      关联问题最常见的一个场景 —— 推荐
      在这里插入图片描述

      京东组合购买推荐图
  • 数据挖掘怎么做

    数据挖掘是有方法论的

    数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架

    应用最多的方法论︰CRISP-DM (Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)

CRISP-DM 流程
在这里插入图片描述

CRISP-DM 流程
  1. 业务理解(Business Understanding)

    比如:训练一个模型来预测明年公司的利润
    在这里插入图片描述

    业务理解 ―― 理解你的数据挖掘要解决什么业务问题

    必须从商业或者从业务的角度去了解项目的要求和最终的目的,去分析整个问题涉及的资源、局限、设想,甚至是风险、意外等情况

    也就是 从业务出发,到业务中去

  2. 数据理解(Data Understanding)
    在这里插入图片描述

    数据理解阶段始的重点:在业务理解的基础上,对掌握的数据要有一个清晰、明确的认识

    注意:数据理解和业务理解是相辅相成的

  3. 数据准备(Data Preparation)
    在这里插入图片描述

    数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的所有工作。包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等―系列动作

  4. 构建模型(Modeling)

    构建模型也叫作训练模型,重点解决技术方面的问题

    选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型

    如果有多重技术要使用,在这一任务中,对于每一个要使用的技术要分别对待比如SVM算法只能输入数值型的数据

  5. 评估模型(Evaluation)

    模型的效果如何,能否满足业务需求

    需要使用各种评估手段、评估指标甚至是让业务人员一起参与进来,彻底地评估模型

    在评估之后会有两种情况:

    • 评估通过,进入到上线部署阶段
    • 评估不通过,要反过来再进行迭代更新
  6. 模型部署(Deployment)

    解决一些实际的问题,比如

    长期运行的模型是否有足够的机器来支撑,数据量以及并发程度会不会造成部署的服务出现问题部署是一个挖掘项目的结束,也是一个数据挖掘项目的开始

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析 —— 数据挖掘是什么、能干嘛、怎么做 的相关文章

  • Scrapy 在抓取一长串 url 时陷入困境

    我正在抓取一个大的 url 列表 1000 左右 并且在设定的时间后 爬虫程序会以 0 页 分钟的速度爬行 爬行时问题总是出现在同一个位置 url 列表是从 MySQL 数据库检索的 我对 python 和 scrapy 相当陌生 所以我不
  • 使用多个具有不同日志级别的处理程序时出现意外的 python 记录器输出

    我正在尝试将数据记录到 stderr 并记录到文件中 该文件应包含all日志消息 并且 stderr 应该只转到命令行上配置的日志级别 这在日志记录指南中多次描述 但它似乎对我不起作用 我创建了一个小测试脚本来说明我的问题 usr bin
  • 如何关闭python服务器

    使用此代码来运行 python 服务器 import os from http server import SimpleHTTPRequestHandler HTTPServer os chdir c users owner desktop
  • Redis - 错误:值不是有效的浮点数

    我在 Redis 中有一个排序集 我试图通过在Python代码中使用zincrby来更新特定元素的计数器值 例如 conn zincrby usersSet float 1 user1 但它显示错误为 错误 值不是有效的浮点数 我在 cli
  • 如何使用 python 从嵌套表结构中识别最终父级?

    我有下表 我的问题是 我如何以编程方式识别最终父级 以下是通过示例解释的规则 the id 5 0的父母是51 0 身份证号51 0没有父母 因此 id5 0的最终父级是51 0 the id 6 0的父母是1 0 身份证号1 0的父母是1
  • 使用解析将 ** 运算符更改为幂函数?

    我的要求是将 运算符更改为幂函数 例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
  • 代码 zip( *sorted( zip(units, error) ) ) 的作用是什么?

    对于我的申请units and errors始终是数值列表 我尝试用谷歌搜索每个部分的作用 并找出了 zip 的第一部分 它似乎 ziped list zip units errors 只需将单位和误差配对即可生成一个列表 如下所示 uni
  • 尽管 ioff() 和 matplotlib.use('Agg'),Pyplot“无法连接到 X 服务器 localhost:10.0”

    我有一段代码 它被不同的函数调用 为我执行一些计算 然后将输出绘制到文件中 鉴于整个脚本可能需要一段时间才能运行更大的数据集 并且由于我可能想在给定时间分析多个数据集 所以我开始它screen然后断开连接并关闭我的腻子会话 并在第二天再检查
  • Python3如何安装.ttf字体文件?

    我想使用 python3 更精确的 Python 3 6 代码在 Windows 10 上安装 ttf 字体文件 我用谷歌搜索 但我发现的唯一的就是这个使用python在windows上安装TTF字体 https stackoverflow
  • Python控制台默认十六进制显示

    我在 Python 控制台中做了很多工作 其中大部分都涉及地址 我更喜欢以十六进制形式查看地址 So if a 0xBADF00D 当我简单地输入Python gt a进入控制台查看其值 我更喜欢 python 回复0xBADF00D代替1
  • Python:动态向对象添加字段

    我想知道是否可以动态向对象添加字段 例如 我希望能够添加如下内容 user object user first name John user last name Smith 当我在 Python 命令行解释器中执行该命令时 我得到 Attr
  • PyCharm 输出错误消息散布在控制台输出中。如何解决这个问题?

    我正在运行 PyCharm 社区版 4 0 4 有谁知道为什么控制台输出后不显示错误消息 Thanks C Python27 python exe F Google Drive code python scripts leetcode lc
  • 使用主宰器将实时数据发送给客户端

    我尝试使用 Flask 的主宰框架 以便按照 Flask 代码片段将实时信息发送到客户端浏览器http flask pocoo org snippets 80 http flask pocoo org snippets 80 当我尝试为我的
  • Pandas:向量化局部范围操作([i:i+2] 行的最大值和总和)

    我希望在数据帧中的每一行的局部范围内进行计算 同时避免速度缓慢for环形 例如 对于下面数据中的每一行 我想找到未来 3 天内 包括当天 的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
  • 将多个 isinstance 检查转换为结构模式匹配

    我想转换此现有代码以使用模式匹配 if isinstance x int pass elif isinstance x str x int x elif isinstance x float Decimal x round x else r
  • 如何使用JQuery和Django(ajax + HttpResponse)?

    假设我有一个 AJAX 函数 function callpage ajax method get url abc data x 3 beforeSend function success function html IF HTTPRESPO
  • 在 Django 中翻译文件时的 Git 命令

    我在 Django 中有一个现有的应用程序 我想在页面上添加翻译 在页面上我有 trans Projects 在 po 文件中我添加了 templates staff site html 200 msgid Projects msgid P
  • 使用多行选项和编码选项读取 CSV

    在 azure Databricks 中 当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了 如果我使用multiline选项 Spark 使用默认值encoding那
  • 使用 Tweepy 获取推文时出错

    我有一个用于获取推文的 Python 脚本 在脚本中我使用该库 Tweepy 我使用有效的身份验证参数 运行此脚本后 一些推文存储在我的 MongoDB 中 有些则被 if 语句拒绝 但我仍然收到错误 requests packages u
  • 有效积累稀疏 scipy 矩阵的集合

    我有一个 O N NxN 的集合scipy sparse csr matrix 每个稀疏矩阵都有 N 个元素集 我想将所有这些矩阵加在一起以获得一个常规的 NxN numpy 数组 N 约为 1000 矩阵内非零元素的排列使得所得总和肯定不

随机推荐

  • 微信小程序图片等比缩放显示正中间

    这是小程序 image标签的mode 对图片的缩放做的处理 缩放 scaleToFill 不保持纵横比缩放图片 使图片的宽高完全拉伸至填满 image 元素 缩放 aspectFit 保持纵横比缩放图片 使图片的长边能完全显示出来 也就是说
  • 基于前馈神经网络(SLFN)的极限学习机-遗传算法相结合

    文章目录 一 极限学习机 1 1 概要 1 2 优点 1 3 不足 1 4 改进 二 前馈神经网络结构 2 1 构成 2 2 变量解释 2 3 求解 三 遗传算法 GA 3 1 概要 3 2 遗传算法流程 3 3 执行过程 一 极限学习机
  • unity实现简单自动寻路

    unity实现简单自动寻路 1 打开unity创建一个简单的场景 如下图 2 除了场景中的两个对象将所创建的地形设置为静态 3 给主角添加Nav mesh Agent 组件 4 烘焙地图 简单来说就是烘焙自动行走的路径 要注意蓝色区域为烘焙
  • web使用js调用摄像头扫码、拍照、录像

    又是好一阵忙碌 终于迎来短暂的闲暇 忙里偷闲写了这篇文章 最近项目中使用到了摄像头扫码 拍照 因为是web项目 不能直接使用java调用摄像头 更不能写个插件让客户去安装 唯一的方法只能使用js去调用摄像头 由此记录下自己的实现 开始准备使
  • 简历制作-技术栈和项目经历如何写?

    1 一 技术栈写法 1 把所有的技术要点全部梳理出来 然后再根据简历去复习 不熟悉或者怕问到的 再做减法 2 不要复制 可以借鉴 结合自己的情况梳理出来属于自己的技术栈 3 分文别类 4 关键字使用 熟练 熟悉 掌握 了解 怎么去写 第一阶
  • ML --Softmax Function (Multiclass Classification) --Andrew Ng ---- Optional Lab

    Optional Lab Softmax Function In this lab we will explore the softmax function This function is used in both Softmax Reg
  • mongodb时间差8小时,原因及解决方案

    只要涉及到mongo的增删改查 他都会默认将时间 8 进行操作 不需要我们在代码中再进行时区设置 或者是为时间增加8小时 具体解析如下 PS 下面时区设置不起作用 该少8小时 还是少8小时 1 传参数 2017 06 28 14 13 28
  • js基础之Promise(全面+手写实现)

    1 是什么 Promise是一种异步编程的解决方案 用于处理异步操作并返回结果 主要作用是解决回调函数嵌套 回调地狱 的问题 使异步操作更加清晰 易于理解和维护 2 怎么用 Promise有三种状态 pending 进行中 fulfille
  • 算法题目:目标移动

    算法题目 目标移动 题目描述 给定一个数组 nums 以及一个整数 target 你需要把数组中等于target的元素移动到数组的最前面 并且其余的元素相对顺序不变 你的所有移动操作都应该在原数组上面操作 示例 1 输入 nums 5 1
  • 基于Prometheus的node_exporter源码编译和二次开发

    首先从GitHub上拉取node exporter源码 go get github com prometheus node exporter 在拉取过程中一般会出错 主要是由于golang官网被墙导致golang的有些工具库拉取不下来 如果
  • 【IntelliJ IDEA】编码设置终极版

    近期 团队多个小伙伴咨询 IntelliJ IDEA 乱码问题 记录一下IDEA常用的4种编码设置 一 IDEA配置文件范围 IDEA的配置有两个范围 如下图 Settings 设置当前工程配置 New Projects Settings
  • Docker安装redis并以配置文件方式启动

    关于docker安装redis 网上有各种教程 大家可自行安装 写这篇文章的目的是关于以配置文件挂载的方式启动失败的总结 一 Docker安装Redis redis版本 Redis 6 2 6 安装过程中所使用的redis版本 请自行确认
  • 标志位寄存器与CF、OF标志位的区分

    8086CPU的flag寄存器 16位 各标志位如下 这是32位EFLAG的低十六位图 但是32位与16位是一样的 只不过32位多了16位且高16位没有使用到 标志位寄存器中保存的是当前指令运算的信息状态 比如进位信息保存在CF标志位 注意
  • 微信小程序调试过程中页面加载不出来

    实习进入公司微信小程序第一个项目在调试过程中发现页面加载不出来 问题显示 module components form box date miniprogram computed js is not defined 百度搜索了一下 看到社区
  • Mongodb数据库初识

    Mongodb数据库初识 一 什么是数据库 1 标准定义 2 数据库的概念 3 数据库的简单理解 4 使用数据库的原因 普通文件系统存储大量数据的问题 数据库的高效性 二 数据库的分类 1 关系型数据库 关系型数据库定义 关系型数据库的软件
  • 1030 完美数列 (25 分)

    题目 题目链接 题解 思维 从小到大排序后 从左开始选取一个数作为 m m m 二分选取右边的数作为 M M M 时间复杂度 O
  • 计算方法——C语言实现——全主元高斯消元法求解非线性方程

    最近在上计算方法这门课 要求是用MATLAB做练习题 但是我觉得C语言也很棒棒啊 题目 高斯消元法是线性方程组的直接解法 可能会造成很大的失真 尤其是高斯顺序消元法 对方法进行改进 使每次都选取绝对值最大的元素为主元 使其为乘数的分母 控制
  • MySQL安装配置教程-win10

    一 下载MySQL Mysql官网下载地址 https downloads mysql com archives installer 选择想要安装的版本进行下载 我这是使用的是5 6 21 二 安装MySQL 选择设置类型 双击运行mysq
  • 使用flask开启一个简单的应用

    Flask是非常流行的 Python Web框架 它能如此流行 原因主要有如下几点 有非常齐全的官方文档 上手非常方便 有非常好的扩展机制和第三方扩展环境 工作中常见的软件都会有对应的扩展 自己动手实现扩展也很容易 社区活跃度非常高 微框架
  • 数据分析 —— 数据挖掘是什么、能干嘛、怎么做

    数据分析 数据挖掘 什么是数据挖掘 数据挖掘 用于寻找数据中隐含的知识 并用于产生商业价值的一种手段 为什么要做数据挖掘 技术和商业就像一对双生子 在互相促进中不断演进发展 随之而来的就是个大公司的业务的突飞猛进 也涌现出很多的新模式 使得