数据分析师收藏:关于数据挖掘你想了解的都在这

2023-11-13

随着计算机技术的革新和网络媒体的快速发展,人们的生活以及企业发展进入了高速信息数字化时代。每天的生活以及生产都要产生大量的数据,例如交通,网络、文字、方位等。但是人们很少能够意识到这些丰富数据中隐藏了有价值的信息。

什么是数据挖掘?

2009年谷歌根据人们搜索的历史记录等大数据成功预测H1N1流感爆发地。

2014年,百度利用球员团队表现情况、博彩公司赔率等大数据,成功地预测2014年世界杯(从淘汰赛到决赛都预测正确)。

从技术的角度来看,数据挖掘是指利用大量不完整并充满随机性的应用在实际的数据,进而从中提取潜在而有价值的信息。从商业的角度来看,它是指从商业数据库中提取、转换、分析等大量业务数据的关键信息,以协助商业决策。

简而言之:大数据挖掘是发现数据中隐含的有价值信息,并受科学信息、数据库技术、统计学、机器学习、可视化等多学科的影响。

数据挖掘的建模过程

1.定义挖掘目标

通过以下步骤确定挖掘目标

(1)需求背景是什么?

(2)什么是客户的痛点

(3)映射到挖掘上,是要实现什么功能?

例如在银行客户流失案例中:

背景:客户是发展银行业务重点,客户流失问题就成为整个行业迫切需要解决的问题。

痛点:传统的方式是靠人工经验判断客户是否会流失,存在主观性的滞后性,解决问题的关键是提高客户流失的预见性。

挖掘功能:通过历史客户数据,建立预测模型,对超过一定阈值的客户发出预警信息,并提前采取保留措施。

2.数据获取

数据探索是指通过绘制图表和计算某些特征来分析样本数据集的结构特征和分布特征的过程。该步骤有助于选择合适的数据预处理和数据分析技术,它是数据建模的依据,比如:数据探索发现数据稀疏,建模时则选择对稀疏数据支持相对较好的分析方案。

数据质量分析:对原始数据进行检查,看其中是否又脏数据。例如缺失值、异常值、不一致的值、重复数据、含有特殊符号的数据等。

数据特征分析:展示数据分布情况、数据对比分析、统计分析、正态性检验、相关性分析。

4.数据预处理

数据预处理是将不规整的业务数据整理为相对规整的建模数据,数据的质量决定了模型输出的结果。

数据清洗:去除噪声和无关数据。

数据转换:将原始数据转换成合适数据挖掘的形式。

数据集成:结合多个数据源中的数据,存储在一致的数据存储中。

数据规约:维归约、数据压缩、数据离散化、数据规范化等等。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析师收藏:关于数据挖掘你想了解的都在这 的相关文章

随机推荐

  • div盒模型宽高计算

    一 计算div盒模型宽高 div盒模型宽度 width 左右padding 左右border 不包含左右margin div盒模型高度 height 上下padding 上下border 不包含上下margin
  • Linux新手入门教程

    版权声明 本文为博主原创文章 遵循 CC 4 0 BY SA 版权协议 转载请附上原文出处链接和本声明 本文链接 https blog csdn net li3839 article details 80658514 下面给你讲解新手第一次
  • 怎么看有没有用到ajax,使用AJAX请求JSON数据。我没有看到结果

    我正在学习Angular JS 为什么我看不到任何结果 使用AJAX请求JSON数据 我没有看到结果 这是我的例子 HTML post desc JS var app angular module MyApp app controller
  • discuz伪静态设置方法

    首先 进入后台 全局 SEO设置 URL静态化 如图 接着打开 查看当前的Rewrite规则 下载合适规则
  • mac上使用svn

    第一步 使用Homebrew安装subversion Homebrew不知道怎么安装的话 请自行百度 brew install subversion 第二步 使用如下的命令进行检查是否安装了这个软件 brew list 得到如下结果 使用如
  • vue常用组件库

    Vue是主流的前端框架一 Vue js UI组件 element 饿了么出品的Vue2的web UI工具套件 Vux 基于Vue和WeUI的组件库 mint ui Vue 2的移动UI元素 iview 基于 Vuejs 的开源 UI 组件库
  • 32黑马QT笔记之QPixmap和QImage的相互转换

    32黑马QT笔记之QPixmap和QImage的相互转换 1 QPixmap与QImage的互相转换 1 头文件 void paintEvent QPaintEvent 2 实现 cpp文件 void Widget paintEvent Q
  • 敏捷开发系列终极之旅 第六站(像橄榄球运动一样富有激情的SCRUM)

    由来 为什么是Scrum Scrum原本的意思是橄榄球运动的一个专业术语 指 在橄榄球比赛中 双方前锋站在一起紧密相连 当球在他们之间投掷时他们奋力争球 在敏捷开发系列中 把一种开发流程命名为Scrum 其实就意味着 这种敏捷开发的流程 就
  • 解决Android手机root仍然出现adbd connot run as root in production build

    对于手机已经root 但是使用 adb root命令仍然出新adbd connot run as root in production build 原因是手机固件里面设置了adb shell 禁止root 解决方法 下载文件 http do
  • Linux文件、磁盘管理的一些命令:

    Linux文件 磁盘管理的一些命令 Num01 gt ls ls 列出目录的内容 linux文件或目录名称英文最长可有255个字符 中文最长127个字符 表示当前目录 以 开头的文件为隐藏文件 需要以 a参数才能显示 表示上级目录或父目录
  • Training a deep autoencoder or a classifier on MNIST digits_之调试运行与理解

    运行这个程序的主要目的 深入理解deep autoencoder 的基本原理和基本架构 搞明白是如何搭建起来的 弄清它是如何训练学习的 又是如何提取目标的特征的 最终又是怎样分类的 代码主程序如下 mnistdeepauto m plain
  • PHP计算时间差

    时间计算 距离现在多长时间 function format date time t time time f array 31536000 gt 年 2592000 gt 个月 604800 gt 星期 86400 gt 天 3600 gt
  • Web应用下实现定时任务简便方法

    在WEB应用下实现定时任务的简便方法 在web方式下 如果我们要实现定期执行某些任务的话 除了用quartz等第三方开源工具外 我们可以使用Timer和TimeTask来完成指定的定时任务 第一步 创建一个任务管理类 实现ServletCo
  • 基于QT的人脸识别考勤管理系统【一】

    前言 上篇我们已经用opencv实现了人脸识别https blog csdn net qq 42449351 article details 99052241 现在我们就用人脸识别来做一个考勤管理系统 该系统开发工具是 win10 Qt C
  • Numpy学习笔记三——数组切片、bool索引、掩码和花哨索引

    Numpy数组切片 bool索引 掩码和花哨索引 数组切片 slice 数组切片的公式为 my array start end step start end step 示例1 import numpy as np 设置随机种子 np ran
  • mfc入门基础(一)-单文档应用程序框架

    最近因为相关业务 需要接触下mfc的一些老代码 但是mfc上手并没有qt那么简单 所以四处寻找学习资料 发现一个写的挺好的教程 这边我进行转载下 学习的过程中进行了一些修改 总结下 此处附上原文链接 鸡啄米MFC入门系列教程 逸适安然的博客
  • Python爬虫三:抓取链家已成交二手房信息(58W数据)

    环境 Windows7 python3 6 Pycharm2017 目标 抓取链家北京地区已成交二手房信息 无需登录 如下图 户型 朝向 成交时间价格等 保存到csv 最后一共抓取约58W数据 程序运行8h 全部文章 京东爬虫 链家爬虫 美
  • 本人遇到的spring事务之UnexpectedRollbackException异常解决笔记

    本人最近在使用spring事务管理的过程中遇到如下异常 导致服务端抛出500给前端 让搞前端的哥们抱怨我心里着实不爽 前前后后折腾了近半个小时才得于解决 今天就做个笔记 以免日后又犯这个错误 好了 错误是这样的 org springfram
  • Linux环境下 sonar、sonar-scanner、cppcheck配置并汉化

    所需安装包以及插件 我的文件夹如下 文件最好按我的方式存放 以免后面修改路径 下载文件并复制到Linux环境 下载以上所有文件 下载链接 链接 https pan baidu com s 1WUYqFg1MEqVEzbb sn49Ig 提取
  • 数据分析师收藏:关于数据挖掘你想了解的都在这

    随着计算机技术的革新和网络媒体的快速发展 人们的生活以及企业发展进入了高速信息数字化时代 每天的生活以及生产都要产生大量的数据 例如交通 网络 文字 方位等 但是人们很少能够意识到这些丰富数据中隐藏了有价值的信息 什么是数据挖掘 2009年