【数据挖掘】数据清洗

2023-11-16

【数据挖掘】数据清洗

数据挖掘一般流程

数据挖掘一般流程

需求分析：数据挖掘任务分类：（1）预测：分类+回归（2）聚类：文档归类（3）关联性分析：购物篮分析（4）异常检测：信用卡欺诈
获取数据：sql，linux，爬虫
数据清洗（主要：去重，缺失值处理，异常值处理工具：python pandas包）
特征工程（子集搜索策略+子集评价+降维：
（1）过滤式：计算每个特征与相应变量的相关性，过滤掉相关性较低的特征，但实际应用中，一般会逐个特征分析与预测变量的关系，在Pandas中有很多相关函数(describe,value_counts()等等）可以很清晰的表示出两者关系，也可以通过画图
（2）包裹式：以模型最终的学习性能作为特征集的评估准则，选择好的特征集，但因为需要训练多个模型，开销很大，不推荐；
（3）嵌入式：将特征选择和学习器结合，让模型训练过程中自动进行特征选择，比如各种树模型；）
算法选择
（1）数据归一化：一般的模型都需要归一化，原因：将数据维度都调整到某范围内。注意点：训练集归一化的时候要计算最大值和最小值，测试集归一化的时候也要用训练集的最大和最小值进行归一化。（很重要！！实习过程中犯的第一大错误，包括后续要产生某些新特征时，测试集一定要以训练集的指标划分！）
（2）模型选择：不管怎么样先用随机森林（Random Forest）试试，效果总不会太差，可以以这个为度量来评估后续模型的好坏。一般越复杂的模型效果越高，GBDT,XGBOOST等，但如果需求是解释性模型较高时，还是线性模型好
算法调优（参数调优，性能调优）
（1）调参：交叉验证！先大范围的调，然后再小范围的调参，直到找到相对较好的参数。
最终结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘

数据清洗

机器学习

建模

【数据挖掘】数据清洗的相关文章

C++函数模板基础

今天给大家带来函数模板的内容当我们面对逻辑相同但类型不同的问题时比如整型相加和浮点型相加使用函数模板可以提高代码利用率起到事半功倍的效果今天给大家分享蛋类型变量的函数模板 include
关于C++对象模型（下）

下篇主要讨论调用成员函数访问成员变量的开销及其特殊成员函数数组异常处理的讨论这篇文章中出现的对象定义都出现在上篇中全文在这里下载文章内容转自 http tb blog csdn net TrackBack aspx PostI

随机推荐

数据链路层六大协议详解

数据链路层六大协议详解一些假设 1 无限制的单工协议乌托邦协议五点假设发送方接收方接受方 2 单工停等协议 3 有噪声信道的单工协议本文图片截取自学堂在线华南理工大学的计算机网络课程一些假设物理层数据链路层和网络层
视频格式无损/快速转换——ffmpeg（mkv等转mp4）

非商业用途转载请务必注明出处 https blog csdn net qq 40491305 article details 103272651 最近用PR发现不支持mkv格式需要转化为mp4 考虑到快速无损以及我仅仅需要转码懒得使用
java.lang.ArrayIndexOutOfBoundsException（数组越界）处理方法

转发自https blog csdn net qq 34646449 article details 76146659 当你使用不合法的索引访问数组时会报数组越界这种错误数组arr的合法错误范围是 0 arr length 1 当你访问这
使用反射动态校验后台配置某字段是否允许为空

背景使用easyExcel读取数据 title不固定后台可以配置title必填项 title顺序可改变用户可以自定义title 不存储自定义信息即可不报错思路不能使用easyExcel使用index的方式读取数据改成value
文件在使用FileChannel.map后不能被删除(Windows上)

同事发现在Windows上使用FileChannel的map方法之后不能够删除掉文件我在Linux上试了一下发现没这个问题做个笔记记录一下 import java io File import java io RandomAcce
Unity笔记之获取鼠标停留的UI和删除按键触发后引用、判断鼠标是否在UI上

需求鼠标放在UI上需要获取这个UI物体以方便进行其他操作百度学习了半天最终拿了一个大哥添加链接描述的内容本文仅作为个人笔记建议大家直接去这大哥的博客看不过我记得好像也可以通过继承unity内部的鼠标事件接口获取到物体但
java.io.StreamCorruptedException: invalid type code: AC错误解决

最近做IO时出现了一个我百思不得其解的错误虽然经过一番解决的bug 但是对于这一方面的底层知识还是有待去深入了解借这个机会好好学习一下一般可以使用ObjectInputStream把对象写出到文件再使用ObjectOutpu
五分钟告诉你什么是爬虫？

1 什么是爬虫把互联网比喻成一张网那么爬虫就是网上爬行的蜘蛛把网的节点比喻成一个个网页爬虫爬取到就相当于访问了该页面获取了其信息爬虫可以通过一个节点之后顺着节点连线链接继续爬行到下一个节点即通过一个网页继续获取后续的网页
直播 RTM 推流在抖音的应用与优化

动手点关注干货不迷路背景随着互联网技术以及网络基建的快速发展和普及视频直播已经成为了一种越来越普遍的娱乐和社交方式无论是个人还是企业都可以通过视频直播平台进行直播活动向观众展示自己的生活工作或者产品同时视频直播也成为了一
sqlmap自动注入1（Target完整的超级详细如有错误望指出）

SQLmap的自动注入学习之路 1 是通过五种sql注入漏洞的检测技术 and select from select sleep 20 a 这是基于时间的盲注检测看他返回的时间可以在DVWA试试 sqlmap支持非常全面的数据库管理系
咬了一口苹果死去的计算机之父——图灵

艾伦麦席森图灵 Alan Mathison Turing 1912年6月23日 1954年6月7日英国数学家逻辑学家被称为计算机科学之父人工智能之父 1910年左右的伦敦 1912年生于英国伦敦帕丁顿家族成员里有三位当选过英国
星网宇达-组合导航在ros系统中的使用方法

1 安装差分天线两个组合导航主机 DTU模块不使用基站GPS的定位精度是米级的园区里面自己搭建基站用DTU进行数据传输精度可达到厘米级也可以利用千寻基站进行定位效果不清楚 2 根据杆臂以及天线安装说明文档进行天线安装和杆臂配
数据分析03——矩阵常用计算方法和函数

0 前言数组计算机领域的概念矩阵数学领域的概念对于Numpy而言矩阵是数组的分支 1 创建矩阵字符串创建矩阵 mat1 np matrix 1 2 3 4 列表形式创建矩阵 mat2 np matrix 5 6 7 8 通过数
QTextDocument和QTextBlock

QTextDocument QTextDocument是用于结构化富文本文档的容器为样式文本和各种类型的文档元素如列表表格框架和图像提供支持可以创建它们以在QTextEdit中使用也可以独立使用每个文档元素均由关联的格式对象
可视化工具Netron介绍

Netron是一种用于神经网络深度学习和机器学习模型的可视化工具它可以为模型的架构生成具有描述性的可视化 descriptive visualization 源码在 https github com lutzroeder netron
Taro安装、启动命令、创建项目、修改端口号以及如何在微信开发者工具内运行

1 安装Taro开发工具 npm install g tarojs cli 或者yarn global add tarojs cli 使用npm可能会有一些报错的信息建议使用cnpm安装 2 使用命令创建模板 taro init myAp
教你如何基于Redis来实现高性能延时消息队列！

最近在倒腾自建博客后端系统需要用到延时任务的功能但手头只有一套MySQL和Redis 如果搞一套MQ成本有点大于是想着用redis实现延时消息队列有些场景用数据库的定时扫表也能简单实现延时消息的功能不过对于我这边的实际场景比如计
C#学习笔记任务操作

利用线程可以方便地进行异步操作但是线程模型有一个缺点就是无法处理返回值要在不同线程之间传递数据比较麻烦任务则解决了这个问题完整代码在这里 https github com techstay csharp learning not
流程控制和数组（下）

文章目录 Java 类 Arrays Java 类 Arrays Java提供的Arrays类里包含的一些statics修饰的方法可以直接操作数组这个Arrays类里包含了如下的几个static修饰的方法 static修饰的方法可以直接通
【数据挖掘】数据清洗

数据挖掘数据清洗数据挖掘一般流程数据挖掘一般流程需求分析数据挖掘任务分类 1 预测分类回归 2 聚类文档归类 3 关联性分析购物篮分析 4 异常检测信用卡欺诈获取数据 sql linux 爬虫数据清洗主要去重缺

热门标签