机器学习流程是什么？简述机器学习流程！

2023-10-29

1、抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。

这里的抽象成数学问题，指的明确我们可以获得什么样的数据，抽象出的问题，是一个分类还是回归或者是聚类的问题。

2、获取数据

数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。

数据要有代表性，否则必然会过拟合。

而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数量级的差距。

而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。

3、特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥作用。

特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。

筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。

4、训练模型与调优

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的(超)参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。

5、模型诊断

如何确定模型调优的方向与思路呢?这就需要对模型进行诊断的技术。

过拟合、欠拟合判断是模型诊断中至关重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。

误差分析也是机器学习至关重要的步骤。通过观察误差样本全面分析产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题……

诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程，需要不断地尝试，进而达到最优状态。

6、模型融合

一般来说，模型融合后都能使得效果有一定提升。而且效果很好。

工程上，主要提升算法准确度的方法是分别在模型的前端(特征清洗和预处理，不同的采样模式)与后端(模型融合)上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。

7、上线运行

这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度(空间复杂度)、稳定性是否可接受。

这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多积累项目经验，才会有自己更深刻的认识。

机器学习流程是什么？简述机器学习流程！的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

vue处理tabs切换时请求数据不对的应对方法

vuex 需要处理的请求路径 const whiteUrl api url const cancelAxios state cancelAxiosArr 取消请求token数组 mutations pushAxios state paylo
build打包后怎么查看源码 vue_Vue-cli打包后怎么本地查看的操作

Vue cli打包成dist后默认是必须在http服务器环境下才能正常运行可以在本地启动一个http server服务查看操作步骤如下全局安装http server npm install g http server 进入dist根目
数据结构与算法之二叉树: Leetcode 98. 验证二叉搜索树 (Typescript版)

验证二叉搜索树 https leetcode cn problems validate binary search tree 描述给你一个二叉树的根节点 root 判断其是否是一个有效的二叉搜索树有效二叉搜索树定义如下节点的左子树只
自定义数组类

在学习c 的过程中我们经常使用到数组那怎么去定义一个类去实现数组的功能呢我们先列出一些经常对数组进行的一些操作 1 创建一个指定容量的数组 2 用已有的数组初始化另一个数组 3 用已有的数组给另一个数组赋值 4 给数组添加元素给数组
Intellij Idea golang插件开发

1 安装Intellij idea 的golang插件 2 建立目录 D SystemFile GoWorkspace 在系统里面配置GOPATH D SystemFile GoWorkspace 然后在GOPATH目录下面建立 src b
2019-6-18 车牌识别尝试-图像抗扭处理和SVM学习(opencv)

抗扭曲函数deskew 利用opencv中svm算法学习图片和识别图片抽取特征向量函数hot分析车牌识别中涉及字符的识别识别方法可以用opencv自带的机器学习算法svm 支持向量机来实现参见https docs opencv o
pandas的定义以及pandas的Series的初步使用（一）

一什么是pandas pandas是一种Python数据分析的利器是一个开源的数据分析包最初是应用于金融数据分析工具而开发出来的因此pandas为时间序列分析提供了很好的支持 pandas是PyData项目的一部分官网 http
大数据实训kaggle比赛-房价预测（下）

接着开始表演下面介绍模型 Sequential 序贯模型它是函数式模型的简略版为最简单的线性从头到尾的结构顺序不分叉是多个网络层的线性堆叠实现方法模型需要知道它所期待的输入的尺寸出于这个原因序贯模型中的第一层需要接收关于
计算机视觉论文-2021-06-29

本专栏是计算机视觉方向论文收集积累时间 2021年6月29日来源 paper digest 欢迎关注原创公众号计算机视觉联盟回复西瓜书手推笔记可获取我的机器学习纯手推笔记直达笔记地址机器学习手推笔记 GitHub地址 1 T
Python机器视觉--OpenCV进阶(核心)--图像直方图与掩膜直方图与直方图均衡化

1 图像直方图 1 1 图像直方图的基本概念在统计学中直方图是一种对数据分布情况的图形表示是一种二维统计图表图像直方图是用一表示数字图像中亮度分布的直方图标绘了图像中每个亮度值的像素数可以借助观察该直方图了解需要如何调整亮度分布
Python教你一招，爬取链家二手房并做数据可视化分析

前言数据采集的步骤是固定发送请求模拟浏览器对于url地址发送请求获取数据获取网页数据内容 gt 请求那个链接地址返回服务器响应数据解析数据提取我们需要的数据内容保存数据保存本地文件所需模块 win R 输入cmd 输入
mybatis 配置打印sql

1 在mybatis config xml中配置加一个setting 2 如果是spring集成mybatis的话在sqlSessionFactory配置好configLocation属性 3 在日志文件中配置如下 DEBUG
强化对信息安全事件的预防

声明本文是学习信息技术安全技术信息安全事件管理第1部分事件管理原理而整理的学习笔记分享出来希望更多人受益如果存在侵权请及时联系我们范围本部分提出了信息安全事件管理的基本概念和过程阶段并将这些概念与结构化方法的原理相结合
spring常用注解

1 Controller 在SpringMVC 中控制器Controller 负责处理由DispatcherServlet 分发的请求它把用户请求的数据经过业务处理层处理之后封装成一个Model 然后再把该Model 返回给对应的Vie
mysql-5.6.16-win32免安装配置方法

转载自 http blog csdn net fzhmoive article details 20042437 http blog csdn net leili0806 article details 8573636 1 下载MySQL
口袋进化服务器维护,《口袋进化》新手指引.新手指导

第一只精灵你做好成为一名训练家的准备了么作为一枚纯纯的萌新在刚接触时建议根据游戏提供的引导来逐步熟悉基本玩法和养成体系除此之外别忘了阅读新手FAQ 在这里为大家总结了一些新手常见的问题方便大家享受游戏乐趣 Q 怎么升级 A
编译protobuf静态库依赖顺序问题

在项目中要加入protobuf协议支持在编译成功生成程序包动态库后发现启动运行报错未定义的protobuf符号xxx等等用ldd查看so文件发现确实提示了未找到大致的makefile文件如下 CXX g CFLAGS g Wal
前后端分离命名规范：JSON下划线，对象小驼峰，以及Jackson常用配置

在application yml中添加配置即可 spring jackson配置 jackson json和对象的命名转换 property naming strategy SNAKE CASE date format yyyy MM dd
QML下如何实现邻近区域无遮挡文字滚动

在一些嵌入式显示设备中需要实现文字滚动功能而利用QML是实现文字的滚动大家经常使用的功能也非常简单本文主要讲解一下如何避免2个邻近区域的文字滚动重叠问题大家有没有按照如下的方式来设置文本的滚动 Window visible true
机器学习流程是什么？简述机器学习流程！

1 抽象成数学问题明确问题是进行机器学习的第一步机器学习的训练过程通常都是一件非常耗时的事情胡乱尝试时间成本是非常高的这里的抽象成数学问题指的明确我们可以获得什么样的数据抽象出的问题是一个分类还是回归或者是聚类的问题 2 获取

机器学习流程是什么？简述机器学习流程！

推荐学习：

机器学习流程是什么？简述机器学习流程！ 的相关文章

随机推荐

热门标签

机器学习流程是什么？简述机器学习流程！的相关文章