我如何知道训练数据足以用于机器学习

2024-03-07

例如：如果我想训练一个分类器（也许是SVM），我需要收集多少样本？有没有一个测量方法呢？

知道需要收集多少样本并不容易。不过，您可以按照以下步骤操作：

解决典型的机器学习问题：

构建一个包含几个样本的数据集 a，有多少个？这取决于您遇到的问题类型，现在不要花太多时间。
将数据集拆分为训练、交叉、测试和构建模型。
现在您已经构建了 ML 模型，您需要评估它的好坏。计算您的测试误差
如果您的测试错误率低于您的预期，请收集新数据并重复步骤 1-3，直到达到您满意的测试错误率。

如果您的模型没有遭受“高偏差”，则此方法将起作用。

这段来自 Coursera 机器学习课程的视频对此进行了解释 https://www.youtube.com/watch?v=nMExAKDmcb0.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

Classification

sampledata

我如何知道训练数据足以用于机器学习的相关文章

model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
如何将体积补丁存储到 HDF5 中？

我有一个尺寸的体积数据256x128x256 由于内存有限我无法将整个数据直接输入到 CAFFE 因此我会随机选择n sample补丁50x50x50从体积数据中提取并将其存储到 HDF5 中我成功地从原始数据及其标签中随机提取了补丁
使用 TensorFlow 和 Keras 的卷积神经网络精度较低 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我计划创建一个 CNN 来预测蘑菇类型并从互联网上收集了 2500 多张照片数据集有 156 个类别不同类型的蘑菇我在 Tensorfl
如何用Python构建游戏神经网络？

我是神经网络初学者我想通过教计算机下跳棋来学习神经网络的基础知识其实我想学的游戏是盛气凌人 http en wikipedia org wiki Domineering and Hex http en wikipedia org wik
敏感性特异性图 python

我正在尝试重现类似于此的灵敏度特异性图其中 X 轴是阈值但我还没有找到如何做到这一点一些 skalern 指标如 ROC 曲线会返回真阳性和假阳性但我还没有找到任何选项来制作此图我试图将概率与实际标签进行比较以保持计数我得到
Azure 机器学习 - CORS

我已经搜索了几个小时但找不到任何可以回答这个问题的东西我创建并发布了新的 Azure 机器学习服务并创建了一个终结点我可以使用 Postman REST 客户端调用该服务但通过 JavaScript 网页访问它会返回一个控制台日志
“Dense”对象没有属性“op”[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我正在尝试使用tensorflow keras制作一个完全连接的模型这是我的代码 from tensorflow keras m
如何在 python 中使用交叉验证执行 GridSearchCV

我正在执行超参数调整RandomForest如下使用GridSearchCV X np array df features all features y np array df gold standard labels x train x
更改随机森林分类器的阈值

我需要开发一个没有或接近没有假阴性值的模型为此我绘制了召回率精度曲线并确定阈值应设置为 0 11 我的问题是如何定义模型训练时的阈值稍后在评估时定义它是没有意义的因为它不会反映新数据 X train X test y tr
为什么反向传播神经网络中必须使用非线性激活函数？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我一直在阅读一些有关神经网络的内容并且了解单层神经网络的一般原理我理解需要额外的层但为什么要使用非线性激活函数这个问题后面跟着这个
在逻辑回归中使用排名数据

当我努力学习这些概念时我将对此给予最大赏金我正在尝试在逻辑回归中使用一些排名数据我想使用机器学习来制作一个简单的分类器来判断网页是否好这只是一个学习练习所以我不期望有很好的结果只是希望学习过程和编码技术我已将数据放入 c
在 GPU 上训练时如何处理非确定性？

在调整超参数以使模型性能更好时我注意到每次运行代码时获得的分数以及创建的模型都是不同的尽管修复了随机操作的所有种子如果我在CPU上运行就不会出现这个问题我搜索了一下发现这是使用 GPU 训练时的常见问题这是一个非常好的详细
地图应用的聚类算法

我正在研究地图上的聚类点纬度经度对于快速且可扩展的合适算法有什么建议吗更具体地说我有一系列纬度经度坐标和一个地图视口我正在尝试将靠近的点聚集在一起以消除混乱我已经有了解决问题的方法 see here http bouldr
音乐分析软件[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案问候我可能已经想到了这一点但有人知道 Last fm 之前是否使用某种形式的开源项目对音乐进行分析
AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
OpenCV 机器学习算法的 CSV 格式

OpenCV 中的机器学习算法似乎使用以 CSV 格式读取的数据参见示例这个 cpp文件 https code ros org trac opencv browser trunk opencv samples c tree engine
将列指定为多个组合回归模型中的特征和标签 (ML.NET)

我正在使用 ML NET 使用回归模型来预测一系列值我只对预测的一列分数列感兴趣但是其他一些列的值不可用于预测类我不能将它们保留为 0 因为这会扰乱预测所以我想它们也必须被预测我看到一个类似的问题here https sta
预处理 csv 文件以与 tflearn 一起使用

我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络数据集 http archive ics uci edu ml machine
Keras：binary_crossentropy 和 categorical_crossentropy 混淆

使用 TensorFlow 一段时间后我阅读了一些 Keras 教程并实现了一些示例我找到了几个使用卷积自动编码器的教程keras losses binary crossentropy作为损失函数我想binary crossentro
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu

随机推荐

使用 Rack::Test 测试 AJAX POST - 如何传入数据？

我在用着机架测试 https github com brynary rack test测试我的应用程序并需要测试通过 AJAX 发布数据我的测试看起来像 describe POST user do include Rack Test M
如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

这个问题在这里已经有答案了我有一个包含 2 列的 DF 并且有一个单词列表 list of words lt c tiger elephant rabbit hen dog Lion camel horse df lt tibble ti
模拟内部 axios.create()

我在用着jest and axios mock adapter去测试axiosAPI 调用redux异步动作创建者当我使用时我无法让它们工作axios创建的实例axios create 像这样 import axios from axio
iptables 模式下的 kube-proxy 不起作用

I have Kubernetes v 1 1 1 iptables v1 4 21 内核 4 2 0 18 generic Ubuntu wily 自带网络通过交换机上终止的 L2 VLAN 完成没有云提供商我做什么我正在尝试 k
修改与在 SQL Server 2005 中调用的表不同的表上的多行的触发器

我尝试对由其他表上的更新触发的表执行更新但收到错误消息更新或删除的行值要么不会使该行变得唯一要么会更改多行例如我有这个表 table 1 int id primary key identity nchar 10 state name
iOS 以编程方式为表视图单元格内容创建 NSLayoutConstraint

我想在 cellForRowAtIndexPath 中添加一些视图到我的单元格内容视图及其约束但没有任何效果我有这样的事情 NSLayoutConstraint constraint NSLayoutConstraint constra
PHP - preg_match() 一个接一个的单词

我有一篇这样的文字 The cat was born on 1980 and lives 所以我想用正则表达式获取猫的年龄文本中可能出现超过 1 次的 4 位数字我正在尝试这个preg match born on 0 9 4 text
如何在 MySQL 5.7 中创建六字符密码

我需要在 Mac 上的新 MySQL 中创建一个具有六字符密码的用户我知道 5 7 中的最低设置只允许八个字符有什么办法可以解决这个问题吗我输入CREATE USER newsier localhost IDENTIFIED BY s
如何从mysql获取分层菜单

我有一个带有分层菜单的表例如 id parent id name 1 0 menu 2 1 item1 3 2 item1 1 4 1 item2 5 4 item2 1 我这里有数百个菜单项为了获取数组中的所有项目我必须编写一个像这
更改 Firebase 实时数据库中的值时如何查看 flutter 应用程序的变化？

每当我在 Firebase 实时数据库中进行任何更改时我都会尝试使这些滚动开关更改其值更具体地说每当我将 Relay1 Data 的值更改为 0 时我希望该开关变为非活动状态我已经尝试并到处寻找但找不到任何解决方案 bool r
在本地主机上运行的 asp.net 应用程序上使用 https

我创建了一个 asp net Web 应用程序其中包含一个名为 Main aspx 的 Web 表单我正在尝试通过 https 运行该应用程序由于我没有 SSL IIS 等方面的经验我在 google 上搜索了如何实现这一目标但每
如何通过Windows Defender SmartScreen保护？ [复制]

这个问题在这里已经有答案了我试图防止我的应用程序安装程序不会被阻止Windows 智能屏幕保护我使用 BitRock 并手动签署了我的安装程序但我总是遇到这个问题我购买了有效的证书并且带有时间戳的签名没问题这是一个商业应用程
HTTP 中的 POST 和 PUT 有什么区别？

背景资料分析根据RFC 2616 第 9 5 节 https www rfc editor org rfc rfc2616 section 9 5 POST习惯于create资源 POST 方法用于请求源服务器接受请求中包含的实体作为请
如何从 Base64 编码字符串构造 java.security.PublicKey 对象？

我有一个来自外部源 Android Store 的 bse64 编码字符串公钥我需要用它来验证签名内容如何将字符串转换为 java security PublicKey 接口的实例如果这有什么区别的话我正在使用 Java 6 密钥
Cocos2d-x：可以使用HTML（UIWebView）吗？

我正在尝试cocos2d x现在我可以为 Android 构建 Javascript 示例并在浏览器中运行它们现在我想创建自己的游戏但由于有 HTML 背景我宁愿使用 HTML 标签和 CSS 也不愿使用 Javascript 来设置
PHPExcel 检查工作表是否存在

我正在使用 phpExcel 但找不到任何内容来检查工作表是否存在我想要完成的是这样的事情 if excel gt sheetExists 1 excel gt createSheet 1 sheet excel gt setSheet
syscall_table 在 x86_64 内核中的什么位置？

我正在尝试向 Linux 内核 x86 64 添加新的系统调用基于本文 http techeclipse com how to linux kernel 其中解释了如何将系统调用添加到内核 x86 该文章说我需要在名为的文件中定义我的系统
警告“演示正在进行时！”的含义

当我整合Instagram在我的项目中我得到了image from UIImagePickerController之后我想把它发送到Instagram但是当我发送时image to Instagram by UIDocumentInter
将自定义域映射到 openshift wordpress 博客

我有一个 openshift wordpress 博客运行在http blog example rhcloud com http blog example rhcloud com 并在我的 DNS 管理中添加 CNAME 记录如下所示
我如何知道训练数据足以用于机器学习

例如如果我想训练一个分类器也许是SVM 我需要收集多少样本有没有一个测量方法呢知道需要收集多少样本并不容易不过您可以按照以下步骤操作解决典型的机器学习问题构建一个包含几个样本的数据集 a 有多少个这取决于您遇到的问题类型

我如何知道训练数据足以用于机器学习

我如何知道训练数据足以用于机器学习 的相关文章

随机推荐

热门标签

我如何知道训练数据足以用于机器学习的相关文章