模型训练 -- 数据集的获取(如何筛选想要数据)

2024-01-09

目录

一 前言

二 数据平台

三 数据处理

1. MaixHub平台使用

2. ZIP格式整理与上传平台

3. 数据处理(使用平台删除标注)

四 参考


一 前言

对于图像数据集的获取,一直是一个麻烦点,自己不想去标注数据,太繁琐了,所以,我分享出一个可以筛选数据集的方法,也算个自己以后做个备忘,防止以后忘记咯

二 数据平台

两个平台,也是看其他人的博客获取到的

PASCAL icon-default.png?t=N7T8 http://host.robots.ox.ac.uk/pascal/VOC/

COCO icon-default.png?t=N7T8 https://cocodataset.org/#home

三 数据处理

我这里使用 PASVAL获取的数据集 作为一个参照,平台的话使用的是 MaixHub 在线训练平台

MaixHub icon-default.png?t=N7T8 https://maixhub.com/

1. MaixHub平台使用

看图使用,注册好平台账号以后,直接点击开始训练模型

看图使用,点击新建训练,自己个自己的项目取个名字

看图,我们点击新建的项目之后,点击数据集的选项

看图,点击创建数据集,名字还是自己取一个

创建好了,点击查看,给我们的数据集添加数据

看图,先选择导入数据,然后点击选择压缩包

2. ZIP格式整理与上传平台

我们下载下来的格式如下,我们需要用到我框中的数据,然后新建一个文件夹,去存放数据,格式如下

整理好了格式就如下,我们添加压缩包然后再返回平台 ,选择我们的压缩包就行了,平台会主动识别和标注,最后上传就行。

3. 数据处理(使用平台删除标注)

这里有20个类别,保留我们需要的识别标注就行

这里我只留了 瓶子的标注数据

看图,我们可以直接到处这个100个瓶子标注数据

直接批量删除没有标记的图片

导出之后的目录,也就是100个数据

四 参考

深度学习常用的训练数据集介绍以及下载 icon-default.png?t=N7T8 https://blog.csdn.net/qq_27825451/article/details/89309175?ops_request_misc=&request_id=&biz_id=102&utm_term=%E4%BA%BA%E5%83%8F%E8%AF%86%E5%88%AB%E6%95%B0%E6%8D%AE%E9%9B%86&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-1-89309175.nonecase&spm=1018.2226.3001.4187

人脸检测和人体检测 icon-default.png?t=N7T8 https://blog.csdn.net/guyuealian/article/details/128821763


END


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

模型训练 -- 数据集的获取(如何筛选想要数据) 的相关文章

  • 车辆信息检测数据集收集汇总

    车辆信息检测数据集收集汇总 1 UA DETRAC 2 车牌数据集 3 自动驾驶数据集 4 车辆类型数据集 5 综合汽车 CompCars 数据集 6 汽车数据集 检测用 7 OpenData V11 0 车辆重识别数据集 VRID 8 S
  • BDD100K数据集下载和标签格式转换问题

    BDD100K数据集下载和标签格式转换问题 数据集介绍 加州大学伯克利分校的Berkeley DeepDrive数据集由超过100K的视频序列组成 包含各种各样的注释 包括图像级标记 对象边界框 可行驶区域 车道标记和全帧实例分割 数据集具
  • StringBuilder的用法

    StringBuilder简介 StringBuilder 最早出现在JDK1 5 是一个字符拼接的工具类 它和StringBuffer一样都继承自父类AbstractStringBuilder 在AbstractStringBuilder
  • gdal_makedata波段计算

    import os import gdal makeData import numpy as np from osgeo import gdal import cv2 as cv from PIL import Image from PIL
  • 准备数据集

    目录 介绍 足够的数据集 收集图像 调整图像大小 下一步 在这里 我们简要说明了数据集的要求 然后 我们提出了收集数据的方法 在Internet上搜索图像 搜索视频并从中上传帧 然后 我们提供一些找到的视频的参考 然后 我们说明使用可用工具
  • 基于亚博K210开发板——串口中断以及开启双核任务

    文章目录 开发板 实验目的 实验准备 硬件原理图 软件对应SDK 对应的头文件 uart h uart h接口函数 高速通用异步收发传输器 UARTHS 对应的头文件 uarths h uarths h接口函数 板级对应的头文件 bsp h
  • ​TypeScript基本知识点整理——变量类型

    在Javascript中 前面一篇文章介绍了TypeScript 微信公众号中的一篇文章 相信看过这边文章的人应该对Ts有所了解了 这篇文章大家和我一起来了解下TS的基本知识点吧 在开始之前我们先装环境 npm i typescript g
  • 声灭火器火灾数据集-Acoustic Extinguisher Fire Dataset

    Acoustic Extinguisher Fire Dataset The dataset was obtained as a result of the extinguishing tests of four different fue
  • python opencv 同窗口显示多个图像

    为了便于比对图像处理前后的效果 特别是算法处理前后的效果图 我们需要同时显示多张图片 这里采用opencv图像拼接的方法来实现我们想要的效果 1 定义函数show multi img 定义图片显示函数show multi img 共包括5参
  • 论文中参考文献中大写字母的含义

    方括号内英文字母为文献类型标识 专著 M 论文集 C 学位论文 D 报纸文章 N 期刊文章 J 报告 R 标准 S 专利 P 析出文献 A 其他 Z
  • 基于机器学习的安全数据集

    为了更好的帮助大家从事安全领域机器学习和深度学习 AI 安全 相关的研究 这篇文章将分享安全相关的数据集供大家下载和实验 包括恶意URL 流量分析 域名检测 恶意软件 图像分类 垃圾邮件等 也欢迎大家留言推荐数据集供我补充 这是作者的系列网
  • 多益校招面经--软件开发岗

    多益网络2021校招面经 软件开发岗 笔试通过 专业面试凉凉 第一次面试 太紧张了 很多东西提起来脑子一片空白 现在结束后想了一下都能想明白 以下是面经 1 个人介绍 2 项目介绍 3 开发语言的了解程度 个人是C 4 C 和JAVA的区别
  • 提供下载地址的情感数据库大全(涵盖音视频生理图像文本)

    情感识别数据集大全 一 公开多模态数据集 1 MIT BIH 2 Aubt 3 Multi ZOL 4 SAVEE 5 eNTERFACE05 二 文本情感数据集 1 Stanford Twitter Sentiment STS 2 Ama
  • 读完 DALL-E 论文,我们发现大型数据集也有平替版

    内容提要 OpenAI 团队的新模型 DALL E 刷屏 这一新型神经网络 使用 120 亿参数 经过 特训 任意描述性文字输入后 都可以生成相应图像 如今 团队将这一项目的论文和部分模块代码开源 让我们得以了解这一神器背后的原理 原创 H
  • 全新中国交通标志检测数据集2021—CCTSDB 2021: A More Comprehensive Traffic SignDetection Benchmark(全新分类-多算法测评)

    CCTSDB 2021 重磅发布 全新数据集 全新分类 多种算法测评 欢迎大家使用 数据集发布网址 GitHub csust7zhangjm CCTSDB2021 论文原文 HCIS All Issue Human Centric Comp
  • 划分训练集、验证集和测试集代码

    输入需要划分的数据所在的文件夹 返回一个划分好的包含train val和test的文件夹 val ratio 和test ratio分别为验证集和测试集所占的比例 test ratio 0表示不划分测试集 import os import
  • ubuntu16.04cuda10.0卸载、安装、查看版本信息

    一 Ubuntu16 04查看CUDA和CUDNN版本 1 cuda一般安装在 usr local cuda 路径下 该路径下有一个version txt文档 里面记录了cuda的版本信息 cat usr local cuda versio
  • Spring boot thymeleaf 实现简单-页面国际化

    新建Spring boot项目 pom xml文件
  • Human3.6M数据集下载

    Download H36M annotations mkdir data cd data wget http visiondata cis upenn edu volumetric h36m h36m annot tar tar xf h3
  • 新能源预测数据集GEFCom Data,用于光伏发电、风电功率、负荷、电价预测

    引言 新能源在满足世界能源需求方面日益重要 其特点是 发电量在很大程度上取决于天气状况 为了有效地将其整合到电网中 对新能源发电量进行准确的预测是一项不可避免的要求 新能源准确预测成为一项有趣且新颖的挑战 虽然已有大量文献对新能源预测进行了

随机推荐

  • Nexus5596交换机支持3层需要的子卡

    3层子卡 nexus5596如果没有这块子卡 无法支持3层特性 TEST Cisco N5596 1 show modu Mod Ports Module Type Model Status 1 48 O2 32X10GBase T 16X
  • 消耗服务器带宽的因素有哪些

    消耗 服务器 带宽的因素有 1 网站布局更改使网站页面大小增加 用户获取数据时会加大带宽的消耗 2 网站访客增加使浏览页面数据增加 从而加大对带宽的消耗 3 网页数量增加导致服务器带宽消耗加快 4 突然引起流量峰值 导致带宽使用量增加 5
  • 服务器OS是什么意思?

    一 什么是服务器操作系统 服务器不仅仅是由高性能硬件组成 并且是要求客户端操作系统 如Windows和Mac OS 服务器还需要一个称为服务器操作系统的操作系统 二 与客户端OS的区别 无论是Windows还是Mac OS 家庭或办公室使用
  • 龙芯+RT-Thread+LVGL实战笔记(28)——电子琴准备工作

    写在前面 临近期末 笔者工作繁忙 因此本系列教程的更新频率有所放缓 还望订阅本专栏的朋友理解 请勿催更 笔者在此也简要声明几点 有些硬件模块笔者并没有 如LED点阵 压力传感模块 RFID模块等 因此这些模块的相关任务暂时无法给出经过验证的
  • 平衡合规与发展天平, 激发数据要素价值

    数字经济大潮汹涌 为了应对复杂的外部环境 培育企业内生竞争力 企业需要摆脱贪大求快的增长模式 转向依靠合规与发展的双轮驱动 数字经济的核心在于数据 重视数据作为生产要素的战略意义 积极建设数据要素流通交易制度是近年来数字经济发展的重要议题之
  • 分辨公网IP和内网IP的方法

    公网IP一般就是对外的访问地址 内网IP就是对内的访问地址 两者的使用范围是不一样的 那如果区分客户网络的IP地址是公网IP地址还是内网IP地址呢 公网IP的地址范围是很广泛的 我们可以先了解下内网IP 因为内网IP的地址段相对是局限的 一
  • Hive操作命令上手手册

    内容来自于 大数据Hive离线计算开发实战 Hive原理 Hive是一个基于Hadoop的数据仓库和分析系统 用于管理和查询大型数据集 以下是Hive的原理 数据仓库 Hive将结构化的数据文件映射成一张表 并提供类SQL查询功能 用户可以
  • InfluxDB学习笔记

    本博客是我在学习InfluxDB的时候 记录的笔记 大家可以看看参考学些 简介 简述 InfluxDB是一个由InfluxData开发的开源时序型数据 它由Go写成 着力于高性能查询与存储时序型数据 InfluxDB被广泛应用于存储系统的监
  • 高翔博士Faster-LIO论文和算法解析

    说明 题目 Faster LIO 快速激光IMU里程计 参考链接 Faster LIO 快速激光IMU里程计 iVox Faster Lio 智行者高博团队开源的增量式稀疏体素结构 Faster Lio是高翔博士在Fast系列的新作 对标基
  • 在JavaScript面向对象编程中使用继承

    面向对象编程是一种重要的编程范式 它通过将数据和操作封装在对象中 实现了代码的模块化和复用 在JavaScript中 我们可以使用继承来实现对象之间的关系 从而使代码更加灵活和可扩展 那么 让我们深入探讨在JavaScript中如何使用继承
  • 安达发APS|PDM产品数据管理可以帮助企业实现的价值

    在实际运用中 APS系统的PDM产品数据管理功能可以帮助企业实现以下价值 1 提高产品设计和制造的效率 通过对产品结构和文档的统一管理 可以实现对产品信息的快速查询和检索 提高产品设计和制造的效率 2 保证产品数据的准确性和一致性 通过对版
  • excel 按照姓名日期年份分组求和

    excel 需要按照 姓名 日期中年份分组求和 目前想到 sumifs函数 大概需求如下 表格数据大概如下 A B C 姓名 日期 金额 a 2022 2 1 542 a 2023 4 5 154 b
  • 基于多目标粒子群算法的三个目标的支配解求解,基于多目标粒子群的帕累托前沿求解,基于多目标粒子群的三目标求解

    目录 摘要 测试函数shubert 粒子群算法的原理 粒子群算法的主要参数 粒子群算法原理 基于多目标粒子群算法的支配解求解 基于多目标粒子群的帕累托前沿求解 基于多目标粒子群的三目标求解 代码 结果分析 展望 代码下载 基于多目标粒子群算
  • 线上企业展厅:企业发展新利器,轻松实现线上企业展示

    引言 在当今数字化时代 线上企业展厅已经成为企业展示品牌形象 推广产品的重要手段 它不仅可以帮助企业拓宽市场 提升品牌知名度 还能为企业带来更多的商业机会 那么线上企业展厅有什么优势 如何搭建成功的线上企业展厅 一 线上企业展厅的优势 1
  • 题解 | #链表中的节点每k个一组翻转#C++暴力遍历解法

    求大家投下我们腾讯吧 发的一堆sp被鸽了 大数据面试题 Hive 华为14A还是保研华中科技大学 求大家投下我们腾讯吧 发的一堆sp被鸽了 终极 2024校招八股文 MySQL索引 第一篇 招芯片验证实习生 碰到渣导悲哀3年 给秋招画个句号
  • Sage运行pwntools库脚本异常解决:OSError: Int or String expected

    需要和Oracle交互的密码学脚本一般都需要借助pwn库的帮助 今天切换了python版本后 出现了一个异常 OSError Int or String expected 详细异常见文章 查阅一下源码后简单的解决了这个问题 在此分享一下 文
  • 解锁数据之门Roxlabs全球住宅IP赋能海外爬虫与学术研究

    11 20云账房测试一面凉经 华为开奖啦 关于邮储的一些情况 维信金科一面 二面 hr面 我的导师太好了 上海维信金科 技术面试一 Java后端开发岗记录贴 维信金科正式批面经 软件技术领域就业大纲 1 公司分类 你裁掉这个应届生用了多长时
  • TypeScript 和 jsdom 库创建爬虫程序示例

    TypeScript 简介 TypeScript 是一种由微软开发的自由和开源的编程语言 它是 JavaScript 的一个超集 可以编译生成纯 JavaScript 代码 TypeScript 增加了可选的静态类型和针对对象的编程功能 使
  • 在职状态下继续学习的心得体会

    本来平时记录的都是一些技术点的学习和使用 今天打算记录一下学习方法 当然不一定适合所有人 因人而异 仅供参考 学习这件事 对于IT行业来说 真的是活到老学到老 技术的更新迭代速度非常快 而且总是有那么一些公司特别的卷 没办法 改变不了外因
  • 模型训练 -- 数据集的获取(如何筛选想要数据)

    目录 一 前言 二 数据平台 三 数据处理 1 MaixHub平台使用 2 ZIP格式整理与上传平台 3 数据处理 使用平台删除标注 四 参考 一 前言 对于图像数据集的获取 一直是一个麻烦点 自己不想去标注数据 太繁琐了 所以 我分享出一