如何在同一张图片中定位多个物体？

2024-02-08

我是 TensorFlow 的新手。

目前，我正在TensorFlow网站上测试一些分类示例“卷积神经网络”，它解释了如何将输入图像分类到预定义的类中，但问题是：我不知道如何在相同的图像。例如，我有一个带有猫和狗的输入图像，我希望我的图形在输出中显示图像中都有“猫和狗”。

很好的问题。检测同一图像中的多个对象本质上是一个“分割问题”。两种不错且流行的算法是 YOLO（你只看一次）和SSD（单次多盒检测器）。我在底部添加了它们的链接。

我会观看一些有关 YOLO 如何工作的视频，看看你是否掌握了这个想法。然后阅读有关 SSD 的论文，看看您是否明白为什么该算法更快、更精确。

这两种算法都是单通道的：它们只查看图像“一次”并预测它们发现的类别的边界框。有更精确的算法，但它们速度较慢（它们首先选择许多想要查看的点，然后仅在该点上运行分类器。结果是它们在每个图像上运行该分类器多次，这很慢）。

正如您所说，您是 Tensorflow 的新手，您可以尝试其他人编写的代码：https://github.com/thtrieu/darkflow https://github.com/thtrieu/darkflow。非常广泛的自述文件向您展示了如何开始使用您自己的数据集。

祝你好运，如果您还有其他问题，或者这些算法不适合您的用例，请告诉我们。

优洛 9000（https://pjreddie.com/darknet/yolo/ https://pjreddie.com/darknet/yolo/)
SSD（单发多盒检测器）（https://arxiv.org/abs/1512.02325 https://arxiv.org/abs/1512.02325)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在同一张图片中定位多个物体？的相关文章

tf.gfile 在 TensorFlow 中起什么作用？

我见过人们使用以下几个函数tf gfile例如tf gfile GFile or tf gfile Exists 我有一个想法tf gfile处理文件但是我无法找到官方文档来了解它还提供了什么如果你能帮我的话那就太好了对于登陆这里的
使用 Keras 时，验证集中未见的类别会出现错误

我有由数值变量和分类变量组成的数据分类变量有很多类别因此我使用嵌入来表示这些类别我的模型是一个简单的神经网络我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
Tensorflow 对象检测 API 无效参数：元组组件 16 中的形状不匹配。预期为 [1,?,?,3]，得到 [1,182,322,4]

这是来自的后续问题这个 Github 问题 https github com tensorflow tensorflow issues 13044 长话短说我尝试将 Tensorflow 对象检测 API 与我自己的数据集结合使用一切都
conv1D 中形状的尺寸

我尝试过构建一个只有一层的 CNN 但遇到了一些问题事实上编译器告诉我 ValueError 检查模型输入时出错预期的 conv1d 1 input 具有 3 个维度但得到形状为 569 30 的数组这是代码 import num
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
React Native 中文本的图像识别

这可能是一个疯狂的问题但我已经看到应用程序完成了是否有任何类型的 API 可用于识别图像中的文本 Chase 识别支票上的数字的方式或者是否有一个 API 可用于搜索比如谷歌基于图像的信息例如如果我拍了一张企业徽标的照片谷歌
如何强制tensorflow使用所有可用的GPU？

我有一个 8 GPU 集群当我运行Kaggle 的一段 Tensorflow 代码 https www kaggle com keegil keras u net starter lb 0 277 scriptVersionId 2164
如何在sklearn决策树中显示特征名称？

我目前有一个决策树将功能名称显示为X index i e X 0 X 1 X 2 etc from sklearn import tree from sklearn tree import DecisionTreeClassifier d
提高SVM分类器准确率的技术

我正在尝试使用 UCI 数据集构建一个分类器来预测乳腺癌我正在使用支持向量机尽管我尽最大努力提高分类器的准确性但仍无法超过 97 062 我尝试过以下方法 1 Finding the most optimal C and gamma
理解高斯混合模型的概念

我试图通过阅读在线资源来理解 GMM 我已经使用 K 均值实现了聚类并且正在了解 GMM 与 K 均值的比较以下是我的理解如有错误请指出 GMM 类似于 KNN 在这两种情况下都实现了聚类但在 GMM 中每个簇都有自己独立的均值和
batch_size = x.shape[0] AttributeError: 'tuple' 对象没有属性 'shape'

该代码结合图像和掩模进行图像检测我怎样才能纠正这个错误 batch size x shape 0 AttributeError tuple 对象没有属性 shape 这是用于训练的代码 train datagen ImageDataGen
神经网络 - 我的网络似乎训练得很好，但在分类报告中它是完全随机的

我正在训练一个模型来对 3 种类型的车辆进行分类一切看起来都很顺利直到我尝试用我的模型预测任何事情预测结果是完全随机的我使用 3 个类别的 15000 张图像每个类别 5000 个进行训练并使用 3 个类别的 6000 个图像
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
交换keras中的张量轴

我想将图像批次的张量轴从 batch size row col ch 交换为批次大小通道行列在 numpy 中这可以通过以下方式完成 X batch np moveaxis X batch 3 1 我该如何在 Keras 中做到
如何在 py_function 之后重塑（图像，标签）数据集

我正在尝试读取自定义映射数据集进行训练但是在使用 py function 映射数据集后我得到了未知的形状例如 def process path file path label get label file path img tf io
从 swift 数组创建张量

这工作正常 import TensorFlow var t Tensor
如何从张量流数据集迭代器返回同一批次两次？

我正在转换一些旧代码以使用数据集 API 此代码使用feed dict将一批数据送入列车运行实际上是三次然后重新计算损失以供显示使用同一批所以我需要一个迭代器来返回完全相同的批次两次或多次不幸的是我似乎找不到一种使用张量流数据集
Tensorflow Eager Execution 不适用于学习率衰减

在这里尝试让一个热切的执行模型与 LR 衰减一起工作但没有成功这似乎是一个错误因为学习率衰减张量似乎没有更新如果我遗漏了什么你可以帮我一下吗谢谢下面的代码正在学习一些词嵌入但是那学习率衰减部分根本不起作用 class Wo
如何处理分类中的低频样本？

我面临一个文本分类问题我需要将示例分类为 34 组问题是 34组的训练数据大小不平衡对于某些组我有 2000 多个示例而对于某些组我只有 100 多个示例对于一些小群体分类准确率相当高我想这些群体可能有特定的关键词来识别和

随机推荐

iOS 10.0 语音识别错误 kAFAssistantErrorDomain

我尝试使用语音识别如下 let urlpath Bundle main pathForResource myvoice2 ofType m4a let url URL URL init fileURLWithPath urlpath let
.NET 多线程、易失性和内存模型

假设我们有以下代码 class Program static volatile bool flag1 static volatile bool flag2 static volatile int val static void Main s
关于全局/范围的 Ruby 方法查找

我试图完全理解 Ruby 如何定位方法符号但当它涉及多个级别时尤其是全局文件范围我感到很困难当在类上显式调用方法时有很多关于搜索类及其包含的模块的顺序的说明因此确切地说是什么super每种情况下都会调用但是当没有显式调用方
如何在循环中命名和创建文件

在 C 中我想创建并打开文本文件以写入数据但问题是我想即时命名文件例如 FILE ptr for i 0 i lt 1000 i fopen s ptr i txt w operations to fill data into fil
JSHint 选项默认值的完整列表？

我在哪里可以获得 JSHint 默认选项的完整列表我尝试在网上搜索但找不到任何东西编辑我的意思是默认列表values for all选项以防不清楚你可以看看boolOptions valOptions and invertedOp
HQL 错误：连接所需的路径

我一直在尝试这个查询的变体但似乎无法实现这一点我还参考了这篇文章预计加入路径休眠错误 https stackoverflow com questions 5759707 path expected for join nhiberna
C# 发送带有附件的电子邮件（图片）

我的方法使用 SMTP 中继服务器发送电子邮件一切正常电子邮件已发送除了附件图像以某种方式压缩不存在并且无法从电子邮件中检索之外该方法如下所示 public static bool SendEmail HttpPostedFi
GitHub API - 如何确定文件是否实际上是符号链接？

通过 GitHub API 查询符号链接时如果符号链接指向文件而不是目录我会得到不同的结果后者表现得更好因为它会返回 type symlink 作为其 JSON 的一部分而前者返回 type file 例子文件符号链接 https
动态插入 3 个图像到水平滚动视图或 Viewpager

下面显示了我正在寻找的图像目前我正在使用视图寻呼机和圆圈指示器在视图页面中它仅显示单个图像我想要在一个viewpager中显示三张图像如图所示当我滑动该页面时再次从服务器加载三个不同的图像并在下面显示文本这个怎么做对此有
使用已知和未知字段反序列化 json

给出以下 json 结果默认的 json 结果有一组已知的字段 id 7908 name product name 但可以使用其他字段进行扩展在本例中 unknown field name 1 and unknown field nam
jQuery - 选择具有特定样式的子项

我不知道如何在以下示例中选择第一个跨度 div class sp span abc span span xyz span div 我尝试过使用这个但没有成功 div sp span visibility hidden not work t
使用 XCode 4.5 运行 iOS 5.1 模拟器时出现问题

我最近将 XCode 升级到了 4 5 版本现在当我尝试开发 iOS 5 0 5 1 的应用程序时遇到了问题我开发了一个简单的 iPad 游戏用户需要将图像与相应的单词进行匹配所有这些项目都存储在 UIImageView 中如果相
适用于 iOS 8 和 iOS 9 的自定义 Unwind Segue

我的问题是如何让以下自定义展开转场在 iOS 9 之前版本的设备以及运行 iOS 9 的设备上工作我有一个显示视图控制器的自定义 Segue 然后有一个相应的自定义展开 Segue 这段代码在 iOS 8 中运行良好是通过创建 UIS
将 jzy3d.canvas 转换为 awt.component

我需要将 jzy3d 画布转换为 java awt component 我想使用 JCombobox 和按钮在框架中显示图表但是当我想将画布转换为组件时程序被删除谢谢您的回答我已经尝试过this https stackoverflo
Spring 5 WebFlux 中的缓存

有没有办法在 Spring 5 中缓存来自 WebClient 的 Flux 我尝试过这个但没有缓存任何东西 RestController SpringBootApplication EnableCaching public class
如何标记相同的熊猫数据框行？

我有一个像这样的大熊猫数据框 log apple watermelon orange lemon grapes 1 1 1 yes 0 0 1 2 0 1 0 0 1 True 0 0 0 2 2 0 0 0 0 2 2 1 1 yes 0
gcc 对 alloca 的处理是怎么回事？

在大多数平台上 alloca只是归结为堆栈指针的内联调整例如从rsp在 x64 上加上一些维护堆栈对齐的逻辑 I was looking at the code that gcc generates for alloca and it
paypal.HostedFields.isEligible() 始终返回 False ：Paypal 借记卡/信用卡付款

我想在我的网站上添加由 PayPal 提供支持的借记卡信用卡付款我正在按照指南进行操作 https developer paypal com docs business checkout advanced card payments h
Gdb - 打印数组或数组元素，具有各种大小的元素

汇编代码 yasm section data src db 1 2 3 的每个元素src数组是1个字节 In GDB 如何打印整个数组或指定索引处的元素例如打印值为 2 的元素好的在 Michael Petch 的许可下我想自己给出
如何在同一张图片中定位多个物体？

我是 TensorFlow 的新手目前我正在TensorFlow网站上测试一些分类示例卷积神经网络它解释了如何将输入图像分类到预定义的类中但问题是我不知道如何在相同的图像例如我有一个带有猫和狗的输入图像我希望我的图形在输出

如何在同一张图片中定位多个物体？

如何在同一张图片中定位多个物体？ 的相关文章

随机推荐

热门标签

如何在同一张图片中定位多个物体？的相关文章