对卷积神经网络中 1D、2D 和 3D 卷积的直观理解[关闭]

2023-11-26

谁能通过示例清楚地解释卷积神经网络（深度学习中）中 1D、2D 和 3D 卷积之间的区别？

我想用图片来解释C3D.

简而言之，卷积方向 & 输出形状很重要！

↑↑↑↑↑ 一维卷积 - 基础 ↑↑↑↑↑

just 1-计算转化率的方向（时间轴）
输入 = [W]，滤波器 = [k]，输出 = [W]
例如）输入 = [1,1,1,1,1]，过滤器 = [0.25,0.5,0.25]，输出 = [1,1,1,1,1]
输出形状是一维数组
示例）图形平滑

tf.nn.conv1d 代码玩具示例

import tensorflow as tf
import numpy as np

sess = tf.Session()

ones_1d = np.ones(5)
weight_1d = np.ones(3)
strides_1d = 1

in_1d = tf.constant(ones_1d, dtype=tf.float32)
filter_1d = tf.constant(weight_1d, dtype=tf.float32)

in_width = int(in_1d.shape[0])
filter_width = int(filter_1d.shape[0])

input_1d   = tf.reshape(in_1d, [1, in_width, 1])
kernel_1d = tf.reshape(filter_1d, [filter_width, 1, 1])
output_1d = tf.squeeze(tf.nn.conv1d(input_1d, kernel_1d, strides_1d, padding='SAME'))
print sess.run(output_1d)

↑↑↑↑↑ 2D 卷积 - 基础 ↑↑↑↑↑

2- 方向 (x,y) 计算 conv
输出形状是2D Matrix
输入 = [W, H]，滤波器 = [k,k] 输出 = [W,H]
例子）索贝尔边缘过滤器

tf.nn.conv2d - 玩具示例

ones_2d = np.ones((5,5))
weight_2d = np.ones((3,3))
strides_2d = [1, 1, 1, 1]

in_2d = tf.constant(ones_2d, dtype=tf.float32)
filter_2d = tf.constant(weight_2d, dtype=tf.float32)

in_width = int(in_2d.shape[0])
in_height = int(in_2d.shape[1])

filter_width = int(filter_2d.shape[0])
filter_height = int(filter_2d.shape[1])

input_2d   = tf.reshape(in_2d, [1, in_height, in_width, 1])
kernel_2d = tf.reshape(filter_2d, [filter_height, filter_width, 1, 1])

output_2d = tf.squeeze(tf.nn.conv2d(input_2d, kernel_2d, strides=strides_2d, padding='SAME'))
print sess.run(output_2d)

↑↑↑↑↑ 3D 卷积 - 基础 ↑↑↑↑↑

3- 方向 (x,y,z) 计算 conv
输出形状是3D Volume
输入 = [W,H,L]，过滤器 = [k,k,d] 输出 = [宽、高、米]
d < L很重要！用于进行音量输出
示例）C3D

tf.nn.conv3d - 玩具示例

ones_3d = np.ones((5,5,5))
weight_3d = np.ones((3,3,3))
strides_3d = [1, 1, 1, 1, 1]

in_3d = tf.constant(ones_3d, dtype=tf.float32)
filter_3d = tf.constant(weight_3d, dtype=tf.float32)

in_width = int(in_3d.shape[0])
in_height = int(in_3d.shape[1])
in_depth = int(in_3d.shape[2])

filter_width = int(filter_3d.shape[0])
filter_height = int(filter_3d.shape[1])
filter_depth = int(filter_3d.shape[2])

input_3d   = tf.reshape(in_3d, [1, in_depth, in_height, in_width, 1])
kernel_3d = tf.reshape(filter_3d, [filter_depth, filter_height, filter_width, 1, 1])

output_3d = tf.squeeze(tf.nn.conv3d(input_3d, kernel_3d, strides=strides_3d, padding='SAME'))
print sess.run(output_3d)

↑↑↑↑↑ 具有 3D 输入的 2D 卷积- LeNet，VGG，...，↑↑↑↑↑

即使输入是 3D ex) 224x224x3、112x112x32
输出形状不是3D音量，但是2D Matrix
因为过滤深度=L必须与输入通道匹配 =L
2-方向（x，y）来计算转换！非 3D
输入 = [W,H,L]，过滤器 = [k,k,L] 输出 = [宽，高]
输出形状是2D Matrix
如果我们想训练 N 个过滤器怎么办（N 是过滤器的数量）
那么输出形状是（堆叠二维）3D = 2D x N matrix.

conv2d - LeNet、VGG...用于 1 个过滤器

in_channels = 32 # 3 for RGB, 32, 64, 128, ... 
ones_3d = np.ones((5,5,in_channels)) # input is 3d, in_channels = 32
# filter must have 3d-shpae with in_channels
weight_3d = np.ones((3,3,in_channels)) 
strides_2d = [1, 1, 1, 1]

in_3d = tf.constant(ones_3d, dtype=tf.float32)
filter_3d = tf.constant(weight_3d, dtype=tf.float32)

in_width = int(in_3d.shape[0])
in_height = int(in_3d.shape[1])

filter_width = int(filter_3d.shape[0])
filter_height = int(filter_3d.shape[1])

input_3d   = tf.reshape(in_3d, [1, in_height, in_width, in_channels])
kernel_3d = tf.reshape(filter_3d, [filter_height, filter_width, in_channels, 1])

output_2d = tf.squeeze(tf.nn.conv2d(input_3d, kernel_3d, strides=strides_2d, padding='SAME'))
print sess.run(output_2d)

conv2d - LeNet、VGG...用于 N 个过滤器

in_channels = 32 # 3 for RGB, 32, 64, 128, ... 
out_channels = 64 # 128, 256, ...
ones_3d = np.ones((5,5,in_channels)) # input is 3d, in_channels = 32
# filter must have 3d-shpae x number of filters = 4D
weight_4d = np.ones((3,3,in_channels, out_channels))
strides_2d = [1, 1, 1, 1]

in_3d = tf.constant(ones_3d, dtype=tf.float32)
filter_4d = tf.constant(weight_4d, dtype=tf.float32)

in_width = int(in_3d.shape[0])
in_height = int(in_3d.shape[1])

filter_width = int(filter_4d.shape[0])
filter_height = int(filter_4d.shape[1])

input_3d   = tf.reshape(in_3d, [1, in_height, in_width, in_channels])
kernel_4d = tf.reshape(filter_4d, [filter_height, filter_width, in_channels, out_channels])

#output stacked shape is 3D = 2D x N matrix
output_3d = tf.nn.conv2d(input_3d, kernel_4d, strides=strides_2d, padding='SAME')
print sess.run(output_3d)

↑↑↑↑↑ Bonus 1x1 conv in CNN - GoogLeNet, ..., ↑↑↑↑↑

当您将其视为像 sobel 这样的 2D 图像过滤器时，1x1 转换会令人困惑
对于 CNN 中的 1x1 卷积，输入是如上图所示的 3D 形状。
它计算深度过滤
输入 = [W,H,L]，过滤器 =[1,1,L]输出 = [宽，高]
输出堆叠形状为3D = 2D x N matrix.

tf.nn.conv2d - 特殊情况 1x1 转换

in_channels = 32 # 3 for RGB, 32, 64, 128, ... 
out_channels = 64 # 128, 256, ...
ones_3d = np.ones((1,1,in_channels)) # input is 3d, in_channels = 32
# filter must have 3d-shpae x number of filters = 4D
weight_4d = np.ones((3,3,in_channels, out_channels))
strides_2d = [1, 1, 1, 1]

in_3d = tf.constant(ones_3d, dtype=tf.float32)
filter_4d = tf.constant(weight_4d, dtype=tf.float32)

in_width = int(in_3d.shape[0])
in_height = int(in_3d.shape[1])

filter_width = int(filter_4d.shape[0])
filter_height = int(filter_4d.shape[1])

input_3d   = tf.reshape(in_3d, [1, in_height, in_width, in_channels])
kernel_4d = tf.reshape(filter_4d, [filter_height, filter_width, in_channels, out_channels])

#output stacked shape is 3D = 2D x N matrix
output_3d = tf.nn.conv2d(input_3d, kernel_4d, strides=strides_2d, padding='SAME')
print sess.run(output_3d)

动画（具有 3D 输入的 2D 转换）

原文链接：LINK
作者：马丁·戈尔纳
推特：@martin_gorner
谷歌+：plus.google.com/+MartinGorne

带有 2D 输入的额外 1D 卷积

↑↑↑↑↑ 1D Convolutions with 1D input ↑↑↑↑↑

↑↑↑↑↑ 1D Convolutions with 2D input ↑↑↑↑↑

即使输入是 2D ex) 20x14
输出形状不是2D , but 1D Matrix
因为过滤器高度 =L必须与输入高度匹配=L
1-方向（x）计算转换！非二维
输入 = [W,L]，过滤器 = [k，L] 输出 = [W]
输出形状是1D Matrix
如果我们想训练 N 个过滤器怎么办（N 是过滤器的数量）
那么输出形状是（堆叠一维）2D = 1D x N matrix.

奖金C3D

in_channels = 32 # 3, 32, 64, 128, ... 
out_channels = 64 # 3, 32, 64, 128, ... 
ones_4d = np.ones((5,5,5,in_channels))
weight_5d = np.ones((3,3,3,in_channels,out_channels))
strides_3d = [1, 1, 1, 1, 1]

in_4d = tf.constant(ones_4d, dtype=tf.float32)
filter_5d = tf.constant(weight_5d, dtype=tf.float32)

in_width = int(in_4d.shape[0])
in_height = int(in_4d.shape[1])
in_depth = int(in_4d.shape[2])

filter_width = int(filter_5d.shape[0])
filter_height = int(filter_5d.shape[1])
filter_depth = int(filter_5d.shape[2])

input_4d   = tf.reshape(in_4d, [1, in_depth, in_height, in_width, in_channels])
kernel_5d = tf.reshape(filter_5d, [filter_depth, filter_height, filter_width, in_channels, out_channels])

output_4d = tf.nn.conv3d(input_4d, kernel_5d, strides=strides_3d, padding='SAME')
print sess.run(output_4d)

sess.close()

Tensorflow 中的输入和输出

Summary

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对卷积神经网络中 1D、2D 和 3D 卷积的直观理解[关闭] 的相关文章

Antlr 解析器运算符优先级

考虑以下语法我对运算符优先级有疑问例如 res 2 a b有一个类似的解析树res 2 a b 我知道问题出在哪里但我没有想到没有相互左递归的漂亮解决方案你能帮我一点忙吗该语法与自定义访问者一起使用 grammar Math
带有 Maven Wrapper 的 Java 17 导致无法识别的 VM 选项“MaxPermSize=512m”

I use OpenJDK 17 https jdk java net 17 使用 Maven Wrapper 3 8 2 从春季初始化 https start spring io Maven项目 JAR打包 Java 17 Spring
测量窗口偏移

有没有一种方法可以测量 jQuery 中窗口的偏移量以便我可以比较固定元素和相对定位元素的位置我需要能够知道窗口滚动了多远以便我可以使用该图来计算固定元素的高度相对于视口顶部和相对对象的高度相对于顶部之间的差异文件的内容
MySQL 查询计算上个月

我想计算上个月的订单总额我收到了从当前日期获取当月数据的查询 SELECT SUM goods total AS Total Amount FROM orders WHERE order placed date gt date sub c
没有输入的 jQuery 日期选择器

我有一个相当复杂的网络应用程序我想向其中添加一些日期选择 UI 我遇到的问题是我无法从文档中弄清楚如何真正控制日期选择器的出现方式和时间不涉及任何表单元素不我不会添加秘密表单字段因此简单的开箱即用方法根本行不通我希望有人可以提供
PrimeFaces 对话框参考父级

我有一个 xhtml 页面显示带有条目的数据表我还有一个用于插入新条目的按钮该按钮显示一个包含表单的对话框插入表格用作
php 数组中出现意外的 json 输出结构

我正在尝试转换动态数据如何从 PHP 获取此 JSON JSON 122240cb 253c 4046 adcd ae81266709a6 item 0 3 这就是我所做的但它不起作用 PHP json array 122240cb 2
现代编译器是否优化乘以 1 和 -1

如果我写 template
一种无需 JavaScript 即可在 PHP 中确定浏览器宽度的方法？

首先有吗或者我必须使用javascript 我希望能够更改使用的 CSS 因此 frex 我可以为移动设备或其他设备加载较小的字体不幸的是仅使用 PHP 无法检测用户分辨率如果您使用 Javascript 则可以在 cookie 中
GUI Java 程序 - 绘图程序

我一直试图找出我的代码有什么问题这个想法是创建一个小的 Paint 程序并具有红色绿色蓝色和透明按钮我拥有我能想到的让它工作的一切但无法弄清楚代码有什么问题该程序打开然后立即关闭 import java awt import
如何在 Angular 4 中翻译 mat-paginator？

你知道如何在 Angular 中翻译每页项目吗mat paginator标签这mat paginator是材料设计中的一个元素您可以使用MatPaginatorIntl为了这威尔豪厄尔制作 https github com an
从 mvc 控制器使用 Web api 控制器操作

我有两个控制器一个mvc控制器和一个api控制器它们都在同一个项目中 HomeController Controller DataController ApiController 如果我想从 HomeController 中使用 Dat
使用velocity.js制作可拖动元素的动画

我正在使用velocity js 为用户拖动的可拖动 SVG 元素设置动画然而 velocity js 将先前的 mousemove 坐标排队并通过所有后续的 mousemove 坐标进行动画处理我想要的是velocity js 不要对
如何修复：“无法解析类型 java.lang.CharSequence。它是从所需的 .class 文件间接引用的”消息？ [复制]

这个问题在这里已经有答案了我正在尝试使用这个字符串 amountStr amountStr replace replace replace 但我收到一条错误消息我知道我收到的错误消息是因为我刚刚发布的字符串已过时所以我想知道该字符串的
如何在 JFreeChart 中设置多个系列的线条粗细？

我创建了很多图表在他们每个人中我都需要打电话 renderer setSeriesStroke i new BasicStroke 2 0f 对于每个系列 renderer is chart getXYPlot getRenderer 我
如何在 OSX 上安装 LaTeX .sty 文件？

我设置了一个 LaTeX 项目 tex documents some file tex support todonotes sty where some file tex uses todonotes usepackage colorinl
使用 WGL 创建现代 OpenGL 上下文？

我正在尝试使用 Windows 函数创建 OpenGL 上下文现代版本基本上代码就是创建窗口类注册班级创建一个窗口 choose PIXELFORMATDESCRIPTOR并设置它创建旧版 OpenGL 上下文使上下文成为当前
Android 材料芯片组件崩溃应用程序。无法膨胀 xml

Tried Chip来自两个支持库的组件 com google android support design 28 0 0 rc01和材料 com google android material material 1 0 0 rc01 堆栈
禁用允许文本选择的？

残疾人可以吗
探查器模板可以迁移到较新版本的 SQL Profiler 吗？

是否可以将 Profiler 模板迁移到较新版本的 SQL Server 就我而言我想将 SQL 2008 模板带到 2012 年我尝试过 1 直接文件复制和 2 导出导入在这两种情况下旧模板都会运行但无法修改修改后会出现以下

随机推荐

如何在shiny::numericInput 中使标签和框彼此相邻对齐？

是否有可能创建一个numericInput 对于闪亮的地方盒子位于标签旁边而不是默认的标签下方这是一个简单的例子 library shiny ui lt shinyUI fluidPage titlePanel Shiny with
将文件中每一行的第一个字母更改为大写

我需要将文件中每一行的第一个字母更改为大写例如 the bear ate the fish the river was too fast 会成为 The bear ate the fish The river was too fast 该
从 Xsd 构建 UI 的工具包或应用程序

我需要构建一个用户界面来编辑和创建符合给定 xsd 架构的 xml 文档我想做的是尽可能基于该 xsd 架构生成我的用户界面 xsd 模式可以并且将会随着时间的推移而改变因此解决方案需要具有一定的灵活性用户界面需要是一个 Web
Firebase 存储使用 490MB 但我没有存储桶？

Firebase 存储正在使用 490 MB 但尚未初始化任何存储桶我无法追踪该存储的来源但检查 Firebase 对空存储收取 0 10 美元的费用是很奇怪的我在哪里可以删除此存储以及为什么 firebase 因没有存储桶而收费目
Dijkstra算法：如果有两个或多个权重最小的节点怎么办？

在 Dijkstra 算法中如果算法中的某个点有两个或多个权重最小的节点我该怎么办在维基百科中 http en wikipedia org wiki Dijkstra 27s algorithm在步骤号 6 它说将暂定距离最小的未访
使用 pip 安装 TextBlob 时遇到问题

我在 Windows 10 上使用 pip 在命令行中安装 TextBlob 时遇到了一些困难根据他们的文档您需要连续运行两个命令 pip install U textblob python m textblob download co
非轴对齐矩形交集[关闭]

Closed 这个问题需要多问focused 目前不接受答案我正在尝试找到一种算法来计算两个矩形不一定是轴对齐之间的交集并返回结果交集这个问题描述寻找是否存在交叉点我想要得到交叉点的最终形状如果存在我对该算法的应用将使用一个
从“docker ps”获取容器 ID 的 Shell 命令

我基本上希望实现这两个步骤 1 运行docker镜像 docker run p 80 80 某些图像名称 25 2 现在 docker ps 返回有关容器的完整数据但我只是在寻找容器 ID 3 对其进行一些测试例如 docker exe
jquery颜色动画间歇性地抛出无效的属性值

我正在尝试为 ASP Net 超链接的背景设置动画以在更新面板刷新时进行黄色淡入淡出到目前为止它几乎在所有时间都有效但偶尔会抛出一个 JavaScript 错误无效的属性值它调试到jquery颜色插件代码到这一行 fx elem
为 STL 排序算法定义 < - 运算符重载、函子还是独立函数？

我有一个包含 Widget 类对象的 stl list 它们需要根据 Widget 类中的两个成员进行排序为了使排序工作必须定义一个比较两个 Widget 对象的小于比较器似乎有无数种方法可以做到这一点据我所知人们可以 A 在类中
获取内存上的可用空间

是否可以通过 Android SDK 获取 Android 设备而不是 SD 卡上的可用内存量如果是这样怎么办 this帖子可能很适合您的问题还检查这个线程这里有很多关于SO的信息谷歌搜索了一下这是解决方案位于安卓 git
隐藏超出 DIV 元素的文本

我有一个固定宽度的 DIV 元素其中有一些文本其中没有任何空格供 HTML 解析器自动分成多行文本超出了 DIV 的限制并弄乱了 pgae 有没有办法让超出边界的文本不可见是否可以将其分成多行或者更好地分成多行并在每条折行的末尾
多线程比单线程快吗？

我想检查多线程是否比单线程快然后我在这里做了一个演示 public class ThreadSpeedTest param args public static void main String args System out print
将“C50 型号”转换为“rpart”型号

有没有办法使用rpart plot用于绘制不属于的对象的库rpart 用于制作决策树例如这是经典的rpart and rpart plot正在运行的库 load libraries library rpart library rpart
mysql中什么是复合外键？

在我正在使用的框架的文档中看到这个术语复合外键 yii 什么是复合外键在 mySql 数据库中我的猜测是考虑到两个表之间的关系一个表有一列的名称与另一个表的 id 完全相同免责声明我做了尽职调查并在谷歌上搜索了大约两分钟但
VS 2010 Web 服务项目模板丢失？

这可能是一个愚蠢的问题但当我尝试创建新项目时我找不到 Web 服务应用程序模板您可能需要一个 WCF 服务项目新建项目 gt Visual C 或 Visual Basic gt WCF 服务应用程序
如何在 JSON 中显示带有尾随零的 BigDecimal 数字（而不是字符串）？

在我的表示响应中我有一个 BigDecimal 类型的字段它的值为 2 30 但 json 响应将其显示为 2 3 有没有办法同时显示尾随零而不将其显示为字符串顺便说一句我正在使用杰克逊库 version 2 3 needs to
还有一个“无法加载文件或程序集......或其依赖项之一。系统找不到指定的文件”

我有一个带有 NUnit 测试的 dll 运行良好我将其从 Any CPU 转换为 x86 项目因为我需要跨不同平台可靠地使用 SQLite 因此我需要包含 32 位 System Data SQLite dll 并让所有内容都引用它
像 iPhone 上的地址簿排序一样对 NSString 的 NSArray 进行排序

我有一个字符串数组名称我想像 iPhone 上的地址簿对它们进行排序一样对它们进行排序例如 li gt E 下例如 li gt A 下例如 4li gt 在下有什么建议么您需要对字符串执行不区分变音符号的比较 NSStrin
对卷积神经网络中 1D、2D 和 3D 卷积的直观理解[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案谁能通过示例清楚地解释卷积神经网络深度学习中中 1D 2D 和 3D 卷积之间的区别我想用图片来解释C3D 简而言之卷积方向输出形状很重要一维卷积基础 just 1 计