深度学习知识点一

2023-11-14

1. 说说卷积和全连接网络的区别?

​ 卷积神经网络也是通过一层一层的节点组织起来的。和全连接神经网络一样,卷积神经网络中的每一个节点就是一个神经元。在全连接神经网络中,每相邻两层之间的节点都有边相连,于是会将每一层的全连接层中的节点组织成一列,这样方便显示连接结构。而对于卷积神经网络,相邻两层之间只有部分节点相连,为了展示每一层神经元的维度,一般会将每一层卷积层的节点组织成一个三维矩阵。

​ 除了结构相似,卷积神经网络的输入输出以及训练的流程和全连接神经网络也基本一致,以图像分类为列,卷积神经网络的输入层就是图像的原始图像,而输出层中的每一个节点代表了不同类别的可信度。这和全连接神经网络的输入输出是一致的。类似的,全连接神经网络的损失函数以及参数的优化过程也都适用于卷积神经网络。因此,全连接神经网络和卷积神经网络的唯一区别就是神经网络相邻两层的连接方式。

补充: 那为啥全连接层神经网络无法很好的处理图像数据?

​ 使用全连接神经网络处理图像的最大问题就是:全连接层的参数太多,对于MNIST数据,每一张图片的大小是28 * 28 * 1,其中28 * 28代表的是图片的大小,1表示图像是黑白的,有一个色彩通道。假设第一层隐藏层的节点数为500个,那么一个全连接层的神经网络有28 * 28 * 500+500=392500个参数,而且有的图片会更大或者是彩色的图片,这时候参数将会更多。参数增多除了导致计算速度减慢,还很容易导致过拟合的问题。所以需要一个合理的神经网络结构来有效的减少神经网络中参数的个数。卷积神经网络就可以更好 的达到这个目的。

2. 什么是感受野呢?

​ 感受野(Receptive Field)的定义:卷积神经网络每一层输出的特征图(feature map)上的像素点映射回输入图像上的区域大小。通俗点的解释是,特征图上一点,相对于原图的大小,也是卷积神经网络特征所能看到输入图像的区域。

3. 深度学习的“深度”,是不是一昧的增加深度就好了吗?网络是否越深越好?

在一定的程度上,网络越深越宽,性能越好。但是未必就是网络越深越越好,我们从 性能提升和优化 两个方面来看:

  • 加深带来的优化问题

ResNet为什么这么成功,就是因为它使得深层神经网络的训练成为可行。虽然好的初始化,BN层等技术也有助于更深层网络的训练,但是很少能突破30层。

VGGNet19层,GoogleNet22层,MobileNet28层,经典的网络超过30层的也就是ResNet系列常见的ResNet50,ResNet152了。虽然这跟后面ImageNet比赛的落幕,大家开始追求更加高效实用的模型有关系,另一方面也是训练的问题。

深层网络带来的梯度不稳定,网络退化的问题始终都是存在的,可以缓解,没法消除。这就有可能出现网络加深,性能反而开始下降。

  • 网络加深带来的饱和

补充: 为什么越深越差?

上述两个原因:1)加深会带来梯度不稳定,网络退化等问题;2)加深会带来饱和,即无论怎么加深,性能不再提高。

4. 减少过拟合的手段?

  • 增加样本数据量
  • 数据增强,人为扩展数据量
  • 正则化
  • Dropout
  • early stopping
  • batch normalization

5. 简单的说一下YOLO V1

1.创新点

(1)将整张图作为网络的输入,Anchor free方法直接在输出层回归bounding box的位置和类别
 2.Anchor-based缺点
 Anchor-based方法首先需要产生大量可能包含待检测物体的先验框, 然后用分类器判断每个先验框对应的边界框里是否包含待检测物体,以及物体所属类别的概率或者置信度,同时需要后处理修正边界框,最后基于一些准则过滤掉置信度不高和重叠度较高的边界框,进而得到检测结果。这种基于先产生候选区再检测的方法虽然有相对较高的检测准确率,但运行速度较慢。

​ YOLO创造性的将物体检测任务直接当作回归问题(regression problem)来处理,将候选区和检测两个阶段合二为一。下图展示了各物体检测系统的流程图对比。

image.png

3.预测

YOLO将输入图像分成7x7的网格,每个网格预测2个边界框,总共 49x2=98 个bounding box。若某物体的ground truth的中心落在该网格,则该网格中与这个ground truth IOU最大的边界框负责预测该物体。

对每个边界框预测5个值,分别是边界框的中心x,y(相对于所属网格的边界),边界框的宽高w,h(相对于原始输入图像的宽高的比例),以及这些边界框的confidencescores(边界框与ground truth box的IOU值)。同时每个网格还需要预测c个类条件概率 (是一个c维向量,表示某个物体object在这个网格中,且该object分别属于各个类别的概率,这里的c类物体不包含背景)。论文中的c=20,则每个网格需要预测2x5+20=30个值,这些值被映射到一个30维的向量。总共 7x7=49个30维的向量。如图所示。

image.png

6. MobileNet 用到的模型压缩手段是什么?

MobileNet 使用的Depthwise Separable Convolution是模型压缩的一个最为经典的策略,它是通过将跨通道的 3 X 3 卷积换成单通道的 3 X 3 卷积+跨通道的 1 X 1 卷积来达到此目的的。

7. 简单的说一下注意力机制

attention机制:又称为注意力机制,其借鉴了人类的注意力机制。它是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何模型中。

利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。

8. 分割和分类的主要区别是什么?

图像分割是对图像中的每个像素做分类,实现像素级别的分类。

拓展:

8.1 什么是目标识别、目标检测、目标分割、目标跟踪

目标识别:对整张图片中的多个目标进行分类,将图片信息结构化为类别信息。例如在动物识别中,如果一张图片中有多只猫和多只鸟,则会被分类为猫和鸟的多类别。

目标检测:在目标识别的基础上,不但要知道每个目标是属于哪一类,还要知道在图像中的位置,即边框的坐标。而且图中的目标通常也比目标识别中的多

目标分割:目标分割是对目标进行像素级的目标检测,即不是用边框将目标框起来,而是需要知道哪个像素是不是属于目标的一部分。目标分割又分为语义分割和实例分割。

语义分割是指只需要知道分割出来的目标属于哪一类。例如在动物目标分割中,如果一张图片中有多只猫,则在进行目标分割后,只需要将它们分类为鸟即可。

实例分割是指需要知道分割出来的目标属于哪一个实例。例如在动物目标分割中,如果一张图片中有多只猫,则在进行目标分割后,需要将它们分别识别为猫1,猫2,猫3等等

目标跟踪:在视频流中,通过利用时序信息,不但要检测出目标,还要在后续的视频帧里连续检测出目标,而且还要适应目标的尺度变化

8.2目标识别、目标检测、目标分割、目标跟踪之间的联系

① 目标识别是目标检测的基础

② 目标分割是像素级的目标检测

③ 目标检测是目标跟踪的基础

8.3 目标识别、目标检测、目标分割、目标跟踪之间的区别

① 目标识别关注的是整张图片的整体信息,而目标检测则是只关注图片中特定的目标。例如行人检测中,只关注行人,不关注其他的物体

② 目标分割是像素级的,而目标检测则不是

③ 目标跟踪应用的场景是视频流,而其他的不是

9. U-NET连接交汇的主要作用是什么?

是为了实现特征融合

特征融合的目的,是把从 图像中提取的特征 , 合并 成一个 比输入特征更具有判别能力的特征 。

10. 对于CNN来说,底层网络提取的特征和深层网络提取的特征有什么区别吗?或者更倾向于提取哪些类型的特征?

观察CNN各层输出可看出,浅层(靠近输入)能提取到图像低层次特征(如:轮廓、边缘、颜色、纹理和形状特征),深层(靠近输出)往往能提取到图像高层次特征(指的是我们所能看的东西,比如对一张人脸提取低层特征我们可以提取到连的轮廓、鼻子、眼睛之类的,那么高层的特征就显示为一张人脸)。最后使用全连接层分析最深处的高层次特征并给出预测结果。

  • 低层的特征语义信息比较少,但是目标位置准确;
  • 高层的特征语义信息比较丰富,但是目标位置比较粗略。
  • 愈深层特征包含的高层语义性愈强、分辨能力也愈强

11. NMS的原理,它是如何作用的?

  • 根据置信度得分进行排序
  • 选择置信度最高的边界框添加到最终输出列表中,将其从边界框列表中删除
  • 计算所有边界框的面积
  • 计算置信度最高的边界框与其它候选框的IoU。
  • 删除IoU大于阈值的边界框
  • 重复上述过程,直至边界框列表为空。

12. IOU是如何计算的?

IoU,即 intersection over Union,就是两个矩形框的交集面积与他们并集面积的比值。

image.png

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习知识点一 的相关文章

  • 2024年华为OD机试真题-转盘寿司-Java-OD统一考试(C卷)

    题目描述 寿司店周年庆 正在举办优惠活动回馈新老客户 寿司转盘上总共有n盘寿司 prices i 是第i盘寿司的价格 如果客户选择了第i盘寿司 寿司店免费赠送客户距离第i盘寿司最近的下一盘寿司 j 前提是prices j lt prices
  • 华为OD机试真题-分配土地-Python-OD统一考试(C卷)

    题目描述 从前有个村庄 村民们喜欢在各种田地上插上小旗子 旗子上标识了各种不同的数字 某天集体村民决定将覆盖相同数字的最小矩阵形的土地的分配给为村里做出巨大贡献的村民 请问 此次分配土地 做出贡献的村民中最大会分配多大面积 输入描述 第一行
  • 华为OD机试2024年最新题库(Python)

    我是一名软件开发培训机构老师 我的学生已经有上百人通过了华为OD机试 学生们每次考完试 会把题目拿出来一起交流分享 重要 2024年1月 5月 考的都是OD统一考试 C卷 题库已经整理好了 命中率95 以上 这个专栏使用 Python解法
  • 矩阵基本操作

    问题描述 已知一个n n的矩阵 方阵n lt 100 把矩阵主副对角线上的元素值加上x 然后输出这个新矩阵 输入格式 一行两个变量 用空格隔开 代表n和x 接下来的n行每行n列 表示矩阵的数值 用空格隔开 输出格式 输出新矩阵 每个数字5个
  • 机器学习算法实战案例:时间序列数据最全的预处理方法总结

    文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值 中位数 众数填充
  • 【牛客周赛Round 27】题目讲解

    题目一 小红的二进制删数字 小红拿到了一个二进制字符串 s 她可以删掉其中的一些字符 使得最终该字符串为一个2的幂 即可以表示为 2 k 形式的数 小红想知道 自己最少删几个字符可以达成 请你编写一个函数返回这个答案 具体思路 看到这道题目
  • 做好这几件事,30岁的你也能转行鸿蒙(HarmonyOS)?

    当你年过30 不管你愿不愿意承认 你的精力都在走下坡路 25岁熬一个通宵能写出来的代码 30岁有可能需要一整天 当然你也可以选择不拼精力和体力 当自身的一线经验积累到一定程度后 就会选择慢慢过渡到管理者的角色 通过经验分享及任务分配来参与项
  • 华为OD机试2024年最新题库(Java)

    我是一名软件开发培训机构老师 我的学生已经有上百人通过了华为OD机试 学生们每次考完试 会把题目拿出来一起交流分享 重要 2024年1月 5月 考的都是OD统一考试 C卷 题库已经整理好了 命中率95 以上 这个专栏使用 Java 解法 问
  • 驾驭远程工作:提高工作效率与灵活性的秘诀

    随着科技的飞速发展 远程工作已成为越来越多企业和员工的选择 这种工作模式不仅为员工提供了更大的灵活性 也为提高工作效率创造了新的可能 本文将深入探讨如何通过远程工作提高工作效率和灵活性 一 明确目标与计划 在远程工作中 明确的目标和计划至关
  • 海报模板怎么进行编辑文字?公司宣传海报就这样做

    作为负责公司宣传事宜的部门 我每天不是在做海报 就是在找做海报的素材 力求要把这些宣传的物料都做得精致又有内容 经过我长时间的试用下来 给大家从基本功能 使用体验和不同场景下的应用这几个方面 总结出了海报制作软件哪个好用 接下来就让我为你详
  • 哪里有视频压缩软件免费版在线使用?轻松压缩视频大小

    作为一个文件管理员 我常常需要处理大量的视频文件 有时候 视频文件过大给传输 存储带来了诸多不便 遇到这种情况 很多人就会选择使用视频压缩软件来减小文件大小 不过一些小伙伴不清楚视频压缩软件app 电脑软件 网页有哪些 接下来我们将从功能
  • (2024最新整理)Java最全八股文及答案!

    Java的特点 Java是一门面向对象的编程语言 面向对象和面向过程的区别参考下一个问题 Java具有平台独立性和移植性 Java有一句口号 Write once run anywhere 一次编写 到处运行 这也是Java的魅力所在 而实
  • 你知道修图软件手机端的哪些比较好用吗?分享我的爱用工具

    你是否经常在朋友圈看到朋友晒出的照片 美得如同画中景 让人惊叹不已 你是否也曾羡慕过那些轻松将普通照片变成艺术大片的摄影高手 其实 他们背后的 魔法 大多都来自于使用p图软件给图片进行美化 今天 就让我们一起来探讨一下 p图软件哪个好用免费
  • 最新整理Java面试八股文,大厂必备神器

    在看这篇文章之前 我想我们需要先搞明白八股文是什么 明清科举考试的一种文体 也称制义 制艺 时文 八比文 八股文章就四书五经取题 内容必须用古人的语气 绝对不允许自由发挥 而句子的长短 字的繁简 声调高低等也都要相对成文 字数也有限制 八股
  • 最新整理Java面试八股文,大厂必备神器

    在此 我采访了数十名大厂的面试官和上百的的面试者 总结出了这一套Java面试八股文 这套八股文已经帮助了上百人拿到自己心仪的offer 我们先来看看这套八股文 Java基础面试八股文 操作系统中 heap 和 stack 的区别 什么是基于
  • 【自适应滤波】一种接近最佳的自适应滤波器,用于突发系统变化研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
  • 基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
  • 2024最新MathType7.4.10中文版下载安装激活教程

    MathType 是一款专业的数学公式编辑工具 提供交互式编辑器 让你在编辑数学试卷 书籍 报刊 论文 幻灯演示等文档轻松输入各种复杂的数学公式和符号 1 本次讲解mathtype 7版本的安装步骤 MathType2024 Win 安装包
  • AI新年头像模板在哪找?告别单调头像的工具分享

    农历新年到啦 今年的春节假期你有没有弄一些氛围装饰呀 除了每年都有的对联 福字等 经典皮肤 现在也流行起给自己的账号营造一些过年的感觉啦 说到这个 很多人第一反应就是给自己换个新年头像 限定皮肤 不过头像要怎么营造新年的感觉呢 其实用AI工
  • 自动驾驶离不开的仿真!Carla-Autoware联合仿真全栈教程

    随着自动驾驶技术的不断发展 研发技术人员开始面对一系列复杂挑战 特别是在确保系统安全性 处理复杂交通场景以及优化算法性能等方面 这些挑战中 尤其突出的是所谓的 长尾问题 即那些在实际道路测试中难以遇到的罕见或异常驾驶情况 这些问题暴露了实车

随机推荐

  • Charles软件使用

    Charles是通过将自己设置成系统的网络访问代理服务器 使得所有的网络访问请求都通过它来完成 从而实现了网络封包的截取和分析 安装Charles 去 Charles 的官方网站 http www charlesproxy com 下载最新
  • linux qt 动态链接库 静态链接库 学习笔记

    转自 http hi baidu com codeworkman item fa434498290bd38e591461d6 hello h ifndef HELLO H define HELLO H extern C void hello
  • Python中的面向对象编程的一些基本概念总结

    一 一些专有词汇的定义 面对对象编程 OOP object oriented programming 是一种程序设计范型 同时也是一种程序开发的方法 实现OOP的程序希望能够在程序中包含各种独立而又相互调用的对象 没一个对象又都应该能够接受
  • 转载Faster-rcnn理解

    文章转自https blog csdn net Lin xiaoyi article details 78214874 仅供方便自己学习 如有侵权请联系删除 效果图 作者 提到目标检测 就不得不RBG大神 该大神在读博士的时候就因为dpm获
  • CSDN第一篇博客,找工作日记第一篇

    今天结束了UC公司的几轮面试 不确定能否拿到offer 但回顾近几天的校招情况 比起十一之前不顺利的过程来说的确让人欣慰了很多 最近考了很多公司的笔试 也面过4399 UC TP LINK等等 峰回路转地明天还要参加百度的面试 当然还有菲音
  • C#程序演示Console.Write()和Console.WriteLine()的示例

    Console Write and Console WriteLine methods are used to print the text values on the Console Console Write prints only t
  • Postgresql查询每组的前N条记录

    Postgresql以指定字段分组后 查询每组的前N条记录 主函数 ROW NUMBER OVER PARTITION BY 省份名称 地市名称 ORDER BY arpu desc dou DESC AS row id 在原有数据表的基础
  • ORA-01157报错"cannot identify/lock data file"

    sqlplus以管理员方式接入数据库 启动时出现报错 如下 gt sqlplus as sysdba SQL gt startup ORA 01157 cannot identify lock data file 8 see DBWR tr
  • 数据结构:数组模拟队列

    实现一个队列 队列初始为空 支持四种操作 push x 向队尾插入一个数 x pop 从队头弹出一个数 empty 判断队列是否为空 query 查询队头元素 数组模拟队列 队列 先进先出 include
  • mysql注入语句说明

    判断闭合id 1 页面正常 id 1 页面不正常 id 1 页面恢复正常说明闭合是 id 1 页面正常 id 1 页面不正常 id 1 页面还是不正常说明闭合不是 如果这时id 1 页面恢复正常 说明闭合是 id 1 and 1 1id 1
  • 为何实现不了定时器DMA Burst传输?

    有人使用STM32F4系列开发产品 程序运行过程中需要不时地对外输出一串驱动脉冲 并要求这几串脉冲的频率可变 占空比固定 他想到使用基于STM32定时器的DMA BURST传输 具体点说 他期望不时地通过TIM3的CH1输出一串频率可变 占
  • 二叉树的基本概念及性质

    文章目录 一 基本概念 二 二叉树的种类 二叉树 满二叉树 完全二叉树 二叉搜索树 平衡二叉搜索树 三 二叉树的性质 性质一 性质二 性质三 性质四 性质五 一 基本概念 树是 n 个结点的有限集 在任意一颗非空树中 1 有且仅有一个特定的
  • window修改本地域名

    C Windows System32 drivers etc 127 0 0 1 bbs itcast com 127 0 0 1 mail itcast com 127 0 0 1 cas itcast cn 127 0 0 1 www
  • 简单理解promise

    promise是ES6为我们提供解决 回调地狱 的一种方法 能让代码的可读性更高 先看一个最简单的例子 new Promise function resolve reject executor 首先我们先new一个 Promise 对象时
  • 显示搜索dota2协调服务器,搜索dota2游戏协调服务器中【操作方式】

    喜欢使用电脑的小伙伴们一般都会遇到win7系统搜索dota2游戏协调服务器中的问题 突然遇到win7系统搜索dota2游戏协调服务器中的问题就不知道该怎么办了 其实win7系统搜索dota2游戏协调服务器中的解决方法非常简单 按照 1 DO
  • Hive 任务限制同时运行的任务数量的配置

    Hive任务的并发控制 指同时运行的 container 的数量 防止先提交的任务占用全部的队列资源 导致后来提交的任务无法申请到足够的资源 Hive 任务的并发控制 和使用的引擎相关 MapReduce MR 引擎 Map 任务 mr 引
  • 微信收钱的盒子服务器老是断开,微信文件已过期或被清理的终极解决办法

    工作中总是有同事习惯用微信传文件 当我们沿着微信对话爬楼找历史文件时 总会收到让人绝望的提醒 文件已过期或被清理 这里有个抢救办法 你不妨一试 如果文件当时是通过电脑发的 可以在 此电脑 文档 WeChat File 中找找 如果没有就真是
  • 基础数据结构之单循环链表

    文章目录 一 补充上节课的知识点 单链表和顺序表的区别 顺序表和单链表的使用场景分析 二 认识单循环链表 1 将单循环链表的增删改查用画图方式展现出来 2 用代码实现单循环链表 一 补充上节课的知识点 单链表和顺序表的区别 顺序表和单链表的
  • Qt中以qRegister开头的几个函数的用法说明

    目录 1 前言 2 qRegisterMetaTypeStreamOperators 2 1 函数功能简述 2 2 用法举例1 3 qRegisterMetaType 1 前言 Qt通过qRegister开头的函数和Q DECLARE开头的
  • 深度学习知识点一

    1 说说卷积和全连接网络的区别 2 什么是感受野呢 3 深度学习的 深度 是不是一昧的增加深度就好了吗 网络是否越深越好 4 减少过拟合的手段 5 简单的说一下YOLO V1 6 MobileNet 用到的模型压缩手段是什么 7 简单的说一