Udacity 深度学习项目２(Project2) Image Classification 解析

2023-05-16

本项目需要搭建一个简单的卷积神经网络（CNN）来对　CIFAR-10 数据进行图片分类。本文记录了这个项目的一些注意事项。

１.数据的预处理：对于CIFAR-10　的图片数据，首先要做归一化处理。对于 Label　数据，要做 one-hot-encoder　处理。　

One-hot-encoder　可以利用 sklearn　中的 Preprocessing　中的 LabelBinarizer 函数：
　　　　　　这里写图片描述
　　
　　也可以利用　numpy　中的 eye　函数：
　

def one_hot_encode(x):
    """
    One hot encode a list of sample labels. Return a one-hot encoded vector for each label.
    : x: List of sample Labels
    : return: Numpy array of one-hot encoded labels
    """
    # TODO: Implement Function
    np_classes = 10
    one_hot_labels = np.eye(np_classes)[x]
    return one_hot_label

２．卷积层，最大池化层，扁平化层，全连接层，输出层的代码如下：

def conv2d_maxpool(x_tensor, conv_num_outputs, conv_ksize, conv_strides, pool_ksize, pool_strides):
    """
    Apply convolution then max pooling to x_tensor
    :param x_tensor: TensorFlow Tensor
    :param conv_num_outputs: Number of outputs for the convolutional layer
    :param conv_ksize: kernal size 2-D Tuple for the convolutional layer
    :param conv_strides: Stride 2-D Tuple for convolution
    :param pool_ksize: kernal size 2-D Tuple for pool
    :param pool_strides: Stride 2-D Tuple for pool
    : return: A tensor that represents convolution and max pooling of x_tensor
    """
    # TODO: Implement Function
    depth = x_tensor.get_shape().as_list()
    padding = 'SAME'
    conv_ksize2 = [conv_ksize[0], conv_ksize[1],depth[-1], conv_num_outputs]
    conv_strides2 = [1, conv_strides[0], conv_strides[1], 1]
    pool_ksize2 = [1, pool_ksize[0], pool_ksize[1],1]
    pool_strides2 = [1, pool_strides[0], pool_strides[1], 1]
    filter_weights = tf.Variable(tf.truncated_normal((conv_ksize2),0 ,0.1))
    filter_bias = tf.Variable(tf.zeros(conv_num_outputs))

    filter_output = tf.nn.conv2d(x_tensor, filter_weights, conv_strides2, padding)
    filter_output = tf.nn.bias_add(filter_output, filter_bias)

    filter_output = tf.nn.relu(filter_output)

    filter_output = tf.nn.max_pool(filter_output, pool_ksize2, pool_strides2, padding)
    #print (filter_output.get_shape().as_list())
    return filter_output


def flatten(x_tensor):
    """
    Flatten x_tensor to (Batch Size, Flattened Image Size)
    : x_tensor: A tensor of size (Batch Size, ...), where ... are the image dimensions.
    : return: A tensor of size (Batch Size, Flattened Image Size).
    """
    # TODO: Implement Function
    flattened_image_size = np.prod(x_tensor.get_shape().as_list()[1:])
    flat_inputs = tf.reshape(x_tensor,[-1,flattened_image_size])

    #flat_inputs = tf.contrib.layers.flatten(x_tensor)
    return flat_inputs


def fully_conn(x_tensor, num_outputs):
    """
    Apply a fully connected layer to x_tensor using weight and bias
    : x_tensor: A 2-D tensor where the first dimension is batch size.
    : num_outputs: The number of output that the new tensor should be.
    : return: A 2-D tensor where the second dimension is num_outputs.
    """
    # TODO: Implement Function
    #output = tf.contrib.layers.fully_connected(x_tensor, num_outputs)
    weights_shape = list((x_tensor.get_shape().as_list()[-1], ) + (num_outputs, ))
    weights = tf.Variable(tf.truncated_normal(weights_shape, 0, 0.1))
    bias = tf.Variable(tf.zeros(num_outputs))
    return tf.nn.relu(tf.add(tf.matmul(x_tensor, weights), bias))


def output(x_tensor, num_outputs):
    """
    Apply a output layer to x_tensor using weight and bias
    : x_tensor: A 2-D tensor where the first dimension is batch size.
    : num_outputs: The number of output that the new tensor should be.
    : return: A 2-D tensor where the second dimension is num_outputs.
    """
    # TODO: Implement Function
    image_shape = x_tensor.get_shape().as_list()[1]
    weights = tf.Variable(tf.truncated_normal([image_shape, num_outputs],0,0.01))
    bias = tf.Variable(tf.zeros(num_outputs))
    outputs = tf.add(tf.matmul(x_tensor, weights),bias)
    return outputs

３．构建模型及参数选择
　　本项目的难点在于模型的参数选择。具体参数包括：
　　　　卷积层滤波器的　size　以及 stride：
　　　　　　经过反复测试，滤波器选择　4*4，stride 选择 1 的效果较好
　　　　　　
　　　　最大池化的 size　以及 stride:
　　　　　池化的 size 选择　8*8， stride 选择１的效果较好
　　　　　
　　　　全连接层的输出 size：
　　　　　　　输出层为 384 个输出的效果较好
　　　　　　　
　　　　keep-probability:
　　　　经过测试，keep-probability 宜小一点，可以更好的防止 overfitting。但是太小的 keep-probability 也会导致运算速度慢，以及模型预测不准的问题。
　　　　
　　　　各个层级的 weight　的初始化问题：
　　　　　　　我在搭建模型初期，遇到一个很大的问题就是，初始化参数设置不合理，导致收敛太慢。一开始注意到收敛太慢的问题时，我采用的方法是增大 optimizer 的 learning-rate ，设置：
　　　　　　　

optimizer = tf.train.AdamOptimizer(learning_rate = 0.01).munimize(cost)

但是效果仍然不好。通过查询资料，发现应该在初始化变量时，调整正态分布的标准差，将默认的标准差“1”修改为 “0.1” 或 “0.01”。

最终搭建神经网络的代码如下：

def conv_net(x, keep_prob):
    """
    Create a convolutional neural network model
    : x: Placeholder tensor that holds image data.
    : keep_prob: Placeholder tensor that hold dropout keep probability.
    : return: Tensor that represents logits
    """
    # TODO: Apply 1, 2, or 3 Convolution and Max Pool layers
    #    Play around with different number of outputs, kernel size and stride
    # Function Definition from Above:
    #    conv2d_maxpool(x_tensor, conv_num_outputs, conv_ksize, conv_strides, pool_ksize, pool_strides)

    output1 = conv2d_maxpool(x, 18, (4,4),(1,1),(8,8),(1,1))
    output1 = tf.nn.dropout(output1, keep_prob)

    #output2 = conv2d_maxpool(output1,200,(2,2),(2,2),(2,2),(2,2))
    #output2 = tf.nn.dropout(output2, keep_prob)


    # TODO: Apply a Flatten Layer
    # Function Definition from Above:
    #   flatten(x_tensor)
    output3 = flatten(output1)


    # TODO: Apply 1, 2, or 3 Fully Connected Layers
    #    Play around with different number of outputs
    # Function Definition from Above:
    #   fully_conn(x_tensor, num_outputs)
    output4 = fully_conn(output3, 384)
    #output5 = fully_conn(output4,50)
    output4 = tf.nn.dropout(output4, keep_prob)

    # TODO: Apply an Output Layer
    #    Set this to the number of classes
    # Function Definition from Above:
    #   output(x_tensor, num_outputs)
    logits_output = output(output4, 10)


    # TODO: return output
    return logits_output

4.显示结果：
注意在输出结果时，计算 accuracy 要使用 validation 数据集来计算。

def print_stats(session, feature_batch, label_batch, cost, accuracy):
    """
    Print information about loss and validation accuracy
    : session: Current TensorFlow session
    : feature_batch: Batch of Numpy image data
    : label_batch: Batch of Numpy label data
    : cost: TensorFlow cost function
    : accuracy: TensorFlow accuracy function
    """
    # TODO: Implement Function

    loss = session.run(cost, feed_dict={x:feature_batch, y:label_batch, keep_prob:1.0})
    valid_acc = sess.run(accuracy, feed_dict={
                x: valid_features,
                y: valid_labels,
                keep_prob: 1.})
    print('Loss: {:>10.4f} Validation Accuracy: {:.6f}'.format(
                loss,
                valid_acc))

最终结果为，一个 batch 的准确率为 63% 左右。全部五个 batch 的准确率在 70% 左右。结果较为满意。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Udacity 深度学习项目２(Project2) Image Classification 解析的相关文章

查找 ImageView 相对于其显示的图像的位置

所以问题就在这里我在 ImageView 中显示一个大图像需要找到它相对于图像的位置像这样 Image gt ImageView
使用 Laravel Intervention 库缓存动态图像不起作用

我目前正在使用 Laravel 5 并利用干预图像集成 http image intervention io http image intervention io 我动态地使用它因此图像具有如下 URL http example org
如何在后台加载图像？

问题我正在创建一个专辑所以每次按时间下一个按钮我正在加载新图像我想要实现的是只有在新图像从服务器完全下载后我才想从旧图像切换到新图像实际上我不想在加载时显示部分图像有什么解决办法吗 PS 类似的问题 https stac
通过 wp_handle_upload 删除未放入上传文件夹中的图像

我正在将图像保存到上传文件夹但我正在使用文件放置内容 http php net manual en function file put contents php代替wp 句柄上传 https codex wordpress org Fu
Tiff 的 getImageWritersByFormatName 中存在问题。获取图像作家

我正在尝试将 PDF 转换为 tiff 图像我使用以下代码按格式获取图像编写器 Iterator
有没有办法在 asp 图像控件上显示动态生成的位图？

在我的代码中我使用 C 和 ASP NET 动态创建位图我需要将其显示在 asp 图像控件上无论如何有没有办法在不使用处理程序的情况下做到这一点使用 ashx 处理程序更好因为它适用于所有浏览器并且您可以在客户端上缓存输出图像
如何在滚动框上创建缓慢的滚动效果？

我喜欢在滚动框中平移图像后创建平滑的减慢滚动效果就像平移地图一样谷歌地图 http maps google com 我不确定它是什么类型但行为完全相同当快速移动地图时当您释放鼠标时它不会立即停止而是开始减慢速度有什么想法组件
将图像保存和检索到数据库的最佳方法

寻求上述建议希望创建一个 SQLite 数据库其中每行数据主要是字符串但我也想保存从手机拍摄的图像是否建议或可能保存位图图像的编码 Base 64 字符串并在调用数据行时将其转换回图像我还在某处读到有一个 blob 列类型可以保存
HTTP 重定向图像可以吗？

返回图片资源时返回301 302 303代码可以吗我过去曾这样做过而且似乎有效这是好的做法吗它与大多数浏览器兼容吗是的您可以重定向图像浏览器将遵循重定向但出于性能原因您通常希望将重定向保持在最低限度因为每个重定向都需要单
android：web服务图像替换为本地文件夹中的图像

我进入了 Android 聊天应用程序的最后阶段我在使用图像和网络服务时遇到了一些问题因此当我选择图像并将该图像发送到 Web 服务时我从服务获取 URL 我如何将该网址转换为本地文件夹中的图像我很困惑如何才能使其发挥作用我想在
PHP imagettftext 返回的边界框与渲染的边界框不同

我正在使用 imagettftext 渲染 PNG 文件对 imagettftext 的调用返回渲染文本的边界框但仔细检查后发现文本的渲染稍微超出了它自己的边界框边界框是正确的我检查了图像的像素坐标但文本位置不正确它输出这个
使用 OpenCV 和 Python 叠加两个图像而不丢失颜色强度

如何叠加两个图像而不损失两个图像的颜色强度我有图像1和图像2 2 我尝试使用 0 5 alpha 和 beta 但它给我的合并图像的颜色强度只有一半 dst cv2 addWeighted img1 0 5 img2 0 5 0 但是当我
检测植物图片中的所有分支

我想知道有什么可以检测下图中的所有绿色树枝目前我开始应用 Frangi 过滤器 options struct FrangiScaleRange 5 5 FrangiScaleRatio 1 FrangiBetaOne 1 FrangiBe
使用 to_categorical 转换 np.array 时出现内存问题

我有一个像这样的 numpy 数组 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 我这样改造它以减少内存需求 x val x val asty
CoreData：是否将图像存储到数据库？

我正在制作一个应用程序它从网站上为某些用户名拍摄照片并将其显示在带有用户名的 UITable 中然后当单击用户名时它会显示该用户的照片然后单击照片名称它会显示全屏照片我的问题是我正在使用 NSData 从互联网获取照片我必须
Java - 调整图像大小而不损失质量

我有 10 000 张照片需要调整大小因此我有一个 Java 程序来执行此操作不幸的是图像的质量损失很大而且我无法访问未压缩的图像 import java awt Graphics import java awt AlphaComp
移动/调整窗口大小时闪烁

我开发了一个显示 jpeg 图像的应用程序它可以显示 4 个图像屏幕的每个象限各一个为此它使用了 4 个窗口窗口没有边框框架也没有标题栏当加载新图像时窗口大小会根据新图像进行调整然后显示该图像尤其是当窗户做得较大时经
Keras：binary_crossentropy 和 categorical_crossentropy 混淆

使用 TensorFlow 一段时间后我阅读了一些 Keras 教程并实现了一些示例我找到了几个使用卷积自动编码器的教程keras losses binary crossentropy作为损失函数我想binary crossentro
调整图像的亮度、对比度和伽玛值

在 NET 中调整图像的亮度对比度和伽玛值的简单方法是什么 c and gdi have a simple way to control the colors that are drawn It s basically a ColorMa
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy

随机推荐

Go 单元测试高效实践

敏捷开发中有一个广为人知的开发方法就是 XP xff08 极限编程 xff09 xff0c XP 提倡测试先行 xff0c 为了将以后出现 bug 的几率降到最低 xff0c 这一点与近些年流行的 TDD xff08 测试驱动开发 xff0
操作系统—分段与分页

1 地址重定位所谓的地址重定位 xff08 也叫地址翻译 xff09 就是修改程序中的内存地址 xff0c 使得程序被载入内存后 xff0c 那些地址能够指向正确的内存空间例如 xff0c 程序中包含 call 40 语句 xff0c
putty连接被拒的原因分析

1 xff1a 检查防火墙 2 xff1a PING虚拟机 3 xff1a SSHD etc init d sshd start开启服务 4 xff1a IP字段问题 ifconfig eth0 新IP xff08 更改为字段和主机一样的I
Charles+Postern抓包遇到的问题（已解决）

问题描述 Charles的代理配置和Postern的代理配置的都是正确的 xff0c 但是当在手机上打开Postern中的开启VPN时 xff0c Charles上没有任何反应解决方法 xff1a 我在多次配置实验无果的情况下 xff08
4. ROS编程入门--PID控制器

介绍 xff1a 这篇教程是交给大家怎么在ROS里写一个PID控制器 xff0c PID控制器有三部分比例部分 xff08 P xff09 积分部分 xff08 I xff09 微分部分 xff08 D xff09 PID的输出是这三部分
6. ROS编程入门--路径跟随（Trajectory following）

Task 本次实验才采用 Follow the carrot 算法去跟随定义好的路径控制的目标点在机器人行走的路径上 xff0c 距离机器人是个常数距离机器人计算自己的方向角和目标点角度之间的相差度数控制这个差角为0 为了在探测时候能
位姿矩阵求逆

位姿矩阵求逆位姿矩阵分析位姿矩阵求逆矩阵为了更好的说明问题 xff0c 我们先来看一下位姿矩阵的定义位姿矩阵分析如下图所示 xff1a 如果在B坐标系下有一点PB xff0c 我们需要知道该点在坐标系A下的坐标PA xff0c 怎么
UNIX环境高级编程

环境配置 1 下载apue 3e文件夹 xff0c 可以通过http www apuebook com code3e html现在源码 2 解压后执行进入apue 3e中执行make指令如果出现 96 96 96 collect2 err
C#连接SQL Server 数据库

C 是如何跟SQL Server进行连接的 xff1f 在C NET程序设计中 xff0c 离不开ADO NET ADO NET是 NET连接数据库的重要组件使用其可以很方便地访问数据库 xff0c ADO NET还可以访问Oracle数
冒烟测试和回归测试的区别

每次新的版本出来的时候 xff0c 老大就让我们冒烟虽然不知道冒烟测试的含义 xff0c 但由于没有给用例 xff0c 我就随便跑跑跑完冒烟后 xff0c 老大就让做回归测试 xff0c 把bug回归掉但是其实对2个概念还是不太理
Webpack——02——打包html资源

1 在src中创建webpack的入口文件index js xff0c index html 2 src的同级目录下创建webpack config js 3 下载插件html webpack plugin 老规矩初始化 xff0c 下w
AT&T 汇编

1 基础 x86 的寄存器为32位 xff0c x64 的寄存器为64位寄存器间对应关系 xff1a 64位寄存器低32位低16位低8位 rax eax ax al rbx ebx bx bl rcx ecx cx cl rdx e
向导对话框[转]

很久以前在网上看到的一片文章 xff0c 忘了是谁写的了 xff0c 觉得很好 xff0c 所以在这里转载首先要了解的是CPropertySheet实际上是由一个TabCtrl加多个Page和多个按钮组成这里强调一点 xff0c DoM
win10用pip安装face_recognize

1 安装CMake 命令 xff1a pip install CMake 2 安装face recognition xff08 也可先安装dlib xff09 命令 xff1a pip install face recognition 查看
VS2019配置SFML

VS2019配置SFML 1 下载安装SFML SDK 网址 xff1a https www sfml dev org download php 解压并放在文件夹里 xff0c 记住这个路径在我的电脑中这个路径是F C 43 43 Pro
django学习笔记

未更新完成文章目录一什么是django1 1 有关django1 1 1 开始1 1 2 MVC框架设计模式1 1 3 Django架构 MTV模型 1 2 安装配置开始django1 2 1 python和django1 2 2
战略性放弃日记

文章目录 20216 26 2021 6 26 在win10中部署linux子系统ubuntu时 xff0c 安装WSL图形界面遇到报错 ccsm命令后 xff0c 报错 NoneType object has no attribute g
docker安装linux-ubuntu桌面环境

操作系统 xff1a win10 docker版本 xff1a 20 10 7 xff08 可通过docker version确认 xff09 在cmd或window power shell中输入命令 1 拉取镜像 docker pull
Cent OS7下载和安装图形桌面教程

具体安装教程下载地址 xff1a https www centos org download 1 进入官网 xff0c 找到下载 xff0c 下面三个ios镜像都可以选择 2 使用链接下载cent os ios centos7安装GUI图
Udacity 深度学习项目２(Project2) Image Classification 解析

本项目需要搭建一个简单的卷积神经网络 xff08 CNN xff09 来对 CIFAR 10 数据进行图片分类本文记录了这个项目的一些注意事项 xff11 数据的预处理 xff1a 对于CIFAR 10 的图片数据 xff0c 首先要做归

Udacity 深度学习项目２(Project2) Image Classification 解析

Udacity 深度学习项目２(Project2) Image Classification 解析 的相关文章

随机推荐

热门标签

Udacity 深度学习项目２(Project2) Image Classification 解析的相关文章