人工智能原理自学(四)——Keras手写体识别实验、卷积神经网络入门

2023-05-16

目录

  • 经典数据集mnist与手写体识别
    • 全连接神经网络的图像输入与问题思考
    • 卷积操作的引入与简单卷积核示例
    • 基于全连接神经网络的代码实现:
  • 卷积神经网络:图像识别实战
    • 经典卷积神经网络结构:LeNet-5
    • LeNet-5编程代码实现

经典数据集mnist与手写体识别

全连接神经网络的图像输入与问题思考

mnist数据集的图片采用的是28*28的灰度图,灰度图一行有28个像素点,共28行,每个像素点用一个字节的无符号数表示其灰度值,0为最暗,纯黑色,255即为最亮,纯白色,通过每个像素点灰度值的不同来达到图像生成的目的:在这里插入图片描述
为了达到手写体识别的目的,需要整个辨别系统有一定的容错能力,借助神经网络便是很好的选择。为了能将整个图像输入到神经网络中去,我们只需要将其按行展开,“平铺”成一个以为行向量,即可变成输入向量。即一个28×28=784的行向量
在这里插入图片描述

训练集与数据集
在神经网络中,我们将训练时使用的数据成为训练集,用来在训练之后测试拟合效果准确率的样本数据称为测试集。在测试集上的高准确率意味着模型有足够的泛化能力

  • 三种不同的表现:
    • 欠拟合:在训练集上的准确率较差
    • 过拟合:在训练集上的准确李较高,但是在测试集上的准确率明显下降
    • 泛化能力较好:在训练集与测试集上准确率都较高

调节过拟合的方式:调节网络结构,L2正则化,节点失活(Dropout)正则化等等

mnist数据集有6w个训练集样本和1w个测试集样本。通过上文注释,我们很容易会发现一个问题:采用这种平铺方式展开后输入神经网络进行训练,很容易导致模型过拟合。一个很容易的例子:如果将一个茶杯的图像按照这样的平铺方式展开为一个一维的行向量像素点图片,没有人能够知道这是一个茶杯。唯一的办法就是“记住它”,这也就是全连接神经网络干的事情。但是我们很容易变会找到漏洞:当我们改变测试集的茶杯图像颜色或者是仅仅改变这个茶杯在图像区域中的位置时,全连接神经网络得到就是完全不同的信息,很容易造成误判。

卷积操作的引入与简单卷积核示例

图像作为一个二维物体,在二维平面相邻像素之间是存在关联的,我们把它强行降到一维,实际上就破坏了这些关联的隐藏信息。人在观察一个图像时,往往会不自觉地提取图像的某些特征,比如曲线、折线、边界等信息。

基于这种思想,我们可以通过对图像进行卷积操作
在这里插入图片描述卷积核有时也被称为过滤器(filter),通过卷积核的“过滤操作”,我们可以很方便的处理得到图像的边界信息:在这里插入图片描述上图所示的这个卷积核便可以轻易实现这样的功能:只有当卷积核处于不同颜色(黑、白)的分界处时,最终卷积后的到的卷积值才是“非0”的,同种颜色的区域中卷积核左右两侧的权值直接将同种颜色色值进行了抵消
抵消作用较强
在这里插入图片描述抵消作用明显下降
在这里插入图片描述因此这样的卷积核具备了竖直边界识别能力。同样的,我们也可以利用区分横向边界的卷积核来简单实现“1”和“7”的分辨:在这里插入图片描述

基于全连接神经网络的代码实现:

from keras.datasets import mnist #从Keras数据库调入mnist数据集,如果设备中没有该数据集,会自动联网下载
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD
import matplotlib.pyplot as plt
from keras.utils import to_categorical
# 新版的keras是:
# from keras.utils.np_utils import to_categorical
m = 100
(X,Y),(X_test,Y_test) = mnist.load_data() #分别对应训练集和测试集
print("X.shape:"+str(X.shape))
print("Y.shape:"+str(Y.shape))
print("X_test.shape:"+str(X_test.shape)) 
print("Y_test.shape:"+str(Y_test.shape)) # 输出训练集与测试集的大小
#Keras提供的训练集为 60000*28*28,测试集为10000,均为三维张量
print(Y[0])
plt.imshow(X[0],cmap = 'gray')	#绘图展示第一个样本的图片,打印对应的标签值
plt.show()

X= X.reshape(60000,784)/255
X_test = X_test.reshape(10000,784)/255  #将平面像素图“展开”为一维向量图,并进行归一化
Y = to_categorical(Y,10)  # 将Y的0~9转换为one-hot编码
Y_test = to_categorical(Y_test,10)

model = Sequential()
model.add(Dense(units = 256,activation = 'relu',input_dim = 784))
model.add(Dense(units = 256,activation = 'relu'))
model.add(Dense(units = 256,activation = 'relu'))
model.add(Dense(units = 10,activation = 'softmax'))

model.compile(loss='categorical_crossentropy',optimizer=SGD(lr=0.05),metrics = ['accuracy']) #多分类交叉熵代价函数
model.fit(X,Y,epochs = 5000,batch_size = 10)
loss,accuracy = model.evaluate(X_test,Y_test)	#使用测试集进行评估
print(loss)
print(accuracy)

在Windows操作系统中,Keras数据集会被放置于C:\Users\用户名\.keras\datasets目录处,可以自行直接添加

卷积神经网络:图像识别实战

前文已经初步介绍了垂直边沿提取水平边沿提取的两种卷积核,但在实际应用中,我们自然无法事先给定卷积核的各个权值大小,往往要通过训练得到具体的权值。其实,从本质上看,卷积核的卷积操作也是一个类似普通神经元的线性计算部分(注意最后加上偏置项b):
在这里插入图片描述
加上偏置项与激活函数后,便更像一个普通的线性神经元模型了
在这里插入图片描述
实际的卷积层得到的是一个矩阵模型,在送入全连接层时需要我们手动铺开。同时要注意,这四个神经元的权值参数(包含偏置项b)并不是独立的,这四个神经元共用了一套参数,也即所谓的 参数共享
在这里插入图片描述

经典卷积神经网络结构:LeNet-5

如果我们使用多个卷积核对一个二维图像进行卷积操作,那么就会得到一个三维的卷积结果,也即得到一个三维张量,同样的,可以使用一个三维的卷积核对卷积结果进行再次卷积
在这里插入图片描述
被卷积的三维张量的第三个维度值也就是所谓的通道数。即卷积核的通道数应当与被卷积张量的通道数一致:
在这里插入图片描述
再来看经典的LeNet-5卷积神经网络结构模型:
在这里插入图片描述
可以看到,除了我们熟知的两层卷积层(Convolutions)以外,还多了两层结构Subsampling,我们将其称为池化层

池化
在这里插入图片描述>池化操作也是选择了一个指定的矩形区域大小,对该区域中的所有卷积结果进行某种数学处理,达到该矩形区域的池化值。如:

  • 取区域最大值:Maxpooling —— 最大池化
  • 取区域平均值:AveragePooling —— 平均池化

经过池化操作后,原来的通道数不会改变,只是区域“变细”了
池化层不一定是必须的,且因为池化过程是进行一个固定的操作,因此在反向传播的过程中,并没有任何需要学习的参数

LeNet-5编程代码实现

from keras.datasets import mnist
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Conv2D #导入二维卷积层
from keras.layers import AveragePooling2D #导入二维池化层
from keras.layers import Flatten #导入卷积结果平坦化函数
from keras.optimizers import SGD
import matplotlib.pyplot as plt
from keras.utils import to_categorical
m = 100
(X,Y),(X_test,Y_test) = mnist.load_data()
print("X.shape:"+str(X.shape))
print("Y.shape:"+str(Y.shape))
print("X_test.shape:"+str(X_test.shape)) 
print("Y_test.shape:"+str(Y_test.shape)) # 输出训练集与测试集的大小
#Keras提供的训练集为 60000*28*28,测试集为10000,均为三维张量
print(Y[0])
plt.imshow(X[0],cmap = 'gray')
plt.show()

X= X.reshape(60000,28,28,1)/255 #指定输入参量的张量维度大小,并做归一化
X_test = X_test.reshape(10000,28,28,1)/255  #
Y = to_categorical(Y,10)  # 将Y的0~9转换为one-hot编码
Y_test = to_categorical(Y_test,10)

model = Sequential()
model.add(Conv2D(filters = 6,kernel_size = (5,5),strides = (1,1),input_shape = (28,28,1),padding = 'valid',activation = 'relu'))
# 第一层卷积结果为24*24*6
# filters:卷积核数量
# kernel_size:卷积核尺寸
# strides:卷积核移动步长
# input_shape:输入形状
# padding:卷积填充方式,same或者valid
# activation:激活函数
model.add(AveragePooling2D(pool_size = (2,2)))
# 池化后变成12*12*6
model.add(Conv2D(filters = 16,kernel_size = (5,5),strides = (1,1),padding = 'valid',activation = 'relu'))
# 第二次卷积后变成8*8*16
model.add(AveragePooling2D(pool_size = (2,2)))
# 池化后为4*4*16
model.add(Flatten())
model.add(Dense(units = 120 , activation = 'relu'))
model.add(Dense(units = 84,activation = 'relu'))
model.add(Dense(units = 10,activation = 'softmax'))
# 开始训练
model.compile(loss='categorical_crossentropy',optimizer=SGD(lr=0.05),metrics = ['accuracy']) #多分类交叉熵代价函数
model.fit(X,Y,epochs = 5000,batch_size = 10)
# 评估测试集
loss,accuracy = model.evaluate(X_test,Y_test)
print(loss)
print(accuracy)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能原理自学(四)——Keras手写体识别实验、卷积神经网络入门 的相关文章

  • Http权威指南笔记(十三)-国际化

    HTTP报文可以承载任何语言表示的内容的 因为对HTTP来说 xff0c 实体主体真实二进制信息的容器而已 在HTTP中为了支持国际性 xff0c 服务器返回内容的同时需要告知客户端文档是用的什么字母表和语言等信息 xff0c 这样客户端才
  • Http权威指南笔记(十四)-内容协商与转码

    现在很多国际化的一些Web服务都会根据不同地区使用的语言不同 xff0c 返回不同语言的页面内容展示给用户 而这里面就涉及到本篇介绍的内容 内容协商与转码 1 内容协商的技术 目前的内容协商技术主要有3种 客户端驱动协商 服务器驱动协商和透
  • php curl 分离header和body信息

    php curl 分离header和body信息 php中可以通过curl来模拟http请求 xff0c 同时可以获取http response header和body xff0c 当然也设置参数可以只获取其中的某一个 当设置同时获取res
  • 文件缓冲区

    系统自动在内存区为程序中每一个正在使用的文件开辟一个文件缓冲区从内存向磁盘输出数据 xff0c 必须先送到内存中的缓冲区 xff0c 装满缓冲区后才一起送到磁盘 如果从磁盘向计算机读入数据 xff0c 则一次从磁盘文件将一批数据输入到内存缓
  • 【UE4学习】5.相机和蓝图进阶

    文章目录 相机基础Project Setting控制输入按键事件控制相机设置追踪目标CameraManager实现相机切换API接口与多态蓝图之间的通信方式GameMode 43 Manager显示当前相机信息事件调度器Sequencer入
  • 动态绑定实现的原理

    当用virtual关键字来声明一个成员函数 xff0c 编译器机会根据动态绑定机制在幕后完成一些工作 当编译器发现类中有虚函数的时候 xff0c 编译器会创建一张虚函数表 xff0c 把虚函数的函数入口地址放到虚函数表中 xff0c 并且在
  • 模板函数实现数组排序

    template lt class T gt void sortfun T arr int len int i j T tmp for i 61 0 i lt len 1 i 43 43 for j 61 i j lt len 1 j 43
  • 静态转换和动态转换

    1 静态转换 静态转换用于 xff0c 普通数据类型间的转换 xff0c 具有继承关系的父子类指针或引用的转换 class Dad class Son public Dad class MyClass 基础类型转换 void test1 i
  • 文件的原子操作

    文件的原子操作是指一个操作一旦启动 xff0c 则无法能被破坏它的其它操作打断 1 写文件原子操作 无论是两个打开 xff0c 还是dup xff0c 同时操作一个文件都可能引起混乱 xff0c 解决这个问题的方法是 xff0c 可以通过O
  • 目录操作

    创建目录 xff1a int mkdir const char pathname mode t mode xff1b pathname xff0c 路径 xff1b mode xff0c 目录访问权限 xff1b 返回值 xff1a 成功
  • 【UE4学习】6.粒子系统

    文章目录 粒子系统常用参数Simple Sprite Burst EmitterEmitter SettingsEmitter SpawnEmitter UpdateParticle SpawnParticle UpdateAdd Even
  • java中Array/List/Map/Object与Json互相转换详解

    JSON JavaScript Object Notation xff1a 是一种轻量级的数据交换格式 一 JSON建构有两种结构 xff1a 对象和数组 1 对象 xff1a 对象在js中表示为 扩起来的内容 xff0c 数据结构为 ke
  • ZipInputStream解压远程文件报错,java.lang.IllegalArgumentException: MALFORMED[1]

    我遇到的问题是报的这个错java lang IllegalArgumentException MALFORMED 1 at java util zip ZipCoder toString ZipCoder java 65 不是 java l
  • OAuth2.0接百度平台进行授权

    百度开发文档 xff1a https openauth baidu com doc regdevelopers html 1 注册开发者账号并创建一个应用 2 创建应用后 xff0c 获取API Key和Secret Key 3 创建一个S
  • Spring 中最常用的 11 个扩展点

    1 自定义拦截器 spring mvc拦截器根spring拦截器相比 xff0c 它里面能够获取HttpServletRequest和HttpServletResponse等web对象实例 spring mvc拦截器的顶层接口是 xff1a
  • 经典排序算法

    https juejin cn post 7198840786766102589
  • SpringBoot项目启动加载时排除某一个类

    在Application启动类上 xff0c 用这个注解就可以指定某个类不加载进容器 64 ComponentScan
  • 手写一个生产者/消费者模式(三种方式实现)

    这种设计模式需要满足以下三点要求 xff1a xff08 1 xff09 生产者生产数据到缓冲区中 xff0c 消费者从缓冲区中取数据 xff08 2 xff09 如果缓冲区已经满了 xff0c 则生产者线程阻塞 xff1b xff08 3
  • Android中Okhttp,Volley,Retrofit网络框架优缺点及对比

    Okhttp xff1a Square 公司开源的 OkHttp 是一个专注于连接效率的 HTTP 客户端 OkHttp 提供了对 HTTP 2 和 SPDY 的支持 xff0c 并提供了连接池 xff0c GZIP 压缩和 HTTP 响应
  • Google身份验证服务端实现

    import org apache commons codec binary Base32 import org apache commons codec binary Base64 import javax crypto Mac impo

随机推荐