经典网络模型介绍-LeNet-5

剑胆琴心收录于 AI

2022-07-29 约 1557 字预计阅读 4 分钟

简单读一下经典网络模型之LeNet-5，建议重点读第二章

LeNet-5是LeNet的最终稳定版本，具有以下特点：

所有卷积核大小均为5x5，步长为1；
所有池化方法为平均池化；
所有激活函数采用Sigmoid

1.输入层

输入图像的尺寸统一归一化为32x32.

2.C1层：第一个卷积层

输入图片大小：32x32 卷积核大小：5x5，步长1，无填充卷积核种类：6 输出特征图大小：28x28 32-5+1=28 神经元数量：28x28x6=4704 可训练参数：（5x5+1）x6=156 其中，1为偏置参数连接数（和输入层的连接数）：（5x5+1）x6x28x28=122304

3.S2层-池化层（下采样层）

输入特征图大小：28x28 采样区域：2x2 采样方式：4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid函数。采样种类：6 输出特征图大小：14x14 神经元数量：14x14x6 连接数（和C1层连接）：（2x2+1）x6x14x14 S2中每个特征图的大小是C1中特征图大小的1/4.

4.C3层-第二个卷积层

输入：S2中所有6个或者几个特征图组合卷积核大小：5x5 卷积核种类：16 输出特征图大小：10x10 14-5+1=10 C3中的每个特征图是连接到S2中的所有6个或者几个特征图的，表示本层的特征图是上一层提取到的特征图的不同组合。存在的一个方式是：C3的前6个特征图以S2中3个相邻的特征图子集作为输入。接下来6个特征图以S2中4个相邻特征图自己为输入。然后的3个以不相邻的4个特征图子集作为输入。最后一个将S2中所有特征图作为输入。输出的16个通道并没有与输入的每个通道相连。这样设计的初衷有两个： 1.减小计算量； 2.打破对称性。现在的网络设计中，很少会遵循这样的设计原则。

可训练参数：6x（3x5x5+1）+6x（4x5x5+1）+3x（4x5x5+1）+1x（6x5x5+1）=1516 连接数：10x10x1516=151600

5.S4层-池化层（下采样层）

输入：10x10 采样区域：2x2 采样方式：4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid函数。采样种类：16 输出特征图大小：5x5 神经元数量：5x5x16=400 连接数：（2x2+1）x400=2000 S4中每个特征图的大小是C3特征图大小的1/4

6.C5层-第三个卷积层

输入：5x5，即S4层的全部16个单元特征图（与S4全相连）卷积核大小：5x5 卷积核种类：120 输出特征图大小：1x1 （5-5+1）可训练参数：120x（16x5x5+1）=48120 连接数：1x1x48120=48120 C5层是一个卷积层。由于S4层的16个图的大小为5x5，与卷积核的大小相同，所以卷积后形成的图的大小为1x1。这里形成120个卷积结果。每个都与上一层的16个图相连。所以共有（5x5x16+1）x120=48120个连接。

7.F6层-全连接层

输入：120维向量输出：84维向量计算方式：计算输入向量和权重向量之间的点积，再加上一个偏置，结果通过sigmoid函数输出。可训练参数：84x（120+1）=10164

8.输出层-全连接层

输入：84维向量输出：10维向量可训练参数：84x10，其中10就是分类的类别数。一共有10个节点，分别代表数字0到9，且如果节点i的值为0，则网络识别的结果是数字i。采用的是径向基函数（RBF）的网络连接方式。假设x是上一层的输入，y是RBF的输出，则RBF输出的计算方式是：

LeNet5的缺点：输入图像太小，数据不足，在早期并没有在除手写数字识别之外的其他计算机视觉任务上取得大的突破。

原文链接：https://blog.csdn.net/Tangguoseo/article/details/125283431