深度学习-卷积神经网络（CNN）

卷积神经网络是一种前馈型神经网络, 受生物自然视觉认知机制启发而来的. 现在, CNN 已经成为众多科学领域的研究热点之一, 特别是在模式分类领域, 由于该网络避免了对图像的复杂前期预处理, 可以直接输入原始图像, 因而得到了更为广泛的应用. 可应用于图像分类, 目标识别, 目标检测, 语义分割等等. 本文介绍可用于图像分类的卷积神经网络的基本结构.

红米煮粥

1724人浏览 · 2024-09-22 19:23:13

红米煮粥 · 2024-09-22 19:23:13 发布

文章目录

一、网络构造
二、经典CNN架构

深度学习是一种特殊的机器学习，通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性，其中每个概念都定义为与简单概念相关联，而更为抽象的表示则以较不抽象的方式来计算。

一、网络构造

在这里插入图片描述
上面是一个简单的 CNN 结构图, 第一层输入图片, 进行卷积(Convolution)操作, 得到第二层深度为 3 的特征图(Feature Map). 对第二层的特征图进行池化(Pooling)操作, 得到第三层深度为 3 的特征图. 重复上述操作得到第五层深度为 5 的特征图, 最后将这 5 个特征图, 也就是 5 个矩阵, 按行展开连接成向量, 传入全连接(Fully Connected)层, 全连接层就是一个 BP 神经网络. 图中的每个特征图都可以看成是排列成矩阵形式的神经元, 与 BP神经网络中的神经元大同小异. 下面是卷积和池化的计算过程.

1. 卷积层（Convolutional Layer）

功能：卷积层是CNN的核心，负责提取图像中的局部特征。它通过滤波器（也称为卷积核）在输入图像上滑动，进行卷积运算，从而提取出图像的边缘、纹理等低级特征。
卷积运算：卷积核的每个元素与图像对应位置的元素相乘后求和，得到输出特征图上的一个像素值。不同的卷积核可以捕捉到不同的特征。
参数共享：卷积核的参数在整个输入图像上共享，这大大减少了网络的参数数量，降低了计算复杂度，并有助于防止过拟合。

（1）卷积

对于一张输入图片, 将其转化为矩阵, 矩阵的元素为对应的像素值. 假设有一个 5 × 5 的图像，使用一个 3 × 3 的卷积核进行卷积，可得到一个 3 × 3的特征图. 卷积核也称为滤波器(Filter).
在这里插入图片描述
具体的操作过程如下图所示:

黄色的区域表示卷积核在输入矩阵中滑动, 每滑动到一个位置, 将对应数字相乘并求和, 得到一个特征图矩阵的元素. 注意到, 动图中卷积核每次滑动了一个单位, 实际上滑动的幅度可以根据需要进行调整. 如果滑动步幅大于 1, 则卷积核有可能无法恰好滑到边缘, 针对这种情况, 可在矩阵最外层补零, 补一层零后的矩阵如下图所示:
在这里插入图片描述
可根据需要设定补零的层数. 补零层称为 Zero Padding, 是一个可以设置的超参数, 但要根据卷积核的大小, 步幅, 输入矩阵的大小进行调整, 以使得卷积核恰好滑动到边缘.

（2）特征图计算公式

一般情况下, 输入的图片矩阵以及后面的卷积核, 特征图矩阵都是方阵, 这里设输入矩阵高宽为h、w, 卷积核大小为 k , 步长为 s, 补零层数为 p, 则卷积后产生的特征图大小计算公式为:
$\frac{(h+2p−k)}{s}+1$
$\frac{(w+2p−k)}{s}+1$

（3）三通道卷积

为了提取更多的特征, 可以采用多个卷积核分别进行卷积, 这样便可以得到多个特征图. 有时, 对于一张三通道彩色图片, 或者如第三层特征图所示, 输入的是一组矩阵, 这时卷积核也不再是一层的, 而要变成相应的深度。
在这里插入图片描述
上图中, 最左边是输入的特征图矩阵, 深度为 3, 补零(Zero Padding)层数为 1, 每次滑动的步幅为 2. 中间两列粉色的矩阵分别是两组卷积核, 一组有三个, 三个矩阵分别对应着卷积左侧三个输入矩阵, 每一次滑动卷积会得到三个数, 这三个数的和作为卷积的输出. 最右侧两个绿色的矩阵分别是两组卷积核得到的特征图.