【机器学习】CNN的基本架构模块

卷积神经网络（Convolutional Neural Network，CNN）是深度学习中一种强大的神经网络架构，特别适用于处理具有网格状拓扑结构的数据，如图像和时间序列。CNN的成功源于其独特的架构设计，包含了多个精心设计的基本模块。本文将详细介绍CNN的基本架构模块，包括卷积层、池化层、激活函数、全连接层等，以及一些高级组件和优化技术。

故人不在束旧装

1897人浏览 · 2024-08-16 11:44:22

故人不在束旧装 · 2024-08-16 11:44:22 发布

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈｜炫酷HTML | JavaScript基础
💫个人格言: "如无必要，勿增实体"

CNN的基本架构模块

1. 引言

2. 卷积层

在这里插入图片描述

2.1 基本原理

卷积层是CNN的核心组件，负责提取输入数据的局部特征。卷积操作可以表示为：

$\int_{-\infty}^{\infty} f(\tau)g(t-\tau)d\tau$

在离散情况下，二维卷积可以表示为：

$\sum_{m}\sum_{n} I(m,n)K(i-m,j-n)$

其中， $I$ 是输入， $K$ 是卷积核（或称为滤波器）。

2.2 卷积层的特性

局部连接：每个神经元只与输入数据的一个局部区域相连。
权值共享：同一个特征图内的神经元共享相同的权重。
平移不变性：卷积操作对输入的平移具有不变性。

2.3 卷积层的超参数

卷积核大小：常见的有3x3，5x5等。
步长（Stride）：控制卷积核移动的步长。
填充（Padding）：在输入周围添加额外的像素。

2.4 输出大小计算

对于输入大小为 $\times H$ ，卷积核大小为 $\times F$ ，步长为 $S$ ，填充为 $P$ 的卷积层，输出大小为：

$O_W = \frac{W - F + 2P}{S} + 1, \quad O_H = \frac{H - F + 2P}{S} + 1$

3. 池化层

在这里插入图片描述

3.1 目的和作用

池化层用于降低特征图的空间分辨率，减少参数数量和计算量，同时提高模型对小的位移和失真的鲁棒性。

3.2 常见的池化方法

最大池化（Max Pooling）：
$y_{ij} = \max_{(a,b)\in R_{ij}} x_{ab}$
平均池化（Average Pooling）：
$y_{ij} = \frac{1}{|R_{ij}|} \sum_{(a,b)\in R_{ij}} x_{ab}$

其中， $R_{ij}$ 表示池化窗口， $R_{ij}|$ 是窗口中元素的数量。

3.3 池化层的超参数

池化窗口大小：常见的有2x2，3x3等。
步长：通常与窗口大小相同，以避免重叠。

4. 激活函数

4.1 作用

激活函数引入非线性，增强网络的表达能力。

4.2 常用的激活函数

ReLU (Rectified Linear Unit)：
$\max(0, x)$
Sigmoid：
$\frac{1}{1 + e^{-x}}$
Tanh：
$\frac{e^x - e^{-x}}{e^x + e^{-x}}$
Leaky ReLU：
$\begin{cases} x, & \text{if } x > 0 \\ \alpha x, & \text{otherwise} \end{cases}$
其中 $\alpha$ 是一个小的正常数。

4.3 激活函数的选择

ReLU 是目前最常用的激活函数，因为它计算简单，能缓解梯度消失问题。
Sigmoid 和 Tanh 在某些特定任务中仍有应用，如二分类问题。
Leaky ReLU 等变体旨在解决 ReLU 的"死亡 ReLU"问题。

5. 全连接层

5.1 作用

全连接层通常位于CNN的末端，用于将学到的特征映射到样本标记空间。

5.2 数学表示

全连接层的操作可以表示为：

$y = f (W x + b)$

其中， $W$ 是权重矩阵， $b$ 是偏置向量， $f$ 是激活函数。

5.3 特点

参数数量大，易导致过拟合。
可以学习特征的全局组合。

6. Dropout层

在这里插入图片描述

6.1 原理

Dropout是一种正则化技术，在训练过程中随机"丢弃"一部分神经元，防止过拟合。

6.2 数学表示

对于dropout率为 $p$ 的层，其输出可表示为：

$y = f (r * (W x + b)) / (1 - p)$

其中， $r$ 是一个由0和1组成的随机二元掩码，1的概率为 $1 - p$ 。

7. 批归一化层（Batch Normalization）

7.1 目的

批归一化通过标准化每一层的输入来加速训练过程，提高模型的稳定性。

7.2 数学表示

对于输入 $x$ ，批归一化的操作为：

$\gamma \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} + \beta$

其中， $\mu_B$ 和 $\sigma_B^2$ 分别是批次的均值和方差， $\gamma$ 和 $\beta$ 是可学习的参数， $\epsilon$ 是一个小常数。

8. 残差连接（Residual Connection）

8.1 动机

残差连接解决了深层网络的梯度消失问题，使得训练更深的网络成为可能。

8.2 数学表示

对于输入 $x$ ，残差块的输出为：

$y = F (x) + x$

其中， $F (x)$ 是残差函数，通常由几个卷积层组成。

9. 注意力机制（Attention Mechanism）

9.1 原理

注意力机制允许模型在处理输入时关注最相关的部分，提高模型的性能。

9.2 自注意力（Self-Attention）

自注意力机制的计算过程可以表示为：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中， $Q$ 、 $K$ 、 $V$ 分别是查询、键和值矩阵， $d_k$ 是键的维度。

10. 高级CNN架构

10.1 Inception模块

Inception模块并行使用不同大小的卷积核，以捕获不同尺度的特征。

10.2 DenseNet

DenseNet通过密集连接提高了特征的重用，减少了参数数量。

10.3 SENet（Squeeze-and-Excitation Network）

SENet引入了通道注意力机制，自适应地调整特征通道的重要性。

11. 结论

CNN的基本架构模块是深度学习在计算机视觉领域取得巨大成功的关键。从最基本的卷积层和池化层，到高级的残差连接和注意力机制，每个组件都在不断演进，以提高模型的性能和效率。理解这些基本模块及其工作原理，对于设计和优化CNN模型至关重要。

随着研究的深入，我们可以期待看到更多创新的架构组件出现，进一步推动CNN在各个领域的应用和发展。同时，如何有效地组合这些模块以构建高效、鲁棒的网络架构，仍然是一个值得深入研究的方向。未来，自动化神经架构搜索（NAS）等技术可能会在这方面发挥重要作用，帮助我们发现更优的网络结构。

End

松山湖开发者村综合服务平台

助力广东及东莞地区开发者，代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展，成为松山湖开发者首选的工作与学习平台

更多推荐

【算法一周目】从时光的边缘看世界：前缀和揭示的算法真谛

松山湖开发者村综合服务平台

【深度学习】Java DL4J基于 CNN 构建车辆识别与跟踪模型

松山湖开发者村综合服务平台

web3基于zkEVM的L2扩容方案-Scroll

松山湖开发者村综合服务平台

所有评论(0)

查看更多评论

故人不在束旧装

@qq_44214428

已为社区贡献39条内容

【机器学习】CNN的基本架构模块

故人不在束旧装

文章目录

CNN的基本架构模块

1. 引言

2. 卷积层

2.1 基本原理

2.2 卷积层的特性

2.3 卷积层的超参数

2.4 输出大小计算

3. 池化层

3.1 目的和作用

3.2 常见的池化方法

3.3 池化层的超参数

4. 激活函数

4.1 作用

4.2 常用的激活函数

4.3 激活函数的选择

5. 全连接层

5.1 作用

5.2 数学表示

5.3 特点

6. Dropout层

6.1 原理

6.2 数学表示

7. 批归一化层（Batch Normalization）

7.1 目的

7.2 数学表示

8. 残差连接（Residual Connection）

8.1 动机

8.2 数学表示

9. 注意力机制（Attention Mechanism）

9.1 原理

9.2 自注意力（Self-Attention）

10. 高级CNN架构

10.1 Inception模块

10.2 DenseNet

10.3 SENet（Squeeze-and-Excitation Network）

11. 结论

所有评论(0)

故人不在束旧装