Transformer-大模型开发中的必备知识 - 第一章（原有神经网络RNN/LSTM的痛点是什么?）

这个看不了可以在bilibili上搜讲的非常非常好全网讲解transformer最好的可以听完这个课再来看这篇文章如果我的理解有问题的话也欢迎大家在评论区指出更正！

资深error程序员

787人浏览 · 2025-12-15 22:01:23

资深error程序员 · 2025-12-15 22:01:23 发布

首先叠甲：
台大李宏毅讲解Transformer
这个看不了可以在bilibili上搜讲的非常非常好全网讲解transformer最好的可以听完这个课再来看这篇文章
如果我的理解有问题的话也欢迎大家在评论区指出更正！

我对Transformer的理解

首先要理解 transformer 在大模型开发中的作用，transformer是用于处理类似文本，语音，代码这样的序列数据的架构，在transformer中，有一个关键名词：注意力机制self-attention，那transformer其实就是用注意力机制代替原有的循环神经网络（RNN/LSTM），让大模型能够并行处理序列，学习长距离依赖关系。

原有神经网络，RNN/LSTM的痛点是什么?

1. 无法并行，只能从左到右读

因为我是java开发，所以这里我用java视角来举例：
RNN本质上是一个方法``step()``,必须一个词一个词顺序来执行。

public class RNN {
    RNNState hidden;
    public void process(List<String> words) {
        for (String w : words) {
            hidden = step(w, hidden);   // 必须按顺序执行
        }
    }
    
    public RNNState step(String word, RNNState prev) {
        // 词 + 上一个状态 = 新状态
        return tanh(Wx * word + Wh * prev);
    }
}

通俗例子就是：
接收到一段话：我 / 今天 / 去 / 天职师大 / 开会
那RNN/LSTM的执行顺序必须严格为：
step("我") -> step("今天") -> step("去") -> step("天职师大") -> step("开会")
因为在例子中

“今天”的计算必须依赖“我”的结果，不能跳。

无法并行！ 那这样的话，会导致长序列训练会非常非常慢，同时对于大模型训练完全不可行

2. 长距离依赖能力弱

RNN的信息传递方式如下：
h1 → h2 → h3 → h4 → h5 → …
词之间相隔越远，信息越容易被稀释、丢失
通俗一点的例子就是：
句子：

“尽管下雨，他还是去了学校。”

我们想判断：
“他” 是否与前面“下雨”的语境有关？

在 RNN 里：

“尽管” 信息传递给 h1
“下雨” 信息传递给 h2
…
“他” 直到 h5

路径大概是这样：

State h1 = step("尽管", init);
State h2 = step("下雨", h1);
State h3 = step("，", h2);
State h4 = step("他", h3); // 想理解“他”与“下雨”的关系，但信息已被稀释

“他”要找“下雨”的信息，需要倒推 h3 h4，中间信息已经被压缩很多次，导致：

代词指代困难
上下文关联弱
长句理解能力很差

如果上面的例子还是有点难懂的话，我再举例：
就像前期的对话式大模型，有时候你跟它聊天，告诉了你的名字，但是聊的多了，你再问它，我叫什么名字，它却答不出来
这就是 长距离依赖被破坏的现象
JAVA伪代码：

State h = init();
h = step("我", h);       // h1
h = step("叫", h);       // h2
h = step("小明", h);     // h3   ← 这里记录了“用户叫小明”

// ... 过了很久 ...
for (int i = 0; i < 200; i++) {
    h = step("其他对话内容", h);  // h200
}

// 想要问：我叫什么？
String answer = model.predict("我叫什么名字？", h);