【DataWhale】快乐学习大模型 | 202507，Task01笔记

到2020年接触pytorch做了计算机视觉图像分类，到2021年做了目标检测，2022年做了文本实体抽取，2023年做了Agent。（还有一些GAN、扩散模型等和图片生成有关的，3D卷积等和视频有关的，RL等游戏智能体相关的，ViT等Transformer和视觉结合的，图里先不表现）说起来，到底多大才算大语言模型最开始挺有争议的，现在0.3B的模型也开始出现了（如文心开源的 ERNIE-4.5-

飞速移动的代码菌

1079人浏览 · 2025-07-14 23:45:24

飞速移动的代码菌 · 2025-07-14 23:45:24 发布

引言

我从2016年开始接触matlab看别人做语音识别，再接触tensorflow的神经网络，2017年接触语音合成，2020年做落地的医院手写数字识别。到2020年接触pytorch做了计算机视觉图像分类，到2021年做了目标检测，2022年做了文本实体抽取，2023年做了Agent。收获了很多奖项，感觉一直在人工智能新技术上探索，但总是浮于表面，要借这次机会好好学一学LLM，不能再让Transformer还只停留在Attention和QKV上，争取从底层实现一把。
说起来，到底多大才算大语言模型最开始挺有争议的，现在0.3B的模型也开始出现了（如文心开源的 ERNIE-4.5-0.3B-PT），我的感觉是用了一定参数量的语言模型就能叫LLM，有用效果好就行。

人工智能发展历程

感觉主要是这么一个发展流程，RNN主要走文本类，CNN主要走图像类。（还有一些GAN、扩散模型等和图片生成有关的，3D卷积等和视频有关的，RL等游戏智能体相关的，ViT等Transformer和视觉结合的，图里先不表现）

0.3B: 0.3 Bilion, 参数量为3亿的模型
LLM: Large Language Model, 大语言模型
RNN: Recurrent Neural Network, 循环神经网络，用于文本或语音
CNN: Convolutional Neural Network, 卷积神经网络，用于视觉
GAN: Generative AdversarialNetwork, 生成对抗网络，用于图片生成
Vit: Vision Transformer, 用于视觉的Transformer
RL: Reinforcement Learning, 强化学习
LSTM: Long Short-Term Memory, 长短期记忆网络
ResNet: 残差网络, 用于层数加深时信息的传递
YOLO: You Only Look Once, 用于目标检测
Transformer: 用于增加注意力机制
BERT: Bidirectional Encoder Representations from Transformers, 用于文本分类、实体抽取
T5: Text-to-Text Transfer Transformer, 用于翻译
GPT: Generative Pre-trained Transformer, 用于对话