机器学习————世界模型

启415

1028人浏览 · 2026-03-02 00:00:00

启415 · 2026-03-02 00:00:00 发布

当人们谈到世界模型时，必然绕不开一篇巨作———《World Models》。这篇文章是世界模型开山与标杆，首次提出 “世界模型” 三组件，即VAE+RNN + 控制器，用模型生成虚拟数据训练策略，奠定世界模型范式。接下来，我的内容也会围绕这篇文章，解读世界模型的核心机理，如果有不足，请大家的批评指正。文章结尾处，会放置文章链接。

研究背景

人类对世界的认知和交互方式，是机器学习领域探索智能体设计的重要灵感来源。在日常生活中，人类并非单纯对外部环境做出被动反应，而是会在大脑中构建起对所处环境的空间和时间双重模型：通过视觉、听觉等感官获取的空间信息被整合为对环境的具象化认知，并形成对环境随时间变化的规律、动作与结果之间的因果关系的总结，从而演化出了时序化的预测能力。基于这样的内在模型，人类能够在做出动作前进行 “想象” 和预测，甚至在面对快速变化的场景时，依靠模型做出本能的、精准的反应 —— 本质上，人类是通过预测而非单纯的信息处理来与世界交互。

这一认知特征引发了 David Ha 与 Jürgen Schmidhuber 等研究者的核心思考：能否让人工神经网络构建起类似的、对环境的内在表征模型，让智能体摆脱对真实环境即时观测的强依赖，像人类一样通过内在模型的 “预测” 和 “想象” 完成学习与决策？在 2018 年，二人提出的World Models模型给出了开创性的答案，该模型首次将 “构建环境的时空隐表示” 与 “在模型生成的虚拟环境中学习” 相结合，打破了传统强化学习智能体仅能通过真实环境试错学习的桎梏，成为具身智能、基于想象的强化学习领域的里程碑式工作，也为后续 Dreamer 系列等经典世界模型的发展奠定了核心理论与架构基础。

技术核心

世界模型并非全新设计，而是融合了当时的三大经典技术：

1990 年的RNN 模型 - 控制器：建模时序动态；
2012 年的深度卷积网络（AlexNet）：实现高效视觉特征提取；
2013 年的变分自编码器（VAE）：学习环境的低维隐表示。

世界模型的三层核心架构

模型由V（VAE）、M（MDN-RNN）、C（Controller）三个模块组成，其中V+M 构成完整的世界模型，C 为智能体的动作控制器，各司其职且训练解耦：

VAE（V）：空间特征编码器，将真实环境的原始观测编码为低维隐向量z，压缩空间信息，同时可通过解码器还原观测，实现环境的空间建模；
MDN-RNN（M，混合密度网络 + 循环神经网络）：时间特征预测器，以隐向量、智能体动作和 RNN 隐藏状态为输入，建模概率分布，实现对环境下一时序状态的预测，是 “梦境” 生成的核心；
Controller（C）：简单的线性动作控制器，是单一层网络，以 V+M 输出的和为输入，输出智能体动作，目标是最大化累计奖励，仅负责动作决策，结构轻量化。

关键特性：V+M 可通过环境数据无监督预训练，无需奖励信号，C 则基于预训练好的世界模型做监督学习，大幅降低真实环境的交互成本。

经典实验：CarRacing-v0 赛车任务

以 OpenAI Gym 的赛车环境为验证，设计了完整的五步训练流程，且对比了多种方法的效果，成为世界模型的核心验证实验：

用随机策略收集 10000 轮环境交互数据；
训练 VAE 将赛车画面编码为 32 维隐向量z；
训练 MDN-RNN 学习环境的时序动态；
定义线性控制器 C，输入输出动作；
用 CMA-ES 优化控制器的参数，最大化累计奖励。

实验结果：完整世界模型（V+M+C）取得906±21的平均分数，远超当时的 DQN、A3C 等主流算法，甚至优于 Gym 排行榜的经典方法；而仅用 V+C 的空间模型效果较差且驾驶不稳定，证明时序预测模块 M 是世界模型的核心价值。

核心创新：在 “梦境” 中学习

这是世界模型最关键的突破：摆脱对真实环境观测的依赖，让智能体仅在世界模型生成的 “虚拟梦境” 中完成训练。

训练好的 V+M 可脱离真实环境，通过 MDN-RNN 预测的生成连续的虚拟环境序列，即 “梦境”；
控制器 C 直接在该虚拟序列中学习动作策略，无需与真实环境交互；
经 “梦境” 训练的策略，在真实环境中依然有效，实现了 “虚拟学习→真实落地” 的迁移。

模型的短板与未来研究方向

短板

仅简要提及 “梦境训练” 的动机，未验证其在降低仿真成本上的实际价值；
奖励函数与时空特征提取解耦，导致训练产生不必要的人工伪影；
属于 “本能式” 决策，无长时程规划机制，无法应对复杂策略型任务。

模型的影响

世界模型是具身智能和强化学习领域的里程碑式工作，其核心思想被后续深度继承和拓展：

是首个无监督学习环境的压缩时空表示的工作，为基础模型的发展奠定了思路；
直接催生了 Google DeepMind 的Dreamer 系列模型（Dreamer/DreamerV2/DreamerV3），从长时程任务、Atari 游戏逐步拓展到多领域通用任务，成为当前世界模型的主流范式；
让 “基于想象的强化学习” 成为重要研究方向，推动智能体从 “试错式交互” 向 “预测式规划” 进化。

对世界模型进行的简单的解释，如果大家要深入了解，可以自行的了解。当然，如果需要的话，大家也可以评论区留言。

文献《world model》链接

https://www.cl.cam.ac.uk/~ey204/teaching/ACS/R244_2024_2025/presentation/S6/WM_Edmund.pdf