机器学习————世界模型
当人们谈到世界模型时,必然绕不开一篇巨作———《World Models》。这篇文章是世界模型开山与标杆,首次提出 “世界模型” 三组件,即VAE+RNN + 控制器,用模型生成虚拟数据训练策略,奠定世界模型范式。接下来,我的内容也会围绕这篇文章,解读世界模型的核心机理,如果有不足,请大家的批评指正。文章结尾处,会放置文章链接。
研究背景
人类对世界的认知和交互方式,是机器学习领域探索智能体设计的重要灵感来源。在日常生活中,人类并非单纯对外部环境做出被动反应,而是会在大脑中构建起对所处环境的空间和时间双重模型:通过视觉、听觉等感官获取的空间信息被整合为对环境的具象化认知,并形成对环境随时间变化的规律、动作与结果之间的因果关系的总结,从而演化出了时序化的预测能力。基于这样的内在模型,人类能够在做出动作前进行 “想象” 和预测,甚至在面对快速变化的场景时,依靠模型做出本能的、精准的反应 —— 本质上,人类是通过预测而非单纯的信息处理来与世界交互。
这一认知特征引发了 David Ha 与 Jürgen Schmidhuber 等研究者的核心思考:能否让人工神经网络构建起类似的、对环境的内在表征模型,让智能体摆脱对真实环境即时观测的强依赖,像人类一样通过内在模型的 “预测” 和 “想象” 完成学习与决策?在 2018 年,二人提出的World Models模型给出了开创性的答案,该模型首次将 “构建环境的时空隐表示” 与 “在模型生成的虚拟环境中学习” 相结合,打破了传统强化学习智能体仅能通过真实环境试错学习的桎梏,成为具身智能、基于想象的强化学习领域的里程碑式工作,也为后续 Dreamer 系列等经典世界模型的发展奠定了核心理论与架构基础。
技术核心
世界模型并非全新设计,而是融合了当时的三大经典技术:
- 1990 年的RNN 模型 - 控制器:建模时序动态;
- 2012 年的深度卷积网络(AlexNet):实现高效视觉特征提取;
- 2013 年的变分自编码器(VAE):学习环境的低维隐表示。
世界模型的三层核心架构
模型由V(VAE)、M(MDN-RNN)、C(Controller) 三个模块组成,其中V+M 构成完整的世界模型,C 为智能体的动作控制器,各司其职且训练解耦:
- VAE(V):空间特征编码器,将真实环境的原始观测编码为低维隐向量z,压缩空间信息,同时可通过解码器还原观测,实现环境的空间建模;
- MDN-RNN(M,混合密度网络 + 循环神经网络):时间特征预测器,以隐向量、智能体动作和 RNN 隐藏状态为输入,建模概率分布,实现对环境下一时序状态的预测,是 “梦境” 生成的核心;
- Controller(C):简单的线性动作控制器,是单一层网络,以 V+M 输出的和为输入,输出智能体动作,目标是最大化累计奖励,仅负责动作决策,结构轻量化。
关键特性:V+M 可通过环境数据无监督预训练,无需奖励信号,C 则基于预训练好的世界模型做监督学习,大幅降低真实环境的交互成本。
经典实验:CarRacing-v0 赛车任务
以 OpenAI Gym 的赛车环境为验证,设计了完整的五步训练流程,且对比了多种方法的效果,成为世界模型的核心验证实验:
- 用随机策略收集 10000 轮环境交互数据;
- 训练 VAE 将赛车画面编码为 32 维隐向量z;
- 训练 MDN-RNN 学习环境的时序动态;
- 定义线性控制器 C,输入输出动作;
- 用 CMA-ES 优化控制器的参数,最大化累计奖励。
实验结果:完整世界模型(V+M+C)取得906±21的平均分数,远超当时的 DQN、A3C 等主流算法,甚至优于 Gym 排行榜的经典方法;而仅用 V+C 的空间模型效果较差且驾驶不稳定,证明时序预测模块 M 是世界模型的核心价值。
核心创新:在 “梦境” 中学习
这是世界模型最关键的突破:摆脱对真实环境观测的依赖,让智能体仅在世界模型生成的 “虚拟梦境” 中完成训练。
- 训练好的 V+M 可脱离真实环境,通过 MDN-RNN 预测的生成连续的虚拟环境序列,即 “梦境”;
- 控制器 C 直接在该虚拟序列中学习动作策略,无需与真实环境交互;
- 经 “梦境” 训练的策略,在真实环境中依然有效,实现了 “虚拟学习→真实落地” 的迁移。
模型的短板与未来研究方向
短板
- 仅简要提及 “梦境训练” 的动机,未验证其在降低仿真成本上的实际价值;
- 奖励函数与时空特征提取解耦,导致训练产生不必要的人工伪影;
- 属于 “本能式” 决策,无长时程规划机制,无法应对复杂策略型任务。
模型的影响
世界模型是具身智能和强化学习领域的里程碑式工作,其核心思想被后续深度继承和拓展:
- 是首个无监督学习环境的压缩时空表示的工作,为基础模型的发展奠定了思路;
- 直接催生了 Google DeepMind 的Dreamer 系列模型(Dreamer/DreamerV2/DreamerV3),从长时程任务、Atari 游戏逐步拓展到多领域通用任务,成为当前世界模型的主流范式;
- 让 “基于想象的强化学习” 成为重要研究方向,推动智能体从 “试错式交互” 向 “预测式规划” 进化。
对世界模型进行的简单的解释,如果大家要深入了解,可以自行的了解。当然,如果需要的话,大家也可以评论区留言。
文献《world model》链接
https://www.cl.cam.ac.uk/~ey204/teaching/ACS/R244_2024_2025/presentation/S6/WM_Edmund.pdf
更多推荐



所有评论(0)