自动驾驶的两种核心技术架构 :

  • 基于规则技术架构 : 传统架构 , 采用 模块化设计 , 将复杂任务拆解为 感知、决策、规划、控制 等独立子模块 ;
传感器数据(图像/点云)  ->  感知规则(识别)  ->  决策规则(判断)  ->  规划规则(路径)  ->  控制指令(转向/加速/制动)
  • 端到端技术架构 : 新架构 ( 发展未完成 ) , 直接将 传感器原始数据 映射为 车辆控制指令 的架构 ;
传感器数据(图像/点云)  ->  神经网络  ->  控制指令(转向/加速/制动)

端到端技术架构 , 一端是 " 传感器原始数据 " , 另一端是 " 车辆控制指令 " ;





一、基于规则技术架构




1、基于规则技术架构简介


自动驾驶 的 基于规则技术架构 采用 模块化设计 , 将复杂任务拆解为独立子模块 :

  • 感知模块 : 识别道路、障碍物、交通信号等 ;
  • 决策模块 : 基于 预设规则 ( " 如果 A , 则 B " ) 生成 驾驶策略
  • 规划模块 : 生成路径 和 速度曲线
  • 控制模块 : 执行 转向、加速、制动 等操作
传感器数据(图像/点云)  ->  感知规则(识别)  ->  决策规则(判断)  ->  规划规则(路径)  ->  控制指令(转向/加速/制动)

可参考 Autoware Architecture 1.0 文档 : https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v1/#introduction ;
在这里插入图片描述

下图是 自动驾驶 基于规则技术架构 的 架构图 :

在这里插入图片描述

在 Node diagram 文档 https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v1/node-diagram/ 中 , 有 Autoware 的 节点图 , 可以作为开发参考 ;

在这里插入图片描述


2、规则表示示例


规则表示 :

  • 表示方式 : 以 " IF-THEN " 条件语句 表达 , 如 : " 如果前方障碍物距离 < 安全阈值 , 且速度 > 0 , 则紧急制动 " ;
  • 场景划分 :复杂环境 分解为 " 路口 " 、 " 超车 " 、 " 跟车 " 等 子场景 , 每个场景应用特定规则 ;

3、基于规则技术架构优点


基于规则技术架构 的 优点 :

  • 可解释性极强 : 每步决策 都有 明确规则 对应 , 故障定位 和 调试便捷 ;
  • 安全性高 : 预设安全策略 确保 已知场景行为 符合预期 , 适合 高风险场景 ;
  • 可控性好 : 工程师可 精确设定 行为边界 , 符合监管 和 安全标准 ;
  • 资源高效 : 无需大量 数据训练 , 在 计算资源有限平台 也能 稳定运行 ;

4、基于规则技术架构缺点


基于规则技术架构 的 缺点 :

  • 场景覆盖有限 : 难以穷举所有交通场景 , 对未预设情况可能失效 ;
  • 规则爆炸 : 随着场景增多 , 规则库 复杂度 指数级增长 , 易出现冲突 ;
  • 适应性差 : 面对 非常规交通行为 或 道路变化 , 反应僵化 , 缺乏灵活性 ;
  • 开发维护成本高 : 新场景需 人工编码规则 , 迭代周期长 ;




二、端到端技术架构



在自动驾驶 端到端 ( End-to-End ) 技术架构 中 , " 两个端 " 指的是 原始感知输入端驾驶控制输出端 , 核心是通过 单一神经网络 直接完成 " 输入 ->输出 " 的映射 , 跳过传统模块化架构中的 感知、决策、规划 等中间拆分环节 ;

  • 原始感知输入端 : 又称为 " 原始传感器输入端 ( Raw Sensor Input End ) “” 输入端 ( Input End ) " , 模型接收的、未经过人工预处理的多模态传感器原始数据 , 是自动驾驶系统 " 感知世界 " 的起点 , 无需 先通过 独立感知模块 提取特征 ( 如 " 识别行人 " " 检测车道线 " ) , 直接 将 原始信号 送入神经网络 ;
  • 驾驶控制输出端 : 又称为 " 控制指令输出端 ( Control Command Output End ) “” 输出端 ( Output End ) " , 模型直接输出的、可被 车辆执行层 ( ECU ) 直接解析 的 驾驶控制指令 , 是 自动驾驶系统 " 操控车辆 " 的终点 , 无需中间决策模块生成 " 行为指令 " ( 如 : " 减速 " , " 左转 " ) , 直接映射为具体的执行参数 ;

1、端到端技术架构简介


自动驾驶 端到端技术架构 : 是一种直接将 传感器原始数据 映射为 车辆控制指令 的架构 , 借助 深度学习 , 用 大规模数据 训练 神经网络 , 让系统 直接 将 摄像头、激光雷达 等 传感器采集 的 原始数据 , 映射为 方向盘转角、油门刹车力度 等控制指令 ; 整个过程中 , 感知、决策、控制 等环节不再拆分 , 而是 由 模型 隐式完成 内部处理 , 无需 人工设置 中间规则 ; 比如特斯拉 FSD V12 就采用该架构 , 直接通过原始传感器数据输出驾驶控制指令 ;

  • 泛化能力 : 泛化能力突出 , 该架构能 从 海量数据 中 捕捉到人类难以总结的 隐含规律 , 应对复杂交通场景更灵活
  • 黑箱问题 : 决策过程神经网络 内部 复杂的 参数运算 , 出现事故时 难以 追溯具体原因 , 不便于调试和监管 ; 同时 对 训练数据 依赖极高 , 若数据中 稀有场景 覆盖不足 , 模型在这类场景下可能出现 决策失误 , 且数 据的采集、标注成本 也十分高昂 ;

输入一堆 点云数据、图片数据、雷达数据 就直接给出 转向、加速、减速 指令 , 中间完全不知道发生了什么 , 有一定的 " 炼丹 " 科技 ;


端到端技术架构 核心特点是 :

  • 单模型全链路处理 : 使用 单一神经网络 完成 " 感知 -> 决策 -> 控制 " 全流程 , 无需人工划分模块 ;
  • 数据直接驱动 :摄像头、激光雷达 等 传感器获取原始数据 , 直接输出 方向盘转角、油门 / 刹车指令 ;
  • 系统级优化 : 梯度信号 可从 控制端 直接回传至 输入层 , 实现全局最优 ;
传感器数据(图像/点云)  ->  神经网络  ->  控制指令(转向/加速/制动)

参考 Autoware 2.0 Architecture 文档 : https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v2/

在这里插入图片描述

Autoware 2.0 Architecture 文档 中给出了 端到端技术架构 的 架构图 如下 :

在这里插入图片描述

轨迹生成器 ( Generator ) : 所有的 传感器数据 都要送入到 " 轨迹生成器 " 中 , 这是一个很灵活的 轨迹生成模块 , 轨迹生成器 指任何能够 输出行驶轨迹的模块 , 它可以是以下一种或多种形式 :

  • 基于规则的 规划器 , 利用 感知数据 和 地图信息 经过 感知、决策、规划、控制 等规则生成 指令 ;
  • 采用 原始传感器 输入数据端到端模型 ( E2E Models ) ;
  • 学习型规划器 ( learned planners )采样型规划器 ( sampling-based planners ) ;

轨迹选择器 ( Selector ) : 轨迹选择器 接收候选轨迹后 , 将执行以下操作 :

  • 安全校验 ( 例如 : 是否符合交通规则、是否处于可行驶区域 )
  • 基于场景上下文 或 驾驶策略 对 候选轨迹 进行排序 , 并选择最优方案 ;

2、端到端技术架构实现形式


端到端技术架构实现形式 :

  • 显式端到端 : 保留 感知 和 规划模块 , 但通过 联合训练 确保一致性
  • 隐式端到端 ( 纯端到端 ) :
    • 特斯拉 FSD V12 : 8 个摄像头原始像素直接输入 , 48 个神经网络处理 , 输出控制指令
    • 百度 UniAD :检测、跟踪、建图、轨迹预测、规划 集成到一个 Transformer 框架
  • VLA 架构 ( 视觉 - 语言 - 动作 ) :
    • 理想 AD Max : 端到端 + VLM (视觉语言模型) , 系统 1 处理常规场景 , 系统 2 (VLM) 辅助长尾场景 ;

① 数据采集


数据采集策略 :

  • 车队数据采集 : 特斯拉利用全球 700 万辆车 每天产生相当于 500 年 驾驶时长的数据 , 通过 " 影子模式 " (Shadow Mode) 在 不干预驾驶 的情况下收集 ;
  • 高质量驾驶员筛选 : 筛选出 " 五星级司机 " 标准 (评分> 90 分 , 仅 3% 车主达标) , 优先使用优质数据 进行训练 ;
  • 场景针对性采集 :
    • 正常驾驶 : 城市、高速、乡村道路 ;
    • 极端场景 : 暴雨、夜间、逆光、施工区域 ;
    • 交互场景 : 无保护左转、行人横穿、加塞 ;

② 多模态数据融合与预处理


处理环节 具体操作 目的
时间同步 校准 摄像头、LiDAR、IMU、CAN 数据时间戳 确保 多传感器 数据时空一致性
数据清洗 剔除异常值、填补缺失数据 提高数据质量和完整性
坐标转换 将不同传感器数据转换到统一坐标系 便于融合处理
图像预处理 动态分辨率调整、增强、标准化 提升模型感知能力
特征提取 BEV (鸟瞰图) 转换、时序特征构建 增强 模型 对 空间和时间理解

③ 主流模型架构


主流模型架构 :

  • BEV+Transformer :多摄像头图 像转换为 鸟瞰图 , 再用 Transformer 建模时序关系 , 解决遮挡问题和长距离感知
  • Occupancy 网络 : 预测 3D 空间 中 每个点的占用状态 , 替代传统 3D 检测 , 提高复杂场景感知能力 ;
  • VLM (视觉 - 语言模型) 融合 : 结合 大语言模型 增强 场景理解 和 决策能力 , 如商汤 " 开悟 " 世界模型 ;

④ 三阶段训练法


三阶段训练法 :

阶段 训练方法 核心目标 技术细节
阶段一 : 模仿学习 (冷启动) 行为克隆 (BC)监督学习 建立基本驾驶能力学习人类驾驶模式 使用高质量标注数据训练周期 : 3-5 epochs损失函数 : MSE / 交叉熵
阶段二 : 强化学习 (核心提升) 与世界模型交互策略优化 增强泛化能力掌握未见过场景提升安全性 在仿真环境中设计多维度奖励函数训练周期 : 10-20 epochs
阶段三 : 模型蒸馏 (部署准备) 知识迁移模型压缩 生成轻量化模型适配车端硬件 将云端大模型知识蒸馏到小模型精度损失 < 5%

⑤ 总结


端到端模型 训练是一个 " 数据驱动 + 策略优化 + 持续迭代 " 的 系统工程 , 其核心在于 :

  • 海量数据 : 海量 高质量 数据 是基础 , 需覆盖各种场景 , 尤其是 长尾危险情况 ;
  • 训练策略 : 多阶段训练策略 是关键 , 模仿学习 快速启动 , 强化学习 突破瓶颈 , 蒸馏实现 高效部署 ;
  • 优化策略 : 精心设计的 损失函数 和 优化策略 是模型性能的保障 , 决定了从感知到决策的准确性 ;
  • 世界模型 : 世界模型 与 强化学习 结合是未来趋势 , 可大幅降低数据需求并提升模型上限 ;
  • 技术边界 : 当前 端到端模型 在复杂城市环境中仍需 依赖 部分规则辅助决策 , 完全摒弃规则 的 纯端到端系统 (如特斯拉 FSD V12) 在 极端场景 下的 可靠性 仍有安全风险 , 这也是行业持续研究的方向 ;

3、端到端技术架构优点


端到端技术架构优点 :

  • 结构简化 : 省去 模块间 数据传递 , 减少 信息损耗 和 延迟 , 响应速度提升 ;
  • 泛化能力强 : 能处理未见过的新场景 , 捕捉人类 难以总结的规律 ;
  • 部署效率高 : 单一模型 可快速适配新区域 , 降低地图 更新成本 ;
  • 类人驾驶 : 模仿人类 " 看路开车 " 的直觉决策 , 驾驶行为更自然流畅

4、端到端技术架构缺点


端到端技术架构缺点 :

  • 黑箱特性 : 决策过程 难以解释 , 事故调查 和 责任认定 困难 ;
  • 数据依赖 : 需海量标注 数据训练 , 长尾场景覆盖不足易失误 ;
  • 安全挑战 : 极端场景 可靠性 不如规则系统 , 部分车型在雨雾天气识别率仅 78% ;

端到端技术 向 神经网络 输入图片像素数据 , 如果此时车前有个人 , 输出的可能是 撞上去 / 停车 / 绕行 , 如果撞到人就是模型训练不到位 , 准确率低 , 改进模型即可 ;





三、自动驾驶的两种核心技术架构总结




1、基于规则技术架构 与 端到端技术架构 对比


基于规则技术架构 与 端到端技术架构 对比 :

对比维度 端到端技术 基于规则技术
架构核心 单一神经网络全链路处理 模块化设计 , 多环节串联
决策方式 数据驱动 , 自主学习模式 规则驱动 , 预设 " 如果 - 则 " 逻辑
系统复杂度 模型结构简单 , 但训练复杂 模块多但逻辑清晰 , 调试容易
适用场景 复杂城市道路、非结构化环境 高速巡航、结构化道路、安全关键场景
典型代表 特斯拉 FSD V12+、小鹏 XNGP 早期 ADAS 系统、部分 L2 辅助驾驶
最新趋势 与规则系统融合 , 形成混合架构 作为安全兜底 , 辅助端到端系统

2、基于规则技术 + 端到端技术 混合架构


纯端到端 或 纯基于规则 的方案均 难以满足 高阶自动驾驶 的全面需求 , 将 基于规则技术 + 端到端技术 进行融合 , 采用二者的混合架构 :

  • 保障安全 :紧急刹车、避让行人 等 安全优先级高 的功能 用规则兜底 , 保障基础安全 ;
  • 复杂场景 : 端到端模型 负责复杂场景决策 , 处理城市道路拥堵、复杂路口会车等复杂场景的灵活决策 , 以此兼顾系统的安全性与智能性 ;
  • 快慢系统 : " 快系统 + 慢系统 " 结合 , 快系统 ( 高帧率 ) 处理常规驾驶 , 慢系统 (低帧率) 处理 复杂场景 ;

端到端 和 基于规则 并非 对立选择 , 而是 互补关系 ;

  • 端到端 提供更强的 泛化能力 和 自然驾驶体验 ,
  • 规则系统 保障 安全性 和 可解释性 ;

未来自动驾驶技术将持续 融合两者优势 , 推动行业向更安全、更智能的方向发展 ;


print("Hello World!")

dao_phrases = [
    "基于规则技术架构",
    "端到端技术架构"
]

print("\n自动驾驶的两种核心技术架构:")
for i, phrase in enumerate(dao_phrases, 1):
    print(f"{i}. {phrase}")

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐