【自动驾驶】Autoware 架构 ① ( 自动驾驶的两种核心技术架构 | 基于规则技术架构 | 端到端技术架构 )

一、基于规则技术架构1、基于规则技术架构简介2、规则表示示例3、基于规则技术架构优点4、基于规则技术架构缺点二、端到端技术架构1、端到端技术架构简介2、端到端技术架构实现形式① 数据采集② 多模态数据融合与预处理③ 主流模型架构④ 三阶段训练法⑤ 总结3、端到端技术架构优点4、端到端技术架构缺点三、自动驾驶的两种核心技术架构总结1、基于规则技术架构与端到端技术架构对比2、基于规则技术 + 端

韩曙亮

2574人浏览 · 2025-12-12 09:57:45

韩曙亮 · 2025-12-12 09:57:45 发布

文章目录

一、基于规则技术架构
二、端到端技术架构
三、自动驾驶的两种核心技术架构总结
- 1、基于规则技术架构与端到端技术架构对比
- 2、基于规则技术 + 端到端技术混合架构

自动驾驶的两种核心技术架构 :

基于规则技术架构 : 传统架构 , 采用模块化设计 , 将复杂任务拆解为感知、决策、规划、控制等独立子模块 ;

传感器数据(图像/点云)  ->  感知规则(识别)  ->  决策规则(判断)  ->  规划规则(路径)  ->  控制指令(转向/加速/制动)

端到端技术架构 : 新架构 ( 发展未完成 ) , 直接将传感器原始数据映射为车辆控制指令的架构 ;

传感器数据(图像/点云)  ->  神经网络  ->  控制指令(转向/加速/制动)

端到端技术架构 , 一端是 " 传感器原始数据 " , 另一端是 " 车辆控制指令 " ;

一、基于规则技术架构

1、基于规则技术架构简介

自动驾驶的基于规则技术架构采用模块化设计 , 将复杂任务拆解为独立子模块 :

感知模块 : 识别道路、障碍物、交通信号等 ;
决策模块 : 基于预设规则 ( " 如果 A , 则 B " ) 生成驾驶策略
规划模块 : 生成路径和速度曲线
控制模块 : 执行转向、加速、制动等操作

传感器数据(图像/点云)  ->  感知规则(识别)  ->  决策规则(判断)  ->  规划规则(路径)  ->  控制指令(转向/加速/制动)

可参考 Autoware Architecture 1.0 文档 : https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v1/#introduction ;
在这里插入图片描述

下图是自动驾驶基于规则技术架构的架构图 :

在这里插入图片描述

在 Node diagram 文档 https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v1/node-diagram/ 中 , 有 Autoware 的节点图 , 可以作为开发参考 ;

节点图地址页面 ;

在这里插入图片描述

2、规则表示示例

规则表示 :

表示方式 : 以 " IF-THEN " 条件语句表达 , 如 : " 如果前方障碍物距离 < 安全阈值 , 且速度 > 0 , 则紧急制动 " ;
场景划分 : 将复杂环境分解为 " 路口 " 、 " 超车 " 、 " 跟车 " 等子场景 , 每个场景应用特定规则 ;

3、基于规则技术架构优点

基于规则技术架构的优点 :

可解释性极强 : 每步决策都有明确规则对应 , 故障定位和调试便捷 ;
安全性高 : 预设安全策略确保已知场景行为符合预期 , 适合高风险场景 ;
可控性好 : 工程师可精确设定行为边界 , 符合监管和安全标准 ;
资源高效 : 无需大量数据训练 , 在计算资源有限平台也能稳定运行 ;

4、基于规则技术架构缺点

基于规则技术架构的缺点 :

场景覆盖有限 : 难以穷举所有交通场景 , 对未预设情况可能失效 ;
规则爆炸 : 随着场景增多 , 规则库复杂度指数级增长 , 易出现冲突 ;
适应性差 : 面对非常规交通行为或道路变化 , 反应僵化 , 缺乏灵活性 ;
开发维护成本高 : 新场景需人工编码规则 , 迭代周期长 ;

二、端到端技术架构

在自动驾驶端到端 ( End-to-End ) 技术架构中 , " 两个端 " 指的是原始感知输入端和驾驶控制输出端 , 核心是通过单一神经网络直接完成 " 输入 ->输出 " 的映射 , 跳过传统模块化架构中的感知、决策、规划等中间拆分环节 ;

原始感知输入端 : 又称为 " 原始传感器输入端 ( Raw Sensor Input End ) “ 或 ” 输入端 ( Input End ) " , 模型接收的、未经过人工预处理的多模态传感器原始数据 , 是自动驾驶系统 " 感知世界 " 的起点 , 无需先通过独立感知模块提取特征 ( 如 " 识别行人 " " 检测车道线 " ) , 直接将原始信号送入神经网络 ;
驾驶控制输出端 : 又称为 " 控制指令输出端 ( Control Command Output End ) “ 或 ” 输出端 ( Output End ) " , 模型直接输出的、可被车辆执行层 ( ECU ) 直接解析的驾驶控制指令 , 是自动驾驶系统 " 操控车辆 " 的终点 , 无需中间决策模块生成 " 行为指令 " ( 如 : " 减速 " , " 左转 " ) , 直接映射为具体的执行参数 ;

1、端到端技术架构简介

自动驾驶端到端技术架构 : 是一种直接将传感器原始数据映射为车辆控制指令的架构 , 借助深度学习 , 用大规模数据训练神经网络 , 让系统直接将摄像头、激光雷达等传感器采集的原始数据 , 映射为方向盘转角、油门刹车力度等控制指令 ; 整个过程中 , 感知、决策、控制等环节不再拆分 , 而是由模型隐式完成内部处理 , 无需人工设置中间规则 ; 比如特斯拉 FSD V12 就采用该架构 , 直接通过原始传感器数据输出驾驶控制指令 ;

泛化能力 : 泛化能力突出 , 该架构能从海量数据中捕捉到人类难以总结的隐含规律 , 应对复杂交通场景更灵活
黑箱问题 : 决策过程 是神经网络内部复杂的参数运算 , 出现事故时难以追溯具体原因 , 不便于调试和监管 ; 同时对训练数据依赖极高 , 若数据中稀有场景覆盖不足 , 模型在这类场景下可能出现决策失误 , 且数据的采集、标注成本也十分高昂 ;

输入一堆点云数据、图片数据、雷达数据就直接给出转向、加速、减速指令 , 中间完全不知道发生了什么 , 有一定的 " 炼丹 " 科技 ;

端到端技术架构核心特点是 :

单模型全链路处理 : 使用单一神经网络完成 " 感知 -> 决策 -> 控制 " 全流程 , 无需人工划分模块 ;
数据直接驱动 : 从摄像头、激光雷达等传感器获取原始数据 , 直接输出方向盘转角、油门 / 刹车指令 ;
系统级优化 : 梯度信号可从控制端直接回传至输入层 , 实现全局最优 ;

传感器数据(图像/点云)  ->  神经网络  ->  控制指令(转向/加速/制动)

参考 Autoware 2.0 Architecture 文档 : https://autowarefoundation.github.io/autoware-documentation/main/design/autoware-architecture-v2/

在这里插入图片描述

Autoware 2.0 Architecture 文档中给出了端到端技术架构的架构图如下 :

在这里插入图片描述

轨迹生成器 ( Generator ) : 所有的传感器数据都要送入到 " 轨迹生成器 " 中 , 这是一个很灵活的轨迹生成模块 , 轨迹生成器指任何能够输出行驶轨迹的模块 , 它可以是以下一种或多种形式 :

基于规则的规划器 , 利用感知数据和地图信息经过感知、决策、规划、控制等规则生成指令 ;
采用原始传感器输入数据的端到端模型 ( E2E Models ) ;
学习型规划器 ( learned planners ) 或采样型规划器 ( sampling-based planners ) ;

轨迹选择器 ( Selector ) : 轨迹选择器接收候选轨迹后 , 将执行以下操作 :

安全校验 ( 例如 : 是否符合交通规则、是否处于可行驶区域 )
基于场景上下文或驾驶策略对候选轨迹进行排序 , 并选择最优方案 ;

2、端到端技术架构实现形式

端到端技术架构实现形式 :

显式端到端 : 保留感知和规划模块 , 但通过联合训练确保一致性
隐式端到端 ( 纯端到端 ) :
- 特斯拉 FSD V12 : 8 个摄像头原始像素直接输入 , 48 个神经网络处理 , 输出控制指令
- 百度 UniAD : 将检测、跟踪、建图、轨迹预测、规划集成到一个 Transformer 框架
VLA 架构 ( 视觉 - 语言 - 动作 ) :
- 理想 AD Max : 端到端 + VLM (视觉语言模型) , 系统 1 处理常规场景 , 系统 2 (VLM) 辅助长尾场景 ;

① 数据采集

数据采集策略 :

车队数据采集 : 特斯拉利用全球 700 万辆车每天产生相当于 500 年驾驶时长的数据 , 通过 " 影子模式 " (Shadow Mode) 在不干预驾驶的情况下收集 ;
高质量驾驶员筛选 : 筛选出 " 五星级司机 " 标准 (评分> 90 分 , 仅 3% 车主达标) , 优先使用优质数据进行训练 ;
场景针对性采集 :
- 正常驾驶 : 城市、高速、乡村道路 ;
- 极端场景 : 暴雨、夜间、逆光、施工区域 ;
- 交互场景 : 无保护左转、行人横穿、加塞 ;

② 多模态数据融合与预处理

处理环节	具体操作	目的
时间同步	校准摄像头、LiDAR、IMU、CAN 数据时间戳	确保多传感器数据时空一致性
数据清洗	剔除异常值、填补缺失数据	提高数据质量和完整性
坐标转换	将不同传感器数据转换到统一坐标系	便于融合处理
图像预处理	动态分辨率调整、增强、标准化	提升模型感知能力
特征提取	BEV (鸟瞰图) 转换、时序特征构建	增强模型对空间和时间理解

③ 主流模型架构

主流模型架构 :

BEV+Transformer : 将多摄像头图像转换为鸟瞰图 , 再用 Transformer 建模时序关系 , 解决遮挡问题和长距离感知
Occupancy 网络 : 预测 3D 空间中每个点的占用状态 , 替代传统 3D 检测 , 提高复杂场景感知能力 ;
VLM (视觉 - 语言模型) 融合 : 结合大语言模型增强场景理解和决策能力 , 如商汤 " 开悟 " 世界模型 ;

④ 三阶段训练法

三阶段训练法 :

阶段	训练方法	核心目标	技术细节
阶段一 : 模仿学习 (冷启动)	行为克隆 (BC)监督学习	建立基本驾驶能力学习人类驾驶模式	使用高质量标注数据训练周期 : 3-5 epochs损失函数 : MSE / 交叉熵
阶段二 : 强化学习 (核心提升)	与世界模型交互策略优化	增强泛化能力掌握未见过场景提升安全性	在仿真环境中设计多维度奖励函数训练周期 : 10-20 epochs
阶段三 : 模型蒸馏 (部署准备)	知识迁移模型压缩	生成轻量化模型适配车端硬件	将云端大模型知识蒸馏到小模型精度损失 < 5%

⑤ 总结

端到端模型 训练是一个 " 数据驱动 + 策略优化 + 持续迭代 " 的系统工程 , 其核心在于 :

海量数据 : 海量高质量数据是基础 , 需覆盖各种场景 , 尤其是长尾危险情况 ;
训练策略 : 多阶段训练策略是关键 , 模仿学习快速启动 , 强化学习突破瓶颈 , 蒸馏实现高效部署 ;
优化策略 : 精心设计的损失函数和优化策略是模型性能的保障 , 决定了从感知到决策的准确性 ;
世界模型 : 世界模型与强化学习结合是未来趋势 , 可大幅降低数据需求并提升模型上限 ;
技术边界 : 当前端到端模型在复杂城市环境中仍需依赖部分规则辅助决策 , 完全摒弃规则的纯端到端系统 (如特斯拉 FSD V12) 在极端场景下的可靠性仍有安全风险 , 这也是行业持续研究的方向 ;

3、端到端技术架构优点

端到端技术架构优点 :

结构简化 : 省去模块间数据传递 , 减少信息损耗和延迟 , 响应速度提升 ;
泛化能力强 : 能处理未见过的新场景 , 捕捉人类难以总结的规律 ;
部署效率高 : 单一模型可快速适配新区域 , 降低地图更新成本 ;
类人驾驶 : 模仿人类 " 看路开车 " 的直觉决策 , 驾驶行为更自然流畅

4、端到端技术架构缺点

端到端技术架构缺点 :

黑箱特性 : 决策过程难以解释 , 事故调查和责任认定困难 ;
数据依赖 : 需海量标注数据训练 , 长尾场景覆盖不足易失误 ;
安全挑战 : 极端场景可靠性不如规则系统 , 部分车型在雨雾天气识别率仅 78% ;

端到端技术向神经网络输入图片像素数据 , 如果此时车前有个人 , 输出的可能是撞上去 / 停车 / 绕行 , 如果撞到人就是模型训练不到位 , 准确率低 , 改进模型即可 ;

三、自动驾驶的两种核心技术架构总结

1、基于规则技术架构与端到端技术架构对比

基于规则技术架构与端到端技术架构对比 :

对比维度	端到端技术	基于规则技术
架构核心	单一神经网络全链路处理	模块化设计 , 多环节串联
决策方式	数据驱动 , 自主学习模式	规则驱动 , 预设 " 如果 - 则 " 逻辑
系统复杂度	模型结构简单 , 但训练复杂	模块多但逻辑清晰 , 调试容易
适用场景	复杂城市道路、非结构化环境	高速巡航、结构化道路、安全关键场景
典型代表	特斯拉 FSD V12+、小鹏 XNGP	早期 ADAS 系统、部分 L2 辅助驾驶
最新趋势	与规则系统融合 , 形成混合架构	作为安全兜底 , 辅助端到端系统

2、基于规则技术 + 端到端技术混合架构

纯端到端或纯基于规则的方案均难以满足高阶自动驾驶的全面需求 , 将基于规则技术 + 端到端技术进行融合 , 采用二者的混合架构 :

保障安全 : 将紧急刹车、避让行人等安全优先级高的功能用规则兜底 , 保障基础安全 ;
复杂场景 : 端到端模型负责复杂场景决策 , 处理城市道路拥堵、复杂路口会车等复杂场景的灵活决策 , 以此兼顾系统的安全性与智能性 ;
快慢系统 : " 快系统 + 慢系统 " 结合 , 快系统 ( 高帧率 ) 处理常规驾驶 , 慢系统 (低帧率) 处理复杂场景 ;

端到端和基于规则并非对立选择 , 而是 互补关系 ;

端到端提供更强的泛化能力和自然驾驶体验 ,
规则系统保障安全性和可解释性 ;

未来自动驾驶技术将持续融合两者优势 , 推动行业向更安全、更智能的方向发展 ;

print("Hello World!")

dao_phrases = [
    "基于规则技术架构",
    "端到端技术架构"
]

print("\n自动驾驶的两种核心技术架构：")
for i, phrase in enumerate(dao_phrases, 1):
    print(f"{i}. {phrase}")