轨迹优化 | 微分动态规划DDP与迭代线性二次型调节器iLQR理论推导

微分动态规划DDP与迭代二次型调节器iLQR是非线性轨迹优化中最常用的一类算法。本文从贝尔曼最优性原理出发，详细推导DDP与iLQR的算法脉络，并总结其正向反向传播的迭代过程

Mr.Winter`

2015人浏览 · 2026-01-19 09:48:23

Mr.Winter` · 2026-01-19 09:48:23 发布

0 专栏介绍

🔥课设、毕设、创新竞赛必备！🔥本专栏涉及更高阶的运动规划算法轨迹优化实战，包括：曲线生成、碰撞检测、安全走廊、优化建模(QP、SQP、NMPC、iLQR等)、轨迹优化(梯度法、曲线法等)，每个算法都包含代码实现加深理解

🚀详情：运动规划实战进阶：轨迹优化篇

1 LQR算法的局限性

若系统动力学特性可以用一组线性微分方程表示，且性能指标为状态变量和控制变量的二次型函数，则此类最优控制问题称为线性二次型问题。线性二次调节器(Linear Quadratic Regulator, LQR)是求解线性二次型问题常用的求解方法之一，其数学形式优美且求解解析性强。然而，LQR固有的局限性也相当显著，主要体现在两个方面：

LQR的核心理论建立在线性系统模型与二次型代价函数的基础之上，对非线性的被控对象应用LQR必须首先在工作点附近进行线性化，这种近似处理在状态偏离工作点较大或期望优化的轨迹远离线性化区域时，控制器性能会急剧下降甚至导致不稳定；
LQR本质上是一种无限时间域的静态状态反馈策略，它求解的是一个全局统一的、固定的反馈增益矩阵，通常用于初解生成(这方面应用可以参考轨迹优化 | 基于最优控制的运动学约束路径平滑与粗轨迹生成(附ROS C++/Python实现))。静态反馈难以处理具有复杂约束、时变目标或需要在状态空间中进行大范围机动的优化问题。

在这里插入图片描述

从LQR的线性化局限可以看出，对于轨迹优化问题

$J\left( \boldsymbol{u} \right) =\ell _f\left( \boldsymbol{x}_N \right) +\sum_{k=0}^{N-1}{\ell \left( \boldsymbol{x}_k, \boldsymbol{u}_k \right)}\\ s.t.\ \ \boldsymbol{x}_{k+1}=\boldsymbol{f}\left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) , k=0,1,\cdots ,N-1$

其中系统动力学和损失函数均为非线性函数。若仅在 $\boldsymbol{x}_0$ 处线性化，那么在给定轨迹的其他位置 $\boldsymbol{x}_i$ 都不容易满足该局部线性假设。自然地，如果在每个轨迹点都进行线性化，就能避免单一线性模型带来的误差，同时当轨迹点足够稠密时能取得接近非线性模型的精度。本节介绍应用该思想处理非线性轨迹优化问题的微分动态规划(Differential Dynamic Programming, DDP)算法及其特例迭代线性二次型调节器iLQR算法。

2 贝尔曼最优性原理

离散时间系统的控制问题本质上是基于迭代的多级决策问题，求解的核心是贝尔曼最优性原理(Bellman’s Principle of Optimality)，表述为：若

$\boldsymbol{x}\left( 1 \right) , \boldsymbol{x}\left( 2 \right) , \cdots , \boldsymbol{x}\left( N \right)$

是0时刻起，以 $\boldsymbol{x}\left( 0 \right)$ 为初始状态的控制问题最优解，则对 $\forall k=0,1,\cdots ,N-1$ ，决策序列

$\boldsymbol{x}\left( k+1 \right) , \boldsymbol{x}\left( k+2 \right) , \cdots , \boldsymbol{x}\left( N \right)$

是 $k$ 为初始时刻， $\boldsymbol{x}_k$ 为初始状态的子问题的最优解。贝尔曼最优性原理体现了动态规划在控制理论中的应用。

为了应用贝尔曼最优性原理，定义最优控制下最小化的性能指标

$V\left( \boldsymbol{x}\left( k \right) ,k \right) \xlongequal{\mathrm{def}}\min _{\boldsymbol{u}\in \mathcal{U}}J\left( \boldsymbol{u}; \boldsymbol{x}\left( k \right) ,k \right) , k=0,1,\cdots$

为最优控制问题的值函数(Value Function)。离散时间最优控制问题的最优控制满足以下关于值函数的贝尔曼方程(Bellman Equation)

$\begin{cases} V\left( \boldsymbol{x}\left( N \right) ,N \right) =h_D\left( \boldsymbol{x}\left( N \right) , N \right)\\ V\left( \boldsymbol{x}\left( k \right) ,k \right) =\underset{\boldsymbol{u}\in \mathcal{U}}{\min}\left\{ g_D\left( \boldsymbol{x}\left( k \right) ,\boldsymbol{u}\left( k \right) ,k \right) +V\left( \boldsymbol{x}\left( k+1 \right) , k+1 \right) \right\} \,\,k=N-1,\cdots ,0\\\end{cases}$

本质上是一个反向动态规划过程。若能解得贝尔曼方程的唯一解，即对 $\forall k=0,1,\cdots ,N-1$ 都有已知的函数 $V\left( \boldsymbol{x}\left( k \right) ,k \right)$ ，则对于任意时刻 $k$ 和任意可能状态 $\boldsymbol{x}_k$ ，可得闭环最优控制

$\boldsymbol{u}\left( k \right) =\mathrm{arg}\min _{\boldsymbol{u}\in \mathcal{U}}\left\{ g_D\left( \boldsymbol{x}\left( k \right) ,\boldsymbol{u}\left( k \right) ,k \right) +V\left( f_D\left( \boldsymbol{x}\left( k \right) ,\boldsymbol{u}\left( k \right) , k \right) , k+1 \right) \right\}$

3 微分动态规划DDP原理

对于第 $k$ 个轨迹点，将系统状态方程 $\boldsymbol{f}$ 在 $\boldsymbol{x}=\boldsymbol{x}_k$ 、 $\boldsymbol{u}=\boldsymbol{u}_k$ 处二阶展开

$\boldsymbol{f}\left( \boldsymbol{x}_k+\delta \boldsymbol{x}, \boldsymbol{u}_k+\delta \boldsymbol{u} \right) =\boldsymbol{f}\left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) +\boldsymbol{F}_{\boldsymbol{x}}\delta \boldsymbol{x}+\boldsymbol{F}_{\boldsymbol{u}}\delta \boldsymbol{u}\\\,\, +\frac{1}{2}\boldsymbol{F}_{\boldsymbol{xx}}\left( \delta \boldsymbol{x}\otimes \boldsymbol{I}_n \right) \delta \boldsymbol{x}+\frac{1}{2}\boldsymbol{F}_{\boldsymbol{uu}}\left( \delta \boldsymbol{u}\otimes \boldsymbol{I}_m \right) \delta \boldsymbol{u}+\frac{1}{2}\boldsymbol{F}_{\boldsymbol{xu}}\left( \delta \boldsymbol{x}\otimes \boldsymbol{I}_m \right) \delta \boldsymbol{u}+\frac{1}{2}\boldsymbol{F}_{\boldsymbol{ux}}\left( \delta \boldsymbol{u}\otimes \boldsymbol{I}_n \right) \delta \boldsymbol{x}$

同样地，将损失函数在 $\boldsymbol{x}=\boldsymbol{x}_k$ 、 $\boldsymbol{u}=\boldsymbol{u}_k$ 处二阶展开

$J\left( \boldsymbol{u} \right) =\boldsymbol{\ell }_{f, \boldsymbol{x}}^{T}\delta \boldsymbol{x}_N+\frac{1}{2}\delta \boldsymbol{x}_{N}^{T}\boldsymbol{\ell }_{f, \boldsymbol{xx}}\delta \boldsymbol{x}_N+\\\sum_{k=0}^{N-1}{\left( \boldsymbol{\ell }_{\boldsymbol{x}}^{T}\delta \boldsymbol{x}_k+\boldsymbol{\ell }_{\boldsymbol{u}}^{T}\delta \boldsymbol{u}_k+\frac{1}{2}\delta \boldsymbol{x}_{k}^{T}\boldsymbol{\ell }_{\boldsymbol{xx}}\delta \boldsymbol{x}_k+\frac{1}{2}\delta \boldsymbol{u}_{k}^{T}\boldsymbol{\ell }_{\boldsymbol{uu}}\delta \boldsymbol{u}_k+\frac{1}{2}\delta \boldsymbol{x}_{k}^{T}\boldsymbol{\ell }_{\boldsymbol{xu}}\delta \boldsymbol{u}_k+\frac{1}{2}\delta \boldsymbol{u}_{k}^{T}\boldsymbol{\ell }_{\boldsymbol{ux}}\delta \boldsymbol{x}_k \right)}$

根据贝尔曼最优性原理可得

$\begin{cases} V_N\left( \boldsymbol{x}_N \right) =\ell _f\left( \boldsymbol{x}_N \right)\\ V_k\left( \boldsymbol{x}_k \right) =\min _{\boldsymbol{u}_k}\left\{ \ell \left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) +V_{k+1}\left( \boldsymbol{x}_{k+1} \right) \right\}\\\end{cases}$

对值函数在 $\boldsymbol{x}=\boldsymbol{x}_k$ 处二阶泰勒展开

$V_k\left( \boldsymbol{x}_k+\delta \boldsymbol{x} \right) =V_k\left( \boldsymbol{x}_k \right) +\boldsymbol{s}_{k}^{T}\delta \boldsymbol{x}+\frac{1}{2}\delta \boldsymbol{x}^T\boldsymbol{S}_k\delta \boldsymbol{x}$

设动作值函数

$Q_k\left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) =\ell \left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) +V_{k+1}\left( \boldsymbol{x}_{k+1} \right) =\ell \left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) +V_{k+1}\left( \boldsymbol{f}\left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) \right)$

对动作-值函数在 $\boldsymbol{x}=\boldsymbol{x}_k$ 、 $\boldsymbol{u}=\boldsymbol{u}_k$ 处二阶泰勒展开

$Q_k\left( \boldsymbol{x}_k+\delta \boldsymbol{x}, \boldsymbol{u}_k+\delta \boldsymbol{u} \right) =Q_k\left( \boldsymbol{x}_k, \boldsymbol{u}_k \right) +\boldsymbol{Q}_{k,\boldsymbol{x}}^{T}\delta \boldsymbol{x}+\boldsymbol{Q}_{k,\boldsymbol{u}}^{T}\delta \boldsymbol{u}\\+\frac{1}{2}\delta \boldsymbol{x}^T\boldsymbol{Q}_{k,\boldsymbol{xx}}\delta \boldsymbol{x}+\frac{1}{2}\delta \boldsymbol{u}^T\boldsymbol{Q}_{k,\boldsymbol{uu}}\delta \boldsymbol{u}+\frac{1}{2}\delta \boldsymbol{x}^T\boldsymbol{Q}_{k,\boldsymbol{xu}}\delta \boldsymbol{u}+\frac{1}{2}\delta \boldsymbol{u}^T\boldsymbol{Q}_{k,\boldsymbol{ux}}\delta \boldsymbol{x}$

求导利用链式法则和乘法原理

$\boldsymbol{Q}_{k,\boldsymbol{u}}=\boldsymbol{\ell }_{\boldsymbol{u}}+\boldsymbol{F}_{\boldsymbol{u}}^{T}\boldsymbol{s}_{k+1} \\ \boldsymbol{Q}_{k,\boldsymbol{xx}}=\mathcal{L} _{\boldsymbol{xx}}+\boldsymbol{F}_{\boldsymbol{x}}^{T}\boldsymbol{S}_{k+1}\boldsymbol{F}_{\boldsymbol{x}}+\underset{\text{二阶部分}}{\underbrace{T\left( \boldsymbol{F}_{\boldsymbol{xx}} \right) \left( \boldsymbol{s}_{k+1}^{}\otimes \boldsymbol{I}_n \right) }} \\ \boldsymbol{Q}_{k,\boldsymbol{uu}}=\mathcal{L} _{\boldsymbol{uu}}+\boldsymbol{F}_{\boldsymbol{u}}^{T}\boldsymbol{S}_{k+1}\boldsymbol{F}_{\boldsymbol{u}}+\underset{\text{二阶部分}}{\underbrace{T\left( \boldsymbol{F}_{\boldsymbol{uu}} \right) \left( \boldsymbol{s}_{k+1}^{}\otimes \boldsymbol{I}_m \right) }} \\ \boldsymbol{Q}_{k,\boldsymbol{ux}}=\mathcal{L} _{\boldsymbol{ux}}+\boldsymbol{F}_{\boldsymbol{u}}^{T}\boldsymbol{S}_{k+1}\boldsymbol{F}_{\boldsymbol{x}}+\underset{\text{二阶部分}}{\underbrace{T\left( \boldsymbol{F}_{\boldsymbol{ux}} \right) \left( \boldsymbol{s}_{k+1}^{}\otimes \boldsymbol{I}_n \right) }}$

当不考虑环境的二阶属性时，DDP退化为迭代LQR算法(Iterative Linear Quadratic Regulator, iLQR)。

对泛函增量 $\varDelta V_k\left( \boldsymbol{x}_k+\delta \boldsymbol{x} \right) =\min _{\delta \boldsymbol{u}}\left\{ \varDelta Q_k\left( \boldsymbol{x}_k+\delta \boldsymbol{x}, \boldsymbol{u}_k+\delta \boldsymbol{u} \right) \right\}$ 求最优扰动 ${{\partial \varDelta Q_k\left( \boldsymbol{x}_k+\delta \boldsymbol{x}, \boldsymbol{u}_k+\delta \boldsymbol{u} \right)}/{\partial \delta \boldsymbol{u}}}=\mathbf{0}$ 可得

$\delta \boldsymbol{u}^*=\boldsymbol{K}_k\delta \boldsymbol{x}+\boldsymbol{d}_k$

其中 $\boldsymbol{K}_k=-\boldsymbol{Q}_{k,\boldsymbol{uu}}^{-1}\boldsymbol{Q}_{k,\boldsymbol{ux}}$ 、 $\boldsymbol{d}_k=-\boldsymbol{Q}_{k,\boldsymbol{uu}}^{-1}\boldsymbol{Q}_{k,\boldsymbol{u}}$

将 $\delta \boldsymbol{u}^*$ 代回 $\varDelta Q_k\left( \boldsymbol{x}_k+\delta \boldsymbol{x}, \boldsymbol{u}_k+\delta \boldsymbol{u} \right)$ 对比 $\varDelta V_k\left( \boldsymbol{x}_k+\delta \boldsymbol{x} \right) =\boldsymbol{s}_{k}^{T}\delta \boldsymbol{x}+{{\delta \boldsymbol{x}^T\boldsymbol{S}_k\delta \boldsymbol{x}}/{2}}$ 可得

$\begin{cases} \boldsymbol{s}_k=\boldsymbol{Q}_{k,\boldsymbol{x}}+\boldsymbol{K}_{k}^{T}\boldsymbol{Q}_{k,\boldsymbol{uu}}\boldsymbol{d}_k+\boldsymbol{Q}_{k,\boldsymbol{ux}}^{T}\boldsymbol{d}_k+\boldsymbol{K}_{k}^{T}\boldsymbol{Q}_{k,\boldsymbol{u}}\\ \boldsymbol{S}_k=\boldsymbol{Q}_{k,\boldsymbol{xx}}+\boldsymbol{K}_{k}^{T}\boldsymbol{Q}_{k,\boldsymbol{uu}}\boldsymbol{K}_k+\boldsymbol{Q}_{k,\boldsymbol{xu}}^{T}\boldsymbol{K}_k+\boldsymbol{K}_{k}^{T}\boldsymbol{Q}_{k,\boldsymbol{ux}}\\\end{cases}$

至此，DDP与iLQR算法的核心原理推导完成

4 算法流程与图示

在这里插入图片描述

🔥 更多精彩专栏：

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享请联系👇

松山湖开发者村综合服务平台

助力广东及东莞地区开发者，代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展，成为松山湖开发者首选的工作与学习平台

更多推荐

【2025最新高维多目标优化】基于城市场景下无人机三维路径规划的导航变量的多目标粒子群优化算法NMOPSO研究（Matlab代码实现）

随着无人机应用场景的复杂化，城市场景下的三维路径规划需同时优化路径长度、飞行时间、威胁规避、能耗等多个相互冲突的目标。传统单目标优化算法难以平衡多目标需求，而基于导航变量的多目标粒子群优化算法（NMOPSO）通过引入导航变量引导粒子搜索方向，结合多目标优化框架，在保持种群多样性的同时提升收敛速度，为无人机三维路径规划提供了高效解决方案。本文系统阐述NMOPSO算法的原理、在三维路径规划中的建模与实