随机森林样本权重的计算-弱学习器

摘要：本文介绍了AdaBoost算法中样本权重更新的核心公式和计算步骤。公式中，$D_t(x)$表示样本权重，$a_t$为模型权重，通过指数规则调整预测正确/错误样本的权重（乘以$e^{-a_t}$或$e^{a_t}$），并用归一化因子$Z_t$保证权重总和为1。计算步骤包括初始等权重分配、计算$Z_t$和更新权重。举例展示了3个样本的权重更新过程：预测错误的样本权重增加，正确的减少，最终归一化。

sjsn_z

580人浏览 · 2026-01-27 22:38:56

sjsn_z · 2026-01-27 22:38:56 发布

1. 公式符号含义

$D_t(x)$ ：第 $t$ 轮时，某个样本 $x$ 的权重

$D_{t+1}(x)$ ：第 $t + 1$ 轮时，这个样本 $x$ 的更新后权重

$Z_t$ ：归一化因子（第 $t$ 轮所有样本权重调整后的总和，保证新权重总和为 1）

$a_t$ ：第 $t$ 轮模型的权重（通常由模型错误率计算得出，如 AdaBoost 中 $at=12ln⁡(1−ϵtϵt)a_t = \frac{1}{2}\ln\left(\frac{1-\epsilon_t}{\epsilon_t}\right)$ ， $ϵt\epsilon_t$ 是错误率）

指数项规则：

若样本 $x$ 预测值 = 真实值 → 乘以 $e^{-a_t}$ （降低该样本权重）

若样本 $x$ 预测值 ≠ 真实值 → 乘以 $e^{a_t}$ （提高该样本权重）

2. 计算步骤

初始权重设定
第一轮时，所有样本权重通常相等，即
$D_1(x_i) = \frac{1}{N} \quad (i=1,2,\dots,N)$
其中 (N) 是样本总数。
计算归一化因子 (Z_t)
把第 (t) 轮所有样本的权重按预测结果乘以对应指数项后求和：
$Z_t = \sum_{i=1}^N D_t(x_i) \times \begin{cases} e^{-a_t} & \text{预测正确} \\ e^{a_t} & \text{预测错误} \end{cases}$
更新每个样本的权重
对每个样本，用第 (t) 轮的权重乘以对应指数项，再除以 (Z_t) 得到第 (t+1) 轮的权重：
$D_{t+1}(x_i) = \frac{D_t(x_i) \times \begin{cases} e^{-a_t} & \text{预测正确} \\ e^{a_t} & \text{预测错误} \end{cases}}{Z_t}$

3. 举例计算

假设：

样本数 (N=3)，初始权重 (D_1(x_1)=D_1(x_2)=D_1(x_3)=\frac{1}{3})
第 1 轮模型预测：(x_1) 正确，(x_2) 错误，(x_3) 正确
模型权重 (a_1 = 0.5)（由错误率计算得出）

步骤 1：计算 (Z_1)
$Z_1 = \frac{1}{3}e^{-0.5} + \frac{1}{3}e^{0.5} + \frac{1}{3}e^{-0.5}$
$\frac{2e^{-0.5} + e^{0.5}}{3}$

步骤 2：更新样本权重
$D_2(x_1) = \frac{\frac{1}{3}e^{-0.5}}{Z_1}, \quad D_2(x_2) = \frac{\frac{1}{3}e^{0.5}}{Z_1}, \quad D_2(x_3) = \frac{\frac{1}{3}e^{-0.5}}{Z_1}$