小模型当老师效果更好：借助RLTs方法7B参数击败671B，训练成本暴降99%

强化学习教师模型代表了训练推理语言模型的范式转变。通过从答案开始并专注于解释生成，RLT将训练过程转化为师生协作游戏，实现多方共赢：教师学会有效教学，学生从定制化课程中受益，工程师获得性能更好且成本更低的模型解决方案。

傻逼社区云

2506人浏览 · 2025-06-27 10:36:13

傻逼社区云 · 2025-06-27 10:36:13 发布

Sakana AI提出的强化学习教师模型（Reinforcement-Learned Teachers, RLTs）代表了一种全新的训练范式。该方法颠覆了传统强化学习需要模型从零开始通过稀疏奖励信号解决问题的训练方式，转而从已知答案出发，训练小型"教师"模型以适合学生模型学习的方式解释解决方案。

实验结果表明，仅有7B参数的教师模型在推理教学效果上超越了671B参数的大型模型，同时显著降低了训练成本和时间开销。本文将深入分析RLT的工作机制，与RLHF、监督微调及传统知识蒸馏等方法进行对比，并提供详细的代码实现示例以及基于Docker和Kubernetes的部署方案。

传统强化学习在推理任务中的局限性

传统强化学习在语言模型训练中面临诸多挑战，特别是在复杂推理任务方面。在经典的RL推理训练框架中，大型模型需要与环境（如数学问题集或编程挑战）进行交互，仅在得出正确答案时才能获得奖励。这种"学习求解"的方法要求模型通过试错过程自主发现解决方案，在随机尝试获得正确答案之前往往无法获得任何奖励信号。

传统RL方法的主要问题包括：首先是奖励稀疏性和长序列依赖问题。解决复杂数学问题或编写程序涉及多个步骤，但传统RL通常只在最终结果处提供二元奖励（正确或错误）。这种极其稀疏的信号使得模型无法识别其长推理过程中哪些部分是有益的或有害的。

其次是探索效率低下的问题。如果模型的初始能力不足，它几乎不可能通过随机探索获得正确解决方案来获取奖励。正如Sakana团队所指出的，基于一次性正确性的RL训练"依赖于语言模型在初始化时具备一定概率探索并解决任务的能力"。换言之，在困难任务上开始RL训练需要一个具备相当基础能力的大型模型。

第三个问题是过拟合到狭窄任务分布。那些成功通过此类训练的模型往往会过度适应狭窄的任务分布，在训练问题上表现出色，但在该领域之外的泛化能力有限。我们在专门的数学和编程LLM中观察到这种现象——它们在基准测试中表现优异，但在其他场景下的通用性不足。

为应对这些挑战，业界通常采用两阶段训练流程：首先通过RL在困难任务上训练巨型教师模型，然后利用该教师的解决方案来指导学生模型的训练（知识蒸馏）。例如，DeepMind的DeepSeek R1（具有671B参数）经过RL训练来解决问题，其生成的推理轨迹经过过滤后用于训练更小的模型。虽然这种方法有效，但存在明显的效率问题。

这种传统方法需要一个巨大且成本极高的模型来完成RL阶段。教师模型的训练目标（解决问题）与实际需求（生成易于学生学习的解释）之间存在不一致。此外，巨型教师的输出通常需要大量后处理工作（甚至需要GPT-4进行清理）才能成为合适的教学材料。

从工程实践角度来看，这种方法包含大量计算资源浪费、人工干预的过滤步骤，以及清理输出的外部API调用。显然需要更精简高效的解决方案。

RLT：从教学角度重新定义训练目标

强化学习教师模型（RLT）从根本上重新定义了训练范式。与传统方法要求模型自主解决问题不同，RLT预先提供问题的解决方案。在训练过程中，RLT教师模型同时接收问题和正确答案作为输入。教师的任务不是重新发现答案，而是解释为什么该答案是正确的。这类似于优秀的人类教师无需在每堂课上重新推导已知定理，而是专注于清晰地解释其原理。

这种方法被称为"学习教学"范式。核心思想是使用专门设计的奖励函数来训练教师，该奖励函数衡量教师的解释对帮助学生模型理解解决方案的有效性。具体的训练循环包括以下步骤：

首先是输入阶段，教师模型接收问题及其正确答案作为格式化的输入对，无需进行答案猜测。然后是教师输出阶段，教师生成解释或推理轨迹，建立问题与给定答案之间的逻辑连接，有效展示从问题到答案的推理过程。

接下来是学生评估阶段，将问题和教师的解释输入到独立的学生模型中，测试学生恢复或确认正确答案的能力。这通过计算学生模型在给定解释作为上下文时对正确答案的对数似然来实现。然后是奖励信号生成，该对数似然值作为连续的密集奖励信号，而非二元的通过失败判定。如果学生因解释而对答案高度确信，奖励值较高；如果学生仍然困惑（对正确答案的概率较低），奖励值较低。

最后是教师更新阶段，使用强化学习算法（如策略梯度或PPO）更新教师模型的权重，使其倾向于生成能够获得更高学生对数似然的解释。

这种方法的优势在于奖励信号的密集性。即使学生没有完美预测答案，对数概率也能提供"接近程度"的平滑梯度信息。这相当于为教师提供部分分数评估，这是传统RL所缺乏的。由于教师始终知道答案，不存在困难的"探索"障碍；即使是小型模型也能尝试解释每个问题，包括那些它无法独立解决的问题。

为防止简单的作弊行为，即教师在解释中直接透露答案，Sakana团队设计了对未解释标记的惩罚机制。这有效防止教师在解释中包含答案片段而缺乏适当推理的情况。例如，如果正确答案是数字或最终陈述，教师直接在解释中包含该内容将受到惩罚。这促使教师生成真正的解释：引导学生理解解决过程，而非简单地提供答案。

以下是该过程的伪算法表示：

 foreachtrainingquestion-answerpair (Q, A):  # 对于每个训练问题-答案对
     teacher_explanation=Teacher.generate_explanation(Q, A)       # 教师已知答案A
     student_confidence=Student.evaluate_answer(Q, teacher_explanation, A)
     reward=student_confidence-penalty_for_revealing_answer(teacher_explanation, A)
     UpdateTeachertomaximizereward (policygradientorsimilar)  # 更新教师以最大化奖励

Sakana AI的实际实现采用了更复杂的技术，包括PPO式更新和KL散度惩罚以维持输出分布的稳定性，但上述伪代码体现了核心思想。

RLT方法的强大之处体现在两个关键方面。首先是训练目标与实际用途的一致性。在传统流程中，教师被训练来解决问题，但在测试时（蒸馏阶段）其任务是生成解释，存在目标不一致问题。而在RLT中，教师的训练目标正是生成优质教学轨迹，这与其输出的实际用途完全一致。我们不再期望求解器同时具备教学能力，而是直接训练专门的教师模型。

其次是小型模型的参与能力。由于预先提供答案，即使是7B模型（可能无法独立解决困难数学问题）也能为其生成合理的解释。通过提供解决方案来锚定解释过程，我们实质上引导了模型的推理能力。这意味着RL阶段不再需要超大型的100B+参数模型。RLT论文明确指出，他们能够使用"小型、高效的教师模型，这些模型本身无法独立解决问题"。

实验结果令人印象深刻。在相同条件下训练相同规模的学生时，7B参数的RLT教师模型在教学能力上超越了671B参数的传统求解训练教师（DeepSeek R1）。这一结果表明，小型教师在提升学生能力方面实际上比大型教师更为有效。7B RLT教师帮助7B学生在一系列困难推理任务上达到约26.3%的准确率，而使用DeepSeek R1作为教师时仅为18.9%。即使对于32B学生，7B RLT教师也实现了37.6%的准确率，优于R1的34.4%。

测试任务包括2024年美国邀请数学考试（AIME）、MATH竞赛基准和研究生级问答（GPQA）集合，这些都是具有真正挑战性的问题。RLT方法在这些综合基准上以更少的计算资源创造了新的最优性能。

同样重要的是，RLT解释在质量上明显优于传统RL教师的输出轨迹，表现出更高的清晰度和针对性。Sakana团队观察到，DeepSeek R1的解决方案往往包含冗余的工具使用或不相关的内容，而RLT解释更加专注，甚至提供了大型模型轨迹中缺失的清晰度。这是一个额外的优势：强化学习教师自然地学会了简洁的教学风格，无需人类反馈或明确的风格指导。

RLT方法通过从答案出发，有效绕过了RL最困难的探索问题，并将稀疏奖励转化为丰富的训练信号。从工程实践角度来看，这代表了一种更智能的工作方式，而非简单地增加计算资源投入。

RLT与其他训练方法的对比分析

为了更好地理解RLT的技术定位和优势，有必要将其与当前主流的训练方法进行详细对比，包括基于人类反馈的强化学习（RLHF）、监督微调（SFT）和知识蒸馏（KD）。

RLHF与RLT的差异

基于人类反馈的强化学习（RLHF）主要通过训练反映人类偏好的奖励模型来使模型行为与人类价值观对齐。例如，ChatGPT的训练过程包括人类对输出进行排序，奖励模型学习预测这些排序，最终使用PPO算法微调模型以最大化该奖励。RLHF在使模型遵循指令、保持礼貌、避免有害内容等方面表现出色，因为它直接优化人类评价的质量标准。然而，RLHF并非专门针对推理正确性或教学效果，而是关注人类偏好的满足。

在RLHF中，模型通过探索不同的输出来寻找能够取悦奖励模型（代表人类偏好）的响应。这仍然面临传统RL的一些挑战：需要具备一定能力的初始模型，奖励函数的设计和调优困难，模型可能会利用奖励模型的缺陷。

RLT与RLHF的主要区别在于，RLT中的"奖励模型"实际上是学生模型在特定任务上的成功表现。整个过程中没有人类参与，奖励是明确的自动化指标（已知正确答案的对数概率）。这更类似于任务特定的对齐，而非与模糊人类偏好的对齐。可以说，RLT之于推理正确性，正如RLHF之于人类偏好对齐。

从实施角度来看，RLHF通常需要大量人类标注数据来训练奖励模型，而RLT利用现有的问答数据集（包含标准答案）且无需人类排序，答案的正确性本身就提供了训练信号。RLHF通常应用于已经在大量数据上训练的模型（如指令调优模型的进一步行为优化），而RLT专门用于训练推理任务中的蒸馏教师模型。两者在某些方面具有互补性，可以想象结合使用RLHF来确保教师解释不仅有效而且符合人类偏好，尽管RLT本身并不明确优化人类偏好，而是专注于学生理解效果。

监督微调的比较

监督微调（SFT）是训练大型语言模型的基础方法，通过获取大量（输入，输出）示例并训练模型模仿这些示例（最小化交叉熵损失）。对于推理任务，SFT可能涉及在人类编写的解决方案或其他模型的思维链数据上进行微调。实际上，Sakana团队为RLT教师进行了初始监督预热，使用包含人类或基线推理轨迹的数据集。他们使用了包含17,000个样本的"Bespoke-Stratos-17k"数据集（来自Hugging Face），包含问题、解决方案和推理轨迹，在进行强化学习之前让教师模型掌握基本的解释格式。

标准SFT通过直接模仿数据集来训练模型根据给定问题（可能包含答案）生成解释。其局限性在于需要高质量的解释数据集，而且在没有强化学习的情况下，模型性能不会超越训练数据的质量上限。RLT可以被视为通过强化学习生成自身训练数据的方法，它使用学生模型作为评判者来优化解释质量，从而超越初始监督语料库的限制。

RLT论文中的一个重要发现是，RLT教师的原始输出（无需任何过滤或人工编辑）就足以训练学生并超越之前使用更大教师加仔细过滤的蒸馏流程。因此，RLT本质上自动化了曾经劳动密集型的SFT数据收集过程。从这个角度来看，RLT并非完全替代SFT，而是对其的增强。典型的流程可能是：初始SFT进行模型初始化，然后通过强化学习改进教师，最后再次使用SFT在教师输出上训练最终的学生模型。

知识蒸馏的改进

知识蒸馏通常指训练较小的学生模型来复制较大教师模型的行为或输出。在推理LLM的背景下，蒸馏通常意味着在大量问题上运行大型模型获取推理轨迹和答案，可能需要清理这些轨迹，然后在合成的问题到轨迹数据上微调较小模型。这是压缩模型能力的有效技术，许多开源项目如Alpaca、Polyglot等都依赖从GPT-4或其他大型模型的蒸馏。

Sakana之前关于时间自适应插值蒸馏（TAID）的工作探讨了通过时间平滑传输来改进大模型到小模型的知识转移。蒸馏研究的一个重要见解是，对于教师而言，更大并不总是更好。如果教师过于先进，其知识可能对学生来说"过于复杂"而难以吸收。这解释了为什么中间教师策略（如TAID的渐进教师）或RLT的小型专业教师实际上可能表现更好。

RLT本质上是一种更智能的推理任务知识蒸馏方法。与采用巨型模型的原始思维链不同，RLT训练定制教师来生成专门调优的思维链用于教授特定学生。在经典蒸馏中，通常必须大量清理或过滤教师输出（因为可能包含错误或无关步骤）。使用RLT，教师被设计为产生高质量、有指导性的解释，因此可以更直接地使用其输出。

RLT可以被视为带有反馈循环的蒸馏：我们不是盲目信任大型模型的解决方案，而是主动优化教师为学生生成最佳可能的训练数据。重要的是，RLT在不需要巨型教师或像GPT-4这样的外部验证器的情况下实现了最先进的学生性能。它使用小型模型和巧妙的目标函数来蒸馏推理能力。从工程角度来看，这意味着对专有模型的依赖减少，计算需求降低，这对开源发展和成本控制都是有利的。

总结而言，RLHF专注于与人类偏好的对齐，适用于对话AI或内容审核；RLT专注于教师模型与学生学习的对齐，适用于构建高效的推理器训练流程。SFT是RLHF和RLT的基础技术（用于模型初始化或最终蒸馏），知识蒸馏是RLT所属的更广泛类别，但RLT通过引入强化学习循环来优化蒸馏数据本身，将蒸馏技术提升到了新的水平。

RLT训练循环的技术实现

为了深入理解RLT的工作机制，我们将通过PyTorch和Hugging Face transformers库实现一个简化的RLT训练循环。虽然这个实现不如Sakana的完整流程复杂（他们使用DeepSpeed进行多GPU训练和vLLM进行高吞吐量生成），但能够清楚地展示核心组件和工作原理。

需要注意的是，在大型模型上运行完整的RLT训练需要显著的硬件资源（原论文使用8块H100 GPU训练数天）。然而，这个示例可以在较小规模上进行实验，帮助理解关键概念。核心组件包括教师模型、学生模型、奖励函数和教师的优化过程。

模型架构设置

我们假设能够访问预训练的语言模型作为教师和学生。在Sakana的实现中，教师和学生都基于Qwen（阿里巴巴的开源LLM系列）。学生在教师训练期间通常是固定的预训练模型（作为未来学生的代理），也可以进行联合训练。Sakana AI在教师强化学习期间保持独立的学生模型且不更新它，学生更像是一个实时评估器。

为了演示目的，我们选择较小的模型。在实际应用中，会使用更强大的基础模型如7B指令调优模型。

 import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载教师和学生模型（使用小型模型进行演示）
teacher_name = "gpt2"  # 演示用小型模型
student_name = "gpt2"  # 实际应用中，学生可能是不同或更大的模型
teacher_model = AutoModelForCausalLM.from_pretrained(teacher_name)
student_model = AutoModelForCausalLM.from_pretrained(student_name)
teacher_tokenizer = AutoTokenizer.from_pretrained(teacher_name)
student_tokenizer = AutoTokenizer.from_pretrained(student_name)

# 设置模型训练状态
teacher_model.train()   # 教师模型将被优化
 student_model.eval()    # 学生模型固定，作为奖励提供者

奖励函数的实现

奖励函数必须捕获学生在给定教师解释情况下对解决方案的理解程度。我们的实现计算学生模型在给定问题和教师解释作为上下文时对正确答案token的对数似然。同时，如果教师的解释泄露了答案，我们实施简单的惩罚机制。

 def compute_reward(student_model, student_tokenizer, question, explanation, correct_answer):
    """
    计算奖励，基于学生在给定问题和解释时对正确答案的对数似然。
    如果答案在解释中出现则施加惩罚（防止作弊）。
    """
    # 构建学生输入：问题和教师解释
    # 假设学生随后会产生答案（我们评估正确答案的可能性）
    prompt = question + " " + explanation + "\nThe answer is:"
    inputs = student_tokenizer(prompt, return_tensors="pt")
    answer_tokens = student_tokenizer(correct_answer, add_special_tokens=False).input_ids
    
    # 获取学生模型输出（下一个token预测的logits）
    with torch.no_grad():
        outputs = student_model(**inputs)
    logits = outputs.logits  # 形状 [1, seq_len, vocab_size]
    
    # 计算序列中每个答案token的对数概率
    log_prob = 0.0
    seq_len = inputs.input_ids.shape[1]
    
    for idx, token in enumerate(answer_tokens):
        # 使用对应位置的logits
        # 简化实现：仅考虑提示后第一个token的位置
        pos = seq_len - 1 if idx == 0 else -1  # 演示简化
        token_log_prob = torch.log_softmax(logits[0, pos, :], dim=-1)[token]
        log_prob += token_log_prob.item()
        # 注意：完整的序列解码需要迭代更新输入并重新计算logits
    
    # 惩罚机制：如果答案出现在解释中
    penalty = 0.0
    if correct_answer.strip() in explanation:
        penalty = 5.0  # 对作弊行为的任意惩罚值
    
     return log_prob - penalty

这个实现的几个要点需要说明。我们在解释后添加"The answer is:"这样的提示来引导学生输出答案。虽然不是严格必需的，但在思维链格式中通常有推理过程后跟最终答案的结构。

计算答案概率的正确方法是进行自回归评分：输入提示，然后逐一输入正确答案tokens，每次获得给定所有先前上下文的下一个token概率。为简洁起见，我们通过在提示后取第一个token的logits来部分实现这一点。完整的实现需要循环处理，添加第一个答案token，重新运行模型（或使用增量解码），等等。

如果在解释中发现答案文本，我们设置固定的5.0惩罚。在实际应用中，可能会设计更细致的惩罚机制，例如为解释中存在的任何答案tokens减去对数概率，或使用正则表达式检测教师是否仅在解释中写了"Answer: 42"并对此进行惩罚。

教师解释生成

在训练过程中，对于每个问题-答案对，我们需要教师生成解释。这可以通过标准的语言模型生成方法实现，使用一定的最大长度和可能的温度参数。由于我们将问题和答案作为教师的输入提供，需要以教师模型期望的方式格式化提示。

 def generate_explanation(teacher_model, teacher_tokenizer, question, answer, max_tokens=128):
    prompt = f"Question: {question}\nSolution: {answer}\nExplanation: "
    input_ids = teacher_tokenizer(prompt, return_tensors="pt").input_ids
    
    # 为解释生成续写
    output_ids = teacher_model.generate(
        input_ids, 
        max_length=input_ids.shape[1] + max_tokens,
        do_sample=True, 
        top_p=0.9, 
        temperature=1.0
    )
    
    # 移除提示部分
    generated_ids = output_ids[0, input_ids.shape[1]:]
    explanation = teacher_tokenizer.decode(generated_ids, skip_special_tokens=True)
     return explanation.strip()

我们使用nucleus采样（top-p）来引入一定的随机性。在训练期间，教师输出的一些探索性变化有助于学习过程（类似于RL中尝试不同动作）。Sakana的代码可能使用类似方法，甚至使用零温度（贪婪）生成，但依赖RL的随机性。使用基于采样的生成可以防止教师陷入单一风格。

完整训练循环

现在我们整合生成、奖励计算和强化学习更新。最简单的策略梯度更新（REINFORCE）包括：计算采样解释的奖励，计算教师生成该解释的对数概率，将对数概率乘以奖励，执行梯度上升来更新权重。

 optimizer = torch.optim.AdamW(teacher_model.parameters(), lr=1e-5)

# 演示用的简单数据集
dataset = [
    ("What is 2+2?", "4"),
    ("Calculate the derivative of x^2.", "2x"),
    # ... 更多样本
]

for epoch in range(1):  # 演示单轮训练
    for question, answer in dataset:
        # 生成解释
        explanation = generate_explanation(teacher_model, teacher_tokenizer, question, answer)
        
        # 从学生计算奖励
        reward = compute_reward(student_model, student_tokenizer, question, explanation, answer)
        reward_value = reward
        
        # 计算教师模型下解释的对数概率（用于策略梯度）
        prompt = f"Question: {question}\nSolution: {answer}\nExplanation: "
        enc = teacher_tokenizer(prompt + explanation, return_tensors="pt")
        input_ids = enc.input_ids
        prompt_len = teacher_tokenizer(prompt, return_tensors="pt").input_ids.shape[1]
        
        # 从教师获取对数概率（需要启用梯度）
        outputs = teacher_model(input_ids, labels=input_ids)
        token_logprobs = torch.log_softmax(outputs.logits, dim=-1)
        
        # 提取生成token的对数概率（排除提示）
        expl_ids = input_ids[0, prompt_len:]
        expl_logprob = token_logprobs[0, range(prompt_len, input_ids.shape[1]), expl_ids]
        expl_logprob_sum = expl_logprob.sum()
        
        # 策略梯度：最大化 奖励 * 对数概率
        loss = -reward_value * expl_logprob_sum
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
         print(f"Q: {question}, A: {answer}\nExplanation: {explanation}\nReward: {reward_value:.3f}\n")

这个训练循环的几个关键点：我们对整个序列（提示+解释）进行tokenization，然后分离出解释部分的对数概率。我们排除提示tokens，因为我们只需要教师生成内容的概率，而非给定的提示内容。REINFORCE更新指导我们推动模型使高奖励解释更可能出现。实际应用中，通常需要基线（如平均奖励）来减少方差。

通过这种方式，如果在玩具数据集上运行上述代码，可以观察到教师逐渐改进其解释以提高学生的信心。例如，最初教师可能仅重述答案（并受到惩罚），但随着时间推移，它可能学会说"2+2等于4，因为我们将两个2相加"，这使学生对4更有信心而不直接在解释中复制"4"。

基于容器化的部署架构

了解了RLT的训练原理后，我们需要考虑在实际环境中的部署实施。现代AI系统的部署离不开容器化技术，它提供了环境一致性、可移植性和可扩展性。Sakana AI团队开源了他们的代码并提供了详细的实验指导，包括使用Hydra进行配置管理，以及在8块H100 GPU节点上使用DeepSpeed的设置说明。

Docker容器构建

我们需要构建一个包含CUDA、PyTorch以及DeepSpeed和vLLM依赖项的镜像。DeepSpeed需要特定的CUDA兼容性和系统库支持。为了简化部署，我们基于官方PyTorch镜像或NVIDIA CUDA镜像，然后通过pip安装其他组件。

 FROM nvidia/cuda:12.1.1-cudnn8-devel-ubuntu22.04

# 安装系统依赖和Python环境
ENV DEBIAN_FRONTEND=noninteractive
RUN apt-get update && apt-get install -y \
    python3 python3-pip git git-lfs wget && \
    apt-get clean && rm -rf /var/lib/apt/lists/*

WORKDIR /app

# 安装PyTorch（匹配测试环境版本）
RUN pip3 install torch==2.6.0+cu121 torchvision==0.17.0+cu121 torchaudio==2.6.0+cu121 \
    --extra-index-url https://download.pytorch.org/whl/cu121

# 安装核心NLP库
RUN pip3 install transformers==4.30.2 datasets==2.12.0 accelerate==0.21.0

# 安装分布式训练支持
RUN pip3 install deepspeed==0.9.5

# 安装高吞吐量推理引擎
RUN pip3 install vllm==0.8.3

# 安装性能优化库
RUN pip3 install flash-attn==2.2.0 --no-build-isolation
RUN pip3 install flashinfer-python==0.1.0

# 复制RLT代码
COPY . /app/RLT

# 安装项目依赖
RUN pip3 install -r /app/RLT/requirements_08.txt

 CMD ["python3", "/app/RLT/train.py", "--help"]

该Dockerfile的构建考虑了几个关键因素。我们从CUDA基础镜像开始，确保与GPU计算环境的兼容性。git-lfs的安装是为了处理从Hugging Face下载的大型模型权重文件。DeepSpeed支持多GPU扩展和ZeRO优化策略，这对于在8块H100上进行训练至关重要。vLLM是高性能推理引擎，通过优化GPU内存使用提供高吞吐量模型服务。flash-attn和flashinfer提供专门的GPU性能优化，加速transformer训练和推理过程。

构建镜像的命令如下：

 docker build -t sakana-rlt:latest .

Kubernetes批处理作业部署

对于需要使用Kubernetes管理训练作业的场景（特别是在具有GPU节点的云环境中），我们可以创建相应的作业规范。这需要集群具备GPU支持并安装了NVIDIA GPU设备插件。

 apiVersion: batch/v1
kind: Job
metadata:
  name: rlt-teacher-train
spec:
  template:
    spec:
      restartPolicy: Never
      containers:
      - name: rlt-trainer
        image: your-registry/sakana-rlt:latest
        imagePullPolicy: IfNotPresent
        command: ["./launch_with_server.sh"]
        args:
          - "1"            # vLLM服务器GPU数量
          - "7"            # 训练GPU数量
          - "cfgs/run_cfg/teacher_rlt.yaml"
          - "output_dir=/results/rlt-teacher-7b"
          - "dataset_id_or_path=bespokelabs/Bespoke-Stratos-17k"
          - "model_name_or_path=Qwen/Qwen2.5-7B-Instruct"
        resources:
          limits:
            nvidia.com/gpu: 8
            cpu: 32
            memory: 200Gi
        volumeMounts:
        - name: results
          mountPath: /results
      volumes:
      - name: results
        persistentVolumeClaim:
           claimName: my-results-pvc

这个配置为容器分配8块GPU，其中1块用于vLLM服务器，7块用于训练。大型模型训练需要大量CPU和内存资源用于数据加载和处理开销。我们挂载PersistentVolumeClaim来持久化输出，确保训练检查点和日志在作业完成后可以访问。

成本效益分析

RLT方法的一个重要优势在于显著的成本效益。传统的"学习求解"RL方法需要在超大型模型（如670B参数的DeepSeek R1）上进行数月的训练，单个8块H100节点按每小时25美元计算，一天成本为600美元，一个月为18,000美元，数月可能达到50,000到100,000美元以上。

相比之下，Sakana的RLT训练（7B教师加学生蒸馏）在单节点上不到一天即可完成，成本不到600美元。即使考虑一些前期监督微调和多次迭代，总成本可能在数千美元范围内，而非数万或数十万美元。

通过利用开源模型（如Hugging Face上免费的Qwen 7B）和开放数据集，可以避免为专有模型API访问付费。如果拥有云GPU或大型本地GPU设施，RLT能够高效利用这些资源，而无需按token向API服务付费。这对预算有限的初创公司和研究实验室特别重要。

在推理部署方面，训练完成的学生模型（特别是性能良好的32B模型）可以使用vLLM等优化运行时进行服务。由于学生模型比GPT-4规模的教师小得多，推理成本更低且速度更快。我们本质上将推理技能转移到了紧凑的形式中，使生产部署变得可行。

技术架构图解

为了更清楚地理解RLT如何重构训练流程，我们通过图表对比不同方法的架构。

在传统RL流程中，需要大型教师和大量蒸馏后处理工作。而在RLT流程中，小型教师直接产生高质量的教学轨迹，简化了整个蒸馏过程。

RLT内部反馈循环的详细机制如下：

RLT的师生反馈循环展示了教师如何接收问题和答案，生成解释，学生评估该解释的有效性，并提供奖励信号来指导教师的改进。这与传统RL循环形成鲜明对比，后者只能在最终结果处获得稀疏的"正确或错误"反馈。

总结

Sakana AI的研究证明，即使是7B参数的模型，经过RLT训练后，在复杂任务上的表现也能超越巨型模型，并且训练速度更快、成本更低。对于那些受够了不断增长的模型规模和训练预算的研究者和工程师来说，RLT提供了一种清新的替代方案。它表明智能的训练策略可以胜过蛮力计算，并且与现实世界的约束条件高度契合。

虽然不是每个组织都拥有万亿级token数据集或专用超级计算机，但许多组织拥有一两块高质量GPU和一些标注样本。使用RLT，这可能就足以构建真正智能的系统。我们通过代码示例展示了RLT如何与RLHF、SFT和蒸馏技术进行比较，并提供了容器化和Kubernetes部署方案，强调这不仅仅是理论研究，而是可以在实际环境中部署的技术。

随着大型语言模型技术的成熟，我们可能会看到更多反映人类教学和学习方式的技术出现。人类不通过蛮力学习复杂技能，而是依靠教师、课程和循序渐进的指导。现在训练AI成为教师来教授AI是合适的发展方向。从工程角度来看，这种方法减少了与最先进AI相关的工程开销和计算膨胀，这正是我们所需要的进步方向。

因此，这里向教师们致敬——那些默默无闻的英雄，现在以神经网络的形式出现。通过RLT，即使是模型生态系统中的"小角色"也能成为优秀的教师，帮助我们一次一个清晰解释地构建下一代AI系统。

作者：Tim Urista