LLM逻辑推演策略选择：推理时计算 vs 训练时计算

AGI实现的一大标志是，具备人类级别的逻辑推理（reasoning）能力。近期，随着推理（inference）模型GPT o1、DeepSeek R1-Lite的发布，模型的逻辑推理能力得到显著提升，也预示着对LLM潜力的深度挖掘正在转向推理阶段。围绕增强LLM逻辑推理能力这一目标，美国人工智能与密码学研究实验室Bagel团队结合最新研究，从算术、常识和符号这三种主要逻辑推理类型出发，对比了在推理

OneFlow深度学习框架

2726人浏览 · 2024-11-22 10:04:14

OneFlow深度学习框架 · 2024-11-22 10:04:14 发布

AGI实现的一大标志是，具备人类级别的逻辑推理（reasoning）能力。近期，随着推理（inference）模型GPT o1、DeepSeek R1-Lite的发布，模型的逻辑推理能力得到显著提升，也预示着对LLM潜力的深度挖掘正在转向推理阶段。

围绕增强LLM逻辑推理能力这一目标，美国人工智能与密码学研究实验室Bagel团队结合最新研究，从算术、常识和符号这三种主要逻辑推理类型出发，对比了在推理时计算与训练时计算这两种策略下增强LLM逻辑推理能力的优劣。结果显示，推理时计算是更好的技术选择。

（本文由OneFlow编译发布，转载请联系授权。原文：https://blog.bagel.net/p/train-fast-but-think-slow）

作者 | Bagel Team

OneFlow编译

翻译｜张雪聃、林心宇、刘乾裕
题图由SiliconCloud平台生成

AI好似火焰。

近年来，我们在技术上取得了突破性进展。比如社交媒体、增强现实、平台转换如Web、移动设备等，不过，AI是一项更为重要的技术，它的意义堪比火种的发现，它有潜力改变我们物种进化的轨迹。

解锁AI潜力的“圣杯”之一就是构建能够像人类一样逻辑推理的系统。通过提升AI，尤其是大语言模型（LLM），可以分析复杂问题并应用逻辑步骤的能力。

Bagel的研究团队一直在探索这个问题。我们分析了LLM的构建技术，特别是微调技术，旨在让LLM从模式识别预测智能体发展成为真正的认知智能体。我们的深入研究涵盖了三种主要的逻辑推理类型，也就是智能：算术、常识和符号。

现在，我们想和大家分享研究成果。该研究针对的是我们认为AI进化最终目标的核心问题——人类级逻辑推理，甚至超越人类级逻辑推理（神级推理？）。

我们探索了模型开发中训练和微调阶段的技术，也探索了推理时阶段的逻辑推理，在这个阶段，LLM可以在推理过程中生成新的解决方案，即使这些解决方案并不包含在它们的训练数据集中。

逻辑推理类型

各种逻辑推理任务拓展了AI的能力。首先，让我们了解一下它们的定义。

算术逻辑推理促使机器学习以明确的方式测试问题解决能力。它迫使模型分解问题，选择多种策略，从而连接步骤以找到解决方案。这使得数学逻辑推理与其他不同。它清晰地展示了模型能在多大程度上掌握细节，并按正确的步骤使用解决方案。

常识逻辑推理颠覆了我们的预期。模型必须理解人们日常生活中奇怪的逻辑。当系统面对人类互动的怪癖时，挑战就出现了。我们理所当然的隐性规则，如门在你走进之前会打开；时间是向前流动的而非倒流的；水让物体变湿，这些显而易见的真理变成了AI系统必须解开的复杂难题。

符号逻辑推理打破了传统机器学习的模式。虽然神经网络在模糊模式匹配上表现出色，但符号要求精确。模型必须遵循严格的规则，操控抽象概念，链式逻辑推理。像一个严谨的数学家，而不是一个直觉艺术家。符号本身没有固有意义，但通过它们，我们建立起指向人类级逻辑推理的逻辑塔。

除了这些核心类型，逻辑推理还有多种形式。逻辑推理得出严格的结论，而归纳推理则进行创造性的跳跃。因果逻辑推理追踪行动与后果之间隐藏的线索。多模态逻辑推理在文本、图像和数据的复杂组合中进行理解。知识图谱则映射事实与关系之间的联系。然而，所有这些逻辑推理形式都服务于一个目标——将AI从模式匹配推动到真正的理解。从记忆的回应到新颖的见解，从预测到理解。

接下来，我们将探讨训练时间（training-time）和推理时间（Inference-time），以增强这些推理类型的能力。

1. 训练时间的策略

1.1 微调方法

参数高效微调（PEFT）

工作原理：PEFT颠覆了传统的模型适应方法（https://arxiv.org/abs/2304.01933）。通过四种方法揭示了新的技术。

基于提示的学习将可调信号嵌入到冻结（frozen）的模型中。前缀微调（Prefix-tuning）和P微调（P-tuning）引入了微小的变化。这些变化不会改变主体模型，但会改变输出结果。

重参数化方法，如LoRA简化复杂的权重矩阵将大规模更新转化为高效的低秩形式。LoRA通过最小的调整从高维空间中捕捉模式。

适配器创建额外的神经通路。串行适配器层层叠加，每一层逐步调整输出。并行适配器发展侧面技能，保持基础模型不变。

适配器的位置至关重要。串行适配器位于MLP层后面，并行适配器则在这些层内表现更好。LoRA涉及注意力层和MLP层。每种方法都瞄准正确的位置。

实用价值：PEFT减少了资源需求。大模型可以在不做重大改动的情况下获得新能力。PEFT在保留基础模型的同时增加了专业技能。原本在微调方面受限的硬件现在能够处理复杂的更新。

权衡取舍：并非所有任务都适合PEFT。有些模型需要更深入的变化，基础模型的限制仍然存在。结合不同方法可能会很复杂。PEFT在处理非常复杂的任务时可能会遇到困难。

WizardMath

工作原理：WizardMath通过三个不同的步骤进行学习（https://arxiv.org/abs/2308.09583）。

首先是监督微调。在这一阶段，模型开始捕捉数学模式，识别基本结构，模式被映射到解决方案上。这一过程为常见操作建立直觉，奠定基础。

接下来，指令奖励模型细化了这一过程。这些模型评判答案和方法的效率，引导模型向优质的解决方案迈进，重点从正确性转向质量。

最后，基于PPO的强化学习增强了问题解决能力。模型测试不同的想法，进行适应和改进。Evol-Instruct反馈循环在每次运行时优化其逻辑（https://arxiv.org/abs/2304.12244）。WizardMath模型变得更擅长选择策略。

实用价值：大多数模型只是匹配模式，而WizardMath则按逻辑步骤思考。它像数学家一样分解问题，根据理解而非记忆选择方法。这能带来有效精准的解决方案。

权衡取舍：训练WizardMath需要大量的计算资源，专注于深度数学限制了它的通用性。低质量数据可能会引发错误，实用性方案有时会被更加简洁巧妙的解决方案替代。

发散思维链（DCoT）

工作原理：DCoT打破了单一路径的处理方式（https://arxiv.org/abs/2407.03181），同时形成多条路径，每条路径以不同的方式解决问题，最终汇聚到一个推理结论上。

零样本生成可以带来多样化的解决方案。每条路径都追求真相，各自沿着自己的方式前进。有些路径直接明了，有些则更复杂，但都有效。模型的表现就像一个专家小组，每条路径提供不同的视角。

这些路径之间会相互作用，强大的策略会合并，弱点则会暴露。模型学会评估自己的推理，比较方法，融合见解，而这一切无需额外的训练。

实用价值：多条路径提供内置的验证。当路径一致时，结果的可信度提高；当路径不一致时，问题也随之浮现。不同的视角揭示隐藏细节，多样性加深理解。

权衡取舍：更多路径意味着更高的计算需求，平衡多样性和一致性也充满挑战。冲突路径需要解决，对于简单任务来说，这种方法可能有些过度。多个路径不总是优于单一路径。

1.2. 预训练和知识迁移

持续预训练

工作原理：像Galactica(https://arxiv.org/abs/2211.09085) 和MINERVA(https://arxiv.org/abs/2206.14858)这样的模型不仅限于标准训练。它们从超过1000亿个科学数据的词元中学习，包括数学论文、科学文章和技术文档。原始数据被转换成结构化知识。

Galactica包括特定科学术语的词元，将引文视为词汇的一部分，使化学公式具有意义，并将数学符号视作工具，学习科学的语言。

MINERVA专注于定量逻辑推理，回答物理、化学和经济学中的自然语言问题，将问题转换为数学公式，使用LaTeX展示详细解答，并独立进行计算。

实用价值：在特定领域中，小型模型能超过大型模型。它们掌握复杂的数学，自然地处理技术符号。通用模型与专家之间的差距缩小。

权衡取舍：训练成本上升，每个领域都需要大量新数据。随着新知识的积累，旧知识可能逐渐被淡忘。在某一领域的深入专注与多领域通用性之间找到平衡很难；模型可能在物理学上表现出色，但在其他领域相对较弱。

课程学习

工作原理：学习从随机采样转变为结构化进阶（https://aclanthology.org/2022.naacl-main.72/）。类似进化过程，但有指导、目的明确。

教师网络对训练样本进行排序，先易后难。复杂概念在简单概念的基础上建立，步调函数（pacing function）控制知识流动，有时固定，有时自适应，以响应模型的理解能力。

有三种方法可以评估样本难度：问题回答概率追踪模型的成功率；模型可变性观察一致性；基于能量的评分识别异常情况和边缘案例。课程会根据这些信号进行调整。

实用价值：模型学习效率更高，先夯实基础，再逐步应对复杂内容。概念理解在过程中自然增长，每个概念都强化了前一个概念，按顺序学习让复杂概念变得更易理解。

权衡取舍：即便是专家，设计出有效的课程也是一项挑战。这会延长学习时间，而且有些概念难以按顺序安排。从简单到复杂的路径并不总是清晰明了，有时无序反而比有序更具启发性。

思维链知识蒸馏

工作原理：大模型成为教师，小模型成为学生，知识通过精心挑选的示例传递（https://arxiv.org/abs/2212.08410）。

过程分为两步。首先生成思维链数据，大模型逐步解决问题，展示其思考过程，形成逻辑推理路线，只有正确的解答才会被采纳，毕竟质量比数量更重要。

接着是学生微调，小模型从这些示例中学习，不仅看答案，还看思考过程。目标答案引导初步步骤，防止小错误导致整体解答偏离轨道。教师引导（强制）机制确保学生模型沿着正确的方向学习。

实用价值：小型模型也能够进行高级逻辑推理了，复杂问题的解决技能能高效地传递给它们。小型模型可以在资源有限的情况下学会清晰思考，无需承担计算负担就能获得大型模型的智慧。

权衡取舍：在信息传递过程中，部分复杂性会有所丢失。学生模型的能力终究无法与教师模型完全匹配。知识蒸馏过程需要精心把控，因为不良示例可能会导致模型养成不良习惯。在信息压缩与理解之间保持平衡是一件极为微妙的事情。

2. 推理时间的策略

2.1. 基于链式的方法

思维链（CoT）

工作原理：Wei等人（https://arxiv.org/abs/2201.11903）在2022年的论文中重新定义了逻辑推理过程，仅用八个示例就引导语言模型逐步解决问题，激活了模型的潜在能力。

通过精准的提示，模型能够展现出其内部逻辑推理过程。在此过程中，无需对模型开展新的训练或进行变更，只需运用一些具有策略性的示例，就可以挖掘出模型的这种潜在能力。

模型学着将问题分解成类似人类思维的逻辑步骤，使每一步都清晰明了，从而让其内部的思考过程从一个“黑箱”状态转变成一个可见的步骤序列。

这种方法扩展性很强。PaLM在思维链提示的助力下，在StrategyQA中的准确率达到了75.6%，在体育问题方面的准确率更是高达95.4%，超过了人类专家。对于复杂的数学问题，它能通过清晰的步骤推理予以解决。在常识性任务中，原本隐含的假设能够以自然语言呈现出来，而符号问题也变得通俗易懂。

实用价值：Wei等人的工作在多个领域展现出了突破性成果。LaMDA 137B就是一个例证，它通过合理的逻辑推理得出了96%的正确答案，让解题过程清晰透明。而且，规模更大的模型能给出更具连贯性的解释。

权衡取舍：逻辑推理过程有时会出现失误，模型也可能陷入混乱状态。据Wei的研究，在错误答案中，有46%存在轻微差错，而54%则有着重大的逻辑漏洞。顺序逻辑推理的方式可能会遭遇阻碍，复杂的任务往往会使模型逼近甚至突破其能力极限。

程序化思维（PoT）

工作原理：Chen等人2022年的研究（https://arxiv.org/abs/2211.12588）改变了模型处理数学问题的方式。他们将自然语言转换为可执行程序，以机器级别的精确度解决复杂问题。

过程十分流畅，文字问题直接转换为Python代码，变量捕捉文本中的关键细节，函数体现解题策略，算法从简单描述中逐渐生成，模型精确地协调外部工具。

PoT创下了新记录，少样本环境下数学基准提升了8%，而在零样本环境下则提高了12%。代码以结构化逻辑讲述了一个完整的推理过程，控制流与人类思维路径高度契合。程序既是解决方案，也是解释过程。

PAL进一步拓展了这一点。Gao等人在2023年（https://arxiv.org/abs/2211.10435）展示了模型如何借助Python解释器提升逻辑推理能力，使复杂计算更加精准。形式化的数学运算可以自然地表达。

实用价值：精确性是关键。数学问题自然地转化为代码，模型将高阶逻辑推理与计算准确性结合在一起，仿佛数学家与超级计算机并肩工作。

权衡取舍：有些问题无法很好地转化为代码。执行程序会引发安全问题。模型必须同时处理自然语言和代码，这会增加出错的风险。

2.2. 一致性和验证方法

自一致性（Self-Consistency）

工作原理：Wang等人（https://arxiv.org/abs/2203.11171）于2022年引入了SC，从贪婪解码转向统计抽样。这种方法彻底改变了推理过程。

每一步不再只有一个解，而是产生多条路径。自一致性方法能同时探索多种逻辑推理路径，解码器在概率空间中采样不同的轨迹。通过重复步骤来减少错误，并通过采样进行验证，从而提高准确性。

SC具有坚实的统计基础。它通过对样本进行边缘化处理，来减少单一路径中的错误。可以将其类比于量子力学：多个路径同时存在，真相在统计模式中逐渐显现。

他们的方法具有突破性。解码器生成n条独特的逻辑推理链，每条链遵循不同的概率路径。最终答案通过多数投票得出，但这一过程并不仅仅是简单的计数，而是综合了多种推理结果。

Wang团队测试了从UL2-20B到PaLM-540B的多个模型，整体准确率均有所提升。小型模型的提升最为显著，这表明自一致性方法可以激发各类模型的潜在能力，无论模型大小都能受益。

实用价值：数字说明了一切。多条路径会自动验证答案。不同的路径可以捕捉到边缘情况。探索的路径越多，稳健性就越高。数量转化为质量。

权衡取舍：计算成本增加。每条路径都需要资源。内存使用量激增。有时会出现矛盾的路径。解决这些冲突会增加复杂性。

自背书（Self-endorsement）

工作原理：Wang等人于2024年（https://arxiv.org/abs/2402.15631）提出了自背书（SE）这一新的验证方法。系统生成多样化的回应，然后对其进行分析。事实被提取、标记并相互比较。通过跨回应验证，为每个事实分配支持分数。

SE使用了先进的事实提取算法。神经检索技术识别关键陈述，自动交叉引用帮助模型区分强事实与弱事实。这个统计验证过程推动了系统的高效运作。

高分事实会影响未来的输出，而低分事实则会触发重新评估。每次传递通过一致性来细化模型的响应。

事实提取过程技术复杂。命名实体识别用于识别关键元素，关系抽取则用于映射这些元素之间的联系，整个过程完全自动化，无需人工干预。

实用价值：提高准确性，减少幻觉现象。系统能够自我验证事实，通过置信分数使回应更加可靠。

权衡取舍：处理时间更长，事实提取有时会失败。复杂陈述难以简单验证，某些符合实际的事实可能因不符合统计模式而被误判为无效。

由少到多提示法（Least-to-Most Prompting）

工作原理：Zhou等人于2022年（https://arxiv.org/abs/2205.10625）提出了由少到多提示法（LM），该系统将任务分解为更小的部分，并逐步解决每个部分。

该过程分为多个阶段。首先，模型分析输入内容；接着，识别子任务；然后逐一解决每个部分；最后，将各部分结果整合。每个阶段都基于前一个阶段的输出，逐步推进。

例如，在处理“cat dog bird”这样的“取词尾字母”任务时，模型会分别处理每个单词，从“cat”得到“t”，从“dog”得到“g”，从“bird”得到“d”，然后将它们组合成“tgd”。模型在包含四个单词的情况下达到了94%的准确率，即使包含十二个单词也能保持74%的准确率。

错误是可以预测的。有时字母会在连接过程中丢失，有时会出现多余的字母。但模型很少会混淆每个单词的最后一个字母。

实用价值：LM方法非常高效，仅需两个示例即可良好运行。相比传统方法，它使用的token更少，却能达到甚至超过相同的效果。

扩展性令人印象深刻。该模型能够处理比训练示例长四倍的序列，且不损失准确性。标准方法在长序列上的表现较差，十二词测试仅达到31.8%的准确率，而LM达到了74%，且在更复杂任务中优势逐步扩大。

权衡取舍：某些任务难以拆分，特定问题需要不同的方法。该方法需经过更多步骤，因此增加了处理时间。

技术上的限制随之出现。模型必须跟踪partial方案，且序列越长，内存使用量越大。某些任务需要多次尝试才能找到最佳的拆分方式。

精心的规划至关重要。子任务的顺序会影响准确性，高效的信息管理变得尤为关键。系统必须根据不同问题调整其拆分策略。

如何测试逻辑推理能力

自19世纪末实验心理学兴起以来，认知科学一直在研究人类的逻辑推理能力。该领域对技术发展、教育提升、认知障碍治疗以及改善决策具有重要意义。科学家们使用多种工具来研究逻辑推理，包括解决问题的任务、计算模型、大脑成像（fMRI和EEG）以及眼动追踪等行为测量。这些综合方法帮助研究人员深入理解人类的逻辑推理过程。

类似地，AI研究人员也设计了逻辑推理任务，以特殊数据集的形式来测试大型语言模型（LLM）的逻辑推理能力。由于AI更偏向工程学和计算机科学领域，这些数据集为测试AI系统提供了严格的基准，帮助研究人员衡量模型的准确性并识别其可能存在的不足之处。

用于测试AI在某一类型逻辑推理上的数据集应在该类型的逻辑推理任务中具有多样性，以便涵盖任务的不同复杂性和细微差别。例如，为评估语言模型的常识逻辑推理能力，可以使用ARC数据集(https://paperswithcode.com/dataset/arc)。下图展示了在ARC挑战数据集上，不同来源的最佳大型语言模型排名。

推理时技术用绿色表示，训练时技术用橙色表示，标准基础模型用蓝色表示。