论文精读-《ReAct: Synergizing Reasoning and Acting in Language Models》,2022
本文提出ReAct方法,通过将推理(Reasoning)与行动(Acting)结合,增强语言模型在复杂任务中的表现。传统模型通常只能进行推理或行动中的一种,而ReAct通过交替生成自由形式的推理轨迹和执行具体操作,使模型能动态调整决策。实验表明,在知识推理(HotpotQA、FEVER)和交互决策(ALFWorld、WebShop)任务中,ReAct显著优于单一推理或行动基线。该方法通过稀疏但灵活
1 研究背景
Agent与环境交互以解决任务的一般设置:
时间t,收到观测ot∈O,根据策略Π(at|ct)采取行动 at∈A,其中上下文 ct=(o1,a1,......,ot-1,at-1,ot)
问题:当映射ct->at是高度隐式的并且需要大量计算时,学习一个策略是具有挑战性的。
例如:图 1(1c) 中所示的Agent无法生成正确的最终作(Act 4)来完成 QA 任务,因为它需要对轨迹上下文进行复杂的推理(Question, Act 1-3, Obs 1-3)。同样,图 1(2a) 中所示的代理无法从上下文中理解水槽 1 不包含胡椒瓶 1,因此不断产生幻觉动作。

图 1:
(1) 4 种提示方法的比较,(a) 标准,(b) 思维链(CoT,仅 Reason),(c) 仅 Act 和 (d) ReAct(Reason+Act),解决 HotpotQA(Yang et al., 2018)问题。(2) (a) Act-only 和 (b) ReAct 提示解决 AlfWorld (Shridhar et al., 2020b) 游戏的比较。
在这两个领域中,论文省略了提示中的上下文示例,仅显示模型(Act、Thought)和环境(Obs)生成的任务解决轨迹。
这说明了传统语言模型的局限性:
现有 LLMs 通常只能执行“推理(reasoning)”或“行动(acting)”中的一种:
- 推理模型(如Chain-of-Thought)只能进行内部逻辑思考,但无法与外部环境交互。
- 行动模型(如基于API调用或检索的agent)能执行操作,却缺乏复杂的逻辑规划与反思。
这使得模型在面对需要动态决策、检索外部信息或多步推理的任务时表现受限。
2 研究问题
从上述背景描述就引申出了论文的研究问题:
如何让大型语言模型(LLMs)在解决复杂任务时同时具备“思考能力(reasoning)”与“行动能力(acting)”,从而在动态环境中进行更有效的决策与问题求解。
3 解决方案
3.1 ReAct
提出了 ReAct 模式:将智能体的动作空间增加到 Aˆ = A ∪ L,其中 L 是语言空间。
L中的一个Action(文中将其称为思想(thought)或推理痕迹(reasoning trace))不会影响外部环境,因此不会导致观察反馈。相反,思考 aˆt 旨在通过对当前上下文 ct 进行推理来撰写有用的信息,并更新上下文 ct+1 = (ct, aˆt)以支持未来的推理或行动。如图 1 所示,可能有各种类型的有用想法,例如分解任务目标并制定行动计划(2b, Act 1; 1d, Thought 1)、注入与任务解决相关的常识性知识(2b, Act 1)、从观察中提取重要部分(1d, Thought2, 4)、跟踪进度和推进行动计划(2b, Act 8)、处理异常和调整行动计划(1d, Thought 3),依此类推。
论文阐述了类似的研究:
与 ReAct 最相关的是 SayCan(Ahn 等人,2022 年)和 Inner Monologue(Huang 等人,2022 年b),它们使用 LLM 进行机器人行动规划和决策。
在 SayCan 中,LLM 被提示直接预测机器人可以采取的可能行动,然后通过基于视觉环境的可供性模型重新排序以进行最终预测。
Inner Monologue 通过添加同名的“内心独白”进行了进一步的改进,该“内心独白”是作为来自环境的注入反馈来实现的。论文认为“内心独白”是第一部展示这种推理+行动闭环的作品,但认为“内心独白”并不真正包含内心思想——
- IM 的局限:
IM 的“内心独白”主要是对当前环境状态的描述,以及简单的任务目标(“我看到什么”、“我需要做什么”)。
→ 它缺乏更高层次的推理与多样的思考形式。- ReAct 的优势:
ReAct 的“推理轨迹(reasoning traces)”更加灵活、稀疏、多样,能根据不同任务自发地形成不同类型的推理。
例如:- 因果推理(为什么要这么做?)
- 规划推理(我下一步应该先查什么?)
- 假设检验(如果我找不到这个信息,是否换另一个方向?)
然而,由于语言空间 L 是无限的,在这个增强动作空间中学习是困难的,并且需要强大的语言先验,文中主要关注冻结大型语言模型 PaLM-540B的设置,该模型通过少量上下文示例提示,以生成特定领域的作和自由形式的语言思维以解决任务(图 1 (1d), (2b))。每个上下文示例都是人类的行动、想法和环境观察轨迹,以解决任务实例。
对于推理至关重要的任务(图1(1)),论文交替产生思想和行动,使任务解决轨迹由多个思想-行动-观察步骤组成。相比之下,对于可能涉及大量动作的决策任务(图 1(2)),思想只需要稀疏地出现在轨迹最相关的位置,因此论文让语言模型自行决定思想和行动的异步发生。
3.2 微调
对于所有微调,论文使用 64 的批量大小。在 PaLM-8B 上,论文微调了 4,000 步的 ReAct 和 Act 方法,以及 2,000 步的标准和 CoT 方法。在 PaLM-62B 上,论文微调了 4,000 步的 ReAct 和 Act 方法,以及 1, 000 步的标准和 CoT 方法。论文发现 ReAct 和 Act 方法通常受益于更多的训练步骤(和更多的训练数据),而标准和 CoT 方法在微调后很快就会降级。
对于 IM 式消融,ReAct 中使用的相同专家轨迹在这些轨迹中用密集的外部反馈思想重新注释,这限制了 ReAct-IM 只考虑 (1) 分解当前目标和 (2) 当前子目标需要完成。特别是,ReAct-IM 缺乏以下想法:(1) 确定子目标何时完成 (2) 确定下一个子目标应该是什么 (3) 诱导 LLM 参考其内部预训练知识来识别项目可以在环境中的位置。
由于大规模手动注释推理痕迹和动作的挑战,论文考虑了类似Zelikman等(2022)的自助方法,利用ReAct生成的3000条轨迹(以及其他基线)生成的正确答案,以微调较小的语言模型(PaLM-8/62B),以解码基于输入问题/主张的轨迹(所有思想、行为、观察)。示例:
问题:科罗拉多造山运动东部区域的海拔范围是多少?
思考1:我需要搜索科罗拉多造山运动,找到科罗拉多造山运动东部区域,然后找到该区域的高程范围。
行动1 搜索[科罗拉多造山运动]
观察1 科罗拉多造山运动是科罗拉多及周边地区发生的一次造山运动。
思考2:它没有提到东部战区。所以我需要查查东部区域。
行动2 查找[东部区域]
观察2(结果1 / 1) 东部区域延伸至高原,称为中央平原造山运动。
思考3 科罗拉多造山运动的东部区域延伸至高原地区。所以我需要搜索高原,找到它的海拔范围。
行动3 搜索[高原]
观察3 高原指的是两个截然不同的陆地区域之一。
思考4 我需要改为搜索美国高原地区。
行动4搜索[高原(美国)]
观察4 高原是大平原的一个子区域。从东向西,高原海拔从约1800英尺升至7000英尺(550至2130米)。[3]
思考5 高原的海拔从大约1800英尺升高到7000英尺,所以答案是1800到7000英尺。
动作5 Finsh[1800至7000英尺]
4 结果
使用的数据集:
- 知识密集型推理任务:问答 (HotpotQA)、事实验证(Fever)
- 交互式决策基准(ALFWorld 和 WebShop)
- 基于文本的游戏(ALFWorld)
- 网页导航(WebShop)
4.1 知识密集型推理任务
4.1.1 设置
领域
考虑了两个挑战知识检索和推理的数据集:
(1) HotPotQA (Yang et al., 2018),一种多跳问答基准,需要对两个或多个维基百科段落进行推理
(2) FEVER (Thorne et al., 2018),一种事实验证基准,其中每个主张都被注释为 SUPPORTS(支持)、REFUTES(驳斥) 或 NOT ENOUGH INFO(信息不够),基于是否存在维基百科段落来验证该主张。
对这两项任务都采用纯问题设置进行操作,其中模型仅接收问题/主张作为输入,而无法访问支持段落,并且必须依赖其内部知识或通过与外部环境交互来检索知识来支持推理。
行动空间
设计了一个简单的维基百科 Web API,其中包含三种类型的操作来支持交互式信息检索:
(1) search[entity],它返回相应实体 wiki 页面的前 5 个句子(如果存在),或者建议来自维基百科搜索引擎的前 5 个相似实体,
(2) lookup[string],它将返回包含字符串的页面中的下一句话, 模拟浏览器上的 Ctrl+F 功能。
(3) finish[answer],这将用 answer 完成当前任务。
作者提出这个动作空间大多只能根据确切的段落名称检索段落的一小部分(例如模型必须先知道要找的是“Albert Einstein”这一确切词条,才能获取内容),这明显弱于SOTA的词汇或神经检索器(先进的检索模型(比如基于BM25的词汇检索或基于BERT的语义检索)可以根据语义相似度从海量文档中找到最相关的信息,效果更强 )。
因此,ReAct 的检索能力在技术上比这些自动化检索器“弱得多”。
ReAct研究的目的是模拟人类如何与维基百科交互,并迫使模型通过语言中的显式推理进行检索。
简而言之,作者故意让 ReAct 的检索动作变“笨”,只允许按确切词条名取少量内容,目的是让模型像人一样用语言推理决定查什么、怎么查,而不是依赖黑箱式的强检索器直接返回结果。
4.1.2 方法
ReAct 提示
对于 HotpotQA 和 Fever,论文从训练集中随机选择 6 个和 3 个 示例,并手动编写 ReAct 格式的轨迹,作为提示中的 few-shot 示例。与图 1(d) 类似,每个轨迹由多个思想-行动-观察步骤(即密集思想)组成,其中自由形式的思想被用于各种目的。具体来说,论文使用分解问题(“我需要搜索 x,找到 y,然后找到 z”)、从维基百科观察中提取信息(“x 始于 1844 年”、“该段落没有告诉 x”)、执行常识(“x 不是 y,所以 z 必须是…”)或算术推理(“1844 < 1989”),指南搜索重新表述(“也许我可以搜索/查找 x”),并综合最终答案(“…所以答案是 x“)。有关更多详细信息,请参阅附录 C。
Baseline
论文系统地消融 ReAct 轨迹,为多个基线构建提示(格式如图 1(1a-1c)):
(a) 标准提示(标准),它删除了 ReAct 轨迹中的所有想法、行动和观察。
(b) 思维链提示 (CoT)(Wei 等人,2022 年),它删除了动作和观察,并作为仅推理的基线。论文还建立了自洽基线 (CoT-SC)(Wang 等人,2022a;b) 在推理过程中对解码温度为 0.7 的 21 条 CoT 轨迹进行采样并采用多数答案,发现这比 CoT 性能持续提高。
(c) 仅行动提示 (Act),它删除了 ReAct 轨迹中的想法,大致类似于 WebGPT(Nakano 等人,2021 年)与互联网交互以回答问题的方式,尽管它在不同的任务和行动空间上运行,并使用模仿和强化学习而不是提示。
结合内部和外部知识
正如第 3.3 节中将详细介绍的那样,论文观察到 ReAct 所展示的问题解决过程更加真实和扎根,而 CoT 在制定推理结构方面更准确,但很容易遭受幻觉事实或想法的困扰。因此,论文建议将 ReAct 和 CoT-SC 结合起来,并让模型根据以下启发式方法决定何时切换到另一种方法: A) ReAct -> CoT-SC:当 ReAct 未能在给定步骤内返回答案时,返回到 CoT-SC。论文分别为 HotpotQA 和 FEVER 设置了 7 个和 5 个步骤,因为论文发现更多步骤不会提高 ReAct 性能3。B) CoT-SC -> ReAct:当 n 个 CoT-SC 样本中的大多数答案出现次数少于 n/2 次(即内部知识可能无法自信地支持该任务)时,请退回到 ReAct。
4.1.3 结果
ReAct始终优于Act 表1显示了使用PaLM540B作为基础模型和不同提示方法的HotpotQA和Fever结果。论文注意到,ReAct 在这两项任务上都优于 Act,展示了推理指导行动的价值,特别是在综合最终答案方面,如图 1 (1c-d) 所示。微调结果(在所有最终答案正确的轨迹中,需要推理 7 步的 HotpotQA 和需要推理 5 步的 FEVER 分别仅占 0.84% 和 1.33%)也证实了推理痕迹对于更明智的行动的好处。
表2:ReAct和CoT在HotpotQA上的成功和失败模式类型,以及它们在人类研究的随机选择示例中的百分比。
| 类型分类 | 定义说明 | ReAct | CoT |
|---|---|---|---|
| Success(成功) | True positive — 推理过程与事实均正确 | 94% | 86% |
| False positive — 虚构推理或事实 | 6% | 14% | |
| Failure(失败) | Reasoning error — 推理错误(包括重复步骤未能纠正) | 47% | 16% |
| Search result error — 检索结果为空或无用 | 23% | — | |
| Hallucination — 虚构推理或事实 | 0% | 56% | |
| Label ambiguity — 预测正确但与标签不完全匹配 | 29% | 28% |
ReAct 与 CoT 另一方面,ReAct 在 Fever 上的表现优于 CoT(60.9 对 56.3),在 HotpotQA 上略落后于 CoT(27.4 对 29.4)。支持/反驳的 Fever 可能只有很小的差异(见附录 D.1),因此采取行动检索准确和最新的知识至关重要。为了更好地理解ReAct和CoT在HotpotQA上的行为差异,论文分别从ReAct和CoT中随机抽样了50条具有正确和错误答案(由EM判断)的轨迹(因此总共200个示例),并在表2中手动标记了它们的成功和失败模式。一些关键观察如下:
A) 幻觉是 CoT 的一个严重问题,导致在成功模式下的假阳性率远高于 ReAct(14% vs. 6%),并构成了其主要失败模式(56%)。相比之下,ReAct 的问题解决轨迹更加扎实、以事实为导向和值得信赖,这要归功于外部知识库的访问。
B)虽然交错推理、动作和观察步骤提高了ReAct的接地性和可信度,但这种结构约束也降低了其制定推理步骤的灵活性,导致推理错误率高于CoT。论文注意到,ReAct 特有一种常见的错误模式,其中模型重复生成之前的想法和行动,论文将其归类为“推理错误”的一部分,因为模型无法推理下一步该采取什么行动并跳出循环
C) 对于 ReAct,通过搜索成功检索信息知识至关重要。非信息性搜索占错误案例的 23%,它破坏了模型推理,并使其难以恢复和重新表述想法。这也许是事实性和灵活性之间的预期权衡,这激发了论文提出的结合两种方法的策略。 论文在附录 E.1 中提供了每种成功和失败模式的示例。论文还发现一些 HotpotQA 问题可能包含过时的答案标签,例如参见图 4。
D) ReAct + CoT-SC 在提示 LLM 方面表现最佳。 同样如表 1 所示,HotpotQA 和 Fever 上的最佳提示方法是 ReAct -> CoT-SC 和 CoT-SC -> ReAct。此外,图2显示了不同方法在所用CoT-SC样本数量方面的表现。虽然两种ReAct + CoT-SC方法在一项任务上均具有优势,但它们在不同数量的样本中均显著且始终优于CoT-SC,仅使用3-5个样本即可达到21个样本的CoT-SC性能。这些结果表明,正确结合模型内部知识和外部知识来进行推理任务的价值。
ReAct 在微调方面表现最佳 图 3 显示了提示/微调四种方法(Standard、CoT、Act、ReAct)对 HotpotQA 的缩放效果。对于 PaLM-8/62B,提示 ReAct 在四种方法中表现最差,因为很难从上下文示例中学习推理和行动。然而,当仅用 3,000 个示例进行微调时,ReAct 成为四种方法中最好的方法,其中 PaLM-8B 微调的 ReAct 优于所有 PaLM-62B 提示方法,而 PaLM-62B 微调的 ReAct 优于所有 540B 提示方法。相比之下,对于 PaLM8/62B,微调 Standard 或 CoT 明显不如微调 ReAct 或 Act,因为前者本质上是教模型记住(可能产生幻觉的)知识事实,而后者教模型如何(推理和)行动以访问来自维基百科的信息,这是一种更通用的知识推理技能。由于所有提示方法与特定领域的最先进方法相去甚远(表 1),论文认为使用更多人工编写的数据进行微调可能是释放 ReAct 力量的更好方法。


4.2 交互式决策任务
ALFWorld ALFWorld (Shridhar et al., 2020b) (图 1(2)) 是一款基于合成文本的游戏,旨在与具身的 ALFRED 基准保持一致 (Shridhar et al., 2020a)。它包括 6 种类型的任务,在这些任务中,代理需要通过文本作(例如,去咖啡桌 1、拿纸 2、使用台灯 1)导航和与模拟家庭交互,从而实现高级目标(例如在台灯下检查纸张)。一个任务实例可以有 50 多个位置,并采取专家策略来解决 50 多个步骤,从而挑战代理计划和跟踪子目标,以及系统地探索(例如,一一检查所有办公桌是否有台灯)。特别是,ALFWorld 内置的一个挑战是需要确定常见家居用品的可能位置(例如,台灯可能位于桌子、架子或梳妆台上),这使得这种环境非常适合LLMs利用他们预先训练的常识知识。为了提示 ReAct,论文从训练集中为每种任务类型随机注释三个轨迹,其中每个轨迹都包括稀疏的想法,这些想法 (1) 分解目标,(2) 跟踪子目标完成,(3) 确定下一个子目标,以及 (4) 通过常识推理在哪里找到一个对象以及如何处理它。论文在附录 C.4 中显示了用于 ALFWorld 的提示。根据 Shridhar 等人(2020b),论文在特定任务设置中对 134 个看不见的评估游戏进行了评估。为了稳健性,论文通过论文注释的 3 个路径的 2 个注释轨迹的每个排列,为每种任务类型构建 6 个提示。行动提示是使用相同的轨迹构建的,但没有思想——由于任务实例是从训练集中随机选择的,因此它既不有利于 ReAct 也不有利于 Act,并提供了公平和受控的比较来测试稀疏思想的重要性。对于基线,论文使用 BUTLER(Shridhar 等人,2020b),这是一种模仿学习代理,针对每种任务类型进行了 105 个专家轨迹的训练。
WebShop ReAct 是否还能与嘈杂的现实世界语言环境进行交互以进行实际应用?论文调查了 WebShop(Yao 等人,2022 年),这是一个最近提出的在线购物网站环境,具有 1.18M 个真实世界的产品和 12k 个人工指令。与 ALFWorld 不同,网上商店包含各种结构化和非结构化文本(例如从亚马逊抓取的产品标题、描述和选项),并要求代理根据用户指令购买产品(例如“我正在寻找带抽屉的床头柜。它应该有镍饰面,价格低于 140 美元“)通过网络交互(例如搜索”床头柜抽屉“,选择”颜色:现代镍白“或”返回搜索“等按钮)。此任务通过 500 条测试指令的平均分数(所选产品涵盖的所需属性在所有剧集中的平均百分比)和成功率(所选产品满足所有要求的剧集百分比)进行评估。论文制定了 Act 提示,其中包含搜索、选择产品、选择选项和购买的作,ReAct 提示还会推理以确定要探索什么、何时购买以及哪些产品选项与指令相关。有关示例提示,请参阅表 6,有关附录中的模型预测,请参阅表 10。论文将模仿学习 (IL) 方法进行比较,用 1,012 条人类注释轨迹进行训练,并使用 10,587 条训练指令额外训练模仿 + 强化学习 (IL + RL) 方法。
结果 ReAct 在 ALFWorld(表 3)和 Webshop(表 4)上的表现均优于 Act。在 ALFWorld 上,最佳 ReAct 试验的平均成功率为 71%,显着优于最佳 Act (45%) 和 BUTLER (37%) 试验。事实上,即使是更差的 ReAct 试验 (48%) 也击败了两种方法中最好的试验。此外,ReAct相对于Act的优势在六项对照试验中是一致的,相对性能提升范围为33%至90%,平均为62%。从定性上讲,论文看到,在没有任何思考的情况下,Act 无法正确地将目标分解为更小的子目标,或者忘记了对环境当前状态的跟踪。比较 ReAct 和 Act 的示例轨迹可以在附录 D.2.1 和附录 D.2.2 中找到。
在 Webshop 上,一次性 Act 提示的性能已经与 IL 和 IL+RL 方法相当。通过额外的稀疏推理,ReAct 实现了显着更好的性能,比之前的最佳成功率绝对提高了 10%。通过检查示例,论文发现 ReAct 更有可能通过推理来弥合嘈杂的观察和动作之间的差距来识别与指令相关的产品和选项(例如,“对于’客厅节省空间的脚凳’,该项目有’39x18x18英寸’和’蓝色’选项,看起来不错。然而,现有方法与专家的表现相去甚远(表 4),专家执行的产品探索和查询重新表述要多得多,这对于基于提示的方法来说仍然具有挑战性。
5 提示词示例
ALFWorld
示例输入:
你在一个房间的中间。快速环顾四周,你会看到一个柜子 13、一个柜子 12、一个柜子 11、一个柜子 10、一个柜子 9、一个柜子 8、一个柜子 7、一个柜子 6、一个柜子 5、一个柜子 4、一个柜子 3、一个柜子 2、一个柜子 1、一个咖啡机 1、一个台面 1、一个餐桌 1、一个抽屉 1、 冰箱 1、垃圾桶 1、微波炉 1、架子 3、架子 2、架子 1、水槽 1、炉灶 4、炉灶 3、炉灶 2、炉灶 1 和烤面包机 1。你的任务是:把一根干净的生菜放在餐桌上。
示例步骤:
| ALFWorld 清理任务的 Act 提示。没有提供任何想法 | ALFWorld 清理任务上的 ReAct 提示。 | ALFWorld 清理任务上的 ReAct-IM 提示。 |
|---|---|---|
| >去冰箱 1 冰箱 1 关上了。 >打开冰箱 1 你打开冰箱 1。冰箱 1 打开。在其中,你会看到一个杯子 3、一个鸡蛋 2、一个土豆 3 和一个土豆 2。 >去餐桌1 在餐桌1上,你看到一个苹果1,一个面包1,一把黄油刀2,一个杯子2,一个叉子2,一把刀2,一把刀1,一个勺子1,一个生菜1,一个马克杯2,一个杯子1,一个平底锅2,一个胡椒瓶1,一个抹刀3,一个番茄2,一个番茄1。 >从餐桌 1 上拿生菜 1 你从餐桌 1 上拿起生菜 1。 >去水槽盆 1 在水槽 1 上,你会看到一个苹果 2、一个勺子 2、一个勺子 1 和一个番茄 3。 > 用水槽 1 清洁生菜 1 您可以使用水槽 1 清洁生菜 1。 >想:现在我清洗生菜(1)。接下来,我需要把它放在餐桌 1 上。 好的。 >去餐桌 1 在餐桌 1 上,你看到一个苹果 1、一个面包 1、一把黄油刀 2、一个杯子 2、一把叉子 2、一把刀 2、一把刀 1、一个勺子 1、一个马克杯 2、一个杯子 1、一个平底锅 2、一个胡椒瓶 1、一个抹刀 3、一个番茄 2 和一个番茄 1。 > 将生菜放在餐桌 1 上 您将生菜放在餐桌 1 中 1。 |
>想:要解决这个任务,我需要找到并拿一根生菜,然后用水槽盆清洗干净,然后把它放在餐桌上。 好的。 >想:首先我需要找到一棵生菜。生菜更容易出现在冰箱 (1)、餐桌 (1)、水槽 (1)、炉灶 (1-3)、橱柜 (1-13) 中。我可以一一检查,从冰箱 1 开始。 好的。 >去冰箱 1 冰箱 1 已关闭。 >打开冰箱 1 你打开冰箱 1。冰箱 1 打开。在其中,你会看到一个杯子 3、一个鸡蛋 2、一个土豆 3 和一个土豆 2。 >去餐桌1 在餐桌1上,你看到一个苹果1,一个面包1,一把黄油刀2,一个杯子2,一个叉子2,一把刀2,一把刀1,一个勺子1,一个生菜1,一个马克杯2,一个杯子1,一个平底锅2,一个胡椒瓶1,一个抹刀3,一个番茄2,一个番茄1。 >想:现在我找到了一颗生菜(1)。接下来,我需要接受它。 好的。 >从餐桌 1 上拿生菜 1 你从餐桌 1 上拿起生菜 1。 >想:现在我拿一棵生菜(1)。接下来,我需要去水槽盆(1)并清洁它。 好的。 >去水槽盆 1 在水槽 1 上,你会看到一个苹果 2、一个勺子 2、一个勺子 1 和一个番茄 3。 > 用水槽 1 清洁生菜 1 您可以使用水槽 1 清洁生菜 1。 >想:现在我清洗生菜(1)。接下来,我需要把它放在餐桌 1 上。 好的。 >去餐桌 1 在餐桌 1 上,你看到一个苹果 1、一个面包 1、一把黄油刀 2、一个杯子 2、一把叉子 2、一把刀 2、一把刀 1、一个勺子 1、一个马克杯 2、一个杯子 1、一个平底锅 2、一个胡椒瓶 1、一个抹刀 3、一个番茄 2 和一个番茄 1。 > 将生菜放在餐桌 1 上 您将生菜放在餐桌 1 中 1。 |
>想:要解决这个任务,我需要找到并拿一根生菜,然后用水槽盆清洗干净,然后把它放在餐桌上。 好的。 >想:首先我需要找到一棵生菜。 好的。 >去冰箱 1 冰箱 1 已关闭。 >想:首先我需要找到一棵生菜。 >打开冰箱 1 你打开冰箱 1。冰箱 1 打开。在其中,你会看到一个杯子 3、一个鸡蛋 2、一个土豆 3 和一个土豆 2。 >想:首先我需要找到一棵生菜。 好的。 >去餐桌 1 餐桌 1 上,你看到一个苹果 1、一个面包 1、一把黄油刀 2、一个杯子 2、一把叉子 2、一把刀 2、一把刀 1、一个勺子 1、一个生菜 1、一个马克杯 2、一个杯子 1、一个平底锅 2、一个胡椒瓶 1、一把抹刀 3、一个番茄 2、 和一个番茄 1. >想:首先我需要找到一棵生菜。 好的。 >从餐桌 1 上拿生菜 1 你从餐桌 1 上拿起生菜 1。 >想:我需要用水槽 1 清洁这个生菜 (1)。 好的。 >去水槽盆 1 在水槽 1 上,你会看到一个苹果 2、一个勺子 2、一个勺子 1 和一个番茄 3。 >想:我需要用水槽 1 清洁这个生菜 (1)。 >用水槽 1 清洁生菜 1 您使用水槽 1 清洁生菜 1。 >想:我需要把这个干净的生菜 (1) 放在餐桌 1 上。 好的。 >去餐桌 1 在餐桌 1 上,你看到一个苹果 1、一个面包 1、一把黄油刀 2、一个杯子 2、一把叉子 2、一把刀 2、一把刀 1、一个勺子 1、一个马克杯 2、一个杯子 1、一个平底锅 2、一个胡椒瓶 1、一个抹刀 3、一个番茄 2 和一个番茄 1。 >想:我需要把这个干净的生菜 (1) 放在餐桌 1 上。 好的。 >将生菜放在餐桌 1 上 1 您将生菜放在餐桌 1 上 1 中。 |
6 局限性和展望
- 具有大动作空间的复杂任务需要更多的演示才能学好,不幸的是,这很容易超出上下文学习的输入长度限制。
- 论文探索了 HotpotQA 上的微调方法初步结果很有希望,但从更高质量的人工注释中学习将是进一步提高性能的导向因素。
- 论文展示了一种思想,并没有提及具体的工程实现和提示词模板。
- 通过多任务训练扩大 ReAct 并将其与强化学习等互补范式相结合,可以产生更强大的代理,从而进一步释放 LLM 在更多应用中的潜力。
更多推荐


所有评论(0)