PS：ZhiQi (执棋) 如棋盘博弈，先观全局、定谋略 (Plan)，再步步为营、随机应变 (ReAct)。未落子时，全盘局势已在心中推演完毕。它将宏大的困局拆解为一个个精妙的定式，步步为营，运筹帷幄之中，决胜千里之外。♟~

前置知识：P&S（Plan-and-Solve）

父Agent + 子Agent（Planner、Executor）

P&S过程

规划阶段 (Planning Phase)：首先，智能体会接收用户的完整问题。它的第一个任务不是直接去解决问题或调用工具，而是将问题分解，并制定出一个清晰、分步骤的行动计划。这个计划本身就是一次大语言模型的调用产物。
执行阶段 (Solving Phase)：在获得完整的计划后，智能体进入执行阶段。它会严格按照计划中的步骤，逐一执行。每一步的执行都可能是一次独立的 LLM 调用，或者是对上一步结果的加工处理，直到计划中的所有步骤都完成，最终得出答案。

P&S的优势

解决盲目性：通过前置 Planning，避免了 LLM 在处理长任务时因为注意力分散导致的死循环。
高容错率：每步执行内部依然使用 ReAct，通过 Observation 动态修正局部错误，而不是机械执行计划。
可解释性极强：终端日志清晰展示了“大计划 -> 小思考 -> 真实行动”的完整链条。

P&S的劣势

对 Planner 要求高：如果初始计划拆解错误，后续执行可能偏离目标（虽有结果反馈修正，但核心逻辑受限）。
中途无法与用户交互：Plan制定好后无法更改，无法根据用户的需求生成更合适的计划。
运行效率低：细分成了许多小步骤，每一步又需要执行完整的ReAct。
上下文记忆爆炸：大历史+小历史，需要更好的存储方式。例如，ZhiQi 在解决“明天我和父母要从广州出发去邵阳游玩，一共是2天1夜，有什么推荐的景点”问题时，Planner（子Agent）制定的计划一共有10步，Executor（子Agent）每次执行完ReAct 后又有一个 Finish 需要记录。
Token 消耗较高：因为每个步骤都可能涉及多次 LLM 调用，相比于单次生成，成本与延迟更高。
缺乏审查与反馈机制：中间某个环节出错/达到最大ReAct限制，Agent 会直接放弃该步骤，导致该步骤在“大历史”中被错误记录 / 被记录为“该步骤已达最大重试次数，未得出结论”，从而影响下一步骤的执行 / 逼迫 LLM 在执行下一步时不得不幻想此步骤的可能结果。例如，ZhiQi 在执行"步骤 3/10: 搜索邵阳市区及周边核心景点（如崀山、南山牧场、魏源故居等）并筛选适合2天1夜行程的景点组合"时，由于达到最大循环次数（i=5），迫使 ReAct 终止，导致在步骤 4/10 时出现了“【Thought】: 步骤3（搜索邵阳核心景点）未成功完成，但我需要基于已有信息和常识来推进步骤4。根据步骤1和2的结果，我已知......”
受 LLM 的影响大：大模型训练数据集的陈旧性。例如，ZhiQi 在执行"步骤 2/10: 根据交通到达时间确定第一天可游玩的有效时长"时，制定了错误的搜索参数：“Search【广州南站到邵阳高铁时刻表 2024 早上发车时间】”

前置知识：P&S（Plan-and-Solve）

P&S过程

P&S的优势

P&S的劣势

源码地址：Github