[{"data":1,"prerenderedAt":154},["ShallowReactive",2],{"lab-/labs/zhiqi":3},{"id":4,"title":5,"author":6,"body":7,"category":137,"date":138,"description":139,"extension":140,"featured":141,"home_position":142,"image":143,"meta":144,"navigation":141,"order":142,"path":145,"seo":146,"status":147,"stem":148,"tags":149,"__hash__":153},"content/labs/ZhiQi.md","ZhiQi","sibuchen",{"type":8,"value":9,"toc":131},"minimark",[10,17,22,27,32,47,51,72,76,120],[11,12,13],"blockquote",{},[14,15,16],"p",{},"PS：ZhiQi (执棋) 如棋盘博弈，先观全局、定谋略 (Plan)，再步步为营、随机应变 (ReAct)。未落子时，全盘局势已在心中推演完毕。它将宏大的困局拆解为一个个精妙的定式，步步为营，运筹帷幄之中，决胜千里之外。♟~",[18,19,21],"h1",{"id":20},"前置知识psplan-and-solve","前置知识：P&S（Plan-and-Solve）",[11,23,24],{},[14,25,26],{},"父Agent + 子Agent（Planner、Executor）",[28,29,31],"h2",{"id":30},"ps过程","P&S过程",[33,34,35,39],"ol",{},[36,37,38],"li",{},"规划阶段 (Planning Phase)： 首先，智能体会接收用户的完整问题。它的第一个任务不是直接去解决问题或调用工具，而是将问题分解，并制定出一个清晰、分步骤的行动计划。这个计划本身就是一次大语言模型的调用产物。",[36,40,41,42],{},"执行阶段 (Solving Phase)： 在获得完整的计划后，智能体进入执行阶段。它会严格按照计划中的步骤，逐一执行。每一步的执行都可能是一次独立的 LLM 调用，或者是对上一步结果的加工处理，直到计划中的所有步骤都完成，最终得出答案。\n",[43,44],"img",{"alt":45,"src":46},"","/assets/ZhiQi/Plan-and-Solve%20%E8%8C%83%E5%BC%8F%E7%9A%84%E4%B8%A4%E9%98%B6%E6%AE%B5%E5%B7%A5%E4%BD%9C%E6%B5%81.png",[28,48,50],{"id":49},"ps的优势","P&S的优势",[33,52,53,60,66],{},[36,54,55,59],{},[56,57,58],"strong",{},"解决盲目性","：通过前置 Planning，避免了 LLM 在处理长任务时因为注意力分散导致的死循环。",[36,61,62,65],{},[56,63,64],{},"高容错率","：每步执行内部依然使用 ReAct，通过 Observation 动态修正局部错误，而不是机械执行计划。",[36,67,68,71],{},[56,69,70],{},"可解释性极强","：终端日志清晰展示了“大计划 -> 小思考 -> 真实行动”的完整链条。",[28,73,75],{"id":74},"ps的劣势","P&S的劣势",[33,77,78,84,90,96,102,108,114],{},[36,79,80,83],{},[56,81,82],{},"对 Planner 要求高","：如果初始计划拆解错误，后续执行可能偏离目标（虽有结果反馈修正，但核心逻辑受限）。",[36,85,86,89],{},[56,87,88],{},"中途无法与用户交互","：Plan制定好后无法更改，无法根据用户的需求生成更合适的计划。",[36,91,92,95],{},[56,93,94],{},"运行效率低","：细分成了许多小步骤，每一步又需要执行完整的ReAct。",[36,97,98,101],{},[56,99,100],{},"上下文记忆爆炸","：大历史+小历史，需要更好的存储方式。例如，ZhiQi 在解决“明天我和父母要从广州出发去邵阳游玩，一共是2天1夜，有什么推荐的景点”问题时，Planner（子Agent）制定的计划一共有10步，Executor（子Agent）每次执行完ReAct 后又有一个 Finish 需要记录。",[36,103,104,107],{},[56,105,106],{},"Token 消耗较高","：因为每个步骤都可能涉及多次 LLM 调用，相比于单次生成，成本与延迟更高。",[36,109,110,113],{},[56,111,112],{},"缺乏审查与反馈机制","：中间某个环节出错/达到最大ReAct限制，Agent 会直接放弃该步骤，导致该步骤在“大历史”中被错误记录 / 被记录为“该步骤已达最大重试次数，未得出结论”，从而影响下一步骤的执行 / 逼迫 LLM 在执行下一步时不得不幻想此步骤的可能结果。例如，ZhiQi 在执行\"步骤 3/10: 搜索邵阳市区及周边核心景点（如崀山、南山牧场、魏源故居等）并筛选适合2天1夜行程的景点组合\"时，由于达到最大循环次数（i=5），迫使 ReAct 终止，导致在步骤 4/10 时出现了“【Thought】: 步骤3（搜索邵阳核心景点）未成功完成，但我需要基于已有信息和常识来推进步骤4。根据步骤1和2的结果，我已知......”",[36,115,116,119],{},[56,117,118],{},"受 LLM 的影响大","：大模型训练数据集的陈旧性。例如，ZhiQi 在执行\"步骤 2/10: 根据交通到达时间确定第一天可游玩的有效时长\"时，制定了错误的搜索参数：“Search【广州南站到邵阳高铁时刻表 2024 早上发车时间】”",[18,121,123,124],{"id":122},"源码地址github","源码地址：",[125,126,130],"a",{"href":127,"rel":128},"https://github.com/sibuchen/ZhiQi--PlanAndSolveAgent",[129],"nofollow","Github",{"title":45,"searchDepth":132,"depth":132,"links":133},2,[134,135,136],{"id":30,"depth":132,"text":31},{"id":49,"depth":132,"text":50},{"id":74,"depth":132,"text":75},"agent","2026-03-28","ZhiQi (执棋) 是一个将 Plan-and-Solve (规划与解决) 范式与 ReAct (推理与行动) 范式深度融合的 AIAgent 架构。它旨在解决传统 ReAct 代理在面对复杂、长期任务时容易“绕路”或“陷入死循环”的问题。","md",true,1,null,{},"/labs/zhiqi",{"title":5,"description":139},"ARCHIVED","labs/ZhiQi",[150,151,152,6],"AIAgent","P&S","ReAct","-Rj8H7wiHTdlKLiOqJQGkKnZCTxXB1UFJncPH-aKyzc",1774960320851]