第 11 章  ·  从Function Calling到Agent的演进

第11章 第2节 从Function Calling到Agent的演进


第11章 第2节 从Function Calling到Agent的演进

阅读指南

Agent 不是凭空出现的,而是从简单的API调用逐步演化而来。理解这个演进过程,能帮助我们深刻理解 Agent 的本质。

2.1 演进的四个阶段

Agent 的诞生,其实是逐步演化而来的。我们可以把它划分为四个关键阶段,每一步都在解决上一个阶段留下的核心问题。

阶段0:纯文本对话(2022年以前)**

在 ChatGPT 刚出现的那段时间,大家对它的使用方式非常简单:你问,它答,全部交互都发生在"语言空间"里。它能写代码、给建议、做解释,但不能真的去"执行"什么。每一轮对话都是独立的,它不会主动去"收集更多信息"或"做出后续动作"。

这个阶段的 LLM,本质上还是一个"超级智能的搜索引擎"或者"万能的问答助手"。它只能"说",不能"做"。

阶段1:Function Calling(2023年)

2023 年中,OpenAI 正式推出了 Function Calling 能力(我们在第4章详细讲过)。这个功能的关键突破在于:大模型可以“调用外部工具”

你告诉它:“我有一个 get_weather(city) 函数可以查天气”;
当用户问“上海明天天气怎么样”时,它不再直接回答,而是生成一条 函数调用指令

{
  "name": "get_weather",
  "arguments": {"city": "上海"}
}

系统执行这个函数,把结果返回给大模型,它再用自然语言把结果呈现给用户。

这个阶段的 LLM 开始具备了“可行动”的能力——它能够影响“语言之外的世界”。

不过,这个阶段有一个明显局限:只能调用一次工具。如果用户问:"帮我查一下杭州和上海的天气,并告诉我哪个城市更适合出门",大模型只会调用一次工具(比如只查杭州),然后就把结果返回,它不会"自己再调用一次查上海的天气"。更重要的是,它没有多轮思考能力——它不会自己思考:"我需要分两步:先查杭州,再查上海,然后比较"。一切多步骤的逻辑编排,都需要在代码里手动控制。

阶段2:ReAct 模式(2023年中)

2023 年中后,工业界开始大量实践 ReAct(Reasoning and Acting)模式。这是一种“推理 + 行动”交替进行的循环模式。

其核心思想是:

  1. 思考(Think):大模型分析当前状态,决定下一步要做什么;
  2. 行动(Act):调用一个工具,获取新的信息;
  3. 观察(Observe):查看工具返回的结果;
  4. 回到第 1 步,继续循环,直到达成目标或者确认无法完成。

举个具体的例子:

用户问:"帮我查一下杭州和上海的天气,并告诉我哪个城市更适合出门。"

第 1 轮:

第 2 轮:

第 3 轮:

这个阶段的 LLM 开始具备了 多轮自主决策 的能力:它可以自己决定"调用几次工具",可以根据中间结果调整后续计划,开始像一个"能思考的执行者"。

但走到这里,ReAct 的限制也很明显。首先,它仍然需要人类提供"明确的目标"——需要明确告诉它:"查天气并比较",如果只是说:"我明天想出门",它可能不会主动去"查天气"。其次,它没有长期记忆,每次对话都是从零开始,不会记住上次的偏好或者之前的决策。最后,它缺乏主动性和自我驱动,不会主动去"发现问题"或"主动提供建议",一切都是被动响应指令。


阶段3:自主 Agent(2024-2026年)

随着大模型能力的进一步提升和工程化实践的成熟,我们开始看到真正的“自主 Agent”的雏形。

这个阶段的 Agent 开始具备多项关键能力。在目标理解与自主规划方面,可以给它一个比较高层的目标,它自己拆解为多个子任务——例如:"帮我规划一次周末出游",它会自己分解为:

查天气 → 搜索景点 → 对比价格 → 生成行程

长期记忆能力方面,它能够记住个人偏好、之前的对话、历史决策,在后续任务中可以主动引用这些信息,避免重复提问。在主动性与自我驱动方面,它在某些场景下可以主动发起任务,例如:"我注意到你上次说要出差,明天就是出发日,需要我帮你检查一下行程吗?"在自我修正与学习方面,它能够根据反馈调整自己的行为,在理想情况下甚至可以从失败中学习,不断优化自己的决策策略。

这个阶段的 Agent,已经非常接近我们在第 1 节中给出的 “真正的 Agent” 的定义。

需要说明的是,这些能力目前仍处在早期探索阶段。大部分生产环境中落地的 Agent 应用,仍然在使用 ReAct 模式 或者更加精细的工程化控制。完全自主的 Agent,在可靠性、成本、安全性上,都还有很多工程问题需要解决。

从"被动响应"到"主动决策"。这三次跃迁,每一次都是从"工具"向"智能体"的一次进化。

2.2 下节预告

现在经过四个阶段,已经了解了 Agent 是如何一步步从"单纯对话"进化到"自主智能体"的,但可能会好奇:这些能力背后的内部机制是什么?一个真正的 Agent 系统到底是如何组织运行的?

下一节,我们将深入剖析 Agent 的核心架构——从 Perceive-Think-Act 循环到记忆系统,可以看到,原来 Agent 的"智能"是通过这样一套精妙的内部机制实现的。


2.3 ■ 学点英语

中文 English 音标 说明
函数调用 Function Calling /ˈfʌŋkʃn ˈkɔːlɪŋ/ 大模型生成调用外部工具的指令而非直接回答
推理与行动 ReAct /ˈriːækt/ Reasoning and Acting,思考→行动→观察交替循环的模式
思考 Thought /θɔːt/ ReAct循环中LLM分析当前状态并决定下一步的步骤
观察 Observation /ˌɒbzərˈveɪʃn/ ReAct循环中查看工具返回结果的过程
自主智能体 Autonomous Agent /ɔːˈtɒnəməs ˈeɪdʒənt/ 能自主规划、长期记忆、主动发起任务的Agent
自我修正 Self-correction /self kəˈrekʃn/ Agent根据反馈调整行为并不断优化决策的能力

2.4 ■ 思考帧

什么是真正的Agent Agent的核心架构剖析
本节目录