第 11 章 · 从Function Calling到Agent的演进

第11章第2节从Function Calling到Agent的演进

阅读指南

Agent 不是凭空出现的，而是从简单的API调用逐步演化而来。理解这个演进过程，能帮助我们深刻理解 Agent 的本质。

2.1 演进的四个阶段

Agent 的诞生，其实是逐步演化而来的。我们可以把它划分为四个关键阶段，每一步都在解决上一个阶段留下的核心问题。

阶段0：纯文本对话（2022年以前）**

在 ChatGPT 刚出现的那段时间，大家对它的使用方式非常简单：你问，它答，全部交互都发生在"语言空间"里。它能写代码、给建议、做解释，但不能真的去"执行"什么。每一轮对话都是独立的，它不会主动去"收集更多信息"或"做出后续动作"。

这个阶段的 LLM，本质上还是一个"超级智能的搜索引擎"或者"万能的问答助手"。它只能"说"，不能"做"。

阶段1：Function Calling（2023年）

2023 年中，OpenAI 正式推出了 Function Calling 能力（我们在第4章详细讲过）。这个功能的关键突破在于：大模型可以“调用外部工具”：

你告诉它：“我有一个 get_weather(city) 函数可以查天气”；
当用户问“上海明天天气怎么样”时，它不再直接回答，而是生成一条 函数调用指令：

{
  "name": "get_weather",
  "arguments": {"city": "上海"}
}

系统执行这个函数，把结果返回给大模型，它再用自然语言把结果呈现给用户。

这个阶段的 LLM 开始具备了“可行动”的能力——它能够影响“语言之外的世界”。

不过，这个阶段有一个明显局限：只能调用一次工具。如果用户问："帮我查一下杭州和上海的天气，并告诉我哪个城市更适合出门"，大模型只会调用一次工具（比如只查杭州），然后就把结果返回，它不会"自己再调用一次查上海的天气"。更重要的是，它没有多轮思考能力——它不会自己思考："我需要分两步：先查杭州，再查上海，然后比较"。一切多步骤的逻辑编排，都需要在代码里手动控制。

阶段2：ReAct 模式（2023年中）

2023 年中后，工业界开始大量实践 ReAct（Reasoning and Acting）模式。这是一种“推理 + 行动”交替进行的循环模式。

其核心思想是：

思考（Think）：大模型分析当前状态，决定下一步要做什么；
行动（Act）：调用一个工具，获取新的信息；
观察（Observe）：查看工具返回的结果；
回到第 1 步，继续循环，直到达成目标或者确认无法完成。

举个具体的例子：

用户问："帮我查一下杭州和上海的天气，并告诉我哪个城市更适合出门。"

第 1 轮：

Thought：我需要先查杭州的天气。
Action：调用 get_weather(city="杭州")
Observation：杭州，明天晴，15-25℃

第 2 轮：

Thought：现在我需要查上海的天气。
Action：调用 get_weather(city="上海")
Observation：上海，明天雨，18-22℃

第 3 轮：

Thought：我已经有了两个城市的天气，可以给出建议了。
Action：Final Answer
Output："杭州明天晴天，更适合出门。上海明天有雨，建议携带雨具。"

这个阶段的 LLM 开始具备了 多轮自主决策 的能力：它可以自己决定"调用几次工具"，可以根据中间结果调整后续计划，开始像一个"能思考的执行者"。

但走到这里，ReAct 的限制也很明显。首先，它仍然需要人类提供"明确的目标"——需要明确告诉它："查天气并比较"，如果只是说："我明天想出门"，它可能不会主动去"查天气"。其次，它没有长期记忆，每次对话都是从零开始，不会记住上次的偏好或者之前的决策。最后，它缺乏主动性和自我驱动，不会主动去"发现问题"或"主动提供建议"，一切都是被动响应指令。

阶段3：自主 Agent（2024-2026年）

随着大模型能力的进一步提升和工程化实践的成熟，我们开始看到真正的“自主 Agent”的雏形。

这个阶段的 Agent 开始具备多项关键能力。在目标理解与自主规划方面，可以给它一个比较高层的目标，它自己拆解为多个子任务——例如："帮我规划一次周末出游"，它会自己分解为：

查天气 → 搜索景点 → 对比价格 → 生成行程

在长期记忆能力方面，它能够记住个人偏好、之前的对话、历史决策，在后续任务中可以主动引用这些信息，避免重复提问。在主动性与自我驱动方面，它在某些场景下可以主动发起任务，例如："我注意到你上次说要出差，明天就是出发日，需要我帮你检查一下行程吗？"在自我修正与学习方面，它能够根据反馈调整自己的行为，在理想情况下甚至可以从失败中学习，不断优化自己的决策策略。

这个阶段的 Agent，已经非常接近我们在第 1 节中给出的 “真正的 Agent” 的定义。

需要说明的是，这些能力目前仍处在早期探索阶段。大部分生产环境中落地的 Agent 应用，仍然在使用 ReAct 模式或者更加精细的工程化控制。完全自主的 Agent，在可靠性、成本、安全性上，都还有很多工程问题需要解决。

从"被动响应"到"主动决策"。这三次跃迁，每一次都是从"工具"向"智能体"的一次进化。

2.2 下节预告

现在经过四个阶段，已经了解了 Agent 是如何一步步从"单纯对话"进化到"自主智能体"的，但可能会好奇：这些能力背后的内部机制是什么？一个真正的 Agent 系统到底是如何组织运行的？

下一节，我们将深入剖析 Agent 的核心架构——从 Perceive-Think-Act 循环到记忆系统，可以看到，原来 Agent 的"智能"是通过这样一套精妙的内部机制实现的。

2.3 ■ 学点英语

中文	English	音标	说明
函数调用	Function Calling	/ˈfʌŋkʃn ˈkɔːlɪŋ/	大模型生成调用外部工具的指令而非直接回答
推理与行动	ReAct	/ˈriːækt/	Reasoning and Acting，思考→行动→观察交替循环的模式
思考	Thought	/θɔːt/	ReAct循环中LLM分析当前状态并决定下一步的步骤
观察	Observation	/ˌɒbzərˈveɪʃn/	ReAct循环中查看工具返回结果的过程
自主智能体	Autonomous Agent	/ɔːˈtɒnəməs ˈeɪdʒənt/	能自主规划、长期记忆、主动发起任务的Agent
自我修正	Self-correction	/self kəˈrekʃn/	Agent根据反馈调整行为并不断优化决策的能力

2.4 ■ 思考帧

◀ 什么是真正的Agent

返回目录

▶ Agent的核心架构剖析

第11章 第2节 从Function Calling到Agent的演进