第 1 章  ·  语言模型(四)-大语言模型与对话系统

第1章 第11节 语言模型(四)-大语言模型与对话系统


第1章 第11节 语言模型(四)-大语言模型与对话系统

阅读指南

上一节回顾了语言模型的三代演进史。既然Transformer这么强大,模型需要多大才够用?为什么要搞得那么大?本节将探讨"大"语言模型的规模革命,以及语言模型与对话系统的本质区别。

11.1 "大"语言模型

经常听到"大语言模型"(Large Language Model, LLM)这个词。这个"大",到底有多大?为什么要这么大?

参数规模的爆炸式增长

一组数字记录了AI领域一场真正的军备竞赛:

GPT系列的参数,从2018年的GPT-1(1.17亿参数)到GPT-3(1750亿参数),仅仅两年时间,参数量就增长了约1500倍。

到2025-2026年,主流大模型已经进入万亿级时代:

GPT-4o (OpenAI, 2024): ~1.8万亿 参数

GPT-5 (OpenAI, 2025): 约2万亿 参数

Google Gemini 3 (2025): 1万亿 参数

Claude 4 (Anthropic, 2025): 约1.5万亿 参数

训练数据的海量堆积

GPT-2: 40GB文本 ≈ 80本百万字小说

GPT-3: 570GB文本 ≈ 1140本百万字小说

GPT-4/5: 未公开 (估计更大规模)

为什么需要这么多数据?

语言模型是通过"见识"来学习的。想象要学一门外语,如果只读过10篇文章,能掌握多少?但读过10万篇文章,语感会完全不同。

ChatGPT"读"过的文本,比一个人一辈子能读的多出几万倍。

"大"的哲学意义

这里有一个深刻的发现,也是过去十年AI研究最重要的洞察之一:

在语言模型领域,"大力出奇迹"是真实存在的。

不是线性的"大一点好一点",而是规模达到某个临界点后,能力突然跃升。

这种现象被称为"涌现能力",会在第8节详细讲解。那里会深入探讨Scaling Laws(缩放法则)——一个描述模型性能与规模之间数学关系的重要发现。

现在只需要记住:"大"不是虚荣,而是必需。没有这个"大",就没有ChatGPT的智能。

11.2 大语言模型与小语言模型

"大"的标准是什么?多大才算大?目前行业内没有严格的官方划分,但有一个约定俗成的分界线。

小语言模型(SLM - Small Language Model)

参数量小于100亿(< 10B)。代表模型包括ChatGLM-6B、Mistral-7B、LLaMA-2-7B。这类模型轻量级,可以在个人电脑或手机上运行。

中型语言模型

参数量在100亿到1000亿之间(10B - 100B)。代表模型有LLaMA-2-70B、Qwen-72B。需要多块GPU,但仍能本地部署。

大语言模型(LLM)

参数量大于1000亿(> 100B)。代表模型如GPT-3(175B)、GPT-4(估计万亿级)。需要巨型计算集群,通常只能通过云服务访问。

这个区分很重要,因为它决定了能力边界、部署成本和应用场景。

小模型适合特定领域任务,如文本分类、情感分析。大模型具备通用智能,能处理复杂的推理、创作任务。

小模型几千元的个人电脑就能运行。大模型需要数百万甚至数千万的GPU集群。

小模型适用于移动设备、边缘计算、隐私敏感场景。大模型适用于云服务、复杂任务、通用AI助手。

一个趣味的趋势:"小而精"的崛起

近年来,一个有意思的现象出现了。以前的思路是模型越大越好,现在的发现是小模型也可以很强。

例如:

Mistral-7B(仅70亿参数),能力接近GPT-3.5

ChatGLM-6B,能在个人电脑上运行,效果也不错

这说明:

对于现在的ChatGPT来说,它确实是一个"大"语言模型。

11.3 语言模型与对话模型

需要澄清一个容易混淆的概念。

ChatGPT不仅仅是一个语言模型,更是一个对话模型。

关键区分

可能听说过这些名字:GPT-3、GPT-4、GPT-3.5、ChatGPT……它们之间是什么关系?

GPT-1/2/3/4/5(基础语言模型)

GPT-1 (2018): 1.17亿参数

GPT-2 (2019): 15亿参数

GPT-3 (2020): 1750亿参数

GPT-3.5 (2022): 未公开(GPT-3的优化版)

GPT-4 (2023): 未公开

GPT-4o (2024): 未公开

GPT-5 (2025): 未公开

这些是技术名称,指的是基础语言模型。它们只经过预训练,能力是"预测下一个词"。

ChatGPT(对话产品)

ChatGPT 是产品名称,不是模型名称。

ChatGPT = 基础模型 + 对话训练

例如:

使用ChatGPT时,用的不是纯GPT-4,而是经过对话训练的ChatGPT(基于GPT-4)。它会"聊天"而不是简单"接龙",就是因为有额外的对话训练。

纯粹的语言模型只会"接龙",不会"对话"

如果直接用GPT-3(纯语言模型),问它:

"如何学习编程?"

它可能会这样"接龙":

"如何学习编程?这个问题很多人问过。首先,你需要明确你的学习目标……"

或者:

"如何学习编程?我也不知道。我从来没学过编程……"

为什么会这样?

纯语言模型的训练目标,只是"预测下一个词"。它在互联网文本中见过:

它只是在"接龙",把输入当成一篇文章的开头,继续写下去。它不知道你在问问题,也不知道要给出答案。

而对话模型可以理解"问答"这个概念。如果是ChatGPT(对话模型)会这样回应:

"学习编程可以遵循以下步骤:

  1. 选择一门编程语言:对于初学者,推荐Python,因为语法简单易读。
  2. 学习基础语法:通过在线教程(如Codecademy、freeCodeCamp)掌握变量、循环、函数等基本概念。
  3. 动手实践:做小项目,比如计算器、待办事项列表等,把知识应用到实际中。
  4. 阅读他人代码:看GitHub上的优秀项目,学习他人的编程思路。
  5. 持续学习:编程是一个不断学习的过程,保持好奇心和练习习惯很重要。

你想从哪门语言开始?"

它理解了你在提问,它知道要给出结构化的建议,它甚至会反问,引导对话继续。

这个差别是怎么来的?

答案是:预训练之后的额外训练步骤。

后面的章节会详细讲这个过程。现在只需要知道:

ChatGPT的"聊天"能力,不是预训练自然产生的,而是通过额外的训练"教"会的。

这也是为什么ChatGPT比GPT-3好用得多,虽然底层的语言模型可能差不多。

产品化的最后一公里,比技术突破更重要。


11.4 ■ 学点英语

中文 English 音标 说明
大语言模型 Large Language Model (LLM) /lɑːdʒ ˈlæŋɡwɪdʒ ˈmɒdl/ 参数量通常在数十亿到数千亿级别的语言模型
涌现能力 Emergent Abilities /ɪˈmɜːdʒənt əˈbɪlətiz/ 模型规模超过某个阈值后突然出现的、小模型不具备的能力
基础模型 Foundation Model /faʊnˈdeɪʃən ˈmɒdl/ 经过大规模预训练的通用语言模型,可作为下游任务微调的基础
监督微调 Supervised Fine-Tuning (SFT) /ˌsuːpərvaɪzd faɪn ˈtjuːnɪŋ/ 使用人工标注的指令-回答数据训练模型理解和遵循人类指令
人类反馈强化学习 Reinforcement Learning from Human Feedback (RLHF) /ˌriːɪnˈfɔːrsmənt ˈlɜːnɪŋ frəm ˈhjuːmən ˈfiːdbæk/ 通过人类偏好评分训练奖励模型,再用强化学习优化模型输出使其符合人类期望
对话模型 Dialogue Model /ˈdaɪəlɒɡ ˈmɒdl/ 经过指令微调和对齐训练的、能进行多轮对话的语言模型
规模定律 Scaling Laws /ˈskeɪlɪŋ lɔːz/ 描述模型性能随参数、数据、计算量增长而提升的经验规律

11.5 ■ 思考帧

来自: 学习中心|逻辑帧 Logic Frame

语言模型(三)-语言模型的演进 Embedding(一)-从符号到数字
本节目录