第 3 章  ·  涌现能力(一)-令人震撼的发现

第3章 第4节 涌现能力(一)-令人震撼的发现


第3章 第4节 涌现能力(一)-令人震撼的发现

阅读指南

前面七节,我们深入了解了ChatGPT是如何一步步被"教"出来的:预训练教会了它语言,监督微调教会了它任务,RLHF教会了它价值观。
现在,一个更加神秘、更加令人惊叹的现象出现了——一个连研究者们自己都没完全想到的现象。
当语言模型的规模达到一定程度时,它会突然展现出一些从未被明确"教过"的能力。
这就像是,教一个孩子识字、阅读、理解句子,然后有一天,突然发现他学会了写诗——虽然从未教过他"如何写诗",但这个能力自己"涌现"出来了。
这种现象,在AI领域被称为"涌现能力"(Emergent Abilities)或"涌现现象"(Emergence)。

上篇通过具体的例子,让你直观感受什么是涌现能力,以及它有多么震撼。
中篇将探讨"为什么会涌现"以及Scaling Laws。
下篇将讨论涌现的局限性和哲学思考。

4.1 从一个具体例子开始

在正式定义之前,先用一个具体的例子,建立直觉。

GPT-3之前的模型:不会算术

早期的语言模型(比如GPT-2,1.5亿参数),如果你问它:

问题:"23 + 47 = ?"

GPT-2的回答:
"23 + 47 = 60" ← 错误!(正确答案是70)

或者:
"23 + 47 = 70" ← 偶尔对
"23 + 47 = 69" ← 但大多数时候错

准确率大约只有5-10%,基本上是在"瞎猜"。

GPT-3 (1750亿参数):突然会算了

但当模型规模扩大到GPT-3时,同样的问题:

问题:"23 + 47 = ?"

GPT-3的回答:
"70" ← 正确!

准确率跃升到80-90%。

关键的问题是:没有人教过GPT-3如何做加法。

训练数据中,确实包含了很多涉及数字和计算的文本:

"总共花费23美元加上47美元的税,等于70美元"
"23个苹果加上47个苹果,一共有70个苹果"
...

但这些只是自然语言文本,没有人明确告诉模型:"这是加法,你应该学会计算"。

模型只是在做它一直在做的事:预测下一个词

然而,当模型规模足够大时,它从这些文本模式中,自己"悟"出了加法的规律。

这,就是涌现。

4.2 什么是涌现能力

现在,让我给出一个更正式的定义。

涌现能力(Emergent Abilities):

当模型规模超过某个阈值时,突然出现的、在小规模模型中几乎不存在的能力。

这个定义有几个关键点:

关键点1:突然性

不是线性增长,而是跃迁式的。

+------------------
|  小模型
|  几乎不会
|  (准确率接近0)
+------------------
        |
        | 增大规模
        v
+------------------
|  中等模型
|  还是几乎不会
|  (准确率仍很低)
+------------------
        |
        | 继续增大
        v
+------------------
|  大模型
|  突然就会了!
|  (准确率大幅跃升)
+------------------

关键点2:未被明确训练

这些能力不是通过"专门训练"获得的,而是从通用的语言建模任务中"涌现"出来的。

关键点3:规模依赖

必须达到一定规模,才会出现。小模型无论怎么训练,都不会有这些能力。

让我用一个物理学的类比:

水的状态:
0°C以上:液态
0°C:突然变成固态(冰)

这个转变是突然的,不是渐进的。
你不会说"半液态半固态"。

温度(类比模型规模)达到某个阈值,
整个系统的性质发生质变。

涌现能力,就像水的相变。

4.3 令人震撼的发现

2022年,Google的研究团队发表了一篇题为《Emergent Abilities of Large Language Models》的论文,系统地研究了大语言模型的涌现能力。

他们发现,至少有几十种能力表现出了明显的涌现特征。其中有几个最令人印象深刻的例子。

算术推理

我们刚才已经看到了简单加法的例子。但涌现的不仅仅是加法,还有更复杂的数学推理。

例子:多步算术

问题:
"小明有23个苹果,他给了小红7个,然后又买了15个。小明现在有多少个苹果?"

需要的步骤:
23 - 7 = 16
16 + 15 = 31

GPT-2 (1.5亿参数):
回答:"小明有很多苹果" ← 完全不会

GPT-3 (1750亿参数):
回答:"31个" ← 正确!

例子:百分比计算

问题:
"如果一件商品原价100元,打八折,再减10元,最后价格是多少?"

需要:
100 × 0.8 = 80
80 - 10 = 70

GPT-3能够正确回答:70元

逻辑推理

例子:三段论推理

前提1:所有的猫都是哺乳动物
前提2:Tom是一只猫
问题:Tom是哺乳动物吗?

小模型:
可能回答:"Tom是一个名字" 或 "猫很可爱" ← 答非所问

大模型:
回答:"是的,Tom是哺乳动物。因为所有猫都是哺乳动物,而Tom是猫,
所以Tom也是哺乳动物。" ← 完整的逻辑链条

例子:反事实推理

问题:
"如果拿破仑在滑铁卢战役中获胜,欧洲历史会如何不同?"

小模型:
"拿破仑是法国皇帝。.." ← 只是陈述事实

大模型:
"如果拿破仑获胜,法国可能会保持其在欧洲的主导地位,维也纳体系
可能不会形成,欧洲的君主制复辟可能会被推迟。.." ← 进行反事实推理

代码理解和生成

这可能是最令人惊讶的涌现能力之一。

记住:GPT-3的训练目标只是"预测下一个词",没有人教它"编程"。

但是:

问题:
"用Python写一个函数,检查一个数是否是质数"

GPT-3的回答:

def is_prime(n):
if n < 2:
return False
for i in range(2, int(n ** 0.5) + 1):
if n % i == 0:
return False
return True

← 完全正确的代码!

更令人惊讶的是,它还能:

理解代码

给它一段代码:

def mystery(n):
if n <= 1:
return n
return mystery(n-1) + mystery(n-2)

问:"这个函数做什么?"

GPT-3:"这是一个计算斐波那契数列的递归函数。"
← 正确理解了代码逻辑!

修复代码错误

给它一段有bug的代码,它能指出错误并修正。

语言翻译(对于低资源语言)

这个更微妙,但同样惊人。

GPT-3的训练数据主要是英语(93%),其他语言占比很小。对于某些"低资源语言"(如孟加拉语),训练数据极少。

但GPT-3仍然能够:

英语 → 孟加拉语 的翻译
即使训练数据中这种翻译对极少

它似乎学会了:

  1. 英语的语义
  2. 孟加拉语的语法
  3. 如何在两者之间建立映射

这三个能力组合起来,产生了"翻译"这个涌现能力

常识推理

例子:物理常识

问题:
"如果你把一个玻璃杯从桌子上推下去,会发生什么?"

小模型:
"玻璃杯会移动" ← 技术上正确,但太肤浅

大模型:
"玻璃杯会掉到地上,由于玻璃很脆,很可能会摔碎。"
← 展现了对重力、物体易碎性的理解

例子:社会常识

问题:
"如果你在电影院大声说话,会怎么样?"

大模型:
"其他观众可能会感到不满或要求你安静,因为这会打扰他们观影。
在某些情况下,工作人员可能会要求你离开。"
← 理解社会规范和后果

多步骤任务规划

问题:
"我想学习机器学习,但我只有高中数学基础。请给我一个6个月的学习计划。"

大模型能够:

  1. 评估现状(高中数学)
  2. 识别差距(需要线性代数、微积分、概率论)
  3. 规划阶段:
    第1-2月:补数学基础
    第3-4月:学习Python和基础算法
    第4-5月:学习机器学习基础
    第6月:做项目巩固
  4. 提供具体资源

这种多步骤、有层次的规划能力,是涌现的。

4.4 下节预告

上篇让你直观感受了涌现能力的震撼,但你可能有疑问:

为什么会涌现?
是魔法吗?还是有什么科学原理?
如果我们能理解"为什么",能不能更好地利用它?

中篇将深入探讨涌现的机制,揭示4个理论假说,以及一个让整个AI界疯狂的数学定律——Scaling Laws。

4.5 ■ 学点英语

中文 English 音标 说明
涌现能力 Emergent Abilities /ɪˈmɜːdʒənt əˈbɪlətiz/ 模型规模跨过某阈值时突然出现的、在小模型中几乎不存在的能力
涌现 Emergence /ɪˈmɜːdʒəns/ 整体展现出局部不具备的性质,跨层级的新特性
阈值 Threshold /ˈθreʃhəʊld/ 触发质变的临界点,规模跨过后能力跃迁
相变 Phase Transition /feɪz trænˈzɪʃn/ 物理学术语,比喻涌现的非线性跃迁特征
算术推理 Arithmetic Reasoning /əˈrɪθmətɪk ˈriːzənɪŋ/ 模型执行加减乘除与多步计算的能力
反事实推理 Counterfactual Reasoning /ˌkaʊntəˈfæktʃuəl ˈriːzənɪŋ/ "如果……会怎样"的假设性推理
三段论 Syllogism /ˈsɪlədʒɪzəm/ 由大前提、小前提和结论组成的逻辑推理形式
低资源语言 Low-resource Language /ləʊ rɪˈsɔːrs ˈlæŋɡwɪdʒ/ 训练语料稀少的小语种,如孟加拉语
递归函数 Recursive Function /rɪˈkɜːrsɪv ˈfʌŋkʃn/ 在自身定义中调用自身的函数,如斐波那契数列

4.6 ■ 思考帧

RLHF(三)-RLHF的局限与思考 涌现能力(二)-为什么会涌现
本节目录