第 3 章  ·  涌现能力(三)-涌现的边界

第3章 第6节 涌现能力(三)-涌现的边界


第3章 第6节 涌现能力(三)-涌现的边界

阅读指南

上篇让你直观感受了涌现能力的震撼,中篇探讨了涌现的机制和Scaling Laws。

下篇将讨论:

6.1 涌现的边界

最后,强调一点:不是所有能力都会通过扩大规模涌现出来

有些能力,可能永远不会涌现,或者需要完全不同的训练方式。

可能不会涌现的能力:

  1. 真正的"理解"(如果它确实存在的话)

模型展现出了很多"看起来像理解"的行为,但它是否真的"理解"意义?

这可能不是规模能解决的,而是需要根本性的架构改变。

  1. 长期规划和一致性

ChatGPT能做多步推理,但如果要求它维持一个长篇小说的情节一致性,或者规划一个跨越几年的项目,它仍然会出问题。

这可能需要新的记忆机制和规划机制。

如果大模型真的能维持很长的记忆,并能连续推理,那这我这本书也不用吭哧吭哧的写1年了。那时候可能人人都能写出世界名著。

  1. 与真实世界的交互

ChatGPT学到的都是"文本中的世界",它不知道"拿起一个杯子"是什么感觉,不知道"红色"真正看起来是什么样。这需要多模态学习(视觉、听觉、触觉。..)和与真实世界的交互。

AI界对此存在两种分歧:

  1. 第一种观点:沿着Transformer架构继续扩大,期待新能力涌现
  2. 第二种观点:Transformer已触及天花板,AI必须从真实世界学习,而非只是反复学习文本

这是两条截然不同的路,未来会证明谁对谁错。

6.2 趣闻:Scaling Laws论文——一个差点被拒稿的"赌局"

你可能想不到,那篇奠定了整个大模型时代基础的论文,差点就被学术界拒之门外。

2020年1月,OpenAI发表了一篇看起来很"简单"的论文:《Scaling Laws for Neural Language Models》(神经语言模型的扩展定律)。

论文的核心发现,用一句话就能说完:

"模型的性能与参数量、数据量、算力之间,存在可预测的幂律关系。"

这篇论文在评审时遇到了很大的阻力。主要质疑包括:

质疑1:"这不就是拟合曲线吗?"

质疑2:"外推太大胆"

质疑3:"实用价值有限"

但OpenAI做了一个大胆的决定:相信这个规律,全力押注大模型。

2020年5月:在一些质疑声中,论文发表
2020年6月:OpenAI开始训练GPT-3(175B参数)
→ 这是当时最大的模型,参数量是之前的10倍以上
→ 训练成本:数百万美元
→ 如果Scaling Laws不成立,这笔钱就打水漂了

2020年7月:GPT-3发布
→ 性能完全符合Scaling Laws的预测!
→ 学术界震惊:这个规律真的成立!

OpenAI的研究人员后来透露:

"当我们决定训练GPT-3时,内部也有很多争论。因为根据Scaling Laws,我们能预测性能会提升多少,但不知道这个提升是否足够产生质变。"

"我们是在'赌'涌现现象会发生。"

结果,他们赌对了。GPT-3不仅性能提升了,还出现了很多小模型完全没有的能力(如只需要几个例子就能学会新任务、代码生成等)。

论文的"复仇"

2020年初:论文被质疑"缺乏实用价值"
2020年末:GPT-3震惊世界,各大公司开始疯狂训练大模型
2021年:谷歌、Meta、微软纷纷发布百亿/千亿参数模型
2022年:ChatGPT发布,引爆AI革命
2023年后:这篇论文成为大模型时代的"基石"
几乎每篇大模型相关论文都会引用它

从"差点被拒"到"改变世界",只用3年。

如果当时放弃了呢?唯一可以肯定的是:

大模型时代可能要推迟好几年。

6.3 推荐阅读

6.4 下节预告

涌现能力中有一个尤其特殊的能力——情境学习。

它特殊在哪?

你不需要重新训练模型,只需在提示词中给几个例子,模型就能学会一个新任务。

这意味着,你不需要收集大量标注数据,也不需要花费数周时间训练。只需要在对话框里打几行字,模型就"学会"了。

下一节,我将带你深入这个革命性的能力。

6.5 ■ 学点英语

中文 English 音标 说明
涌现边界 Emergence Boundary /ɪˈmɜːdʒəns ˈbaʊndri/ 仅靠扩大规模无法获得的能力所形成的上限
多模态 Multimodal /ˌmʌltiˈməʊdl/ 同时处理文本、图像、音频等多种模态的能力
长期记忆 Long-term Memory /lɒŋ tɜːm ˈmeməri/ 跨会话、跨年度保持信息一致的能力
因果 Causality /kɔːˈzæləti/ 输入对输出的驱动关系,与相关性相区分
真实世界交互 Real-world Interaction /ˈrɪəl wɜːld ˌɪntərˈækʃn/ 与物理世界或动态环境进行行动与反馈的过程
规划 Planning /ˈplænɪŋ/ 针对长期目标制定多步骤行动序列的能力
智能体 Agent /ˈeɪdʒənt/ 可感知环境、决策并执行动作的 AI 系统
幻象 Mirage /ˈmɪrɑːʒ/ 涌现“假象”的典型比喻,对应 Schaeffer 2023 论文

6.6 ■ 思考帧

涌现能力(二)-为什么会涌现 Context Learning
本节目录