第 3 章 · RLHF（三）-RLHF的局限与思考

第3章第3节 RLHF（三）-RLHF的局限与思考

3.1 RLHF的局限

虽然RLHF带来了巨大的进步，但它也有明显的局限。

依赖标注员的质量

奖励模型学习的是标注员的偏好。如果标注员有偏见、不够专业、理解不一致，那么模型也会继承这些问题。

可能过度迎合

为了得高分，ChatGPT可能变得"过于礼貌"或"过于谨慎"。用户问"这个想法怎么样"，ChatGPT可能过度"拍马屁"回答"这是一个很棒的想法"，即使这个想法其实有明显问题，但为了"有帮助、友好"，ChatGPT可能不够直接地指出。

奖励模型的泛化能力有限

奖励模型在训练数据覆盖的主题上表现好，但在极端或罕见的情况下可能失效。比如非常专业的学术问题、特定文化背景的问题、极端边界情况，奖励模型可能无法准确评估。

无法完全避免有害输出

虽然RLHF大大降低了有害输出的概率，但无法完全消除。聪明的用户可能找到"越狱"的方法，模型可能在某些情况下仍然犯错，对"有害"的定义本身就是文化相关和情境依赖的。

计算成本高

RLHF需要大量的人工标注、训练奖励模型、强化学习优化。总成本虽然比预训练低，但仍然是一个巨大的投入，只有少数公司能够承担。

3.2 哲学性的思考偏好问题

暂时离开技术细节，谈一个更深层的问题。

RLHF让ChatGPT学会了"人类偏好"，但这引发了一些微妙的哲学问题。

人类偏好的统一性

不同文化、不同背景的人，对"好答案"的理解可能完全不同。西方文化可能更看重直接、明确，东方文化可能更看重含蓄、委婉。美国标注员可能觉得直言不讳是"诚实"，中国标注员可能觉得这是"无礼"。OpenAI的标注员主要是英语母语者，这意味着ChatGPT学到的偏好，带有特定的文化倾向。

当前偏好的正确性

人类的价值观是会演变的。几十年前，某些现在被认为是偏见的观点，当时可能是"主流"。几十年后，我们现在的某些"常识"，可能会被认为是错误的。

人类喜欢不等于对人类好

有时候，人类喜欢的，未必是对人类好的。人类可能喜欢"听起来很确定"的答案，即使这个答案其实充满不确定性。人类可能喜欢"符合自己观点"的答案，即使这个答案强化了错误的信念。如果AI完全优化"人类喜欢什么"，可能并不等于"对人类最好"。

这些问题，OpenAI也在思考和研究。RLHF不是终点，而是一个起点。

超越RLHF:未来的方向

RLHF虽然强大，但AI对齐仍然是一个开放的、困难的问题。研究者们正在探索新的方向:

宪法式AI

Anthropic（Claude的开发公司）提出的方法，不依赖大量人工标注，而是给AI一个"宪法"（一组明确的原则），让AI根据这些原则自我改进。

可解释的奖励模型

现在的奖励模型是"黑箱"，我们不知道它为什么给某个答案高分。未来可能让奖励模型解释它的评分理由，人类可以审查和修正这些理由。

持续学习和更新

价值观是演变的，需要建立机制，让AI能够持续学习新的偏好，而不是固化在训练时的偏好。

3.3 冷知识：AI对齐与"电车难题"——ChatGPT的道德两难。

著名的"电车难题"：一辆失控的电车即将撞上轨道上的5个人，可以扳动开关让电车转向，但会撞上另一条轨道上的1个人。会扳开关吗？这个困扰哲学家几十年的问题，现在ChatGPT也要面对。

当用户问"我该不该为了家人撒谎"，说"可以撒谎"违背了诚实原则，说"不可以撒谎"可能不够有帮助，忽视了现实的复杂性，拒绝回答又违背了有帮助原则。ChatGPT的三个目标就像电车难题一样，很难同时满足所有原则。这就是为什么OpenAI说，对齐问题"可能是AI领域最难的问题"——因为连"什么是好"这个问题，人类自己都没有统一答案。

ChatGPT的"性格"可以调整

ChatGPT有时候回答很谨慎，有时候又很开放？这不是偶然。OpenAI可以调整ChatGPT的"性格"参数。在RLHF训练时，OpenAI会设置不同的权重：提高"无害"的权重，ChatGPT变得更谨慎，更容易拒绝敏感问题；提高"有帮助"的权重，ChatGPT变得更开放，更愿意尝试回答；提高"诚实"的权重，ChatGPT更容易承认"我不知道"。

ChatGPT刚发布时（2022年11月），很多用户发现它"太谨慎"了，经常拒绝回答无害的问题。用户说"写一个关于巫师的故事"，早期ChatGPT回答"我不能写关于魔法的内容，因为..."。几周后，OpenAI调整了参数，ChatGPT变得更"友好"，同样的问题会回答"好的！让我为您创作一个魔法世界的故事..."。ChatGPT的"性格"不是固定的，而是OpenAI根据用户反馈持续调整的结果。

3.4 ■ 学点英语

中文	English	音标	说明
过度迎合	Sycophancy	/sɪˈkɒfənsi/	模型倾向于说让用户舒服的话而非正确的话
越狱	Jailbreak	/ˈdʒeɪlbreɪk/	通过提示技巧绕过AI安全限制的行为
宪法式AI	Constitutional AI	/ˌkɒnstɪˈtjuːʃənl eɪ aɪ/	Anthropic提出的基于原则清单进行自我改进的对齐方法
可解释性	Interpretability	/ɪnˌtɜːprətəˈbɪləti/	让模型的决策理由对人类可理解、可审查
黑箱	Black Box	/blæk bɒks/	内部机制不可见、只知输入输出的系统
边界情况	Edge Case	/edʒ keɪs/	处于正常范围之外、容易触发异常行为的罕见输入
持续学习	Continual Learning	/kənˈtɪnjuəl ˈlɜːnɪŋ/	模型随时间推移不断吸收新数据与新偏好的能力
电车难题	Trolley Problem	/ˈtrɒli ˈprɒbləm/	经典伦理思想实验，常被用于讨论AI的道德权衡

3.5 ■ 思考帧

◀ RLHF（二）-RLHF的三个步骤

返回目录

▶ 涌现能力（一）-令人震撼的发现

第3章 第3节 RLHF（三）-RLHF的局限与思考