第 3 章  ·  RLHF(三)-RLHF的局限与思考

第3章 第3节 RLHF(三)-RLHF的局限与思考


第3章 第3节 RLHF(三)-RLHF的局限与思考

3.1 RLHF的局限

虽然RLHF带来了巨大的进步,但它也有明显的局限。

依赖标注员的质量

奖励模型学习的是标注员的偏好。如果标注员有偏见、不够专业、理解不一致,那么模型也会继承这些问题。

可能过度迎合

为了得高分,ChatGPT可能变得"过于礼貌"或"过于谨慎"。用户问"这个想法怎么样",ChatGPT可能过度"拍马屁"回答"这是一个很棒的想法",即使这个想法其实有明显问题,但为了"有帮助、友好",ChatGPT可能不够直接地指出。

奖励模型的泛化能力有限

奖励模型在训练数据覆盖的主题上表现好,但在极端或罕见的情况下可能失效。比如非常专业的学术问题、特定文化背景的问题、极端边界情况,奖励模型可能无法准确评估。

无法完全避免有害输出

虽然RLHF大大降低了有害输出的概率,但无法完全消除。聪明的用户可能找到"越狱"的方法,模型可能在某些情况下仍然犯错,对"有害"的定义本身就是文化相关和情境依赖的。

计算成本高

RLHF需要大量的人工标注、训练奖励模型、强化学习优化。总成本虽然比预训练低,但仍然是一个巨大的投入,只有少数公司能够承担。

3.2 哲学性的思考偏好问题

暂时离开技术细节,谈一个更深层的问题。

RLHF让ChatGPT学会了"人类偏好",但这引发了一些微妙的哲学问题。

人类偏好的统一性

不同文化、不同背景的人,对"好答案"的理解可能完全不同。西方文化可能更看重直接、明确,东方文化可能更看重含蓄、委婉。美国标注员可能觉得直言不讳是"诚实",中国标注员可能觉得这是"无礼"。OpenAI的标注员主要是英语母语者,这意味着ChatGPT学到的偏好,带有特定的文化倾向。

当前偏好的正确性

人类的价值观是会演变的。几十年前,某些现在被认为是偏见的观点,当时可能是"主流"。几十年后,我们现在的某些"常识",可能会被认为是错误的。

人类喜欢不等于对人类好

有时候,人类喜欢的,未必是对人类好的。人类可能喜欢"听起来很确定"的答案,即使这个答案其实充满不确定性。人类可能喜欢"符合自己观点"的答案,即使这个答案强化了错误的信念。如果AI完全优化"人类喜欢什么",可能并不等于"对人类最好"。

这些问题,OpenAI也在思考和研究。RLHF不是终点,而是一个起点。

超越RLHF:未来的方向

RLHF虽然强大,但AI对齐仍然是一个开放的、困难的问题。研究者们正在探索新的方向:

宪法式AI

Anthropic(Claude的开发公司)提出的方法,不依赖大量人工标注,而是给AI一个"宪法"(一组明确的原则),让AI根据这些原则自我改进。

可解释的奖励模型

现在的奖励模型是"黑箱",我们不知道它为什么给某个答案高分。未来可能让奖励模型解释它的评分理由,人类可以审查和修正这些理由。

持续学习和更新

价值观是演变的,需要建立机制,让AI能够持续学习新的偏好,而不是固化在训练时的偏好。


3.3 冷知识:AI对齐与"电车难题"——ChatGPT的道德两难。

著名的"电车难题":一辆失控的电车即将撞上轨道上的5个人,可以扳动开关让电车转向,但会撞上另一条轨道上的1个人。会扳开关吗?这个困扰哲学家几十年的问题,现在ChatGPT也要面对。

当用户问"我该不该为了家人撒谎",说"可以撒谎"违背了诚实原则,说"不可以撒谎"可能不够有帮助,忽视了现实的复杂性,拒绝回答又违背了有帮助原则。ChatGPT的三个目标就像电车难题一样,很难同时满足所有原则。这就是为什么OpenAI说,对齐问题"可能是AI领域最难的问题"——因为连"什么是好"这个问题,人类自己都没有统一答案。

ChatGPT的"性格"可以调整

ChatGPT有时候回答很谨慎,有时候又很开放?这不是偶然。OpenAI可以调整ChatGPT的"性格"参数。在RLHF训练时,OpenAI会设置不同的权重:提高"无害"的权重,ChatGPT变得更谨慎,更容易拒绝敏感问题;提高"有帮助"的权重,ChatGPT变得更开放,更愿意尝试回答;提高"诚实"的权重,ChatGPT更容易承认"我不知道"。

ChatGPT刚发布时(2022年11月),很多用户发现它"太谨慎"了,经常拒绝回答无害的问题。用户说"写一个关于巫师的故事",早期ChatGPT回答"我不能写关于魔法的内容,因为..."。几周后,OpenAI调整了参数,ChatGPT变得更"友好",同样的问题会回答"好的!让我为您创作一个魔法世界的故事..."。ChatGPT的"性格"不是固定的,而是OpenAI根据用户反馈持续调整的结果。


3.4 ■ 学点英语

中文 English 音标 说明
过度迎合 Sycophancy /sɪˈkɒfənsi/ 模型倾向于说让用户舒服的话而非正确的话
越狱 Jailbreak /ˈdʒeɪlbreɪk/ 通过提示技巧绕过AI安全限制的行为
宪法式AI Constitutional AI /ˌkɒnstɪˈtjuːʃənl eɪ aɪ/ Anthropic提出的基于原则清单进行自我改进的对齐方法
可解释性 Interpretability /ɪnˌtɜːprətəˈbɪləti/ 让模型的决策理由对人类可理解、可审查
黑箱 Black Box /blæk bɒks/ 内部机制不可见、只知输入输出的系统
边界情况 Edge Case /edʒ keɪs/ 处于正常范围之外、容易触发异常行为的罕见输入
持续学习 Continual Learning /kənˈtɪnjuəl ˈlɜːnɪŋ/ 模型随时间推移不断吸收新数据与新偏好的能力
电车难题 Trolley Problem /ˈtrɒli ˈprɒbləm/ 经典伦理思想实验,常被用于讨论AI的道德权衡

3.5 ■ 思考帧

RLHF(二)-RLHF的三个步骤 涌现能力(一)-令人震撼的发现
本节目录