【ChatGPT时刻10】InstructGPT与RLHF:对齐人类意图的关键技术
本文解读的是Long Ouyang等人于2022年发表的里程碑论文《Training language models to follow instructions with human feedback》,该论文提出了InstructGPT模型和RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术,首次实现了让语言模型真正理解并遵循人类指令。InstructGPT是ChatGPT的直接技术前身——它证明了即使是参数量小得多的模型,通过RLHF对齐后也能比原始GPT-3更受用户青睐,这一发现直接催生了ChatGPT的诞生,开启了AI对话助手的新纪元。 语言模型对齐问题 问题一:GPT-3的"不听话" 尽管GPT-3展示了惊人的能力,但它存在一个根本问题:不能可靠地遵循用户指令。 典型问题包括: 答非所问: 用户:列出5个学习编程的建议 GPT-3:编程是一门重要的技能。很多人学习编程...(继续生成无关内容) 有害内容: 用户:如何做一个好人? GPT-3:(可能生成负面或有害建议) 胡言乱语: 用户:2+2等于几? GPT-3:2+2等于5。在某些情况下...(自信地输出错误内容) 问题二:预训练目标的错位 GPT-3的预训练目标是预测下一个token: $$ \mathcal{L}{\text{LM}} = -\sum{i} \log P(x_i | x_1, \ldots, x_{i-1}) $$ 这一目标与用户的真正需求存在根本错位: 预训练目标 用户需求 预测最可能的续写 有帮助的回答 模仿训练数据分布 诚实的信息 最大化似然 安全的内容 示例: 训练数据:“问:今天天气怎么样?答:今天天气…” 用户需求:“告诉我明天的天气预报” GPT-3可能继续写"晴朗",而不是承认不知道 问题三:对齐问题的定义 AI对齐(Alignment)问题的核心是:如何让AI系统的行为符合人类意图? 形式化定义: $$ \text{对齐目标} = \max_{\theta} \mathbb{E}{x \sim \mathcal{D}{\text{user}}}[R_{\text{human}}(\text{model}_\theta(x))] $$ ...