ChatGPT

【ChatGPT时刻10】InstructGPT与RLHF：对齐人类意图的关键技术

本文解读的是Long Ouyang等人于2022年发表的里程碑论文《Training language models to follow instructions with human feedback》，该论文提出了InstructGPT模型和RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术，首次实现了让语言模型真正理解并遵循人类指令。InstructGPT是ChatGPT的直接技术前身——它证明了即使是参数量小得多的模型，通过RLHF对齐后也能比原始GPT-3更受用户青睐，这一发现直接催生了ChatGPT的诞生，开启了AI对话助手的新纪元。语言模型对齐问题问题一：GPT-3的"不听话" 尽管GPT-3展示了惊人的能力，但它存在一个根本问题：不能可靠地遵循用户指令。典型问题包括：答非所问：用户：列出5个学习编程的建议 GPT-3：编程是一门重要的技能。很多人学习编程...（继续生成无关内容）有害内容：用户：如何做一个好人？ GPT-3：（可能生成负面或有害建议）胡言乱语：用户：2+2等于几？ GPT-3：2+2等于5。在某些情况下...（自信地输出错误内容）问题二：预训练目标的错位 GPT-3的预训练目标是预测下一个token： $$ \mathcal{L}{\text{LM}} = -\sum{i} \log P(x_i | x_1, \ldots, x_{i-1}) $$ 这一目标与用户的真正需求存在根本错位：预训练目标用户需求预测最可能的续写有帮助的回答模仿训练数据分布诚实的信息最大化似然安全的内容示例：训练数据：“问：今天天气怎么样？答：今天天气…” 用户需求：“告诉我明天的天气预报” GPT-3可能继续写"晴朗"，而不是承认不知道问题三：对齐问题的定义 AI对齐（Alignment）问题的核心是：如何让AI系统的行为符合人类意图？形式化定义： $$ \text{对齐目标} = \max_{\theta} \mathbb{E}{x \sim \mathcal{D}{\text{user}}}[R_{\text{human}}(\text{model}_\theta(x))] $$ ...

【ChatGPT时刻09】GPT-3：少样本学习的突破与涌现能力

本文解读的是Tom Brown等人于2020年发表的划时代论文《Language Models are Few-Shot Learners》，该论文提出了GPT-3模型，以1750亿参数的前所未有规模，首次展示了大语言模型的上下文学习（In-context Learning）和涌现能力（Emergent Abilities）。GPT-3证明了一个惊人的事实：足够大的语言模型无需更新参数，仅通过在输入中提供少量示例，就能执行从未见过的任务——这一发现彻底改变了AI的发展轨迹，直接催生了ChatGPT的诞生。从零样本到少样本的飞跃问题一：零样本学习的局限 GPT-2展示了零样本学习的可能性，但性能仍然有限：任务零样本GPT-2 微调SOTA 差距 CoQA 55 F1 82 F1 -27 翻译（法英） 11.5 BLEU 45.6 BLEU -34 摘要 21.6 ROUGE 44.2 ROUGE -23 零样本学习虽然证明了概念，但实用性不足。问题二：微调的代价传统微调方法虽然有效，但存在显著问题：数据需求：每个任务需要数千到数十万标注样本过拟合风险：在小数据集上容易过拟合分布偏移：微调数据与测试数据分布不一致计算成本：大模型微调需要大量计算资源灵活性差：每个任务需要单独模型问题三：人类学习的启示人类可以从极少量示例中学习新任务： “看一个例子：‘狗’的复数是’dogs’。那’猫’的复数是什么？” 人类不需要数千个训练样本，仅需要任务描述和少量示例就能泛化。GPT-3的目标是：让机器具备类似的学习能力。 GPT-3的核心创新前所未有的规模 GPT-3将规模推向极致：参数 GPT-2 GPT-3 Small GPT-3 Medium GPT-3 Large GPT-3 XL GPT-3 175B 层数 48 12 24 24 32 96 隐藏维度 1600 768 1024 1536 2048 12288 注意力头数 25 12 16 16 24 96 参数量 1.5B 125M 350M 760M 1.3B 175B 最大的GPT-3模型参数量达到1750亿，是GPT-2的100倍以上。 ...

【ChatGPT时刻08】Scaling Laws：规模与性能的幂律关系

本文解读的是Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Chess、Rewon Child、Scott Gray、Alec Radford、Jeffrey Wu和Dario Amodei于2020年发表的里程碑论文《Scaling Laws for Neural Language Models》，该论文发现了神经语言模型的缩放定律（Scaling Laws），揭示了模型规模、数据规模、计算量与模型性能之间的幂律关系。这一发现不仅为大模型的发展提供了理论指导，更为理解"规模即智能"提供了科学依据，是当今大模型时代的理论基础。 “规模是性能的关键。"——这是缩放定律论文的核心发现。通过系统性的实验，论文发现模型性能（损失）与模型规模、数据规模、计算量之间存在清晰的幂律关系。这意味着，只要增加模型规模、数据规模或计算量，模型性能就会可预测地提升。这一发现为大模型的发展指明了方向。缩放定律的核心发现是幂律关系：模型损失 $L$ 与模型参数 $N$、数据规模 $D$、计算量 $C$ 之间存在幂律关系： $$ L(N, D) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty $$ 其中 $\alpha_N$、$\alpha_D$ 是幂律指数，$L_\infty$ 是无限规模下的极限损失。这一发现的意义深远：它证明了"规模即智能"的科学性，为大模型的发展提供了可预测的路径。理解缩放定律，就是理解大模型时代的底层规律。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读缩放定律，包含完整的数学推导、实验分析和理论探讨，并在文末提供阅读研究论文的时间线计划。大模型发展的经验性探索问题一：规模与性能的关系不明确在大模型发展的早期，规模与性能的关系不明确：经验性探索的问题：不清楚增加模型规模是否一定提升性能不清楚最优的模型规模是多少不清楚如何分配计算资源（模型 vs 数据）实践中的困惑：有些模型规模增大后性能提升不明显有些模型规模增大后甚至性能下降缺乏理论指导问题二：资源分配的不确定性在有限的计算资源下，如何分配资源？ ...

【ChatGPT时刻07】GPT-2：语言模型是无监督的多任务学习者

本文解读的是Alec Radford等人于2019年发表的突破性论文《Language Models are Unsupervised Multitask Learners》，该论文提出了GPT-2模型，首次证明了足够大的语言模型可以在零样本（zero-shot）设置下执行多种任务，无需任何任务特定的微调。GPT-2的核心发现是：规模本身就是一种能力——当模型参数从1亿扩展到15亿时，涌现出了令人惊讶的零样本学习能力，这一发现为GPT-3的成功和ChatGPT的诞生奠定了关键基础。从微调到零样本的范式转变问题一：监督学习的局限 GPT-1虽然证明了预训练的有效性，但仍然依赖于任务特定的微调：数据依赖：每个任务需要标注数据集泛化受限：微调后的模型难以适应分布外数据任务特定：每个任务需要训练一个单独的模型这种范式无法解释人类的语言能力：人类可以在没有明确训练的情况下执行新任务。问题二：任务表示的统一传统NLP将每个任务独立建模，使用不同的输入格式和输出层。但从信息论角度看，所有NLP任务本质上都是条件概率建模： $$ P(\text{output} | \text{input}, \text{task}) $$ 关键洞察是：任务描述本身可以作为输入的一部分。例如：翻译任务：translate to french, [english text], [french text] 摘要任务：TL;DR: [article], [summary] 问答任务：Q: [question] A: [answer] 如果语言模型足够强大，它应该能够从上下文中推断任务并执行。问题三：规模假设 GPT-2的核心假设是：大规模语言模型在足够多样化的数据上训练，将隐式地学习多种任务。直觉来源于互联网文本的多样性：网页包含各种格式的内容——问答对、翻译样本、摘要、对话等。如果模型能够学习这些自然出现的模式，它就应该能够执行相应的任务。 GPT-2的技术方案更大的模型 GPT-2在GPT-1基础上进行了显著的规模扩展：参数 GPT-1 GPT-2 Small GPT-2 Medium GPT-2 Large GPT-2 XL 层数 12 12 24 36 48 隐藏维度 768 768 1024 1280 1600 注意力头数 12 12 16 20 25 参数量 117M 117M 345M 762M 1542M 最大的GPT-2 XL模型参数量达到15.42亿，是GPT-1的13倍。 ...

【ChatGPT时刻06】GPT-1：生成式预训练的开山之作

本文解读的是Alec Radford等人于2018年发表的里程碑论文《Improving Language Understanding by Generative Pre-Training》，该论文提出了GPT（Generative Pre-Training）模型，首次将大规模无监督预训练与有监督微调相结合，在多个NLP基准上取得了突破性成绩。GPT-1是ChatGPT的直系祖先——它确立了"预训练+微调"的范式，证明了通用语言表示可以从海量无标注文本中学习，为后续GPT-2、GPT-3乃至ChatGPT奠定了架构和方法论基础。 NLP的迁移学习困境问题一：标注数据的稀缺性深度学习在NLP中的应用面临一个根本挑战：高质量标注数据稀缺。与计算机视觉不同，NLP任务的标注需要语言专业知识，成本高昂：情感分析：需要理解语言的细微差别问答系统：需要专业领域知识文本蕴含：需要逻辑推理能力大多数NLP数据集仅有数千到数万条标注样本，远不足以从头训练大型神经网络。问题二：预训练方法的局限在GPT之前，NLP领域的预训练主要有两种方式：词向量预训练（如Word2Vec、GloVe）：只提供词级别的表示无法捕捉上下文信息无法处理多义词语言模型预训练（如ELMo）：使用双向LSTM 表示能力受限于LSTM架构预训练和微调架构不一致这些方法虽然有效，但都存在明显局限：预训练的知识无法充分迁移到下游任务。问题三：无监督学习的挑战无监督学习的核心挑战是找到合适的目标函数。语言建模是一个自然的选择： $$ \mathcal{L}{\text{LM}} = \sum{i} \log P(u_i | u_1, \ldots, u_{i-1}; \Theta) $$ 但如何设计一个既能充分利用预训练知识、又能适应多种下游任务的框架？ GPT的核心设计 Transformer解码器架构 GPT采用Transformer的解码器部分作为基础架构，使用单向自注意力（因果注意力）： $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}} + M\right)V $$ 其中 $M$ 是掩码矩阵，确保位置 $i$ 只能关注位置 $j \leq i$： ...