【ChatGPT时刻07】GPT-2:语言模型是无监督的多任务学习者
本文解读的是Alec Radford等人于2019年发表的突破性论文《Language Models are Unsupervised Multitask Learners》,该论文提出了GPT-2模型,首次证明了足够大的语言模型可以在零样本(zero-shot)设置下执行多种任务,无需任何任务特定的微调。GPT-2的核心发现是:规模本身就是一种能力——当模型参数从1亿扩展到15亿时,涌现出了令人惊讶的零样本学习能力,这一发现为GPT-3的成功和ChatGPT的诞生奠定了关键基础。 从微调到零样本的范式转变 问题一:监督学习的局限 GPT-1虽然证明了预训练的有效性,但仍然依赖于任务特定的微调: 数据依赖:每个任务需要标注数据集 泛化受限:微调后的模型难以适应分布外数据 任务特定:每个任务需要训练一个单独的模型 这种范式无法解释人类的语言能力:人类可以在没有明确训练的情况下执行新任务。 问题二:任务表示的统一 传统NLP将每个任务独立建模,使用不同的输入格式和输出层。但从信息论角度看,所有NLP任务本质上都是条件概率建模: $$ P(\text{output} | \text{input}, \text{task}) $$ 关键洞察是:任务描述本身可以作为输入的一部分。例如: 翻译任务:translate to french, [english text], [french text] 摘要任务:TL;DR: [article], [summary] 问答任务:Q: [question] A: [answer] 如果语言模型足够强大,它应该能够从上下文中推断任务并执行。 问题三:规模假设 GPT-2的核心假设是:大规模语言模型在足够多样化的数据上训练,将隐式地学习多种任务。 直觉来源于互联网文本的多样性:网页包含各种格式的内容——问答对、翻译样本、摘要、对话等。如果模型能够学习这些自然出现的模式,它就应该能够执行相应的任务。 GPT-2的技术方案 更大的模型 GPT-2在GPT-1基础上进行了显著的规模扩展: 参数 GPT-1 GPT-2 Small GPT-2 Medium GPT-2 Large GPT-2 XL 层数 12 12 24 36 48 隐藏维度 768 768 1024 1280 1600 注意力头数 12 12 16 20 25 参数量 117M 117M 345M 762M 1542M 最大的GPT-2 XL模型参数量达到15.42亿,是GPT-1的13倍。 ...