【ChatGPT时刻06】GPT-1:生成式预训练的开山之作
本文解读的是Alec Radford等人于2018年发表的里程碑论文《Improving Language Understanding by Generative Pre-Training》,该论文提出了GPT(Generative Pre-Training)模型,首次将大规模无监督预训练与有监督微调相结合,在多个NLP基准上取得了突破性成绩。GPT-1是ChatGPT的直系祖先——它确立了"预训练+微调"的范式,证明了通用语言表示可以从海量无标注文本中学习,为后续GPT-2、GPT-3乃至ChatGPT奠定了架构和方法论基础。 NLP的迁移学习困境 问题一:标注数据的稀缺性 深度学习在NLP中的应用面临一个根本挑战:高质量标注数据稀缺。 与计算机视觉不同,NLP任务的标注需要语言专业知识,成本高昂: 情感分析:需要理解语言的细微差别 问答系统:需要专业领域知识 文本蕴含:需要逻辑推理能力 大多数NLP数据集仅有数千到数万条标注样本,远不足以从头训练大型神经网络。 问题二:预训练方法的局限 在GPT之前,NLP领域的预训练主要有两种方式: 词向量预训练(如Word2Vec、GloVe): 只提供词级别的表示 无法捕捉上下文信息 无法处理多义词 语言模型预训练(如ELMo): 使用双向LSTM 表示能力受限于LSTM架构 预训练和微调架构不一致 这些方法虽然有效,但都存在明显局限:预训练的知识无法充分迁移到下游任务。 问题三:无监督学习的挑战 无监督学习的核心挑战是找到合适的目标函数。语言建模是一个自然的选择: $$ \mathcal{L}{\text{LM}} = \sum{i} \log P(u_i | u_1, \ldots, u_{i-1}; \Theta) $$ 但如何设计一个既能充分利用预训练知识、又能适应多种下游任务的框架? GPT的核心设计 Transformer解码器架构 GPT采用Transformer的解码器部分作为基础架构,使用单向自注意力(因果注意力): $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}} + M\right)V $$ 其中 $M$ 是掩码矩阵,确保位置 $i$ 只能关注位置 $j \leq i$: ...