Technology

本文解读的是Tom Brown等人于2020年发表的划时代论文《Language Models are Few-Shot Learners》，该论文提出了GPT-3模型，以1750亿参数的前所未有规模，首次展示了大语言模型的上下文学习（In-context Learning）和涌现能力（Emergent Abilities）。GPT-3证明了一个惊人的事实：足够大的语言模型无需更新参数，仅通过在输入中提供少量示例，就能执行从未见过的任务——这一发现彻底改变了AI的发展轨迹，直接催生了ChatGPT的诞生。从零样本到少样本的飞跃问题一：零样本学习的局限 GPT-2展示了零样本学习的可能性，但性能仍然有限：任务零样本GPT-2 微调SOTA 差距 CoQA 55 F1 82 F1 -27 翻译（法英） 11.5 BLEU 45.6 BLEU -34 摘要 21.6 ROUGE 44.2 ROUGE -23 零样本学习虽然证明了概念，但实用性不足。问题二：微调的代价传统微调方法虽然有效，但存在显著问题：数据需求：每个任务需要数千到数十万标注样本过拟合风险：在小数据集上容易过拟合分布偏移：微调数据与测试数据分布不一致计算成本：大模型微调需要大量计算资源灵活性差：每个任务需要单独模型问题三：人类学习的启示人类可以从极少量示例中学习新任务： “看一个例子：‘狗’的复数是’dogs’。那’猫’的复数是什么？” 人类不需要数千个训练样本，仅需要任务描述和少量示例就能泛化。GPT-3的目标是：让机器具备类似的学习能力。 GPT-3的核心创新前所未有的规模 GPT-3将规模推向极致：参数 GPT-2 GPT-3 Small GPT-3 Medium GPT-3 Large GPT-3 XL GPT-3 175B 层数 48 12 24 24 32 96 隐藏维度 1600 768 1024 1536 2048 12288 注意力头数 25 12 16 16 24 96 参数量 1.5B 125M 350M 760M 1.3B 175B 最大的GPT-3模型参数量达到1750亿，是GPT-2的100倍以上。 ...

OpenAI的12天发布会终于结束了，我全程追完了所有直播。当演示者用自然语言和视频交互时，我突然有种穿越到未来的感觉——这可能就是生成式AI的终极形态了。表层：AI视频的技术突破 Sora的视频生成能力又提升了，现在能生成5分钟高清视频，连人物微表情都能模拟。视频交互模式也落地了，直接对视频内容提问，AI会实时回答。上周跟做内容创作的朋友聊天，他说：“以前拍短视频要2000块，现在用AI只要200块，效果还不差。“已经不用请摄影师了。深层：中美视频AI的竞争格局中美在生成式视频领域的竞争很激烈：谷歌发布了Veo 2大模型，腾讯也开源了视频大模型。美国在技术前沿领先，中国在落地应用更快——抖音已经在测试AI生成视频功能了。但冷静下来想，深度伪造的风险也不容忽视：生成的人物和真实几乎一模一样，要是用来制作虚假视频，后果不堪设想。终局：GPT-o3的营销噱头？最让我感慨的是OpenAI预测的GPT-o3，2025年发布，据说能实现真正的多模态交互，甚至理解人类情感。但这会不会是又一个营销噱头？毕竟，GPT-4o刚发布时，也有很多承诺没兑现。生成式AI的终极形态到底是什么？是理解和创造任何内容的超级智能，还是人类想象力的延伸？ 2025年的GPT-o3会给我们答案。但无论如何，OpenAI的12天发布会已经展示了AI的未来——更加智能、自然的人机交互时代。我已经迫不及待想看到那一天了。

Technology

【ChatGPT时刻09】GPT-3：少样本学习的突破与涌现能力

OpenAI的12天发布会：生成式AI的终极形态，还是营销噱头？