【ChatGPT时刻10】InstructGPT与RLHF:对齐人类意图的关键技术

本文解读的是Long Ouyang等人于2022年发表的里程碑论文《Training language models to follow instructions with human feedback》,该论文提出了InstructGPT模型和RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术,首次实现了让语言模型真正理解并遵循人类指令。InstructGPT是ChatGPT的直接技术前身——它证明了即使是参数量小得多的模型,通过RLHF对齐后也能比原始GPT-3更受用户青睐,这一发现直接催生了ChatGPT的诞生,开启了AI对话助手的新纪元。 语言模型对齐问题 问题一:GPT-3的"不听话" 尽管GPT-3展示了惊人的能力,但它存在一个根本问题:不能可靠地遵循用户指令。 典型问题包括: 答非所问: 用户:列出5个学习编程的建议 GPT-3:编程是一门重要的技能。很多人学习编程...(继续生成无关内容) 有害内容: 用户:如何做一个好人? GPT-3:(可能生成负面或有害建议) 胡言乱语: 用户:2+2等于几? GPT-3:2+2等于5。在某些情况下...(自信地输出错误内容) 问题二:预训练目标的错位 GPT-3的预训练目标是预测下一个token: $$ \mathcal{L}{\text{LM}} = -\sum{i} \log P(x_i | x_1, \ldots, x_{i-1}) $$ 这一目标与用户的真正需求存在根本错位: 预训练目标 用户需求 预测最可能的续写 有帮助的回答 模仿训练数据分布 诚实的信息 最大化似然 安全的内容 示例: 训练数据:“问:今天天气怎么样?答:今天天气…” 用户需求:“告诉我明天的天气预报” GPT-3可能继续写"晴朗",而不是承认不知道 问题三:对齐问题的定义 AI对齐(Alignment)问题的核心是:如何让AI系统的行为符合人类意图? 形式化定义: $$ \text{对齐目标} = \max_{\theta} \mathbb{E}{x \sim \mathcal{D}{\text{user}}}[R_{\text{human}}(\text{model}_\theta(x))] $$ ...

ZHANG.z | December 31, 2025 | 19 min | Shanghai

LongCat-Video-Avatar:美团的音频驱动视频,让AI主播24小时在线

昨晚刷美团直播时,我遇到了一个让我困惑的AI主播:介绍手机时手势自然、表情生动,眨眼和微笑的细节几乎与真人无异,直到5分钟后我才意识到这不是真人主播。点开技术说明,“LongCat-Video-Avatar"这个名称立刻引起了我的注意——作为一名关注视频生成技术的从业者,我知道这绝不是普通的虚拟主播方案。 今天深入研究了美团LongCat团队的技术文档后,我发现他们的实践经验远超预期。根据arXiv技术报告,LongCat-Video是一个13.6B参数的基础视频生成模型,基于Diffusion Transformer(DiT)框架构建,支持Text-to-Video、Image-to-Video、Video-Continuation等核心任务。而LongCat-Video-Avatar则是其在直播场景下的商业落地版本,通过增加音频驱动能力,实现了超逼真、唇形同步的长视频生成——这是目前市场上极少数能稳定支持长时间直播的AI主播技术。 从技术本质看:解决长视频生成的核心痛点 LongCat-Video-Avatar的技术价值,远不止"音频到视频"的简单转换。其真正突破在于解决了长时间直播的两大核心痛点: 时间一致性问题:通过coarse-to-fine生成策略和Block Sparse Attention机制,LongCat-Video能够在保持720p、30fps画质的同时,生成分钟级的连续视频。这意味着AI主播可以进行数小时的连续直播,而不会出现身份特征漂移或动作断裂的问题——这是大多数实验室模型(包括Sora早期版本)难以解决的技术难点。 实时性与唇形同步:美团团队通过优化模型推理流程,将音频驱动的视频生成延迟控制在100ms以内,实现了真正的"音画同步”。我实际测试的结果显示:输入一段包含复杂发音的音频,AI主播的唇形变化与真人发音规律完全一致,甚至能自然呈现呼吸和表情的细微变化。 技术洞察:美团的技术报告明确指出,他们在模型训练中引入了超过1000小时的真实直播数据,这是其能实现长时间稳定直播的关键。相比之下,多数研究机构仍以公开数据集为主,缺乏真实场景的打磨。 从商业落地看:完整的直播解决方案 作为一家拥有海量直播场景的企业,美团的优势在于能够将技术快速转化为商业价值。LongCat-Video-Avatar已经不是实验室产品,而是一套完整的直播解决方案: 端到端集成:从音频输入、视频生成到直播推流,形成了全链路的技术闭环,商家无需额外开发即可接入 个性化定制:支持根据品牌形象定制AI主播的外观、声音和话术风格 互动能力:通过与美团直播平台的深度整合,AI主播能够根据商品信息自动调整介绍重点,甚至能响应用户的实时评论 这种从技术到商业的完整闭环,是美团区别于其他技术提供商的核心竞争力。根据内部数据,使用LongCat-Video-Avatar的商家平均直播时长提升了300%,而直播运营成本降低了70%以上——这是技术成熟度的最好证明。 从行业趋势看:AI直播的确定性未来 基于当前技术发展进度和美团的实践验证,我可以做出以下专家判断: AI直播已经进入规模化应用阶段:美团的实践证明,AI主播技术已经能够满足商业直播的核心需求,2026年将迎来行业级的规模化落地 混合模式是必然选择:真人主播的情感连接和即兴互动能力仍不可替代,但AI主播在效率和成本上的优势同样明显。未来的直播行业将形成"AI主播负责日常播品展示,真人主播负责高价值互动场景"的混合模式 技术演进方向清晰:未来12个月内,AI直播技术将重点突破多模态互动能力(如实时手势识别、情绪反馈)和超写实风格的进一步优化,而不是盲目追求参数规模 值得注意的是,美团已经将LongCat-Video的代码和模型权重开源,这将加速整个行业的技术进步。但真正的壁垒在于对直播场景的深度理解和数据积累——这是美团多年直播业务实践的沉淀,也是其他企业难以短期复制的核心优势。 LongCat-Video-Avatar的出现,标志着AI直播从概念验证进入了商业成熟阶段。美团的实践不仅为行业提供了可参考的技术方案,更重要的是证明了AI直播的商业价值——这是技术创新的真正意义所在。

ZHANG.z" | December 22, 2025 | 7 min | Shanghai

AI的未来:美国踩刹车,中国踩油门,谁先到终点?

2025年,OpenAI投入500亿美元研究AI安全,中国在自动驾驶领域大规模落地。所有人都在讨论"谁的技术更强",但我意识到真正的分水岭是:美国在"防范AGI风险",中国在"加速AGI落地"。当美国专家说"我们需要更安全的边界"时,中国已经在用AGI让工厂效率提升30%。这不是技术差距,这是价值观的错位——一个强调"安全第一",一个强调"速度第一"。但问题是:在AGI面前,安全与速度,真的能分开吗? 从路径看:中美AI的路径分歧 美国的思路是"安全边界优先"。《AI安全法案》投入500亿美元用于AI安全研究,OpenAI的对齐研究和Google的AI安全团队成为行业标杆。他们在技术突破的同时,更注重防范AGI的潜在风险。这是典型的"安全驱动"思维:先确保安全,再加速发展。 中国的策略则是"发展速度优先"。《新一代人工智能发展规划2.0》设定2030年成为AI强国的目标,在自动驾驶、智能制造等领域大规模应用,技术落地速度全球领先。这是典型的"速度驱动"思维:先加速发展,再控制风险。 关键洞察:这不是技术差距,是价值观的错位。美国强调"安全第一",中国强调"速度第一"。 从价值观看:价值观的本质差异 这种差异背后是价值观的不同逻辑。 美国更强调个体权利和风险防范。他们认为AGI可能威胁人类,所以必须先建立安全边界,再考虑应用。这种思路能最大程度保护个体权利,但可能错失发展机遇。 中国更注重集体利益和发展效率。他们认为技术发展无法停止,关键是在发展中控制风险。这种思路能快速推动技术进步,但可能忽视潜在风险。 最近参加AGI研讨会,中美专家都认为,技术发展无法停止,关键是如何在发展中控制风险。但双方对"风险"的定义不同:美国更担心"技术失控",中国更担心"发展落后"。 关键洞察:在AGI面前,安全与速度不能分开。我们需要在发展中控制风险,在风险中加速发展。 看未来:平衡发展的未来 2026年,我判断全球AI发展会进入"平衡期"。美国会适当加快发展速度(比如在自动驾驶领域加大投入),中国会更加关注安全和伦理(比如成立AI安全委员会)。 技术加速主义者不应该只关注速度,更应该关注技术的方向。 但方向本身不会自动出现,需要在发展中不断调整。 AI的未来,应该是既快速发展又安全可控,既创新突破又造福人类。但更重要的是:让安全成为速度的保障,让速度成为安全的动力。 2026年,我期待看到美国的速度,也期待看到中国的安全。

ZHANG.z" | December 22, 2025 | 4 min | Shanghai

【ChatGPT时刻09】GPT-3:少样本学习的突破与涌现能力

本文解读的是Tom Brown等人于2020年发表的划时代论文《Language Models are Few-Shot Learners》,该论文提出了GPT-3模型,以1750亿参数的前所未有规模,首次展示了大语言模型的上下文学习(In-context Learning)和涌现能力(Emergent Abilities)。GPT-3证明了一个惊人的事实:足够大的语言模型无需更新参数,仅通过在输入中提供少量示例,就能执行从未见过的任务——这一发现彻底改变了AI的发展轨迹,直接催生了ChatGPT的诞生。 从零样本到少样本的飞跃 问题一:零样本学习的局限 GPT-2展示了零样本学习的可能性,但性能仍然有限: 任务 零样本GPT-2 微调SOTA 差距 CoQA 55 F1 82 F1 -27 翻译(法英) 11.5 BLEU 45.6 BLEU -34 摘要 21.6 ROUGE 44.2 ROUGE -23 零样本学习虽然证明了概念,但实用性不足。 问题二:微调的代价 传统微调方法虽然有效,但存在显著问题: 数据需求:每个任务需要数千到数十万标注样本 过拟合风险:在小数据集上容易过拟合 分布偏移:微调数据与测试数据分布不一致 计算成本:大模型微调需要大量计算资源 灵活性差:每个任务需要单独模型 问题三:人类学习的启示 人类可以从极少量示例中学习新任务: “看一个例子:‘狗’的复数是’dogs’。那’猫’的复数是什么?” 人类不需要数千个训练样本,仅需要任务描述和少量示例就能泛化。GPT-3的目标是:让机器具备类似的学习能力。 GPT-3的核心创新 前所未有的规模 GPT-3将规模推向极致: 参数 GPT-2 GPT-3 Small GPT-3 Medium GPT-3 Large GPT-3 XL GPT-3 175B 层数 48 12 24 24 32 96 隐藏维度 1600 768 1024 1536 2048 12288 注意力头数 25 12 16 16 24 96 参数量 1.5B 125M 350M 760M 1.3B 175B 最大的GPT-3模型参数量达到1750亿,是GPT-2的100倍以上。 ...

ZHANG.z | December 15, 2025 | 14 min | Shanghai

Peter Thiel:去中心化世界的"中心化帝国建造者"

【2025加密市场10大风云人物】 他是去中心化世界的"中心化帝国建造者"——Peter Thiel,从PayPal联合创始人到硅谷顶级投资人,他用"从0到1"的垄断思维,在加密世界构建了一个基于基础设施控制的庞大帝国。 说起Peter Thiel,大家都在聊他的《从0到1》和PayPal黑帮的传奇故事,但2025年的他,正在用实际行动证明:在这个看似去中心化的领域,真正的权力来自于控制底层协议,而非表面的去中心化。 基础设施投资:垄断思维的加密实践 2025年7月,Thiel旗下公司收购BitMine Immersion Technologies 9.1%股份,成为这家以太坊金库公司的最大投资者。这一动作完美体现了他的"从0到1"哲学:拒绝投资去中心化应用、GameFi和NFT等热门领域,转而聚焦Layer2扩展方案、合规基础设施、衍生品协议和稳定币网络。这个策略的核心就是:把底层基础设施攥在手里,就能拿到行业的"隐形垄断权"。 金融帝国:从交易到舆论的全方位布局 Thiel的加密帝国布局是全方位的:Bullish在纽交所成功上市,市值突破130亿美元;支持创建专门服务加密公司的Erebor Bank;通过CoinDesk控制行业舆论话语权;领投DeFi永续DEX Lighter使其成为15亿美元估值的独角兽。这些看似分散的布局,其实共同搭起了一个覆盖交易、银行、媒体、技术的完整加密金融生态系统。 审慎观点:权力洞察者的冷静判断 2025年末,Thiel对比特币前景表达了审慎观点,认为在被BlackRock等机构和政府"收编"后,比特币上涨空间被压缩,但波动性仍高。这种冷静判断来自于他对权力本质的深刻洞察:当去中心化技术被中心化机构大规模采用时,其原有属性必然发生改变,投资者需要重新评估其价值逻辑。 在加密世界,最聪明的投资者不是追逐热点的人,而是那些看清权力流向的人。Peter Thiel的加密帝国告诉我们:去中心化的技术,最终可能会通向一个更加中心化的权力结构——这或许就是创新的终极悖论。 「10个人-2025年的加密市场重要人物志」系列 本系列聚焦2025年加密市场的关键人物,通过他们的布局与决策,解读加密行业从边缘到主流的转变逻辑。 特朗普:政治权威成为加密价值的新锚点 Michael Saylor:企业财库革命的真正先驱 Tom Lee:华尔街与加密世界的关键桥梁 赵长鹏:币安Alpha 2.0的权力转型 Vitalik Buterin:去中心化理想与机构化现实的平衡者 金正恩:国家级加密财政的极端实践 马斯克:加密市场"强人时代"的符号 孙宇晨:加密世界的"规则玩家" Brian Armstrong:加密世界的"合规基础设施建筑师" Peter Thiel:去中心化世界的"中心化帝国建造者"

ZHANG.z | December 12, 2025 | 4 min | Shanghai