AI | Zhang's Blog

元宝派内测：给马老板交的这份作业，及格吗?

腾讯和Meta都有巨量社交数据, 但是还没有找到AI+社交的机会。26号元宝发布了一个体验功能: 元宝派, 像是在AI+社交+Agent上的试水。拿到内测后体验了半天元宝派，也看了马化腾年会讲话。一句话总结：想做Agent，又不敢All in，最后搞了个AI群聊，里面塞了个元宝机器人。这份作业，我自己都觉得不及格。数据不会说谎豆包日活已破1亿，成为国内首个日活过亿的AI应用1；Kimi月活超3600万，K2.5版本刚发布就支持百个智能体并行协作2；千问C端月活破1亿，企业客户接入超100万家，稳坐企业级市场第一3。元宝呢？QuestMobile数据显示，元宝周活约2084万，日活推算约800万4——在第一梯队里垫底，与豆包的差距已超过10倍。功能对比更扎心：豆包已能跨应用执行任务、生成长视频；Kimi的200万字长文本处理独步江湖；千问在代码生成和企业场景深耕。而元宝派拿出来的是什么？一个只能在群里斗图、需要反复@才搭理你的"高冷客服"。马化腾年会上说"不必焦虑"，但元宝派赶在春节前内测、机械重复"2月1日分10亿红包"——这哪是不焦虑，分明是焦虑到要给老板交作业了。给Pony的建议：抄微软作业就行腾讯目前真没必要亲自下场做Agent(不包含团队试验田), 但是必须有懂Agent, 能搭戏台的人出现, 这个人是不是姚顺雨还未可知。 QQ/微信13亿月活、小程序5亿日活5，这是全球最大的社交生态。与其做一个半残的AI群聊，不如学微软：投资AI初创公司探路，自身快速跟随AI化。微软没自己从头做大模型，而是投资OpenAI拿到GPT商业化权利，然后把Copilot整合进Office全家桶。结果呢？微软也是AI产品化最快的企业, 而且2025年微软市值近3万亿美元。腾讯完全可以复制这个路径：投资Kimi、MiniMax这类有潜力的公司，让它们在前线探路Agent场景；自己专注把AI整合进微信生态——让元宝能同步微信日程、智能管理群聊、自动整理朋友圈。这比做一个独立APP让用户来回切换，强一百倍。 AI的船票，不是非得自己造船。帮别人造船，自己坐船，也是一种战略。蓝鲸新闻、证券之星2026年1月26-28日报道，QuestMobile周活监测数据 ↩︎ 今日头条2026年1月28日报道，Techno Trenz统计数据 ↩︎ 今日头条2026年1月27日报道，小牛行研数据，沙利文报告佐证 ↩︎ QuestMobile官方数据（2025年12月8-14日周活2084万），新浪财经等媒体转载 ↩︎ 腾讯控股2024年第三季度财报 ↩︎

物理学的尽头是AGI？

物理学界流传着一个古老的笑话：物理学家无所不能，除了物理。虽然是句调侃，但在当今的 AI 浪潮中，这似乎成了某种预言。当你剥开 ChatGPT、Claude 或是 Llama 的外衣，往最核心的算法层和决策层看去，会惊讶地发现：怎么满屋子都是学物理的？从 OpenAI 的分裂到 Anthropic 的崛起，从 Scaling Laws 的发现到 Transformer 的优化，这群曾经天天琢磨量子态、黑洞和宇宙学的聪明脑袋，似乎集体决定换个赛道——不再纠结上帝掷不掷骰子，而是教 GPU 怎么掷出下一个 Token。今天，我们就按「学术背景 → 核心贡献 → 现状」的结构，盘点一下这几位“稍不留神”就改变了 AI 历史进程的物理学家。看完你或许会明白，为什么说物理学才是 AGI 的“新东方烹饪学校”。 1. Dario Amodei (Anthropic 联合创始人 & CEO) 物理背景：普林斯顿大学物理学博士。硬核的理论物理与量子计算方向，还顺手在斯坦福和加州理工做了博士后。典型的“谢尔顿”式学术履历。核心贡献： Scaling Laws (缩放定律)：在大模型还是玄学的年代，他和团队搞出了 Scaling Laws，告诉世界：别瞎猜了，算力、数据和参数量之间有铁律。这直接给“暴力美学”奠定了理论基石。 Claude 之父：从 OpenAI 出走后创立 Anthropic，死磕“宪法 AI (Constitutional AI)”，试图给 AI 装上安全阀。当前状态：Anthropic CEO。正忙着让 Claude 更聪明、更安全，同时思考怎么不让强 AI 把人类带沟里去。 2. Jared Kaplan (Anthropic 联合创始人 & 首席科学家) 物理背景：约翰霍普金斯大学理论物理学教授。研究了 15 年的量子引力、场论和宇宙学。正儿八经的教授下海，降维打击。核心贡献： Scaling Laws 的奠基人：他和 Dario Amodei 的名字几乎和缩放定律绑定。把研究宇宙膨胀的劲头拿来研究模型膨胀，结果发现规律竟然出奇地一致。 GPT-3 & Codex：在 OpenAI 期间是这两个大杀器的核心参与者。当前状态：Anthropic 首席科学家。继续在 LLM 的基础理论和安全对齐的无人区里探索。 3. Ilya Sutskever (OpenAI 联合创始人 & 前首席科学家) ...

OpenAI与网景：三十年轮回，但这次可能真的不同

技术会老去，但商业规律永远年轻。当OpenAI以ChatGPT重演网景浏览器式的辉煌时，我们不禁要问：历史会重演，还是已经改写？昨晚刷到"大空头"迈克尔·伯里的推文，他说OpenAI就是下一个网景，注定失败且正在疯狂烧钱。我盯着这条推文看了很久，脑子里闪过一个画面：1995年8月9日，成立仅16个月的网景公司在纳斯达克上市。首日股价从28美元飙升至75美元，年轻的马克·安德森登上《时代》周刊封面，标题"黄金极客"宣告互联网时代的到来。近三十年后，2022年11月，OpenAI发布ChatGPT。两个月内月活跃用户突破1亿，成为历史上增长最快的消费者应用。山姆·阿尔特曼成为AI时代的代言人，OpenAI跻身全球最具价值科技公司行列。历史会重演吗？还是已经改写？我意识到，这个问题的答案，可能决定了整个AI行业的未来走向。但当我深入分析后，我发现：历史确实惊人相似，但这次可能真的不同。表面上看，OpenAI与网景的轨迹几乎如出一辙。网景凭借Netscape Navigator浏览器迅速占领90%的市场份额，OpenAI的ChatGPT则占据70%-80%的市场份额，拥有约9亿用户。两者都代表了技术范式的根本转变：网景让普通人能够轻松访问互联网，OpenAI则让普通人能够与AI自然对话。更为相似的是竞争格局。网景的成功惊醒了沉睡的巨人微软，而ChatGPT的横空出世则让谷歌仓促应战。微软推出IE 1.0时产品粗糙、漏洞百出，谷歌最初推出的Bard也因演示失误而遭遇公关危机。这种巨头初战失利的剧情在两个时代几乎如出一辙。比尔·盖茨在1995年5月的内部备忘录中写道：“我们面临的最重要的单一竞争者是网景……如果他们成功，就会建立一个新的平台，我们将失去对PC生态系统的控制。“如今，谷歌和微软在AI领域的激烈竞争，本质上也是对下一个计算平台控制权的争夺。这不是技术竞争，是平台控制权的争夺。网景挑战的是PC生态，OpenAI挑战的是AI生态。但历史不会简单重演，因为约束条件已经发生本质变化。微软当年击败网景采取了经典的三步战略：免费、快速迭代和捆绑销售。IE浏览器不仅免费提供，还捆绑在Windows操作系统中，直接预装在每一台新电脑上。这一策略切断了网景的收入来源，使其付费模式无以为继。今天，谷歌拥有多重入口优势。Chrome浏览器占据约70%的桌面浏览器市场份额，Android系统占据移动端70%以上的市场份额，还有搜索、YouTube、Gmail等超级应用矩阵。理论上，谷歌可以将Gemini深度整合到这些产品中，形成类似微软的捆绑优势。但关键区别在于：浏览器软件几乎零边际成本，微软可以轻松免费提供。而AI大模型的训练和推理每次都需要消耗大量算力，成本极高。如果谷歌完全免费开放Gemini，海量用户使用可能导致其陷入财务黑洞。这一成本结构差异，使得简单复制微软策略变得困难。我查了数据：2025年前9个月，OpenAI推理支出达86.7亿美元，是2024年全年的2.3倍，而收入仅增长75%。更令人担忧的是，OpenAI"每赚1美元需投入1.8美元算力成本”，亏损缺口已扩大至43.4亿美元。这些数字令人想起互联网泡沫时期不可持续的商业模型。但关键问题是：网景当年只有浏览器这一条收入线，而OpenAI已经建立了订阅、API、企业服务等多条收入线。这种差异，可能决定了完全不同的结局。成本结构决定了竞争策略。微软可以免费，但谷歌不能。这是OpenAI与网景最大的不同。尽管历史惊人相似，但2025年的AI市场与1995年的浏览器市场存在根本性区别。最重要的一点是：渠道垄断已被打破。当年微软的Windows操作系统几乎垄断了PC入口，超过90%的市场份额，捆绑策略形成了"死角”。而今天的数字生态更加多元，谷歌虽强，但不再拥有绝对控制权。另一个关键区别是：AI市场是增量市场，空间足够大，可能容许多个巨头共存。就像智能手机时代的苹果与安卓，竞争激烈但双雄并立。网景与微软的战争是零和游戏，而OpenAI与谷歌的竞争可能产生多个赢家。此外，开源模型的崛起也改变了游戏规则。中国开源模型已占据全球30%的市场份额，DeepSeek、Kimi等产品不断分流用户。这种去中心化的力量是网景时代不存在的。 OpenAI面临的最大挑战不是谷歌，而是商业模式的可持续性。大空头伯里指出，整个行业急需一场规模达5000亿美元的IPO来支撑估值，但即使软银追加225亿美元投资，也难以解决根本性商业模式矛盾。然而，OpenAI比网景有多样化的收入来源和更清晰的盈利路径。与主要依赖浏览器销售的网景不同，OpenAI已经建立了订阅、API许可和合作伙伴关系的组合模式。到2029年，OpenAI预测年收入将达到1250亿美元，其中一半以上将来自API许可以及AI代理等新应用。历史不会简单重演，因为约束条件已发生本质变化。网景的失败在于时机过早、生态单一和商业模式脆弱。而OpenAI身处一个技术更成熟、生态更多元、商业模式更丰富的时代。回到最初的问题：OpenAI会重蹈网景的覆辙吗？答案是：可能性较小，但挑战巨大。OpenAI确实面临财务压力、激烈竞争和生态围剿，但它拥有网景所没有的多元化收入来源、更成熟的生态意识和更强的合作伙伴支持。更重要的是，AI市场足够大，可能容许多个巨头共存。真正的启示在于：技术革命不是零和游戏。网景虽死，但它的基因活在Firefox和Chrome中，推动了整个Web标准的进步。无论OpenAI与谷歌的竞争结果如何，它们都在共同推动AI技术向前发展。正如控制层转移的规律所示，每10-15年就会发生一次控制层的转移。或许，未来的颠覆者既不是OpenAI也不是谷歌，而是一个我们今天尚未察觉的新力量。在技术发展的长河中，唯一不变的是变化本身。技术会老去，但商业规律永远年轻。网景的故事提醒我们技术商业化的残酷性，而OpenAI的故事则告诉我们：这一次，可能真的不同。三十年一个轮回，但每个轮回都有其独特的韵律。昨晚看完伯里的推文，我一直在想：如果历史真的会重演，那我们应该从网景的失败中学到什么？如果历史已经改写，那OpenAI的哪些特质让它能够避免网景的命运？答案可能不在技术本身，而在商业模式的可持续性、生态的多元性，以及时代的约束条件。网景败给了微软的捆绑策略，但OpenAI可能不会败给谷歌，因为成本结构已经改变，生态已经多元，市场已经足够大。这一次，可能真的不同。

【ChatGPT时刻10】InstructGPT与RLHF：对齐人类意图的关键技术

本文解读的是Long Ouyang等人于2022年发表的里程碑论文《Training language models to follow instructions with human feedback》，该论文提出了InstructGPT模型和RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术，首次实现了让语言模型真正理解并遵循人类指令。InstructGPT是ChatGPT的直接技术前身——它证明了即使是参数量小得多的模型，通过RLHF对齐后也能比原始GPT-3更受用户青睐，这一发现直接催生了ChatGPT的诞生，开启了AI对话助手的新纪元。语言模型对齐问题问题一：GPT-3的"不听话" 尽管GPT-3展示了惊人的能力，但它存在一个根本问题：不能可靠地遵循用户指令。典型问题包括：答非所问：用户：列出5个学习编程的建议 GPT-3：编程是一门重要的技能。很多人学习编程...（继续生成无关内容）有害内容：用户：如何做一个好人？ GPT-3：（可能生成负面或有害建议）胡言乱语：用户：2+2等于几？ GPT-3：2+2等于5。在某些情况下...（自信地输出错误内容）问题二：预训练目标的错位 GPT-3的预训练目标是预测下一个token： $$ \mathcal{L}{\text{LM}} = -\sum{i} \log P(x_i | x_1, \ldots, x_{i-1}) $$ 这一目标与用户的真正需求存在根本错位：预训练目标用户需求预测最可能的续写有帮助的回答模仿训练数据分布诚实的信息最大化似然安全的内容示例：训练数据：“问：今天天气怎么样？答：今天天气…” 用户需求：“告诉我明天的天气预报” GPT-3可能继续写"晴朗"，而不是承认不知道问题三：对齐问题的定义 AI对齐（Alignment）问题的核心是：如何让AI系统的行为符合人类意图？形式化定义： $$ \text{对齐目标} = \max_{\theta} \mathbb{E}{x \sim \mathcal{D}{\text{user}}}[R_{\text{human}}(\text{model}_\theta(x))] $$ ...

LongCat-Video-Avatar：美团的音频驱动视频，让AI主播24小时在线

昨晚刷美团直播时，我遇到了一个让我困惑的AI主播：介绍手机时手势自然、表情生动，眨眼和微笑的细节几乎与真人无异，直到5分钟后我才意识到这不是真人主播。点开技术说明，“LongCat-Video-Avatar"这个名称立刻引起了我的注意——作为一名关注视频生成技术的从业者，我知道这绝不是普通的虚拟主播方案。今天深入研究了美团LongCat团队的技术文档后，我发现他们的实践经验远超预期。根据arXiv技术报告，LongCat-Video是一个13.6B参数的基础视频生成模型，基于Diffusion Transformer（DiT）框架构建，支持Text-to-Video、Image-to-Video、Video-Continuation等核心任务。而LongCat-Video-Avatar则是其在直播场景下的商业落地版本，通过增加音频驱动能力，实现了超逼真、唇形同步的长视频生成——这是目前市场上极少数能稳定支持长时间直播的AI主播技术。从技术本质看：解决长视频生成的核心痛点 LongCat-Video-Avatar的技术价值，远不止"音频到视频"的简单转换。其真正突破在于解决了长时间直播的两大核心痛点：时间一致性问题：通过coarse-to-fine生成策略和Block Sparse Attention机制，LongCat-Video能够在保持720p、30fps画质的同时，生成分钟级的连续视频。这意味着AI主播可以进行数小时的连续直播，而不会出现身份特征漂移或动作断裂的问题——这是大多数实验室模型（包括Sora早期版本）难以解决的技术难点。实时性与唇形同步：美团团队通过优化模型推理流程，将音频驱动的视频生成延迟控制在100ms以内，实现了真正的"音画同步”。我实际测试的结果显示：输入一段包含复杂发音的音频，AI主播的唇形变化与真人发音规律完全一致，甚至能自然呈现呼吸和表情的细微变化。技术洞察：美团的技术报告明确指出，他们在模型训练中引入了超过1000小时的真实直播数据，这是其能实现长时间稳定直播的关键。相比之下，多数研究机构仍以公开数据集为主，缺乏真实场景的打磨。从商业落地看：完整的直播解决方案作为一家拥有海量直播场景的企业，美团的优势在于能够将技术快速转化为商业价值。LongCat-Video-Avatar已经不是实验室产品，而是一套完整的直播解决方案：端到端集成：从音频输入、视频生成到直播推流，形成了全链路的技术闭环，商家无需额外开发即可接入个性化定制：支持根据品牌形象定制AI主播的外观、声音和话术风格互动能力：通过与美团直播平台的深度整合，AI主播能够根据商品信息自动调整介绍重点，甚至能响应用户的实时评论这种从技术到商业的完整闭环，是美团区别于其他技术提供商的核心竞争力。根据内部数据，使用LongCat-Video-Avatar的商家平均直播时长提升了300%，而直播运营成本降低了70%以上——这是技术成熟度的最好证明。从行业趋势看：AI直播的确定性未来基于当前技术发展进度和美团的实践验证，我可以做出以下专家判断： AI直播已经进入规模化应用阶段：美团的实践证明，AI主播技术已经能够满足商业直播的核心需求，2026年将迎来行业级的规模化落地混合模式是必然选择：真人主播的情感连接和即兴互动能力仍不可替代，但AI主播在效率和成本上的优势同样明显。未来的直播行业将形成"AI主播负责日常播品展示，真人主播负责高价值互动场景"的混合模式技术演进方向清晰：未来12个月内，AI直播技术将重点突破多模态互动能力（如实时手势识别、情绪反馈）和超写实风格的进一步优化，而不是盲目追求参数规模值得注意的是，美团已经将LongCat-Video的代码和模型权重开源，这将加速整个行业的技术进步。但真正的壁垒在于对直播场景的深度理解和数据积累——这是美团多年直播业务实践的沉淀，也是其他企业难以短期复制的核心优势。 LongCat-Video-Avatar的出现，标志着AI直播从概念验证进入了商业成熟阶段。美团的实践不仅为行业提供了可参考的技术方案，更重要的是证明了AI直播的商业价值——这是技术创新的真正意义所在。