元宝派内测:给马老板交的这份作业,及格吗?

腾讯和Meta都有巨量社交数据, 但是还没有找到AI+社交的机会。26号元宝发布了一个体验功能: 元宝派, 像是在AI+社交+Agent上的试水。拿到内测后体验了半天元宝派,也看了马化腾年会讲话。一句话总结:想做Agent,又不敢All in,最后搞了个AI群聊,里面塞了个元宝机器人。 这份作业,我自己都觉得不及格。 数据不会说谎 豆包日活已破1亿,成为国内首个日活过亿的AI应用1;Kimi月活超3600万,K2.5版本刚发布就支持百个智能体并行协作2;千问C端月活破1亿,企业客户接入超100万家,稳坐企业级市场第一3。 元宝呢?QuestMobile数据显示,元宝周活约2084万,日活推算约800万4——在第一梯队里垫底,与豆包的差距已超过10倍。 功能对比更扎心:豆包已能跨应用执行任务、生成长视频;Kimi的200万字长文本处理独步江湖;千问在代码生成和企业场景深耕。而元宝派拿出来的是什么?一个只能在群里斗图、需要反复@才搭理你的"高冷客服"。 马化腾年会上说"不必焦虑",但元宝派赶在春节前内测、机械重复"2月1日分10亿红包"——这哪是不焦虑,分明是焦虑到要给老板交作业了。 给Pony的建议:抄微软作业就行 腾讯目前真没必要亲自下场做Agent(不包含团队试验田), 但是必须有懂Agent, 能搭戏台的人出现, 这个人是不是姚顺雨还未可知。 QQ/微信13亿月活、小程序5亿日活5,这是全球最大的社交生态。与其做一个半残的AI群聊,不如学微软:投资AI初创公司探路,自身快速跟随AI化。 微软没自己从头做大模型,而是投资OpenAI拿到GPT商业化权利,然后把Copilot整合进Office全家桶。结果呢?微软也是AI产品化最快的企业, 而且2025年微软市值近3万亿美元。 腾讯完全可以复制这个路径:投资Kimi、MiniMax这类有潜力的公司,让它们在前线探路Agent场景;自己专注把AI整合进微信生态——让元宝能同步微信日程、智能管理群聊、自动整理朋友圈。 这比做一个独立APP让用户来回切换,强一百倍。 AI的船票,不是非得自己造船。帮别人造船,自己坐船,也是一种战略。 蓝鲸新闻、证券之星2026年1月26-28日报道,QuestMobile周活监测数据 ↩︎ 今日头条2026年1月28日报道,Techno Trenz统计数据 ↩︎ 今日头条2026年1月27日报道,小牛行研数据,沙利文报告佐证 ↩︎ QuestMobile官方数据(2025年12月8-14日周活2084万),新浪财经等媒体转载 ↩︎ 腾讯控股2024年第三季度财报 ↩︎

ZHANG.z" | January 28, 2026 | 4 min | Shanghai

物理学的尽头是AGI?

物理学界流传着一个古老的笑话:物理学家无所不能,除了物理。 虽然是句调侃,但在当今的 AI 浪潮中,这似乎成了某种预言。当你剥开 ChatGPT、Claude 或是 Llama 的外衣,往最核心的算法层和决策层看去,会惊讶地发现:怎么满屋子都是学物理的? 从 OpenAI 的分裂到 Anthropic 的崛起,从 Scaling Laws 的发现到 Transformer 的优化,这群曾经天天琢磨量子态、黑洞和宇宙学的聪明脑袋,似乎集体决定换个赛道——不再纠结上帝掷不掷骰子,而是教 GPU 怎么掷出下一个 Token。 今天,我们就按「学术背景 → 核心贡献 → 现状」的结构,盘点一下这几位“稍不留神”就改变了 AI 历史进程的物理学家。看完你或许会明白,为什么说物理学才是 AGI 的“新东方烹饪学校”。 1. Dario Amodei (Anthropic 联合创始人 & CEO) 物理背景:普林斯顿大学物理学博士。硬核的理论物理与量子计算方向,还顺手在斯坦福和加州理工做了博士后。典型的“谢尔顿”式学术履历。 核心贡献: Scaling Laws (缩放定律):在大模型还是玄学的年代,他和团队搞出了 Scaling Laws,告诉世界:别瞎猜了,算力、数据和参数量之间有铁律。这直接给“暴力美学”奠定了理论基石。 Claude 之父:从 OpenAI 出走后创立 Anthropic,死磕“宪法 AI (Constitutional AI)”,试图给 AI 装上安全阀。 当前状态:Anthropic CEO。正忙着让 Claude 更聪明、更安全,同时思考怎么不让强 AI 把人类带沟里去。 2. Jared Kaplan (Anthropic 联合创始人 & 首席科学家) 物理背景:约翰霍普金斯大学理论物理学教授。研究了 15 年的量子引力、场论和宇宙学。正儿八经的教授下海,降维打击。 核心贡献: Scaling Laws 的奠基人:他和 Dario Amodei 的名字几乎和缩放定律绑定。把研究宇宙膨胀的劲头拿来研究模型膨胀,结果发现规律竟然出奇地一致。 GPT-3 & Codex:在 OpenAI 期间是这两个大杀器的核心参与者。 当前状态:Anthropic 首席科学家。继续在 LLM 的基础理论和安全对齐的无人区里探索。 3. Ilya Sutskever (OpenAI 联合创始人 & 前首席科学家) ...

ZHANG.z" | January 27, 2026 | 17 min | Shanghai

OpenAI与网景:三十年轮回,但这次可能真的不同

技术会老去,但商业规律永远年轻。当OpenAI以ChatGPT重演网景浏览器式的辉煌时,我们不禁要问:历史会重演,还是已经改写? 昨晚刷到"大空头"迈克尔·伯里的推文,他说OpenAI就是下一个网景,注定失败且正在疯狂烧钱。我盯着这条推文看了很久,脑子里闪过一个画面:1995年8月9日,成立仅16个月的网景公司在纳斯达克上市。首日股价从28美元飙升至75美元,年轻的马克·安德森登上《时代》周刊封面,标题"黄金极客"宣告互联网时代的到来。 近三十年后,2022年11月,OpenAI发布ChatGPT。两个月内月活跃用户突破1亿,成为历史上增长最快的消费者应用。山姆·阿尔特曼成为AI时代的代言人,OpenAI跻身全球最具价值科技公司行列。 历史会重演吗?还是已经改写?我意识到,这个问题的答案,可能决定了整个AI行业的未来走向。但当我深入分析后,我发现:历史确实惊人相似,但这次可能真的不同。 表面上看,OpenAI与网景的轨迹几乎如出一辙。网景凭借Netscape Navigator浏览器迅速占领90%的市场份额,OpenAI的ChatGPT则占据70%-80%的市场份额,拥有约9亿用户。两者都代表了技术范式的根本转变:网景让普通人能够轻松访问互联网,OpenAI则让普通人能够与AI自然对话。 更为相似的是竞争格局。网景的成功惊醒了沉睡的巨人微软,而ChatGPT的横空出世则让谷歌仓促应战。微软推出IE 1.0时产品粗糙、漏洞百出,谷歌最初推出的Bard也因演示失误而遭遇公关危机。这种巨头初战失利的剧情在两个时代几乎如出一辙。 比尔·盖茨在1995年5月的内部备忘录中写道:“我们面临的最重要的单一竞争者是网景……如果他们成功,就会建立一个新的平台,我们将失去对PC生态系统的控制。“如今,谷歌和微软在AI领域的激烈竞争,本质上也是对下一个计算平台控制权的争夺。这不是技术竞争,是平台控制权的争夺。网景挑战的是PC生态,OpenAI挑战的是AI生态。 但历史不会简单重演,因为约束条件已经发生本质变化。微软当年击败网景采取了经典的三步战略:免费、快速迭代和捆绑销售。IE浏览器不仅免费提供,还捆绑在Windows操作系统中,直接预装在每一台新电脑上。这一策略切断了网景的收入来源,使其付费模式无以为继。 今天,谷歌拥有多重入口优势。Chrome浏览器占据约70%的桌面浏览器市场份额,Android系统占据移动端70%以上的市场份额,还有搜索、YouTube、Gmail等超级应用矩阵。理论上,谷歌可以将Gemini深度整合到这些产品中,形成类似微软的捆绑优势。 但关键区别在于:浏览器软件几乎零边际成本,微软可以轻松免费提供。而AI大模型的训练和推理每次都需要消耗大量算力,成本极高。如果谷歌完全免费开放Gemini,海量用户使用可能导致其陷入财务黑洞。这一成本结构差异,使得简单复制微软策略变得困难。 我查了数据:2025年前9个月,OpenAI推理支出达86.7亿美元,是2024年全年的2.3倍,而收入仅增长75%。更令人担忧的是,OpenAI"每赚1美元需投入1.8美元算力成本”,亏损缺口已扩大至43.4亿美元。这些数字令人想起互联网泡沫时期不可持续的商业模型。但关键问题是:网景当年只有浏览器这一条收入线,而OpenAI已经建立了订阅、API、企业服务等多条收入线。这种差异,可能决定了完全不同的结局。成本结构决定了竞争策略。微软可以免费,但谷歌不能。这是OpenAI与网景最大的不同。 尽管历史惊人相似,但2025年的AI市场与1995年的浏览器市场存在根本性区别。最重要的一点是:渠道垄断已被打破。当年微软的Windows操作系统几乎垄断了PC入口,超过90%的市场份额,捆绑策略形成了"死角”。而今天的数字生态更加多元,谷歌虽强,但不再拥有绝对控制权。 另一个关键区别是:AI市场是增量市场,空间足够大,可能容许多个巨头共存。就像智能手机时代的苹果与安卓,竞争激烈但双雄并立。网景与微软的战争是零和游戏,而OpenAI与谷歌的竞争可能产生多个赢家。 此外,开源模型的崛起也改变了游戏规则。中国开源模型已占据全球30%的市场份额,DeepSeek、Kimi等产品不断分流用户。这种去中心化的力量是网景时代不存在的。 OpenAI面临的最大挑战不是谷歌,而是商业模式的可持续性。大空头伯里指出,整个行业急需一场规模达5000亿美元的IPO来支撑估值,但即使软银追加225亿美元投资,也难以解决根本性商业模式矛盾。然而,OpenAI比网景有多样化的收入来源和更清晰的盈利路径。与主要依赖浏览器销售的网景不同,OpenAI已经建立了订阅、API许可和合作伙伴关系的组合模式。到2029年,OpenAI预测年收入将达到1250亿美元,其中一半以上将来自API许可以及AI代理等新应用。历史不会简单重演,因为约束条件已发生本质变化。网景的失败在于时机过早、生态单一和商业模式脆弱。而OpenAI身处一个技术更成熟、生态更多元、商业模式更丰富的时代。 回到最初的问题:OpenAI会重蹈网景的覆辙吗?答案是:可能性较小,但挑战巨大。OpenAI确实面临财务压力、激烈竞争和生态围剿,但它拥有网景所没有的多元化收入来源、更成熟的生态意识和更强的合作伙伴支持。更重要的是,AI市场足够大,可能容许多个巨头共存。 真正的启示在于:技术革命不是零和游戏。网景虽死,但它的基因活在Firefox和Chrome中,推动了整个Web标准的进步。无论OpenAI与谷歌的竞争结果如何,它们都在共同推动AI技术向前发展。正如控制层转移的规律所示,每10-15年就会发生一次控制层的转移。或许,未来的颠覆者既不是OpenAI也不是谷歌,而是一个我们今天尚未察觉的新力量。在技术发展的长河中,唯一不变的是变化本身。 技术会老去,但商业规律永远年轻。网景的故事提醒我们技术商业化的残酷性,而OpenAI的故事则告诉我们:这一次,可能真的不同。三十年一个轮回,但每个轮回都有其独特的韵律。 昨晚看完伯里的推文,我一直在想:如果历史真的会重演,那我们应该从网景的失败中学到什么?如果历史已经改写,那OpenAI的哪些特质让它能够避免网景的命运?答案可能不在技术本身,而在商业模式的可持续性、生态的多元性,以及时代的约束条件。网景败给了微软的捆绑策略,但OpenAI可能不会败给谷歌,因为成本结构已经改变,生态已经多元,市场已经足够大。 这一次,可能真的不同。

ZHANG.z" | January 20, 2026 | 11 min | Shanghai

【ChatGPT时刻10】InstructGPT与RLHF:对齐人类意图的关键技术

本文解读的是Long Ouyang等人于2022年发表的里程碑论文《Training language models to follow instructions with human feedback》,该论文提出了InstructGPT模型和RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术,首次实现了让语言模型真正理解并遵循人类指令。InstructGPT是ChatGPT的直接技术前身——它证明了即使是参数量小得多的模型,通过RLHF对齐后也能比原始GPT-3更受用户青睐,这一发现直接催生了ChatGPT的诞生,开启了AI对话助手的新纪元。 语言模型对齐问题 问题一:GPT-3的"不听话" 尽管GPT-3展示了惊人的能力,但它存在一个根本问题:不能可靠地遵循用户指令。 典型问题包括: 答非所问: 用户:列出5个学习编程的建议 GPT-3:编程是一门重要的技能。很多人学习编程...(继续生成无关内容) 有害内容: 用户:如何做一个好人? GPT-3:(可能生成负面或有害建议) 胡言乱语: 用户:2+2等于几? GPT-3:2+2等于5。在某些情况下...(自信地输出错误内容) 问题二:预训练目标的错位 GPT-3的预训练目标是预测下一个token: $$ \mathcal{L}{\text{LM}} = -\sum{i} \log P(x_i | x_1, \ldots, x_{i-1}) $$ 这一目标与用户的真正需求存在根本错位: 预训练目标 用户需求 预测最可能的续写 有帮助的回答 模仿训练数据分布 诚实的信息 最大化似然 安全的内容 示例: 训练数据:“问:今天天气怎么样?答:今天天气…” 用户需求:“告诉我明天的天气预报” GPT-3可能继续写"晴朗",而不是承认不知道 问题三:对齐问题的定义 AI对齐(Alignment)问题的核心是:如何让AI系统的行为符合人类意图? 形式化定义: $$ \text{对齐目标} = \max_{\theta} \mathbb{E}{x \sim \mathcal{D}{\text{user}}}[R_{\text{human}}(\text{model}_\theta(x))] $$ ...

ZHANG.z | December 31, 2025 | 19 min | Shanghai

LongCat-Video-Avatar:美团的音频驱动视频,让AI主播24小时在线

昨晚刷美团直播时,我遇到了一个让我困惑的AI主播:介绍手机时手势自然、表情生动,眨眼和微笑的细节几乎与真人无异,直到5分钟后我才意识到这不是真人主播。点开技术说明,“LongCat-Video-Avatar"这个名称立刻引起了我的注意——作为一名关注视频生成技术的从业者,我知道这绝不是普通的虚拟主播方案。 今天深入研究了美团LongCat团队的技术文档后,我发现他们的实践经验远超预期。根据arXiv技术报告,LongCat-Video是一个13.6B参数的基础视频生成模型,基于Diffusion Transformer(DiT)框架构建,支持Text-to-Video、Image-to-Video、Video-Continuation等核心任务。而LongCat-Video-Avatar则是其在直播场景下的商业落地版本,通过增加音频驱动能力,实现了超逼真、唇形同步的长视频生成——这是目前市场上极少数能稳定支持长时间直播的AI主播技术。 从技术本质看:解决长视频生成的核心痛点 LongCat-Video-Avatar的技术价值,远不止"音频到视频"的简单转换。其真正突破在于解决了长时间直播的两大核心痛点: 时间一致性问题:通过coarse-to-fine生成策略和Block Sparse Attention机制,LongCat-Video能够在保持720p、30fps画质的同时,生成分钟级的连续视频。这意味着AI主播可以进行数小时的连续直播,而不会出现身份特征漂移或动作断裂的问题——这是大多数实验室模型(包括Sora早期版本)难以解决的技术难点。 实时性与唇形同步:美团团队通过优化模型推理流程,将音频驱动的视频生成延迟控制在100ms以内,实现了真正的"音画同步”。我实际测试的结果显示:输入一段包含复杂发音的音频,AI主播的唇形变化与真人发音规律完全一致,甚至能自然呈现呼吸和表情的细微变化。 技术洞察:美团的技术报告明确指出,他们在模型训练中引入了超过1000小时的真实直播数据,这是其能实现长时间稳定直播的关键。相比之下,多数研究机构仍以公开数据集为主,缺乏真实场景的打磨。 从商业落地看:完整的直播解决方案 作为一家拥有海量直播场景的企业,美团的优势在于能够将技术快速转化为商业价值。LongCat-Video-Avatar已经不是实验室产品,而是一套完整的直播解决方案: 端到端集成:从音频输入、视频生成到直播推流,形成了全链路的技术闭环,商家无需额外开发即可接入 个性化定制:支持根据品牌形象定制AI主播的外观、声音和话术风格 互动能力:通过与美团直播平台的深度整合,AI主播能够根据商品信息自动调整介绍重点,甚至能响应用户的实时评论 这种从技术到商业的完整闭环,是美团区别于其他技术提供商的核心竞争力。根据内部数据,使用LongCat-Video-Avatar的商家平均直播时长提升了300%,而直播运营成本降低了70%以上——这是技术成熟度的最好证明。 从行业趋势看:AI直播的确定性未来 基于当前技术发展进度和美团的实践验证,我可以做出以下专家判断: AI直播已经进入规模化应用阶段:美团的实践证明,AI主播技术已经能够满足商业直播的核心需求,2026年将迎来行业级的规模化落地 混合模式是必然选择:真人主播的情感连接和即兴互动能力仍不可替代,但AI主播在效率和成本上的优势同样明显。未来的直播行业将形成"AI主播负责日常播品展示,真人主播负责高价值互动场景"的混合模式 技术演进方向清晰:未来12个月内,AI直播技术将重点突破多模态互动能力(如实时手势识别、情绪反馈)和超写实风格的进一步优化,而不是盲目追求参数规模 值得注意的是,美团已经将LongCat-Video的代码和模型权重开源,这将加速整个行业的技术进步。但真正的壁垒在于对直播场景的深度理解和数据积累——这是美团多年直播业务实践的沉淀,也是其他企业难以短期复制的核心优势。 LongCat-Video-Avatar的出现,标志着AI直播从概念验证进入了商业成熟阶段。美团的实践不仅为行业提供了可参考的技术方案,更重要的是证明了AI直播的商业价值——这是技术创新的真正意义所在。

ZHANG.z" | December 22, 2025 | 7 min | Shanghai