Coding Agents 正在重塑工程、产品与设计的分工逻辑

原文:Harrison Chase, How Coding Agents Are Reshaping Engineering, Product and Design, LangChain Blog, 2026 年 3 月。以下为编译,保留原文结构与论点,部分段落做了压缩和意译。 软件公司里的 EPD——工程(Engineering)、产品(Product)、设计(Design)——存在的目的只有一个:造出能用的软件。角色分得再细,最终交付物也只是代码。 认清这一点很重要,因为 Coding Agents 突然让写代码变得极其廉价。那么,EPD 的角色会怎么变? PRDs 已死 在 Coding Agent 出现之前,PRD(产品需求文档)是软件开发的起点。标准流程是一条清晰的瀑布: 有人(通常是 PM)冒出一个想法 PM 写 PRD 设计师根据 PRD 画 Mock 工程师把 Mock 变成代码 这不是铁律——创业公司里这些步骤经常混在一起,最好的 Builder 能一个人跨好几个环节。但之所以还有这条「标准流程」,是因为写软件和画 Mock 都需要大量时间。于是产生了专业分工,也产生了跨分工沟通的需求。PRD 就是这个沟通的起点,一切从这里瀑布到设计,再瀑布到工程。 Coding Agents 改变了这一切。它们可以把一个想法直接变成能跑的软件。所以当我(和其他人)说「PRDs 已死」,真正的意思是:这种以写 PRD 为起点的传统软件开发方式已死。 瓶颈从实现转向审查 任何人现在都能写代码,也就意味着任何人都能做东西。但这不代表做出来的东西架构良好,不代表解决了正确的问题,也不代表好用。 工程、产品和设计应该成为这些维度的审查者和仲裁者。生成的代码并不总是「好的」,EPD 的角色变成了审查并确保它是「好的」。「好的」意味着: 工程视角:架构是否可扩展、高性能、健壮? 产品视角:是否真正解决了用户痛点? 设计视角:界面是否易用、直观? 由于生成初版代码的成本极低,原型数量大幅增加。这些原型成为焦点,EPD 围着它们审查。 问题在于——生成代码太容易了。以前写代码需要时间,审查者桌上同时摆的项目有限。现在任何人都能写代码,在做的项目数量在膨胀。我们在三个职能中看到的瓶颈都是同一个:审查——拿着原型,确保它们是「好的」。 PRDs 万岁 以写 PRD 为起点的旧流程死了,但描述产品需求的文档依然必不可少。 假设有人冒出一个想法,快速生成了一个原型。这个原型怎么进生产?它需要 EPD 其他成员审查。审查时,一份书面文档总是有帮助的,甚至是必需的——别人看代码时,怎么知道某段代码是手误还是有意为之?这取决于意图,而意图需要被传达。 ...

ZHANG.z | March 12, 2026 | 17 min | Shanghai

Robin:叫人,开会!

声明:本文纯属虚构。数据是真的,人是真的,会议是编的。如有雷同,说明百度确实该开这个会。 下午三点半,百度大厦 E 座 23 层,Robin 的助理敲了三下门。 “Robin,港股收盘了。” “嗯。” “MiniMax 收涨 22%。市值 3826 亿港元。” “我们呢?” “3322 亿。” Robin 放下手里的 iPad。屏幕上是海螺 AI 生成的一段视频——一只金毛犬在沙滩上奔跑,毛发在逆光中一根一根地飘。他刚才用文心一格试了三次,出来的狗像穿了件塑料雨衣。 “叫人。” “叫谁?” “所有 VP。” 助理犹豫了一下:“Robin,现在是 OKR 对齐周,大家都在——” “我说叫人。OKR 对齐个屁,先对齐一下市值。” 会议室的灯亮了。六个人陆续到齐。 Dou 穿着卫衣,上面印着"AI Native"——百度去年团建发的。Jackson 系着领带,手里端着瑞幸。Haifeng 带了笔记本电脑,屏幕上开着飞桨的 dashboard,仿佛随时准备汇报技术指标。 Robin 把一张纸推到桌中间。上面手写了两行字: MiniMax:4 岁,收入 7900 万美元,73% 海外,市值 3800 亿。 百度:26 岁,收入千亿,AI 砸了近千亿,市值 3300 亿。 “谁来给我拉齐一下认知?” Dou 条件反射地接话:“Robin,市值不完全反映——” “对,市值不反映基本面。但你知道市值反映什么吗?反映 narrative。MiniMax 的 narrative 是什么?一个中国公司,七成收入来自海外,两亿多用户遍布 200 个国家。人家没在国内卷,没烧钱买量,没搞百亿补贴。人家润出去了。” 他停了一下。 “我们的 narrative 是什么?” 没人说话。 “我来帮你们 align 一下:百度是中国最早布局 AI 的公司,拥有从芯片到框架到模型到应用的全栈能力,文心大模型 5.0 在 LMArena 排名国内第一——” ...

ZHANG.z | March 11, 2026 | 16 min | Shanghai

龙虾大会:一场关于AI编程的集体幻觉

三月的第一个周末,上海张江某栋写字楼的会议室里坐满了人。他们不是来参加什么新产品发布会,也不是为了听某个明星创业者的路演,而是为了学习如何使用一个开源工具——一个可以将自然语言转化为代码、让普通人也能指挥AI完成编程任务的框架。这个叫OpenClaw的工具,在GitHub上已经收获了超过27万颗星星1,在过去两个月里从一个技术社区的小众项目,变成了整个中国AI圈最火热的话题。从北京中关村到深圳南山,类似的聚会几乎每周都在上演:云服务厂商摆出一键部署的展台,模型公司推销着按Token计费的服务包,开发者们热切地交流着提示词工程的心得。这场被称为**“龙虾大会”**的运动,正在以一种近乎狂热的姿态席卷整个行业。 但热闹的背后,一个根本性的问题被有意无意地忽略了:这些大会究竟在解决什么问题? 参会者带着各自的期待而来——有人希望找到下一个创业风口,有人想提升自己的编程效率,也有人单纯被"AI替代程序员"的焦虑驱动。然而,当演讲者们反复演示如何用几句自然语言生成一个待办事项应用,或者如何让AI自动修复简单的代码错误时,细心的观察者会发现,**这些场景与真正复杂的软件工程之间,还隔着一条难以逾越的鸿沟。**那些在舞台上被展示的神奇能力,往往建立在精心设计的demo环境之上;一旦进入真实的业务场景,面对遗留系统的技术债务、模糊的产品需求、严格的合规要求,AI的表现就会迅速退化为一个偶尔能提供代码补全建议的辅助工具。 这种落差并非偶然。 当前的AI编程工具,本质上仍然是基于概率的模式匹配系统。它们在处理常见编程模式、标准库调用、以及有明确边界的任务时表现出色,因为这些场景在训练数据中有充足的样本。但一旦涉及到需要深度领域知识、复杂架构设计、或者跨系统集成的任务,AI就会暴露出理解力的局限。更重要的是,编程从来不只是写代码——它还包括理解业务逻辑、权衡技术方案、与团队协作、以及在约束条件下做出工程决策。这些软技能,恰恰是当前的AI最难以替代的部分。那些在龙虾大会上被反复强调的"生产力提升",很大程度上只是将编码阶段的部分工作自动化,而软件开发的全生命周期中,编码往往只占不到三分之一的工作量。 云服务厂商和模型公司的热情参与,让这场运动变得更加复杂。对他们来说,OpenClaw提供了一个绝佳的切入点:通过简化部署流程、提供托管服务,他们可以将开发者锁定在自己的生态系统中。一键部署听起来很美好,但它也意味着用户将基础设施的控制权交给了平台;Token计费模式看似灵活,但当应用规模扩大时,成本可能会变得难以预测。 这些商业模式的设计,更多地反映了供应商的利益,而非用户的真实需求。 而在大会的演讲台上,模型厂商们轮番展示自家模型的编程能力,试图证明自己比竞争对手更适合这个场景。但这种比拼往往停留在基准测试的分数上,而非真实项目的交付能力。当所有人都急于在这个新兴市场占据一席之地时,关于"这些工具究竟能创造什么价值"的冷静思考反而被边缘化了。 这种过热的状态很难持久。历史经验表明,**技术 hype 的周期通常在六到八周达到顶峰,随后进入冷静期。**龙虾大会也不例外。当最初的兴奋消退,当参会者们回到自己的工位尝试将这些工具应用到实际项目中,他们会发现现实的骨感:AI生成的代码可能需要大量的修改才能运行,自动化的工作流可能在边界情况下崩溃,而那些被承诺的"十倍效率提升"在复杂项目中变得难以兑现。这种幻灭感会迅速传播,媒体的报道会从"革命性的突破"转向"被夸大的期望",投资者的注意力会转向下一个热点。三到八周后,当再有人提起龙虾大会时,语气中可能会带着一丝怀念,更多的是一种"那阵子大家都挺疯狂的"的调侃。 但这并不意味着AI编程工具没有价值。恰恰相反,它们在某些场景下确实能显著提升效率——尤其是在原型开发、学习编程、以及处理重复性编码任务时。问题在于,当前的市场叙事将这些能力过度放大,试图用**“AI替代程序员”**的惊悚标题来吸引眼球,而忽视了工具能力的边界。这种叙事不仅误导了公众,也给行业带来了不必要的焦虑。真正有价值的讨论应该是:在软件开发的全流程中,哪些环节可以被AI增强,哪些仍然需要人类的专业判断;如何在利用AI提升效率的同时,保持代码质量和系统的可维护性;以及,随着这些工具的普及,软件工程师的角色将如何演化。 来自大洋彼岸的一些信号值得我们关注。在AI编程工具的赛道上,Cursor作为目前最成功的创业公司之一,近期明显加快了产品迭代的节奏。从2月到3月,Cursor连续发布了自动化工作流、JetBrains IDE支持、自主计算机控制等多项重大功能2,这种密集的产品发布节奏本身就说明了一些问题:即便是市场领导者,也感受到了来自各方的压力——既有来自大型模型公司的降维打击,也有来自开源社区免费替代品的竞争。 而在模型层面,Anthropic于2026年2月17日发布的Claude Sonnet 4.6展示了更强的代码理解和生成能力3,根据Anthropic的官方数据,该模型在OSWorld计算机使用基准测试中表现优异,在某些场景下甚至超过了此前的Opus 4.5模型。当国外的竞争者在技术和产品层面快速迭代时,国内的大会仍然停留在"如何使用工具"的初级阶段,这种差距本身就值得深思。 更深层的观察是,工具的迭代与底层模型的升级密切相关。 OpenClaw、Cursor这类工具本质上是Agent的落地表现形式,而Agent的能力边界直接受制于底层大模型的能力。当Anthropic这样的模型公司推出更强大的编程能力时,中间层工具必须在产品层面做出回应,否则用户就会直接转向模型原生的解决方案。据业内人士透露,Cursor内部已经将这种状态定义为**“战时模式”**——这并非空穴来风,而是对竞争格局剧变的直接回应。 换言之,工具的演化是模型演化的函数。 没有底层模型的突破,单纯的工具创新很快就会触顶。这也解释了为什么龙虾大会的火热某种程度上是焦虑驱动的——开发者们担心错过下一个风口,服务商们担心被时代抛弃,创业者们则在寻找能够抵御模型公司直接竞争的商业逻辑。 这种困境并非中国独有,但在国内表现得尤为明显。一方面,基础模型的能力与国际顶尖水平仍有差距,这限制了应用层面的创新空间;另一方面,市场的急功近利心态让很少有人愿意沉下心来打磨产品,大家都在追逐短期的热点和概念。当OpenClaw火了,所有人都在谈论OpenClaw;当下一个框架出现,注意力又会迅速转移。在这种环境下,真正的技术积累和产品迭代变得困难,大部分参与者只是在不同的热点之间疲于奔命。 回到最开始的问题:究竟是谁在玩龙虾? 答案可能是:那些焦虑的开发者,试图在这个快速变化的时代找到安全感;那些投机的服务商,希望借助热点推销自己的产品和服务;那些迷茫的创业者,在寻找下一个可能的风口;以及那些真诚相信技术能改变世界的理想主义者,尽管他们中的大多数最终会发现,改变比想象中要困难得多。这些人共同构成了这场运动的参与者,也共同承受着期望与现实之间的落差。 当热潮退去,真正有价值的东西会留下来。 可能是一些被验证过的最佳实践,可能是几段在特定场景下确实能提升效率的工作流,也可能是关于**“如何与AI协作”**的新认知。但前提是,参与者们能够从这场集体的狂热中抽离出来,诚实地评估这些工具的能力边界,并在实际的业务场景中寻找真正的价值创造点。这需要时间,需要耐心,也需要一定程度的运气。 而在那之前,龙虾大会还会继续,只是参会者脸上的表情可能会从兴奋变成困惑,再从困惑变成一种若有所思的平静。那可能是一个更健康的状态——对于技术,对于行业,对于所有在其中寻找机会的人来说,都是如此。 参考 OpenClaw GitHub Repository, https://github.com/openclaw/openclaw, 截至2026年3月收获278k stars ↩︎ Cursor Blog, 2026年2-3月产品更新动态,包括Automations、JetBrains ACP、Agent Computer Use等功能发布 ↩︎ Anthropic, “Introducing Claude Sonnet 4.6”, February 17, 2026, https://www.anthropic.com/news/claude-sonnet-4-6 ↩︎

ZHANG.z | March 8, 2026 | 15 min | Shanghai

千问核心离职风波:林俊旸下一步是创业吗?

3 月 6 日,林俊旸正式确认离职。距离那条「bye my beloved qwen」的推文过去 48 小时,这场震动中国 AI 圈的人事风波进入下半场——不是八卦内幕的下半场,而是更实质的问题:一个 32 岁、带出了全球顶级开源模型、被 Google DeepMind 公开喊话抢人的技术领袖,下一步该往哪走? 我的判断很直接:创业是他唯一合理的选择。 不是情感上的「创业浪漫」,而是结构性推演后的结论。大厂、学术机构、加入其他独角兽——这三条路都有明显的逻辑断裂,只有创业能承接他过去三年积累的所有资产,并给他真正的自由度。 林俊旸今年 32 岁,阿里最年轻的 P10,Qwen 技术负责人。在他带领下,Qwen 从一个内部项目成长为全球下载量突破 7 亿次、衍生模型超过 18 万个的开源模型家族1。斯坦福《2025 年人工智能指数报告》把 Qwen 排在全球第三2,Google DeepMind executive Omar Sanseviero 在他离职后直接在 X 上向 Qwen 团队喊话:「if any of you want a new home to build great models and contribute to the open models ecosystem, please reach out!」3 这是全球顶级 AI 实验室在用行动投票:这些人在开源生态里的价值,远超任何一家公司的内部职级体系能衡量的。 但价值归价值,选择归选择。林俊旸面前的选项其实不多——或者说,他面前的选择太多,反而让决策变得更难。 据说离职消息传出后,投资圈瞬间沸腾。 不止一家头部机构的合伙人通过各种渠道打探他的联系方式——有人发朋友圈暗示「有预算、等团队」,有人通过千问团队的熟人递话,有人直接私信阿里内部的朋友「能不能帮我引荐林俊旸」。不到 48 小时,他的微信被加爆,未读消息里挤满了红杉、高瓴、五源、启明等一线基金的合伙人。 开出的条件一个比一个诱人:有人直接开价数千万美元估值,不占大股,「你说了算」;有人承诺「只管做技术,商业化我们来」,配套完整的 GTM 团队。 ...

ZHANG.z | March 7, 2026 | 21 min | Shanghai

大模型的开源,到底开源了什么

大模型时代喊的"开源",99% 不是你以为的那种开源。 当我们说 Linux 开源、Redis 开源的时候,意思很明确:把软件的"设计图纸"——源代码——全部公开,任何人都可以照着图纸把软件重新造一遍。这是软件的开源,公开图纸就等于公开一切。 但大模型的开源是一件根本不同的事。大模型的能力不在图纸里,而在一堆"经验"里——几千亿个数字,是用海量数据和巨额算力"喂"出来的,不是人一行一行写出来的。你可以公开这些数字,但别人拿到了也不知道你是怎么喂出来的。这是AI 的开源,它和软件开源之间的鸿沟,比大多数人意识到的要深得多。 深到什么程度?全球最权威的开源组织 OSI(开源促进会)在 2024 年 10 月专门发布了《开源 AI 定义 1.0》1,试图从头定义"AI 的开源到底应该是什么"——光是需要重新定义这件事本身,就说明传统软件开源的框架已经装不下大模型了。2026 年全国两会期间,中科院院士、阿里云创始人王坚更是直接呼吁:别再说"开源大模型"了,应该叫"开放权重模型"——因为你开放出去的不是一段代码,而是背后烧掉的电费和算力2。 这篇文章想做一件事:把大模型"开源"这个词拆开,一层一层看清楚里面到底装了什么。 大模型的"源代码"不是代码 软件开源的逻辑很简单:一个程序员写了一段代码,公开了,别人照着代码就能把同样的软件跑起来,还能改。代码就是全部,公开代码就是公开一切。 大模型完全不是这么回事。它的核心不是人写的代码,而是一种叫权重(weights)的东西——你可以把它理解成模型的"肌肉记忆"。就像一个厨师做了十年菜,他的手感、火候判断、调味直觉,全都长在身体里,不是写在菜谱上的。大模型的权重也一样:几十亿到几千亿个数字,是模型在海量数据上反复训练出来的结果。没有人能看懂这些数字具体是什么意思,但把它们加载到程序里,模型就能回答问题、写代码、做翻译。 关键区别在这里:公开厨师做好的菜,不等于公开他十年练出来的手艺。公开权重,不等于公开训练权重的方法。这就是 AI 开源和软件开源的根本区别。 所以,大模型的世界里,“源代码"这个概念被拆成了至少四层: 层 是什么 厨师类比 权重 模型训练出来的"肌肉记忆” 厨师十年练出来的手感和味觉直觉 推理代码 让模型跑起来的程序 把菜端上桌的流程 训练代码 从零训练模型的完整方法 厨师十年来的全部训练方法和食谱 训练数据 喂给模型学习的海量文本、图像等 厨师吃过的所有菜、看过的所有菜谱 传统软件开源,相当于把食谱和做法全部公开。大模型"开源",大多数时候只是把做好的菜端出来,告诉你怎么加热和摆盘。 三种"开源",差别巨大 明白了这四层之后,我们就可以看清楚:市面上号称"开源"的大模型,其实分成了截然不同的三种模式。 开放权重:给你成品,不给你生产车间 这是目前最主流的模式。Qwen、Llama 3、Gemma、Mistral——全球下载量最大的开源模型,几乎都属于这一类。 阿里的 Qwen(通义千问)是这个模式的典型代表。 你可以免费下载它全系列的模型——从轻量级的小模型到最新的 Qwen 3.5 旗舰版,附带使用说明和示例代码。你能拿它在自己的电脑或服务器上跑起来,用自己的数据做定制化训练(行话叫"微调"),甚至基于它做出更小的模型拿去商用。Qwen 的下载量已突破 7 亿次,全球开发者基于它做出的衍生模型超过 18 万个3——这个生态的繁荣,完全建立在"开放权重"这个模式之上。 但你拿不到的东西同样重要:Qwen 是怎么从零开始训练出来的?喂了什么数据?数据怎么筛选和清洗的?训练过程中几百个关键参数是怎么调的?模型怎么学会"像人一样说话"的?这些全都没有公开。你拿到了一个训练好的模型,但完全不知道它是怎么炼成的。 值得注意的是,即便同属"开放权重",“使用条款"之间的差异也不小。Qwen 用的是最宽松的 Apache 2.0 协议——随便用、随便改、随便商用,没有附加限制。Meta 的 Llama 3 则有门槛:如果你的产品月活用户超过 7 亿,需要单独找 Meta 谈授权。Google 的 Gemma 更严格:明确禁止你用它的模型去训练竞品。同样叫"开放权重”,你能拿它做什么,差别可以很大。 ...

ZHANG.z | March 6, 2026 | 25 min | Shanghai