AI | Zhang's Blog

龙虾大会：一场关于AI编程的集体幻觉

三月的第一个周末，上海张江某栋写字楼的会议室里坐满了人。他们不是来参加什么新产品发布会，也不是为了听某个明星创业者的路演，而是为了学习如何使用一个开源工具——一个可以将自然语言转化为代码、让普通人也能指挥AI完成编程任务的框架。这个叫OpenClaw的工具，在GitHub上已经收获了超过27万颗星星1，在过去两个月里从一个技术社区的小众项目，变成了整个中国AI圈最火热的话题。从北京中关村到深圳南山，类似的聚会几乎每周都在上演：云服务厂商摆出一键部署的展台，模型公司推销着按Token计费的服务包，开发者们热切地交流着提示词工程的心得。这场被称为**“龙虾大会”**的运动，正在以一种近乎狂热的姿态席卷整个行业。但热闹的背后，一个根本性的问题被有意无意地忽略了：这些大会究竟在解决什么问题？参会者带着各自的期待而来——有人希望找到下一个创业风口，有人想提升自己的编程效率，也有人单纯被"AI替代程序员"的焦虑驱动。然而，当演讲者们反复演示如何用几句自然语言生成一个待办事项应用，或者如何让AI自动修复简单的代码错误时，细心的观察者会发现，**这些场景与真正复杂的软件工程之间，还隔着一条难以逾越的鸿沟。**那些在舞台上被展示的神奇能力，往往建立在精心设计的demo环境之上；一旦进入真实的业务场景，面对遗留系统的技术债务、模糊的产品需求、严格的合规要求，AI的表现就会迅速退化为一个偶尔能提供代码补全建议的辅助工具。这种落差并非偶然。当前的AI编程工具，本质上仍然是基于概率的模式匹配系统。它们在处理常见编程模式、标准库调用、以及有明确边界的任务时表现出色，因为这些场景在训练数据中有充足的样本。但一旦涉及到需要深度领域知识、复杂架构设计、或者跨系统集成的任务，AI就会暴露出理解力的局限。更重要的是，编程从来不只是写代码——它还包括理解业务逻辑、权衡技术方案、与团队协作、以及在约束条件下做出工程决策。这些软技能，恰恰是当前的AI最难以替代的部分。那些在龙虾大会上被反复强调的"生产力提升"，很大程度上只是将编码阶段的部分工作自动化，而软件开发的全生命周期中，编码往往只占不到三分之一的工作量。云服务厂商和模型公司的热情参与，让这场运动变得更加复杂。对他们来说，OpenClaw提供了一个绝佳的切入点：通过简化部署流程、提供托管服务，他们可以将开发者锁定在自己的生态系统中。一键部署听起来很美好，但它也意味着用户将基础设施的控制权交给了平台；Token计费模式看似灵活，但当应用规模扩大时，成本可能会变得难以预测。这些商业模式的设计，更多地反映了供应商的利益，而非用户的真实需求。而在大会的演讲台上，模型厂商们轮番展示自家模型的编程能力，试图证明自己比竞争对手更适合这个场景。但这种比拼往往停留在基准测试的分数上，而非真实项目的交付能力。当所有人都急于在这个新兴市场占据一席之地时，关于"这些工具究竟能创造什么价值"的冷静思考反而被边缘化了。这种过热的状态很难持久。历史经验表明，**技术 hype 的周期通常在六到八周达到顶峰，随后进入冷静期。**龙虾大会也不例外。当最初的兴奋消退，当参会者们回到自己的工位尝试将这些工具应用到实际项目中，他们会发现现实的骨感：AI生成的代码可能需要大量的修改才能运行，自动化的工作流可能在边界情况下崩溃，而那些被承诺的"十倍效率提升"在复杂项目中变得难以兑现。这种幻灭感会迅速传播，媒体的报道会从"革命性的突破"转向"被夸大的期望"，投资者的注意力会转向下一个热点。三到八周后，当再有人提起龙虾大会时，语气中可能会带着一丝怀念，更多的是一种"那阵子大家都挺疯狂的"的调侃。但这并不意味着AI编程工具没有价值。恰恰相反，它们在某些场景下确实能显著提升效率——尤其是在原型开发、学习编程、以及处理重复性编码任务时。问题在于，当前的市场叙事将这些能力过度放大，试图用**“AI替代程序员”**的惊悚标题来吸引眼球，而忽视了工具能力的边界。这种叙事不仅误导了公众，也给行业带来了不必要的焦虑。真正有价值的讨论应该是：在软件开发的全流程中，哪些环节可以被AI增强，哪些仍然需要人类的专业判断；如何在利用AI提升效率的同时，保持代码质量和系统的可维护性；以及，随着这些工具的普及，软件工程师的角色将如何演化。来自大洋彼岸的一些信号值得我们关注。在AI编程工具的赛道上，Cursor作为目前最成功的创业公司之一，近期明显加快了产品迭代的节奏。从2月到3月，Cursor连续发布了自动化工作流、JetBrains IDE支持、自主计算机控制等多项重大功能2，这种密集的产品发布节奏本身就说明了一些问题：即便是市场领导者，也感受到了来自各方的压力——既有来自大型模型公司的降维打击，也有来自开源社区免费替代品的竞争。而在模型层面，Anthropic于2026年2月17日发布的Claude Sonnet 4.6展示了更强的代码理解和生成能力3，根据Anthropic的官方数据，该模型在OSWorld计算机使用基准测试中表现优异，在某些场景下甚至超过了此前的Opus 4.5模型。当国外的竞争者在技术和产品层面快速迭代时，国内的大会仍然停留在"如何使用工具"的初级阶段，这种差距本身就值得深思。更深层的观察是，工具的迭代与底层模型的升级密切相关。 OpenClaw、Cursor这类工具本质上是Agent的落地表现形式，而Agent的能力边界直接受制于底层大模型的能力。当Anthropic这样的模型公司推出更强大的编程能力时，中间层工具必须在产品层面做出回应，否则用户就会直接转向模型原生的解决方案。据业内人士透露，Cursor内部已经将这种状态定义为**“战时模式”**——这并非空穴来风，而是对竞争格局剧变的直接回应。换言之，工具的演化是模型演化的函数。没有底层模型的突破，单纯的工具创新很快就会触顶。这也解释了为什么龙虾大会的火热某种程度上是焦虑驱动的——开发者们担心错过下一个风口，服务商们担心被时代抛弃，创业者们则在寻找能够抵御模型公司直接竞争的商业逻辑。这种困境并非中国独有，但在国内表现得尤为明显。一方面，基础模型的能力与国际顶尖水平仍有差距，这限制了应用层面的创新空间；另一方面，市场的急功近利心态让很少有人愿意沉下心来打磨产品，大家都在追逐短期的热点和概念。当OpenClaw火了，所有人都在谈论OpenClaw；当下一个框架出现，注意力又会迅速转移。在这种环境下，真正的技术积累和产品迭代变得困难，大部分参与者只是在不同的热点之间疲于奔命。回到最开始的问题：究竟是谁在玩龙虾？答案可能是：那些焦虑的开发者，试图在这个快速变化的时代找到安全感；那些投机的服务商，希望借助热点推销自己的产品和服务；那些迷茫的创业者，在寻找下一个可能的风口；以及那些真诚相信技术能改变世界的理想主义者，尽管他们中的大多数最终会发现，改变比想象中要困难得多。这些人共同构成了这场运动的参与者，也共同承受着期望与现实之间的落差。当热潮退去，真正有价值的东西会留下来。可能是一些被验证过的最佳实践，可能是几段在特定场景下确实能提升效率的工作流，也可能是关于**“如何与AI协作”**的新认知。但前提是，参与者们能够从这场集体的狂热中抽离出来，诚实地评估这些工具的能力边界，并在实际的业务场景中寻找真正的价值创造点。这需要时间，需要耐心，也需要一定程度的运气。而在那之前，龙虾大会还会继续，只是参会者脸上的表情可能会从兴奋变成困惑，再从困惑变成一种若有所思的平静。那可能是一个更健康的状态——对于技术，对于行业，对于所有在其中寻找机会的人来说，都是如此。参考 OpenClaw GitHub Repository, https://github.com/openclaw/openclaw, 截至2026年3月收获278k stars ↩︎ Cursor Blog, 2026年2-3月产品更新动态，包括Automations、JetBrains ACP、Agent Computer Use等功能发布 ↩︎ Anthropic, “Introducing Claude Sonnet 4.6”, February 17, 2026, https://www.anthropic.com/news/claude-sonnet-4-6 ↩︎

AI 编程的终态肯定不是 Tab：直接要二进制

你大概已经习惯用 Tab 补全下一行代码了——但 AI 编程的终态，多半不是一直这样「补下去」。真正的方向，是有一天你不再写那一行行代码，而是用自然语言直接向 AI 要一个优化好的二进制；而这件事的引爆点，很可能就在 2026 年。今年 2 月初，埃隆·马斯克在 xAI 活动上的一段视频被剪成片段，在 X 上疯传。他在台上说：今年年底前，你可能连代码都不用写了，AI 会直接生成二进制，而且比任何编译器都做得更优；Grok 的代码能力，两三个月内就会到业界顶尖。原话不长，四十来秒，底下已经吵成一片：有人喊「编程奇点」来了，也有人反问——AI 直接吐机器码，你怎么调试、怎么审？吵的其实是同一件事：AI 正在从「帮你写源代码」的助手，变成「从意图到可执行文件」的管道。不再是你写、它补全，而是你提需求、它直接给出能跑的二进制。传统开发里，编译和优化往往吃掉 20%～30% 的周期；一旦这一步被 AI 吞掉，从自然语言到可运行结果，中间那层「人类写码再编译」就会越来越薄。Anthropic 年初那份报告里已经提到，有团队在用 AI 跑通从测试、调试到部署的整条线；OpenAI 也披露过用 GPT-5.3-Codex 搭出零人类代码的完整应用。下面顺着这条线，看看技术已经铺到哪儿了、卡在哪儿，以及 2026 年底前我们大概会看到什么。马斯克在说什么：从「写代码」到「要二进制」马斯克那几句，说白了就是把「编程」从「写高阶语言、再交给编译器」往前推了一步：变成用自然语言描述你要什么，AI 直接给你可执行文件。之所以一石激起千层浪，是因为这不再只是「更好的补全」，而是换了一套玩法。有人在 X 上回了一句：「机器码调试？那才是地狱周。」——可解释性和可控性，正是大家最慌的地方。但大厂已经在往这条路上走了：OpenAI 的 Codex 线已经能端到端生成小型应用，GPT-5.3-Codex 甚至搭出过零人类代码的完整 app；Anthropic 的 Claude Code 据公开信息有约九成自身代码是 Claude 写的；DeepMind 的 Gemini 也在做「自然语言 → 可运行产物」的代理。编译在过去几十年里一直是人和机器之间的那道桥，也吃掉不少开发时间；一旦 AI 把整条编译管道都内化了，写软件就会越来越像「声明意图」，而不是一行行敲代码。技术路径已经铺开：代理工作流与神经编译「跳过编译」要解决的无非一件事：自然语言那么模糊，二进制又那么精确，中间怎么接上。眼下能看到两条路。一条是多步 AI 流水线：意图先被解析成语义图，再有一层做优化（类似传统编译器的多 pass，只是换成 AI 驱动），最后有一层专门产出机器码，针对 ARM 或 x86。Anthropic 的 Claude Code 就是这一挂的——不只生成代码，还自己调试、自己测；他们披露过，从「建一个实时聊天服务器」到可运行二进制，在 LangGraph 的代理链上大概 3～5 轮迭代就够，比手动编译快出一个数量级。另一条更激进，叫神经编译：让模型直接学「自然语言或高层语义 → 机器码」的映射。DeepMind 的 AlphaEvolve、Gemini Deep Think 用进化算法加自然语言验证器迭代候选解，在数学证明上已经做到九成多准确率；这套思路要是搬到代码和二进制优化上，就可以绕过 LLVM 之类传统工具链去做分支预测、缓存亲和性。MIT 的 EnCompass 则用回溯让代理多试几次 LLM 输出、挑出最佳路径，把「生成—验证」闭环做实。再加上 OpenAI 和 Cerebras 在芯片上的合作，生成速度提了一截，代理在秒级内吐出「近即时」二进制已经可以想象；LangGraph 从单代理撑到上万并发，也就半年左右。这条代理链要接上真实世界，还得有统一的「工具契约」——协议层也在动：MCP（Model Context Protocol）把模型和工具、数据源对接标准化，Chrome for Developers 则已开放 WebMCP 的 early preview，让网站和前端能以结构化工具的形式暴露给 AI 代理（通过 navigator.modelContext 等），代理不用再靠截图或爬 DOM，而是按约定调用，可审计、可管控。直接二进制生成，已经从论文和原型，摸到了工程验证的门槛。 ...

AI 幻觉与「洗车悖论」：今天的 AI 为什么还当不了你的主治医师

AI 的「聪明」和人类的「聪明」不是同一种东西——弄不清这一点，就会要么高估它，要么低估它。最近有个问题在网络上很火：「我要去小区旁 20 米的洗车店洗车，请问步行还是开车？」不少 AI 会认真建议你：20 米很近，步行环保又锻炼身体。你忍不住笑：不开车去，洗车店洗什么？洗我的腿吗？这类现象有个正式名字叫 AI 幻觉（AI Hallucination）：模型用非常笃定的语气，给出逻辑上站不住脚或与事实不符的回答。幻觉背后的原因，不只是「AI 还笨」或「数据不够」。实质是：今天的 AI 是在用「猜下一个字」的统计方式生成文字，它缺的是对物理世界和因果逻辑的「世界感」。理解这一点，才能说清为什么眼下它既不能当你的主治医师，也替代不了科学家和创意工作者；以及行业正在用哪些办法给这件事「打补丁」。洗车悖论与 9.11 比 9.9 大：幻觉长什么样「20 米洗车该步行还是开车」和另一道流传很广的题是同一类陷阱：「9.11 和 9.9 哪个大？」很多模型会答 9.11 更大——因为它把数字当成了软件版本号或日期（9 月 11 日），而不是在比较两个数的大小。两件事共同暴露的是：AI 会顺着训练数据里高概率出现的「搭配」往下说，而不是先想清楚这道题在问什么、需要什么前提。在医学、法律、安全建议等场景里，这种「顺滑地跑偏」会带来真实风险。据学术与媒体报道，已有 AI 因训练数据中的统计偏差，对哮喘患者给出过「不需要特殊照顾」之类的建议；也有系统因为曾在某篇小说里读到某种蘑菇的描写，就敢回答「可以食用」。这些都不是个例，而是同一类问题的不同表现：模型在「像什么」的联想上很强，在「是什么」「该不该」的逻辑与事实上却不可靠。所以讨论幻觉，本质上是在讨论 AI 的能力边界——它擅长什么、不擅长什么，以及在哪些场景下必须由人做最后把关。2024 年能答对「9.11 与 9.9 哪个大」的模型还很少，到 2026 年这类题已常见于各大厂的基础评测；幻觉会随技术迭代减轻，但边界仍在。它在「猜字」而不是推演，所以会掉进统计陷阱要理解幻觉从哪来，得先搞清楚当前这类 AI 到底在干什么。可以把大语言模型想成一台「超级猜字机」：你输入一句话，它根据读过的海量文本，算出「下一个最可能出现的字（或词元）」是什么，然后一个接一个往下猜，拼成整段回答。它没有在内部先推演「洗车需要车」「所以必须开车去」——只是在无数网页、书籍、对话里，「20 米」和「步行」「短途」「环保」经常一起出现，所以概率一加权，它就顺着这条「统计捷径」滑过去了，忽略了「目的」是洗车、洗车必须有车这个常识。「9.11 比 9.9 大」也是同一套逻辑的产物。在模型眼里，数字往往被拆成「词元」（Token）来处理，比如 9.11 可能被拆成「9」「.」「11」。在技术文档、版本说明里，「11」出现在「9」之后太常见了，所以它会答「9.11 更大」——模式识别压过了数学逻辑。一句话总结：AI 擅长的是「像什么」的联想，而不是「是什么」的严格推理。这种差别，就是幻觉和逻辑失效的根源；不是它不想答对，而是它当前的运作方式本来就不是「先理解再作答」。缺的不是知识量，而是「世界感」人听到「去洗车」，脑子里会自动冒出画面：洗车店、水枪、泡沫、自己的车。这种对物理世界和日常流程的直觉，是我们在真实世界里摸爬滚打出来的。AI 没有身体，没摸过车，也没见过洗车房的水雾；它的「知识」全部来自文字。如果训练数据里没有反复、多角度地强调「洗车必须带车」，它就容易把这道题当成单纯的「距离题」：20 米 → 步行，完事。有一句话概括得很准：今天的 AI 像一位背熟了百科全书却从没出过门的读书人——语义联想很强，常识推理却常常跟不上。就像没去过海边的人，再会形容也缺「那一口咸风」；AI 和世界的关系，跟我们不一样。所以问题不只是「少学了哪条知识」，而是它缺乏在真实世界中行动、观察、试错后沉淀下来的那种「世界模型」。这不是笨不笨的问题，而是它认识世界的方式和人类根本不同；补上这一点，是当前研究里最难、也最被重视的方向之一。 ...

AI引起的大规模失业怎么办?

「深度学习之父」杰弗里·辛顿（Geoffrey Hinton）说：超级智能 AI 会带来大规模岗位流失、加剧不平等，我们必须重新思考人们如何获得收入与意义；全民基本收入（UBI）将「必要但不充分」——能让人不饿肚子，却补不上失业带来的尊严缺口。他主张通过对 AI 征税或设立分红，让增长被更公平地分享。那期对谈是 2025 年 9 月 3 日发布的（访谈视频），我是偶然刷到，看完才有感而发。主持是 Ken Yang（JD/MBA，Common Wealth Canada & UBI Works 总监，@kenjaminyang），嘉宾是图灵奖得主、有「AI 教父」之称的 Geoffrey Hinton。辛顿在这期里直指超级智能 AI 会导致大规模失业、贫富分化，并呼吁把 UBI 和「钱从哪来」一起谈——对 AI 征税、用分红机制让全民分享技术红利。当时记了几段核心论点，顺带写点自己的反应；半年多过去，AI 已经铺天盖地，再翻出来看，不少话更像提前打的预防针。一、经济学家说技术会创造新岗位，但这次可能不一样很多人——尤其一些经济学家——会说：新技术总会消灭一些岗位，再创造一些岗位。挖沟的没了，可以去干文书。辛顿的观点是：超级智能 AI 来了，文书也能做得比人更好，那这批人接下来去干什么，并不清楚。他举的是「平庸智力劳动」：律所里查类似案例的律师助理、呼叫中心里报酬低、培训不足、尽力回答却体验很差的客服。AI 会做得更好，而且可复制。再往外推，凡是重复、可程式化的脑力工作，通用 AI 甚至专用 AI 就能替代，更不用说「比我们强很多倍的超级智能」。所以他的结论很直接：我们很快就会看到大规模失业。生产率提高在理想状态下本该让每个人分到更多商品和服务，但在现有分配结构下，「很多穷人会失业，很多富人会更富」——这对社会非常不利。我自己的看法：宏观上，辛顿和安德森（人口 + 生产率）看的是不同侧面——一个强调「补位」，一个强调「替代」与分配。两者可以并存：总量上技术可能补人力缺口，但分配不会自动公平，若不对征税、分红、UBI 做制度设计，大规模失业与不平等很可能先于「人人受益」发生。二、UBI：必要但不充分——收入与尊严是两件事主持人提到两个维度：工作带来收入，工作也带来自我认同——很多人是「以职业定义自己」的。辛顿的回应是：全民基本收入（UBI）若在很多人失业时实施，是必要的，但不足以解决全部问题。它能让人不挨饿、付得起房租，却无法弥补「失业」带来的尊严与意义感缺失。所以 UBI 是「necessary but not sufficient」——必要但不充分。访谈里还提到威尔士的 UBI 试点：针对离开孤儿院、刚满 18 岁进入社会的年轻人，给一小群人发基本收入，对照组走常规社会福利。结果是拿到 UBI 的那组在「过渡到成年」的过程中明显更好——有基本经济安全后，在劳动力市场上更有议价空间，也更有可能去寻找更合适的工作或其它方式回馈社会。这说明 UBI 在缓冲冲击、给人们一点选择空间上是有证据的；但它确实不解决「工作本身带来的意义感」问题。三、钱从哪来：对 AI 征税与分红一旦大规模失业，原来靠劳动所得税支撑的财政会缩水；若还要发 UBI，钱从哪来？辛顿的主张是：钱应该来自对「替代了人类工作的 AI」的征税——用这些税来支撑 UBI 或类似保障。他也承认，大公司会对「对 AI 征税」非常抵触。 ...

安德森谈AI：没有人口崩塌，我们才该慌

网景的发明人、a16z 的 “a”，在播客里说：如果没有 AI，我们此刻该慌的是经济——人口在塌、生产力几十年没真起来；AI 和机器人恰恰在我们最需要的时候来了。最近听了 Lenny 对 Marc Andreessen 的那期播客（访谈视频）。安德森是网景联合创始人、a16z 联合创始人，经历过浏览器大战和「软件吞噬世界」的预言成真。这期里他谈 AI 时代、人口、岗位、育儿和媒体，有几句话我记下来了，顺带写点自己的反应。一、慌错了对象很多人慌的是「AI 抢饭碗」。安德森的观点是：慌反了。过去五十年，发达经济体的全要素生产率增速一直在放缓，不是加快。美国的生产率增速只有 1940–1970 年的一半、1870–1940 年的约三分之一。也就是说，统计上我们并没有活在一个「技术爆炸」的年代，而是技术对经济的实际拉动在变弱。与此同时，生育率跌破更替水平，多国面临人口收缩。没有新技术补上的话，要面对的是经济收缩、机会变少、没有新岗位——这才是更该慌的剧本。 AI 和自动化恰恰在这个时点出现：我们需要用机器补人力缺口、拉 productivity 的时候，技术来了。所以他的结论是：剩下的劳动者会更值钱，而不是更不值钱；所谓「大规模失业」的恐慌是「totally off base」，除非你假设生产率每年涨 10%、20%、50%，那种量级人类历史上从未出现过。我自己的看法：宏观上可以接受这个逻辑——人口与生产率两条线一起看，AI 的「替代」和「补位」会同时存在。但微观上，具体行业、具体岗位的震荡不会因此消失，所以「不必慌」不等于「不用准备」。二、AI 是「哲学家之石」安德森打了个比方：牛顿那代人搞炼金术，想找能把铅变成金的东西——把最普通的东西变成最稀有的东西，没成。AI 做的是把沙变成思考：沙子（硅）做成芯片，芯片跑出推理和创造。最普遍的资源，变成最稀缺的「思考」。所以他说：AI 就是哲学家之石成真。这句话把技术史和当下串在一起了。我们习惯把 AI 当成「又一种工具」；他把它当成一种质变——从「更多算力」变成「可规模化的思考」。是否同意都可，但这个比喻值得记住：它提醒我们，讨论 AI 时在讨论的不仅是效率，而是「思考」这种活动本身如何被量产。三、PM、设计、工程师的「三国杀」播客里有个问题：产品经理、设计师、工程师，谁会被 AI 干掉？安德森用了一个词：Mexican standoff（三方对峙）。每个角色都觉得自己能靠 AI 干另外两边的活——码农觉得能兼做产品和设计，PM 觉得能兼做设计和码，设计觉得能兼做产品和码。而且他说：他们某种程度上都对。能跨两三个领域的人，叠加效应会大于「双倍」「三倍」，你会变成「组合型专家」，很难被单一角色替代。对应到个人策略：T 型或 E 型——至少一条腿特别深（比如工程），同时用 AI 把另外一两条腿拉到「够用」。不要只当「一个螺丝钉」，要让自己不可替代（他引用 Larry Summers 的「don’t be fungible」）。他还说：AI 最好的用法之一，是让它教你——「train me up」：让 AI 出题、批改、讲解，用空余时间把第二、第三技能拉起来。这和「用 AI 代劳」是同一枚硬币的两面。四、还是要学写代码有人问：AI 都能写代码了，孩子还要学编程吗？ ...