龙虾大会:一场关于AI编程的集体幻觉

三月的第一个周末,上海张江某栋写字楼的会议室里坐满了人。他们不是来参加什么新产品发布会,也不是为了听某个明星创业者的路演,而是为了学习如何使用一个开源工具——一个可以将自然语言转化为代码、让普通人也能指挥AI完成编程任务的框架。这个叫OpenClaw的工具,在GitHub上已经收获了超过27万颗星星1,在过去两个月里从一个技术社区的小众项目,变成了整个中国AI圈最火热的话题。从北京中关村到深圳南山,类似的聚会几乎每周都在上演:云服务厂商摆出一键部署的展台,模型公司推销着按Token计费的服务包,开发者们热切地交流着提示词工程的心得。这场被称为**“龙虾大会”**的运动,正在以一种近乎狂热的姿态席卷整个行业。 但热闹的背后,一个根本性的问题被有意无意地忽略了:这些大会究竟在解决什么问题? 参会者带着各自的期待而来——有人希望找到下一个创业风口,有人想提升自己的编程效率,也有人单纯被"AI替代程序员"的焦虑驱动。然而,当演讲者们反复演示如何用几句自然语言生成一个待办事项应用,或者如何让AI自动修复简单的代码错误时,细心的观察者会发现,**这些场景与真正复杂的软件工程之间,还隔着一条难以逾越的鸿沟。**那些在舞台上被展示的神奇能力,往往建立在精心设计的demo环境之上;一旦进入真实的业务场景,面对遗留系统的技术债务、模糊的产品需求、严格的合规要求,AI的表现就会迅速退化为一个偶尔能提供代码补全建议的辅助工具。 这种落差并非偶然。 当前的AI编程工具,本质上仍然是基于概率的模式匹配系统。它们在处理常见编程模式、标准库调用、以及有明确边界的任务时表现出色,因为这些场景在训练数据中有充足的样本。但一旦涉及到需要深度领域知识、复杂架构设计、或者跨系统集成的任务,AI就会暴露出理解力的局限。更重要的是,编程从来不只是写代码——它还包括理解业务逻辑、权衡技术方案、与团队协作、以及在约束条件下做出工程决策。这些软技能,恰恰是当前的AI最难以替代的部分。那些在龙虾大会上被反复强调的"生产力提升",很大程度上只是将编码阶段的部分工作自动化,而软件开发的全生命周期中,编码往往只占不到三分之一的工作量。 云服务厂商和模型公司的热情参与,让这场运动变得更加复杂。对他们来说,OpenClaw提供了一个绝佳的切入点:通过简化部署流程、提供托管服务,他们可以将开发者锁定在自己的生态系统中。一键部署听起来很美好,但它也意味着用户将基础设施的控制权交给了平台;Token计费模式看似灵活,但当应用规模扩大时,成本可能会变得难以预测。 这些商业模式的设计,更多地反映了供应商的利益,而非用户的真实需求。 而在大会的演讲台上,模型厂商们轮番展示自家模型的编程能力,试图证明自己比竞争对手更适合这个场景。但这种比拼往往停留在基准测试的分数上,而非真实项目的交付能力。当所有人都急于在这个新兴市场占据一席之地时,关于"这些工具究竟能创造什么价值"的冷静思考反而被边缘化了。 这种过热的状态很难持久。历史经验表明,**技术 hype 的周期通常在六到八周达到顶峰,随后进入冷静期。**龙虾大会也不例外。当最初的兴奋消退,当参会者们回到自己的工位尝试将这些工具应用到实际项目中,他们会发现现实的骨感:AI生成的代码可能需要大量的修改才能运行,自动化的工作流可能在边界情况下崩溃,而那些被承诺的"十倍效率提升"在复杂项目中变得难以兑现。这种幻灭感会迅速传播,媒体的报道会从"革命性的突破"转向"被夸大的期望",投资者的注意力会转向下一个热点。三到八周后,当再有人提起龙虾大会时,语气中可能会带着一丝怀念,更多的是一种"那阵子大家都挺疯狂的"的调侃。 但这并不意味着AI编程工具没有价值。恰恰相反,它们在某些场景下确实能显著提升效率——尤其是在原型开发、学习编程、以及处理重复性编码任务时。问题在于,当前的市场叙事将这些能力过度放大,试图用**“AI替代程序员”**的惊悚标题来吸引眼球,而忽视了工具能力的边界。这种叙事不仅误导了公众,也给行业带来了不必要的焦虑。真正有价值的讨论应该是:在软件开发的全流程中,哪些环节可以被AI增强,哪些仍然需要人类的专业判断;如何在利用AI提升效率的同时,保持代码质量和系统的可维护性;以及,随着这些工具的普及,软件工程师的角色将如何演化。 来自大洋彼岸的一些信号值得我们关注。在AI编程工具的赛道上,Cursor作为目前最成功的创业公司之一,近期明显加快了产品迭代的节奏。从2月到3月,Cursor连续发布了自动化工作流、JetBrains IDE支持、自主计算机控制等多项重大功能2,这种密集的产品发布节奏本身就说明了一些问题:即便是市场领导者,也感受到了来自各方的压力——既有来自大型模型公司的降维打击,也有来自开源社区免费替代品的竞争。 而在模型层面,Anthropic于2026年2月17日发布的Claude Sonnet 4.6展示了更强的代码理解和生成能力3,根据Anthropic的官方数据,该模型在OSWorld计算机使用基准测试中表现优异,在某些场景下甚至超过了此前的Opus 4.5模型。当国外的竞争者在技术和产品层面快速迭代时,国内的大会仍然停留在"如何使用工具"的初级阶段,这种差距本身就值得深思。 更深层的观察是,工具的迭代与底层模型的升级密切相关。 OpenClaw、Cursor这类工具本质上是Agent的落地表现形式,而Agent的能力边界直接受制于底层大模型的能力。当Anthropic这样的模型公司推出更强大的编程能力时,中间层工具必须在产品层面做出回应,否则用户就会直接转向模型原生的解决方案。据业内人士透露,Cursor内部已经将这种状态定义为**“战时模式”**——这并非空穴来风,而是对竞争格局剧变的直接回应。 换言之,工具的演化是模型演化的函数。 没有底层模型的突破,单纯的工具创新很快就会触顶。这也解释了为什么龙虾大会的火热某种程度上是焦虑驱动的——开发者们担心错过下一个风口,服务商们担心被时代抛弃,创业者们则在寻找能够抵御模型公司直接竞争的商业逻辑。 这种困境并非中国独有,但在国内表现得尤为明显。一方面,基础模型的能力与国际顶尖水平仍有差距,这限制了应用层面的创新空间;另一方面,市场的急功近利心态让很少有人愿意沉下心来打磨产品,大家都在追逐短期的热点和概念。当OpenClaw火了,所有人都在谈论OpenClaw;当下一个框架出现,注意力又会迅速转移。在这种环境下,真正的技术积累和产品迭代变得困难,大部分参与者只是在不同的热点之间疲于奔命。 回到最开始的问题:究竟是谁在玩龙虾? 答案可能是:那些焦虑的开发者,试图在这个快速变化的时代找到安全感;那些投机的服务商,希望借助热点推销自己的产品和服务;那些迷茫的创业者,在寻找下一个可能的风口;以及那些真诚相信技术能改变世界的理想主义者,尽管他们中的大多数最终会发现,改变比想象中要困难得多。这些人共同构成了这场运动的参与者,也共同承受着期望与现实之间的落差。 当热潮退去,真正有价值的东西会留下来。 可能是一些被验证过的最佳实践,可能是几段在特定场景下确实能提升效率的工作流,也可能是关于**“如何与AI协作”**的新认知。但前提是,参与者们能够从这场集体的狂热中抽离出来,诚实地评估这些工具的能力边界,并在实际的业务场景中寻找真正的价值创造点。这需要时间,需要耐心,也需要一定程度的运气。 而在那之前,龙虾大会还会继续,只是参会者脸上的表情可能会从兴奋变成困惑,再从困惑变成一种若有所思的平静。那可能是一个更健康的状态——对于技术,对于行业,对于所有在其中寻找机会的人来说,都是如此。 参考 OpenClaw GitHub Repository, https://github.com/openclaw/openclaw, 截至2026年3月收获278k stars ↩︎ Cursor Blog, 2026年2-3月产品更新动态,包括Automations、JetBrains ACP、Agent Computer Use等功能发布 ↩︎ Anthropic, “Introducing Claude Sonnet 4.6”, February 17, 2026, https://www.anthropic.com/news/claude-sonnet-4-6 ↩︎

ZHANG.z | March 8, 2026 | 15 min | Shanghai

AI 编程的终态肯定不是 Tab:直接要二进制

你大概已经习惯用 Tab 补全下一行代码了——但 AI 编程的终态,多半不是一直这样「补下去」。真正的方向,是有一天你不再写那一行行代码,而是用自然语言直接向 AI 要一个优化好的二进制;而这件事的引爆点,很可能就在 2026 年。 今年 2 月初,埃隆·马斯克在 xAI 活动上的一段视频被剪成片段,在 X 上疯传。他在台上说:今年年底前,你可能连代码都不用写了,AI 会直接生成二进制,而且比任何编译器都做得更优;Grok 的代码能力,两三个月内就会到业界顶尖。原话不长,四十来秒,底下已经吵成一片:有人喊「编程奇点」来了,也有人反问——AI 直接吐机器码,你怎么调试、怎么审?吵的其实是同一件事:AI 正在从「帮你写源代码」的助手,变成「从意图到可执行文件」的管道。不再是你写、它补全,而是你提需求、它直接给出能跑的二进制。 传统开发里,编译和优化往往吃掉 20%~30% 的周期;一旦这一步被 AI 吞掉,从自然语言到可运行结果,中间那层「人类写码再编译」就会越来越薄。Anthropic 年初那份报告里已经提到,有团队在用 AI 跑通从测试、调试到部署的整条线;OpenAI 也披露过用 GPT-5.3-Codex 搭出零人类代码的完整应用。下面顺着这条线,看看技术已经铺到哪儿了、卡在哪儿,以及 2026 年底前我们大概会看到什么。 马斯克在说什么:从「写代码」到「要二进制」 马斯克那几句,说白了就是把「编程」从「写高阶语言、再交给编译器」往前推了一步:变成用自然语言描述你要什么,AI 直接给你可执行文件。之所以一石激起千层浪,是因为这不再只是「更好的补全」,而是换了一套玩法。有人在 X 上回了一句:「机器码调试?那才是地狱周。」——可解释性和可控性,正是大家最慌的地方。但大厂已经在往这条路上走了:OpenAI 的 Codex 线已经能端到端生成小型应用,GPT-5.3-Codex 甚至搭出过零人类代码的完整 app;Anthropic 的 Claude Code 据公开信息有约九成自身代码是 Claude 写的;DeepMind 的 Gemini 也在做「自然语言 → 可运行产物」的代理。编译在过去几十年里一直是人和机器之间的那道桥,也吃掉不少开发时间;一旦 AI 把整条编译管道都内化了,写软件就会越来越像「声明意图」,而不是一行行敲代码。 技术路径已经铺开:代理工作流与神经编译 「跳过编译」要解决的无非一件事:自然语言那么模糊,二进制又那么精确,中间怎么接上。眼下能看到两条路。一条是多步 AI 流水线:意图先被解析成语义图,再有一层做优化(类似传统编译器的多 pass,只是换成 AI 驱动),最后有一层专门产出机器码,针对 ARM 或 x86。Anthropic 的 Claude Code 就是这一挂的——不只生成代码,还自己调试、自己测;他们披露过,从「建一个实时聊天服务器」到可运行二进制,在 LangGraph 的代理链上大概 3~5 轮迭代就够,比手动编译快出一个数量级。另一条更激进,叫神经编译:让模型直接学「自然语言或高层语义 → 机器码」的映射。DeepMind 的 AlphaEvolve、Gemini Deep Think 用进化算法加自然语言验证器迭代候选解,在数学证明上已经做到九成多准确率;这套思路要是搬到代码和二进制优化上,就可以绕过 LLVM 之类传统工具链去做分支预测、缓存亲和性。MIT 的 EnCompass 则用回溯让代理多试几次 LLM 输出、挑出最佳路径,把「生成—验证」闭环做实。再加上 OpenAI 和 Cerebras 在芯片上的合作,生成速度提了一截,代理在秒级内吐出「近即时」二进制已经可以想象;LangGraph 从单代理撑到上万并发,也就半年左右。这条代理链要接上真实世界,还得有统一的「工具契约」——协议层也在动:MCP(Model Context Protocol)把模型和工具、数据源对接标准化,Chrome for Developers 则已开放 WebMCP 的 early preview,让网站和前端能以结构化工具的形式暴露给 AI 代理(通过 navigator.modelContext 等),代理不用再靠截图或爬 DOM,而是按约定调用,可审计、可管控。直接二进制生成,已经从论文和原型,摸到了工程验证的门槛。 ...

ZHANG.z | February 15, 2026 | 15 min | Shanghai

AI 幻觉与「洗车悖论」:今天的 AI 为什么还当不了你的主治医师

AI 的「聪明」和人类的「聪明」不是同一种东西——弄不清这一点,就会要么高估它,要么低估它。 最近有个问题在网络上很火:「我要去小区旁 20 米的洗车店洗车,请问步行还是开车?」不少 AI 会认真建议你:20 米很近,步行环保又锻炼身体。你忍不住笑:不开车去,洗车店洗什么?洗我的腿吗?这类现象有个正式名字叫 AI 幻觉(AI Hallucination):模型用非常笃定的语气,给出逻辑上站不住脚或与事实不符的回答。 幻觉背后的原因,不只是「AI 还笨」或「数据不够」。实质是:今天的 AI 是在用「猜下一个字」的统计方式生成文字,它缺的是对物理世界和因果逻辑的「世界感」。理解这一点,才能说清为什么眼下它既不能当你的主治医师,也替代不了科学家和创意工作者;以及行业正在用哪些办法给这件事「打补丁」。 洗车悖论与 9.11 比 9.9 大:幻觉长什么样 「20 米洗车该步行还是开车」和另一道流传很广的题是同一类陷阱:「9.11 和 9.9 哪个大?」很多模型会答 9.11 更大——因为它把数字当成了软件版本号或日期(9 月 11 日),而不是在比较两个数的大小。两件事共同暴露的是:AI 会顺着训练数据里高概率出现的「搭配」往下说,而不是先想清楚这道题在问什么、需要什么前提。 在医学、法律、安全建议等场景里,这种「顺滑地跑偏」会带来真实风险。据学术与媒体报道,已有 AI 因训练数据中的统计偏差,对哮喘患者给出过「不需要特殊照顾」之类的建议;也有系统因为曾在某篇小说里读到某种蘑菇的描写,就敢回答「可以食用」。这些都不是个例,而是同一类问题的不同表现:模型在「像什么」的联想上很强,在「是什么」「该不该」的逻辑与事实上却不可靠。所以讨论幻觉,本质上是在讨论 AI 的能力边界——它擅长什么、不擅长什么,以及在哪些场景下必须由人做最后把关。2024 年能答对「9.11 与 9.9 哪个大」的模型还很少,到 2026 年这类题已常见于各大厂的基础评测;幻觉会随技术迭代减轻,但边界仍在。 它在「猜字」而不是推演,所以会掉进统计陷阱 要理解幻觉从哪来,得先搞清楚当前这类 AI 到底在干什么。 可以把大语言模型想成一台 「超级猜字机」:你输入一句话,它根据读过的海量文本,算出「下一个最可能出现的字(或词元)」是什么,然后一个接一个往下猜,拼成整段回答。它没有在内部先推演「洗车需要车」「所以必须开车去」——只是在无数网页、书籍、对话里,「20 米」和「步行」「短途」「环保」经常一起出现,所以概率一加权,它就顺着这条「统计捷径」滑过去了,忽略了「目的」是洗车、洗车必须有车这个常识。 「9.11 比 9.9 大」也是同一套逻辑的产物。在模型眼里,数字往往被拆成「词元」(Token)来处理,比如 9.11 可能被拆成「9」「.」「11」。在技术文档、版本说明里,「11」出现在「9」之后太常见了,所以它会答「9.11 更大」——模式识别压过了数学逻辑。一句话总结:AI 擅长的是「像什么」的联想,而不是「是什么」的严格推理。 这种差别,就是幻觉和逻辑失效的根源;不是它不想答对,而是它当前的运作方式本来就不是「先理解再作答」。 缺的不是知识量,而是「世界感」 人听到「去洗车」,脑子里会自动冒出画面:洗车店、水枪、泡沫、自己的车。这种对物理世界和日常流程的直觉,是我们在真实世界里摸爬滚打出来的。AI 没有身体,没摸过车,也没见过洗车房的水雾;它的「知识」全部来自文字。如果训练数据里没有反复、多角度地强调「洗车必须带车」,它就容易把这道题当成单纯的「距离题」:20 米 → 步行,完事。 有一句话概括得很准:今天的 AI 像一位背熟了百科全书却从没出过门的读书人——语义联想很强,常识推理却常常跟不上。就像没去过海边的人,再会形容也缺「那一口咸风」;AI 和世界的关系,跟我们不一样。所以问题不只是「少学了哪条知识」,而是它缺乏在真实世界中行动、观察、试错后沉淀下来的那种「世界模型」。这不是笨不笨的问题,而是它认识世界的方式和人类根本不同;补上这一点,是当前研究里最难、也最被重视的方向之一。 ...

ZHANG.z | February 11, 2026 | 15 min | Shanghai

AI引起的大规模失业怎么办?

「深度学习之父」杰弗里·辛顿(Geoffrey Hinton)说:超级智能 AI 会带来大规模岗位流失、加剧不平等,我们必须重新思考人们如何获得收入与意义;全民基本收入(UBI)将「必要但不充分」——能让人不饿肚子,却补不上失业带来的尊严缺口。他主张通过对 AI 征税或设立分红,让增长被更公平地分享。 那期对谈是 2025 年 9 月 3 日发布的(访谈视频),我是偶然刷到,看完才有感而发。主持是 Ken Yang(JD/MBA,Common Wealth Canada & UBI Works 总监,@kenjaminyang),嘉宾是图灵奖得主、有「AI 教父」之称的 Geoffrey Hinton。辛顿在这期里直指超级智能 AI 会导致大规模失业、贫富分化,并呼吁把 UBI 和「钱从哪来」一起谈——对 AI 征税、用分红机制让全民分享技术红利。当时记了几段核心论点,顺带写点自己的反应;半年多过去,AI 已经铺天盖地,再翻出来看,不少话更像提前打的预防针。 一、经济学家说技术会创造新岗位,但这次可能不一样 很多人——尤其一些经济学家——会说:新技术总会消灭一些岗位,再创造一些岗位。挖沟的没了,可以去干文书。辛顿的观点是:超级智能 AI 来了,文书也能做得比人更好,那这批人接下来去干什么,并不清楚。 他举的是「平庸智力劳动」:律所里查类似案例的律师助理、呼叫中心里报酬低、培训不足、尽力回答却体验很差的客服。AI 会做得更好,而且可复制。再往外推,凡是重复、可程式化的脑力工作,通用 AI 甚至专用 AI 就能替代,更不用说「比我们强很多倍的超级智能」。所以他的结论很直接:我们很快就会看到大规模失业。生产率提高在理想状态下本该让每个人分到更多商品和服务,但在现有分配结构下,「很多穷人会失业,很多富人会更富」——这对社会非常不利。 我自己的看法:宏观上,辛顿和安德森(人口 + 生产率)看的是不同侧面——一个强调「补位」,一个强调「替代」与分配。两者可以并存:总量上技术可能补人力缺口,但分配不会自动公平,若不对征税、分红、UBI 做制度设计,大规模失业与不平等很可能先于「人人受益」发生。 二、UBI:必要但不充分——收入与尊严是两件事 主持人提到两个维度:工作带来收入,工作也带来自我认同——很多人是「以职业定义自己」的。辛顿的回应是:全民基本收入(UBI)若在很多人失业时实施,是必要的,但不足以解决全部问题。它能让人不挨饿、付得起房租,却无法弥补「失业」带来的尊严与意义感缺失。所以 UBI 是「necessary but not sufficient」——必要但不充分。 访谈里还提到威尔士的 UBI 试点:针对离开孤儿院、刚满 18 岁进入社会的年轻人,给一小群人发基本收入,对照组走常规社会福利。结果是拿到 UBI 的那组在「过渡到成年」的过程中明显更好——有基本经济安全后,在劳动力市场上更有议价空间,也更有可能去寻找更合适的工作或其它方式回馈社会。这说明 UBI 在缓冲冲击、给人们一点选择空间上是有证据的;但它确实不解决「工作本身带来的意义感」问题。 三、钱从哪来:对 AI 征税与分红 一旦大规模失业,原来靠劳动所得税支撑的财政会缩水;若还要发 UBI,钱从哪来?辛顿的主张是:钱应该来自对「替代了人类工作的 AI」的征税——用这些税来支撑 UBI 或类似保障。他也承认,大公司会对「对 AI 征税」非常抵触。 ...

ZHANG.z" | February 2, 2026 | 13 min | Shanghai

安德森谈AI:没有人口崩塌,我们才该慌

网景的发明人、a16z 的 “a”,在播客里说:如果没有 AI,我们此刻该慌的是经济——人口在塌、生产力几十年没真起来;AI 和机器人恰恰在我们最需要的时候来了。 最近听了 Lenny 对 Marc Andreessen 的那期播客(访谈视频)。安德森是网景联合创始人、a16z 联合创始人,经历过浏览器大战和「软件吞噬世界」的预言成真。这期里他谈 AI 时代、人口、岗位、育儿和媒体,有几句话我记下来了,顺带写点自己的反应。 一、慌错了对象 很多人慌的是「AI 抢饭碗」。安德森的观点是:慌反了。 过去五十年,发达经济体的全要素生产率增速一直在放缓,不是加快。美国的生产率增速只有 1940–1970 年的一半、1870–1940 年的约三分之一。也就是说,统计上我们并没有活在一个「技术爆炸」的年代,而是技术对经济的实际拉动在变弱。与此同时,生育率跌破更替水平,多国面临人口收缩。没有新技术补上的话,要面对的是经济收缩、机会变少、没有新岗位——这才是更该慌的剧本。 AI 和自动化恰恰在这个时点出现:我们需要用机器补人力缺口、拉 productivity 的时候,技术来了。所以他的结论是:剩下的劳动者会更值钱,而不是更不值钱;所谓「大规模失业」的恐慌是「totally off base」,除非你假设生产率每年涨 10%、20%、50%,那种量级人类历史上从未出现过。 我自己的看法:宏观上可以接受这个逻辑——人口与生产率两条线一起看,AI 的「替代」和「补位」会同时存在。但微观上,具体行业、具体岗位的震荡不会因此消失,所以「不必慌」不等于「不用准备」。 二、AI 是「哲学家之石」 安德森打了个比方:牛顿那代人搞炼金术,想找能把铅变成金的东西——把最普通的东西变成最稀有的东西,没成。AI 做的是把沙变成思考:沙子(硅)做成芯片,芯片跑出推理和创造。最普遍的资源,变成最稀缺的「思考」。所以他说:AI 就是哲学家之石成真。 这句话把技术史和当下串在一起了。我们习惯把 AI 当成「又一种工具」;他把它当成一种质变——从「更多算力」变成「可规模化的思考」。是否同意都可,但这个比喻值得记住:它提醒我们,讨论 AI 时在讨论的不仅是效率,而是「思考」这种活动本身如何被量产。 三、PM、设计、工程师的「三国杀」 播客里有个问题:产品经理、设计师、工程师,谁会被 AI 干掉? 安德森用了一个词:Mexican standoff(三方对峙)。每个角色都觉得自己能靠 AI 干另外两边的活——码农觉得能兼做产品和设计,PM 觉得能兼做设计和码,设计觉得能兼做产品和码。而且他说:他们某种程度上都对。能跨两三个领域的人,叠加效应会大于「双倍」「三倍」,你会变成「组合型专家」,很难被单一角色替代。 对应到个人策略:T 型或 E 型——至少一条腿特别深(比如工程),同时用 AI 把另外一两条腿拉到「够用」。不要只当「一个螺丝钉」,要让自己不可替代(他引用 Larry Summers 的「don’t be fungible」)。他还说:AI 最好的用法之一,是让它教你——「train me up」:让 AI 出题、批改、讲解,用空余时间把第二、第三技能拉起来。这和「用 AI 代劳」是同一枚硬币的两面。 四、还是要学写代码 有人问:AI 都能写代码了,孩子还要学编程吗? ...

ZHANG.z" | February 1, 2026 | 12 min | Shanghai