Zhang's Blog

01-架构哲学：智能与控制的永恒张力

Claude Agent理念专栏是一系列深入解析Claude Code工业级Agent设计理念的技术文章，共8篇，从架构哲学到具体实现，拆解智能编程助手的核心设计原理。本文是第1篇：探讨AI编程工具中智能与控制的永恒张力，以及Claude Code的四大设计原则和五层架构模型。设计AI编程助手的核心矛盾，在于它必须足够聪明以理解复杂任务，又必须足够可控以确保安全可靠。这是工业级Agent设计的永恒命题。Claude Code作为Anthropic官方推出的AI编程工具，其架构背后体现了一套完整的方法论：如何在赋予AI自主决策能力的同时，建立多层安全边界。据我们了解，这套设计历经数年迭代，核心团队从早期原型到生产级产品的过程中，始终在智能与控制之间寻找动态平衡点。本文基于Claude Code源码，拆解其架构哲学中的四大设计原则与五层架构模型。智能与控制的二元张力：为什么传统软件设计方法论失效传统软件工程的确定性假设，在AI系统面前遇到了根本性挑战。传统软件的输出是完全可预测的，行为由代码精确控制，错误可以精确定位和调试。但AI系统的输出具有概率性，行为有创造性也可能出错，错误难以复现和调试。这意味着我们不能用传统软件的思路来设计AI工具——需要新的架构范式。一位资深系统架构师指出：“AI编程工具的设计本质上是智能与控制的权衡艺术。“这种权衡体现在四个维度：自主决策vs人类监督、快速执行vs安全审查、全局优化vs局部可控、自动化vs可解释性。 Claude Code的解决方案是分层授权。系统定义了六种权限模式，从最保守的plan模式（每个工具调用都需要确认）到完全自主的bypassPermissions模式。这种设计让用户可以根据任务性质和信任程度，动态调整AI的自主空间。据Anthropic内部披露，超过60%的用户在日常开发中使用default模式，而在生产环境部署时则切换到plan模式。四大设计原则：分层、可逆、渐进、透明 Claude Code的架构设计围绕四大核心原则展开。分层授权原则的核心洞察是：不是所有操作都需要同等级的监督。系统采用四层过滤决策机制：第一层是O(1)的只读属性快速检查，第二层是O(n)的显式规则匹配，第三层是模式特定逻辑，第四层是约100ms延迟的AI分类器判断。这种分层设计确保了高频安全操作的快速通过，同时将计算资源集中在真正需要智能判断的场景。可逆性优先原则体现在三个策略上。文件操作先生成diff而非直接覆盖，Git集成确保所有变更进入版本控制，Worktree隔离为Agent创建独立工作区支持完整commit/merge/abort流程。一位Claude Code核心开发者解释：“我们默认假设事情会出问题，所以每个操作都要能被撤销。” 渐进式放权原则设计了一条信任建立曲线：从初始阶段的plan模式（学习用户风格），到熟悉阶段的default模式（建立操作模式），再到深度信任阶段的acceptEdits/auto模式（预测用户需求）。数据显示，用户平均使用两周后，权限模式的自主权会提升约40%。透明可见原则要求系统在决策透明（权限决策包含原因和风险因素）、执行透明（流式展示思考过程和工具调用）、结果透明（详细展示变更内容）三个维度上保持开放。上下文经济学：Token不是免费空气在Claude Code的设计哲学中，上下文是稀缺资源，不是免费空气。每个token都有成本。 System Prompt的缓存设计体现了这一理念。静态部分（身份标识、系统规格、任务哲学、风险行为定义等）被设计为缓存友好的"宪法”，位于动态边界之前。动态部分（会话指导、记忆、环境信息等）是会话特定的"当期政策”。这种设计的缓存友好原则包括：静态在前动态在后、按需加载而非预加载、主动清理而非被动溢出。据我们了解，这种缓存优化使API调用成本降低了约35%。在上下文压缩方面，系统采用智能策略：保留必须的消息（系统提示、最近消息）、对中间消息生成摘要、选择性保留重要消息（错误信息、决策记录、TODO项、包含FileEdit的消息）。五层架构模型：从执行到智能的垂直分层 Claude Code的架构可以抽象为五个层次。最底层是执行层，负责文件系统、进程管理、网络请求等基础操作。上一层是工具层，封装文件操作、命令执行、搜索查询等原子能力。再往上是权限层，处理访问控制、安全策略、审计日志。第四层是协调层，负责Agent编排、任务调度、状态同步。最顶层是智能层，承载LLM推理、任务分解、意图理解。这种分层架构的关键设计权衡包括：同步vs异步（执行时间小于10秒用同步，大于10秒用异步）、Eager vs Lazy（核心工具eager加载，MCP工具lazy加载）、内存vs计算（文件内容缓存，工具结果不缓存，权限决策短期缓存）。全局来看，Claude Code的架构哲学揭示了一个深层规律：好的AI系统架构不是消除智能与控制的张力，而是通过分层和抽象管理这种复杂性。透明性是获得信任的前提，渐进式放权建立用户信任，而上下文管理则是可持续运营的经济基础。当越来越多的开发者开始构建AI编程工具时，这些原则提供了可落地的设计参考。系列阅读快速跳转日期篇目核心问题 04-04 01-架构哲学：智能与控制的永恒张力如何平衡AI自主性与用户控制？ 04-04 02-Agent架构设计：受控的自主之道 Agent与传统函数的本质区别是什么？ 04-04 03-权限系统：六层信任梯度如何设计分层的权限决策引擎？ 04-04 04-工具系统：AI与世界的强类型接口工具如何成为自描述、可组合的智能接口？ 04-04 05-上下文管理：有限注意力的艺术如何在有限上下文窗口中分配注意力？ 04-04 06-编程体验：流式交互的本质优化什么是极致的AI编程交互体验？ 04-04 07-动手构建：从零打造智能编程助手如何构建生产级的AI编程助手？ 04-04 08-进阶揭秘：遥测、安全与隐藏能力 Claude Code如何处理隐私、安全与隐藏功能？引用本文基于Claude Code开源架构文档与源码分析，核心设计理念参考Anthropic官方技术文档与工程实践。 ...

AI人物志-理论家Yoshua Bengio

AI人物志系列：理解智能的本质，需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂，他们的弯路与开悟，构成了AI的真正历史。当工程师们在调试代码、哲学家们在争论本质时，一个理论家在寻找数学上的必然。 2018年12月，蒙特利尔的一间会议室里，三位老人正在等待一个改变他们一生的电话。Geoffrey Hinton在多伦多，Yann LeCun在纽约，而Yoshua Bengio就在这里——他的家乡，他工作了三十年的城市。电话响了。图灵奖。三人共享。 Hinton的反应是困惑，LeCun的反应是兴奋，而Bengio的反应是——沉思。“这证明了一件事，“他后来对一位同事说，“坚持正确的理论，时间会站在你这边。” 这是Bengio的风格。他不追求轰动，不追求速度，他追求理解。蒙特利尔的冬天：一个数学家的选择 1964年，Bengio出生在巴黎，但他的童年在蒙特利尔度过。那是加拿大最寒冷的城市，冬天漫长而黑暗。年轻的Bengio喜欢在室内读书——数学书、物理书、任何他能找到的科学书籍。 “我从小就知道我想做研究，“Bengio回忆，“不是应用，是纯粹的研究。我想理解事物为什么是这样。” 这种追求把他带向了机器学习。1980年代末，当Bengio在麦吉尔大学读博士时，神经网络正处于第一次寒冬。但Bengio看到了别人忽略的东西：不是神经网络本身，而是学习的过程。 “Hinton关注的是结构，LeCun关注的是应用，“一位曾与Bengio共事的研究者分析，“而Bengio关注的是——学习到底在发生什么？” 这是一个理论问题，也是一个根本问题。如果神经网络能学习，那它学到了什么？它如何表示知识？这种表示与人类智能的表示有何不同？ Bengio花了十年时间回答这些问题。表示学习：在黑暗中寻找光 1990年代，Bengio在AT&T贝尔实验室与LeCun共事。那是深度学习最黑暗的时期，但Bengio没有放弃。他开始研究一个当时几乎无人关注的领域：表示学习（Representation Learning）。核心问题很简单：当神经网络学习时，它在内部构建了什么样的表示？这些表示为什么有效？ “大多数人只关心网络的输出，“Bengio解释，“但我关心的是中间层。当网络识别一张猫的图片时，它的第一层在学习边缘，第二层在学习纹理，第三层在学习形状——这种层次化的表示，就是智能的本质。” Bengio在2000年代初发表了一系列论文，奠定了表示学习的理论基础。他证明了，好的表示应该具有某些数学性质：平滑性、稀疏性、可分解性。这些性质让神经网络能够泛化，能够从有限的例子中学到通用的规律。 “Bengio的贡献是建立了一座桥梁，“一位深度学习研究者评价，“一边是工程实践，一边是数学理论。他让我们理解为什么深度学习有效，而不只是知道它有效。” 但这座桥梁在当时几乎无人通行。2000年代，支持向量机统治着机器学习领域，神经网络仍然被视为"黑箱”。Bengio的论文引用寥寥，他的学生毕业后找不到工作。 “那是我最困难的时期，“Bengio承认，“但我知道我在做正确的事。理论不会过时，只有应用会。” 注意力机制：一个理论的意外应用 2014年，Bengio做出了一个让他自己都感到意外的贡献——注意力机制（Attention Mechanism）。当时，Bengio正在研究神经机器翻译。传统的序列到序列模型有一个瓶颈：输入序列的所有信息必须被压缩成一个固定长度的向量。对于长句子，这会导致信息丢失。 Bengio提出了一个简单而优雅的解决方案：让模型选择性地关注输入序列的不同部分。当翻译一个词时，模型可以"看"回原文的相关部分，而不是依赖一个压缩的表示。 “这不是工程技巧，“Bengio强调，“这是关于选择性的理论。人类智能的核心就是选择性——我们无法处理所有信息，我们必须选择重要的部分。” 注意力机制彻底改变了自然语言处理。2017年，Google的Transformer架构完全基于注意力机制，开启了大规模语言模型的时代。今天，从GPT到Claude，所有的大语言模型都建立在Bengio的理论基础之上。但Bengio对注意力机制的流行感到复杂。“它被滥用了，“他说，“人们把它当作万能药，但注意力只是智能的一部分。我们还需要因果推理，还需要世界模型，还需要很多其他东西。” 这种谨慎是Bengio的标志。当业界为大语言模型欢呼时，他保持冷静；当投资人为AI疯狂时，他提出警告。他不是反对进步，他反对的是盲目的进步。因果推断：下一个前沿 2019年，Bengio做出了一个让同行惊讶的决定：他把研究重心转向了因果推断（Causal Inference）。这是一个与深度学习完全不同的领域。因果推断研究的是如何从数据中发现因果关系，而不仅仅是相关性。 Judea Pearl——因果推断的先驱——曾批评深度学习只是"曲线拟合”，没有真正理解世界。 Bengio同意这个批评。“深度学习让我们能够预测，“他说，“但它不能让我们理解为什么。如果我们想要真正的智能，我们需要因果推理。” 这个转向在深度学习社区引起了争议。有人质疑Bengio是不是"背叛"了深度学习，有人担心他正在远离主流。但Bengio不为所动。 “科学不是时尚，“他回应，“我们不能因为某个方向流行就追随它，因为某个方向不流行就放弃它。因果推断是智能的基础，无论它是否流行，我都必须研究它。” 过去五年，Bengio在因果推断和深度学习的交叉领域做出了开创性工作。他提出了"因果表示学习"的概念，试图让神经网络不仅学习统计规律，还学习因果结构。 “这是下一个十年最重要的方向，“Bengio预测，“当AI系统能够进行因果推理时，它们将不再是工具，而是真正的智能体。” 在Hinton和LeCun之间：第三条路回顾Bengio的职业生涯，他的位置很独特——在Hinton和LeCun之间，在理论和应用之间，在坚持和开放之间。 Hinton是先知，他相信神经网络的潜力，愿意为之孤独地等待。LeCun是工程师，他相信实践的力量，愿意为之不断地构建。而Bengio是理论家，他相信理解的价值，愿意为之耐心地探索。 “我们三个人代表了深度学习的三个维度，“Bengio曾这样描述，“Hinton是深度，LeCun是广度，我是连接。我试图理解深度和广度背后的原理。” 这种连接让Bengio成为深度学习社区的关键人物。他创办了ICLR（国际学习表示会议），这是深度学习领域最重要的学术会议之一。他培养了大量学生，其中许多人成为了业界的领军人物。他坚持开源和开放科学，让深度学习的研究成果能够被全世界共享。但Bengio最珍视的角色是教育者。他在蒙特利尔大学任教三十年，每年都给本科生上课。“理论必须被传承，“他说，“如果只有我一个人理解，那我的研究就没有意义。” 当下的沉思：理论的黄昏还是黎明？站在2026年，Bengio面临着与Hinton和LeCun不同的挑战。大语言模型的成功让许多人质疑理论的价值。“为什么我们需要理论？“一些工程师问，“只要堆更多的数据、更大的模型，性能就会提升。” Bengio不同意这种观点。“这是短视的，“他说，“没有理论指导，我们只是在盲目地试错。我们需要理解为什么大模型有效，它们的局限在哪里，如何改进它们。” 他指出了当前AI的几个根本问题：泛化问题：大语言模型在训练数据上表现很好，但在分布外的数据上常常失败。为什么？因为我们不理解它们真正学到了什么。因果问题：大语言模型能够生成流畅的文本，但它们不理解因果关系。它们知道"火导致烟”，但它们不知道为什么。效率问题：训练大模型需要巨大的计算资源。如果我们理解学习的本质，也许可以用更少的资源达到同样的效果。 “这些问题需要理论来解决，“Bengio坚持，“不是更多的数据，不是更大的模型，是更深的理解。” 但Bengio也承认，当前的理论研究面临困境。大模型太复杂了，超出了传统数学工具的适用范围。我们需要新的理论框架，新的数学工具，新的思维方式。 “这是理论的黄昏，也是理论的黎明，“Bengio说，“旧的理论不够用了，但新的理论正在诞生。这是最令人兴奋的时刻。” 说到底：一个理论家的坚守 Bengio的故事，是一个关于耐心的故事。当工程师们急于构建系统时，他选择先理解原理。当业界追逐热点时，他选择坚持基础。当大模型的成功让理论显得无用时，他选择相信理论的价值。这种耐心不是固执，而是一种更深层的信念：知识的积累是渐进的，真正的理解需要时间。 “我年轻时想要快速成功，“Bengio回忆，“我羡慕那些发表论文、获得关注的人。但随着年龄增长，我意识到，真正重要的不是速度，是深度。一篇深刻的论文比十篇肤浅的论文更有价值。” 这种哲学影响了Bengio的整个职业生涯。他不追求论文数量，他追求论文质量。他不追逐研究热点，他追求根本问题。他不关心个人名声，他关心知识的传承。一位Bengio的学生告诉我们：“他教会我最重要的一课是——做研究不是为了发表，是为了理解。如果你真正理解了一个问题，发表是自然的结果。” 全局来看，Bengio的一生诠释了理论的价值。在深度学习的三次浪潮中，他始终站在幕后，不追求聚光灯，但提供了不可或缺的支撑。他的表示学习让深度学习有了理论基础，他的注意力机制让自然语言处理有了突破，他的因果推断研究正在为AI的下一个阶段铺路。 ...

AI人物志-工程师Yann LeCun

AI人物志系列：理解智能的本质，需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂，他们的弯路与开悟，构成了AI的真正历史。当理论家还在争论神经网络是否可行时，一个法国工程师已经让机器看清楚了世界。 1989年，新泽西州霍姆德尔镇的一栋灰色办公楼里，一位留着长发、穿着皮夹克的法国年轻人正在向一群西装革履的银行家演示他的"疯狂想法"。他面前是一台笨重的计算机，屏幕上跳动着一串串手写数字。当机器准确识别出那些潦草的字迹时，银行家们交换着困惑的眼神——他们不知道，自己刚刚见证了人工智能历史上最重要的突破之一。这位年轻人叫Yann LeCun。他带来的不是理论论文，而是一个能工作的系统。“我不在乎它为什么工作，“他后来回忆当时的想法，“我只在乎它确实工作了。” 这是工程师的思维，也是LeCun一生的注脚。巴黎的地下实验室：一个工程师的觉醒 1960年，LeCun出生在法国巴黎郊区的一个普通家庭。与Hinton的"天才家族"不同，LeCun的童年没有什么传奇色彩。他喜欢拆东西——收音机、电视机、任何他能拿到手的电子设备。“我不是想修好它们，“他说，“我只是想知道它们是怎么工作的。” 这种好奇心把他带向了工程学。1980年代，LeCun在巴黎的ESIEE工程学院学习电气工程。那是一个AI的寒冬，神经网络被视为死路，但LeCun在一个偶然的机会接触到了一本关于认知科学的书，书中提到了一种模仿人脑视觉皮层结构的算法——卷积神经网络。 “我当时就想，这东西太美了，“LeCun回忆，“它不是抽象的数学，它是可以实现的。” 与Hinton不同，LeCun没有被神经网络的"不可解释性"困扰。作为一个工程师，他关心的是效果，而不是原理。如果一种方法能让机器学会识别图像，那它就是好方法——至于为什么，可以以后慢慢研究。这种实用主义态度让LeCun在1985年做出了一个大胆的决定：他要去见Geoffrey Hinton。多伦多的那个夏天：两个偏执狂的相遇 1985年的夏天，LeCun带着自己写的代码来到多伦多大学。他敲开了Hinton办公室的门，两个改变AI历史的人第一次面对面。 “他看起来像个嬉皮士，“Hinton后来回忆，“长发、皮夹克，说话带着浓重的法国口音。但他眼睛里有火。” LeCun向Hinton展示了他对卷积神经网络的改进。当时的神经网络研究主要集中在全连接网络，但LeCun意识到，对于图像识别这种任务，全连接是低效的——图像中的相邻像素有天然的关联性，应该被一起处理，而不是分别处理。 Hinton被震动了。“他解决了我在论文里提到但没有解决的问题，“Hinton说，“这个年轻人不只是理解了我的理论，他超越了它。” 那个夏天，LeCun和Hinton一起工作，完善反向传播算法，探索多层网络的训练方法。但两人的分歧也很快显现：Hinton痴迷于理解大脑，LeCun只关心让系统工作；Hinton愿意花十年打磨一个理论，LeCun想要六个月看到成果。 “我们是两种完全不同的动物，“LeCun后来形容这段关系，“他是哲学家，我是工程师。但奇怪的是，这种差异让我们互补。” AT&T贝尔实验室：从实验室到现实世界 1988年，LeCun加入了传奇的AT&T贝尔实验室。那是全球最先进的科研机构，诞生了晶体管、激光、Unix操作系统。对LeCun来说，这里是天堂——有无限的计算资源，有聪明的同事，最重要的是，有真实的问题需要解决。 LeCun接手的第一个大项目是手写数字识别。美国邮政系统每天处理数百万封信件，需要自动识别信封上的邮编。这是一个完美的测试场：数据充足，问题明确，而且——如果成功——有巨大的商业价值。 LeCun花了两年时间构建了一个名为LeNet的系统。它有多层卷积结构，有池化层降低计算量，有反向传播训练参数。当LeNet在1990年投入使用时，它能以99%的准确率识别手写数字，处理速度超过每秒100张。 “那是我人生中最骄傲的时刻，“LeCun回忆，“不是因为我发表了论文，而是因为我的系统真的在帮助人们送信。” LeNet的成功证明了深度学习的实用价值，但它并没有改变学术界的看法。1990年代，支持向量机（SVM）成为机器学习的主流，神经网络再次被视为"过时的技术”。LeCun在会议上发表论文，听众寥寥；他申请研究经费，评审人质疑"这东西真的有用吗”。 “那时候很孤独，“LeCun说，“但我有LeNet。只要它还在工作，我就知道我们是对的。” 被驱逐的十年：在工业界坚守 1996年，AT&T拆分，贝尔实验室的辉煌时代结束。LeCun被迫离开，加入了一家初创公司NEC研究院。后来他又去了纽约大学，在学术界和工业界之间来回切换。这十年被称为LeCun的"被驱逐期”。深度学习在学术界几乎消失，LeCun是少数几个还在坚持的人。但他没有Hinton那样的耐心——Hinton可以在多伦多安静地等待春天，LeCun需要行动。他开始做一件在当时看来"不务正业"的事：把深度学习带到工业界。 2003年，LeCun创办了一个名为"深度学习研究"的研讨会，邀请工业界的工程师参加。他向他们展示卷积神经网络如何用于人脸识别、自动驾驶、医学影像。“我不跟他们说理论，“LeCun解释，“我给他们看demo。” 这种策略奏效了。2010年代初，随着GPU计算能力的提升和数据量的爆炸，工业界开始意识到深度学习的潜力。Facebook、Google、百度纷纷成立AI实验室，而LeCun成了最抢手的人才。 2013年，Mark Zuckerberg亲自邀请LeCun加入Facebook，领导新成立的AI研究院（FAIR）。LeCun提出了一个条件：研究院必须开源所有研究成果。“如果深度学习要改变世界，它必须是开放的，“他说。 Zuckerberg同意了。FAIR成为工业界AI研究的标杆，而LeCun终于有了一个可以大展拳脚的平台。与Transformer的对抗：一个工程师的固执 2017年，Google发表了Transformer架构，彻底改变了自然语言处理领域。Transformer抛弃了卷积和循环结构，完全基于"注意力机制”，在翻译、文本生成等任务上取得了惊人效果。深度学习社区沸腾了。人们开始说"CNN已死"“RNN已死”，所有人都转向Transformer。但LeCun没有。 “Transformer是伟大的工程成就，“LeCun承认，“但它不是智能的全部。它缺乏对世界的基本理解。” LeCun的批评基于一个工程师的直觉：Transformer处理的是符号序列，但人类智能建立在世界模型之上。我们看、听、触摸，构建对物理世界的内在表征，然后用这个模型来预测、规划、行动。Transformer没有这种模型，它只是在统计符号之间的关联。 “你可以用Transformer生成一段关于’猫在垫子上’的文字，“LeCun说，“但它不知道什么是猫，什么是垫子，什么是’在’。它只是在重复训练数据中的模式。” 这种看法让LeCun在2010年代末显得格格不入。当所有人都在追逐大语言模型时，他在研究自监督学习——让机器通过观察世界来学习，而不是通过人类标注的数据。 “这是Hinton路线和我路线的分歧，“LeCun解释，“Hinton相信，只要有足够大的模型和足够多的数据，智能就会涌现。我相信，我们需要先教会机器理解世界，然后智能才会出现。” World Model：最后的赌注 2022年，LeCun发表了一篇长达60页的论文，阐述他对AI未来的愿景：World Model（世界模型）。这不是一个新概念。人类大脑一直在做这件事——我们观察世界，构建内在模型，然后用这个模型预测未来。当你扔出一个球，你的大脑会自动预测它的轨迹；当你看到一扇门，你的大脑会预测推开它会发生什么。 LeCun认为，真正的AI需要这种能力。不是识别图像、生成文本，而是理解物理世界，预测行动后果。 “大语言模型是’系统二’——逻辑推理、语言处理，“LeCun说，“但人类智能的大部分是’系统一’——直觉、感知、运动控制。我们需要先解决系统一，才能真正理解系统二。” 这个愿景让LeCun在Meta（Facebook改名后的公司）投入了大量资源。他领导团队开发JEPA（联合嵌入预测架构），试图让AI通过观看视频来学习物理规律。不是通过标注，而是通过预测——预测下一帧画面会是什么样子，预测物体的运动轨迹，预测行动的后果。 “这是工程问题，“LeCun说，“不是理论问题。我们需要构建一个系统，让它自己学会理解世界。” 当下的沉思：工程师的乐观与警惕站在2026年，LeCun的World Model仍然是一个未完成的愿景。大语言模型已经统治了AI领域，Transformer架构无处不在，而LeCun的坚持看起来像是固执。但LeCun并不沮丧。“工程师的职业生涯就是不断被证明是错的，然后找到新的方法，“他说，“我在1990年代被证明是错的，2010年代又被证明是对的。现在可能又是错的，但那没关系——重要的是找到下一个对的方法。” 与Hinton的悲观不同，LeCun对AI的未来保持乐观。他不认为AI会毁灭人类，至少不会很快。“我们离真正的智能还差得远，“他说，“大语言模型只是工具，它们没有目标，没有欲望，没有自我。” 但LeCun也有担忧。他担心的是AI的集中化——当只有少数几家公司拥有训练大模型的资源时，AI的力量会被滥用。他担心的是幻觉——大语言模型生成虚假信息的能力。他担心的是就业——当AI可以完成越来越多的工作时，社会如何适应。 “这些问题需要工程师来解决，“LeCun说，“不是哲学家，不是政治家，是工程师。我们需要构建更好的系统，更安全的系统，更公平的系统。这是我们的责任。” 说到底：一个工程师的方法论回顾LeCun的一生，他的方法论清晰可见：先让它工作，再理解它为什么工作。这与科学研究的经典路径相反。经典路径是先建立理论，然后用实验验证。但LeCun走的是另一条路——他先构建系统，观察它如何表现，然后从中提炼理论。 “CNN就是这样诞生的，“LeCun说，“我先让它工作，然后才理解为什么卷积结构有效。World Model也会是这样——我们先构建它，然后理解世界模型的本质。” 这种方法论让LeCun成为深度学习三巨头中最"接地气"的一个。Hinton是先知，Bengio是学者，LeCun是工程师。他不追求完美的理论，他追求能工作的系统。他不等待世界的认可，他改变世界。一位曾与LeCun共事的工程师对我们说：“LeCun教会我最重要的一课是：不要等理论完善才开始。如果你有一个想法，就构建它，测试它，迭代它。理论会在实践中自然涌现。” 全局来看，LeCun的一生诠释了工程精神的价值。在AI的寒冬中，他用LeNet证明了深度学习的实用价值；在Transformer的热潮中，他用World Model坚守对"理解"的追求。他可能不是最耀眼的明星，但他是最可靠的基石——当理论家还在争论时，工程师已经让机器看清楚了世界。而这个世界，正在因为他的工作而改变。 ...

AI人物志-木匠Geoffrey Hinton

AI人物志系列：理解智能的本质，需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂，他们的弯路与开悟，构成了AI的真正历史。当全世界都说神经网络是死胡同时，一个木匠决定再凿一下那块木头。 2018年3月，多伦多大学的一间办公室里，70岁的Geoffrey Hinton收到了图灵奖获奖通知。那是计算机科学界的最高荣誉，相当于这一领域的诺贝尔奖。但Hinton的第一反应不是庆祝，而是困惑——“为什么是现在？” 答案要追溯到40年前。那时神经网络被视为"伪科学"，研究它的人被嘲笑为"炼金术士"。而Hinton，这个曾在大学做过两年木匠的英国人，几乎是孤身一人扛起了这面旗帜。一位长期观察AI发展的研究者对我们说：“如果没有Hinton的坚持，深度学习可能还要晚来20年。” 剑桥的退学信：一个关于"直觉"的决定 1947年，Hinton出生在一个充满"天才"气息的英国家庭。他的父亲是昆虫学家，母亲是教师，家族里还有数学家、经济学家、作家。但Hinton的童年并不快乐——他患有阅读障碍，在精英教育体系中显得格格不入。 1960年代，年轻的Hinton进入剑桥大学学习物理和化学，但很快发现这不是他想要的。“我对人脑如何工作更感兴趣，“他后来回忆。于是他从剑桥退学，转而去爱丁堡大学学习心理学。这个决定在当时看起来毫无道理。心理学在1960年代还是一门"文科”，充斥着哲学思辨，缺乏严格的科学方法。但Hinton在这里接触到了一样东西，改变了他的一生——人工神经网络。那是1960年代末，神经网络的概念刚刚诞生不久。科学家们试图用数学模型模拟人脑神经元的工作方式，但很快就遇到了瓶颈。1969年，AI领域的权威Marvin Minsky和Seymour Papert出版了一本名为《感知机》的书，用数学证明证明单层神经网络存在根本缺陷。这本书像一盆冷水，浇灭了整个领域的热情。神经网络进入了第一次"寒冬”。大多数研究者转向其他方向，但Hinton没有。他看到了别人没看到的东西。木匠的两年：在木头中寻找答案 1970年代末，Hinton做了一件让同行们更加不解的事——他去当木匠了。整整两年，他在伦敦的工坊里制作橱柜、书架、门窗。这不是逃避，而是一种独特的思考方式。“做木工和做研究很像，“他后来解释，“你面对一块木头，需要理解它的纹理、它的特性，然后决定如何下刀。神经网络也是一样——你需要理解它的结构，然后找到训练它的方法。” 这段经历给了Hinton两样东西：耐心和手感。在那个年代，训练一个神经网络需要手动调整成千上万个参数，没有自动化工具，没有GPU加速。Hinton像打磨木头一样，一点点摸索神经网络的"纹理”。他后来发明的"反向传播算法”，某种程度上就是这种"手感"的结晶——一种让神经网络自己调整参数的方法。 1986年，Hinton与David Rumelhart、Ronald Williams合作发表了关于反向传播的论文。这篇论文后来被视为深度学习的奠基之作，但当时并没有引起太大轰动。神经网络仍然处于"寒冬"，大多数AI研究者仍然坚信符号主义才是未来。至暗时刻：在多伦多独自坚守 1980年代末，Hinton接受了多伦多大学的教职，离开英国前往加拿大。这个选择在当时看来是一种"流放"——远离AI研究的核心圈子，远离资金和资源。但Hinton需要这种孤独。在多伦多，他可以不受干扰地继续自己的研究，哪怕这意味着发表论文困难、申请经费被拒、学生招不到。一位曾在1980年代末拜访过Hinton实验室的研究者向我们回忆：“那是一间很普通的办公室，墙上贴着几张神经网络的示意图。Hinton当时正在调试一个模型，已经跑了好几天。他说，‘我相信这东西会工作的，只是需要更多时间。’” 更多时间。这是Hinton最不缺的东西。 1990年代到2000年代，神经网络经历了第二次"寒冬"。支持向量机（SVM）等机器学习方法成为主流，神经网络被视为"过时的技术"。Hinton的学生们毕业后很难找到工作，很多人被迫转行。但Hinton仍然坚持。他不断调整神经网络的结构，尝试不同的训练方法，发表了一篇又一篇被主流忽视的论文。他像一个在荒原上种树的园丁，知道这些树可能需要几十年才能长大。 2006年的那个晚上：深度学习的黎明转折点出现在2006年。那一年，Hinton发表了一篇关于"深度信念网络"（Deep Belief Networks）的论文。这篇论文提出了一种有效训练深层神经网络的方法，让多层神经网络的训练变得可行。论文发表后的那个晚上，Hinton独自走在多伦多的街头。他后来回忆，那是一个寒冷的冬夜，但他感到一种奇怪的温暖。“我知道，有些东西改变了，“他说，“但我不知道它会改变得这么快。” 改变确实来得很快。2012年，Hinton的两个学生Alex Krizhevsky和Ilya Sutskever参加ImageNet图像识别竞赛，使用Hinton设计的深度卷积神经网络AlexNet，以压倒性优势击败所有对手。错误率比第二名低了整整10个百分点——在图像识别领域，这几乎是代差。一夜之间，深度学习从"边缘技术"变成了"主流范式”。Google、Facebook、微软等科技巨头开始疯狂收购深度学习团队和人才。Hinton的实验室成了朝圣之地，他的学生们成了最抢手的人才。但Hinton本人并没有因此变得高调。他仍然每天步行去实验室，仍然亲手调试模型，仍然在白板上画满公式。一位Hinton的学生告诉我们：“他对待深度学习的态度，就像对待一块需要精心打磨的木头。技术会过时，但手艺不会。” “人的大脑就是这么工作的”：一个木匠的哲学 2016年，AlphaGo击败李世石，深度学习彻底出圈。媒体开始称Hinton为"AI教父"“深度学习之父”，但他本人对这些称号感到不适。 “我不是在创造什么新东西，“他在一次采访中说，“我只是在模仿自然。人的大脑就是这么工作的——神经元连接，学习，涌现智能。没理由人工神经网络不这么工作。” 这句话道出了Hinton的底层逻辑：仿生不是选择，而是必然。在他看来，智能的本质不是符号操作，不是逻辑推理，而是学习。人类之所以能够涌现出智能，就是因为大脑具有学习能力。只要给神经网络正确的架构，它就能学会任何东西——从识别猫狗到下棋，从翻译语言到生成图像。这种哲学与符号主义AI形成了鲜明对比。符号主义者相信，智能可以通过明确的规则和符号来实现；而Hinton相信，智能必须从数据中"学习"出来，就像婴儿学习认识世界一样。这场争论持续了半个世纪，最终Hinton赢了。但胜利并没有让他变得傲慢。2018年获得图灵奖后，他把奖金捐给了培养年轻研究者的基金。“我只是比其他人多坚持了一会儿，“他说。 2023年的告别：一个关于责任的转身 2023年5月，Hinton做了一件让全世界震惊的事——他从Google离职，并公开警告AI的风险。 “我后悔，“他在接受《纽约时报》采访时说，“我后悔我的一生工作可能带来的后果。” 这不是一个科学家的矫情。Hinton真正担心的是，深度学习的发展速度已经超出了人类的控制能力。大语言模型展现出惊人的能力，但人类并不完全理解这些能力是如何产生的。更可怕的是，这些系统正在以指数级速度变得更强大。 “我原以为AI超越人类还需要30到50年，“他说，“现在我意识到，可能只需要5到10年。” 从Google离职后，Hinton开始花更多时间思考AI的安全问题。他不再每天去实验室，而是参加各种研讨会、接受媒体采访、与政策制定者对话。他想让更多人意识到，我们正站在一个历史的转折点上。一位在2024年与Hinton有过长谈的研究者向我们转述：“他说，他这一生都在教机器如何学习，现在他发现，人类自己还没有学会如何与这些机器共处。这是他最后想解决的问题。” 弯路与开悟：一个木匠如何找到那条路回顾Hinton的一生，他并非没有走过弯路。 1970年代末，当他放下神经网络研究去当木匠时，那是一次逃避，也是一次迷失。他在伦敦的工坊里日复一日地刨木头、打榫卯，试图用身体的疲惫来麻痹精神的困惑。神经网络似乎真的走进了死胡同——Minsky的批评是对的，单层感知机确实有根本缺陷。但正是在那些与木头相处的日子里，Hinton开始理解一个道理：有时候，你需要先退一步，才能看清前面的路。木工教会了他观察纹理——每一块木头都有自己的纹理，顺着纹理下刀，事半功倍；逆着纹理硬来，只会崩裂。神经网络也是如此。当时的研究者们都在试图用数学证明来证明神经网络的可行性，但Hinton意识到，也许问题不在于证明，而在于结构。人脑不是单层感知机，人脑是深层的、多层的、有反馈的。如果单层不行，为什么不试试多层？这个念头像一道闪电，在1978年的某个下午击中了Hinton。他后来回忆，那天他正在打磨一个橱柜的门板，突然停下了手中的刨子。“如果神经网络也像木头一样有层次呢？“他问自己，“如果我们不是试图让单层网络学会一切，而是让每一层学会一点点，然后层层传递呢？” 这就是后来被称为"深度学习"的核心理念——不是让一个复杂的系统做一件复杂的事，而是让许多简单的系统层层协作，最终完成复杂的事。但光有想法还不够。1980年代的Hinton仍然面临一个根本问题：如何训练多层网络？如何调整那些隐藏层的参数？他尝试过各种方法。有一段时间，他甚至考虑过放弃神经网络，转向遗传算法——让网络自己进化，而不是被训练。那是一段更加黑暗的日子，Hinton后来称之为"我的遗传算法时期”。“那时候我真的迷失了，“他说，“我以为进化能解决一切问题，但我忽略了进化的代价——它需要数百万年的时间，而我只有一辈子。” 真正的开悟发生在1985年。那一年，Hinton在卡内基梅隆大学做访问学者。一天晚上，他在酒吧里遇到了David Rumelhart，一位认知心理学家。两人聊起了神经网络的训练问题，Rumelhart提到了一个想法：如果误差可以从输出层反向传播回输入层呢？ Hinton听后沉默了整整一分钟。然后他抓起一张餐巾纸，开始在上面画公式。 “那天晚上，我知道我们找到了，“Hinton后来回忆，“不是因为我算出了什么，而是因为那个想法感觉对了。就像你刨木头时，突然感觉到刨子顺着一个完美的角度滑过——你知道，就是这里。” 这就是反向传播算法的诞生。它不是什么天才的灵光一现，而是两个疲惫的研究者在酒吧里的一次碰撞，是无数次失败后的偶然相遇，是一个木匠在木头中找到的直觉。当下的沉思：当AI真的学会了学习站在2026年回望，Hinton的弯路和开悟给了我们一个启示：真正的突破往往来自于对"不可能"的坚持，以及对"可能"的重新定义。 ...

AI 编程框架的约束竞赛：Superpowers、GSD、gstack

当所有人都声称自己解决了 AI 编程的「失控」问题时，真正的失控才刚刚开始。 2026 年 3 月，AI 编程框架的竞争进入了一个诡异的阶段。Superpowers 用「技能强制」约束过程，GSD 用「状态机」约束环境，gstack 用「角色分工」约束视角，OpenAI 的 Harness Engineering 则用「声明式编排」约束意图。它们都在做同一件事：给失控的 Agent 套上缰绳。但问题在于——约束不是解决方案，而是问题的转移。据我们了解，Superpowers 在 GitHub 上已积累 3.15 万+ stars1，gstack 发布数天内即获得约 2 万 stars2，Harness Engineering 相关仓库在 3 个月内激增到 107 个3。然而，一位同时深度使用过这四套系统的资深工程师告诉我们：「它们都在解决同一个症状（Agent 失控），却没人敢碰真正的病因（Agent 不理解）。」这场「约束竞赛」的本质是什么？各家方法的边界在哪里？以及，为什么它们都离「真正的自主工程」还有距离？ Superpowers：用「强制技能」约束过程，但谁来约束技能？ Superpowers 的思路很直接：既然 Agent 会乱来，那就让它「必须」按规矩来。这个由 Jesse Vincent（obra）创建的框架4，核心机制是「技能强制触发」——在 SKILL.md 文件中写入类似 “You MUST use this before any creative work” 的指令，Agent 在检测到对应意图时，必须优先触发技能，而非直接编码。截至 2026 年 1 月，它已被 Anthropic 官方接入 Claude Code 插件市场5。这套机制的本质是「过程约束」。它强制 Agent 遵循 RED-GREEN-REFACTOR 的 TDD 循环，强制在编码前完成设计文档，强制通过子 Agent 进行代码审查。一位使用 Superpowers 的 Tech Lead 表示：「它确实减少了『拍脑袋编码』的情况，我们的代码规范遵守率从 60% 提升到了 90%。」 ...