AI人物志-强化学习之父Richard Sutton

AI人物志系列:理解智能的本质,需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂,他们的弯路与开悟,构成了AI的真正历史。 当全世界都在谈论AlphaGo的奇迹时,很少有人知道,那个让机器学会"思考未来"的人,已经在加拿大的寒风中等待了四十年。 2016年3月,韩国首尔四季酒店。AlphaGo与李世石的围棋对决进入白热化。当AlphaGo下出那手震惊世界的"神之一手"时,全球数亿观众为之疯狂。但在遥远的加拿大埃德蒙顿,一位留着胡子、穿着格子衬衫的老人只是微微一笑,然后继续在他的白板上写着公式。 他叫Richard Sutton。他是强化学习之父,是AlphaGo背后的理论奠基人。但此刻,他没有在看直播——他已经知道结果。四十年的等待,终于等到了这一天。 “AlphaGo证明了强化学习可以工作,“Sutton后来平静地说,“但我更关心的是,它还能做什么。” 马萨诸塞州的童年:一个关于选择的谜题 1957年,Sutton出生在美国马萨诸塞州的一个普通家庭。他的父亲是一位工程师,母亲是一位教师。从小,Sutton就展现出对数学和逻辑的痴迷。 但真正改变他的是一本旧书。 那是1960年代末,Sutton在图书馆的角落里发现了一本关于心理学的书。书中描述了一个实验:老鼠在迷宫中学习找到食物。Sutton被这个简单的场景迷住了——没有老师,没有标签,只有尝试、错误、和奖励。老鼠通过不断尝试,学会了最优路径。 “这就是学习的本质,“年轻的Sutton想,“不是被教导,而是通过互动。” 这个念头像一颗种子,埋进了Sutton的心里。他不知道,这颗种子将在四十年后长成参天大树。 斯坦福的困惑:监督学习的局限 1970年代末,Sutton进入斯坦福大学学习计算机科学。那是AI的第一次寒冬,但Sutton对主流的方向感到困惑。 当时的主流是监督学习——给机器大量标注数据,让它学会从输入到输出的映射。但Sutton觉得这种方法有问题:人类不是这样学习的。婴儿学走路,不是通过看一万个"正确走路"的示例;棋手学棋,不是通过记忆所有可能的局面。 人类学习是通过试错,通过与环境的互动,通过奖励和惩罚。 “监督学习假设有一个’正确答案’,“Sutton后来解释,“但现实中,很多问题的答案取决于你未来的行动。下棋时,这一步的好坏取决于你后面怎么下;投资时,这个决策的好坏取决于市场未来的变化。” Sutton想要一种不同的学习范式——强化学习(Reinforcement Learning)。在这种范式中,智能体通过行动影响环境,环境反馈奖励或惩罚,智能体的目标是最大化长期累积奖励。 这不是简单的输入-输出映射,这是一个序列决策问题。 时序差分:在未知中寻找答案 1984年,Sutton在麻省大学阿默斯特分校读博士时,做出了他一生中最重要的贡献——时序差分学习(Temporal Difference Learning)。 核心问题很简单:如何估计一个状态的价值?在棋局中,当前局面的价值取决于从当前局面出发,最终能赢还是输。但我们不知道最终结果,我们只能一步步走下去。 Sutton的洞见是:我们可以用当前的估计来更新当前的估计。 具体来说,当我们从状态A走到状态B时,我们可以用状态B的当前价值估计来更新状态A的价值估计。如果状态B看起来很好,那么状态A也应该变得更好;如果状态B看起来很糟,那么状态A也应该变得更糟。 这种"自举(bootstrapping)“的方法看起来像是循环论证——用估计来更新估计,能收敛吗? Sutton用数学证明了,在某些条件下,它能收敛。而且,它比传统的蒙特卡洛方法(等到游戏结束才更新)更快、更高效。 “时序差分是人类学习的方式,“Sutton说,“当我们做一件事时,我们不需要等到最终结果才知道好坏。我们可以根据中间反馈实时调整。” 这篇1988年发表的论文,成为强化学习领域的奠基之作。但当时的AI社区对此反应冷淡。 漫长的冬天:在边缘坚守 1980年代到2000年代,强化学习处于AI的边缘。 监督学习有ImageNet,有深度学习,有耀眼的成果。但强化学习呢?它只能在简单的玩具问题上演示,比如让机器人在网格世界里找路,或者让杆子在车上保持平衡。 “那时候很难,“Sutton回忆,“申请经费被拒,发表论文困难,学生招不到。人们问,‘这东西能做什么?‘我回答不了。” 但Sutton没有放弃。他相信,强化学习的问题不是理论问题,是规模问题。当时的计算机不够快,模拟环境不够复杂,算法无法展现真正的能力。 “我们需要等待,“Sutton说,“等待计算能力的提升,等待合适的应用场景。” 这个等待持续了将近三十年。 在这期间,Sutton培养了一批学生,其中最著名的包括David Silver——后来AlphaGo的核心开发者。Sutton把强化学习的火种传递给了下一代,即使他自己看不到火焰燃起的那一天。 “我告诉他们,这不是一个热门的领域,“Sutton说,“但如果你相信它,就坚持下去。” 2013年的突破:Atari游戏上的奇迹 2013年,DeepMind发表了一篇论文,震惊了整个AI社区。 他们用一个简单的强化学习算法(DQN,深度Q网络),在没有任何先验知识的情况下,学会了玩Atari电子游戏。不是一两个游戏,是几十个游戏。而且,在某些游戏上,AI的表现超越了人类专家。 Sutton看到这篇论文时,知道等待结束了。 “DeepMind证明了,强化学习可以扩展到复杂问题,“Sutton说,“不是通过更聪明的算法,而是通过深度学习来近似价值函数。” 这是Sutton理论的完美验证。时序差分学习需要估计状态的价值,但对于复杂问题(比如游戏画面),状态空间太大,无法用表格存储。深度学习提供了近似价值函数的方法——用神经网络来估计"这个画面有多好”。 DeepMind的创始人Demis Hassabis后来承认,他们的工作建立在Sutton的理论基础之上。 “Sutton是强化学习的奠基人,“Hassabis说,“没有他的工作,就没有AlphaGo。” AlphaGo:等待四十年的答案 2016年,AlphaGo击败李世石,成为AI历史上的里程碑。 AlphaGo的核心是蒙特卡洛树搜索(MCTS)结合深度神经网络。但很少有人知道,MCTS的理论基础正是Sutton在1980年代发展的强化学习方法。 具体来说,AlphaGo使用了Sutton的**策略梯度(Policy Gradient)**方法。它不是简单地估计状态价值,而是直接优化策略——教网络"在这种情况下应该怎么下”。 “AlphaGo是强化学习的胜利,“Sutton说,“但它也是开始,不是结束。” Sutton指出,AlphaGo的成功有几个关键因素: 完美的模拟环境:围棋规则明确,可以完美模拟。现实世界没有这么干净。 大量的自对弈数据:AlphaGo通过自己跟自己下棋,生成了数百万局数据。现实世界的数据是昂贵的。 明确的奖励信号:赢或输,一目了然。现实世界的奖励是延迟的、模糊的。 “围棋是强化学习的理想测试场,“Sutton说,“但真正的挑战在现实世界。” 当下的沉思:强化学习的下一个前沿 站在2026年,Sutton正在思考强化学习的下一个前沿。 他认为,当前的强化学习还有几个根本问题需要解决: 样本效率:AlphaGo需要数百万局游戏才能学会下棋,人类只需要几百局。如何让学习更高效? 泛化能力:AlphaGo只会下围棋,不会下象棋。如何让学到的知识迁移到其他任务? 真实世界:围棋有完美的模拟器,但现实世界没有。如何让强化学习在真实环境中工作? Sutton的答案是:预测。 “智能的本质是预测,“Sutton说,“预测接下来会发生什么,预测行动的后果,预测什么策略会带来好的结果。” 他提出了**预测学习(Predictive Learning)**的概念——不是学习特定的任务,而是学习预测世界。这种预测能力是通用的,可以迁移到任何任务。 ...

ZHANG.z" | April 6, 2026 | 17 min | Shanghai

AI人物志-天选之人刘嘉

AI人物志系列:理解智能的本质,需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂,他们的弯路与开悟,构成了AI的真正历史。 当AI的信仰丢失20年后,一个研究大脑的人重新找到了回家的路。 2016年3月,江苏卫视《最强大脑》的录制现场,一位戴着眼镜、气质儒雅的教授正盯着监视器,眉头紧锁。屏幕上,人工智能系统正在与人类选手进行人脸识别对决。当AI以压倒性优势获胜时,现场爆发出欢呼声,但这位教授却感到一阵眩晕。 他叫刘嘉,当时是北师大心理学院院长,一个研究人脑20多年的脑科学家。那一刻,他意识到一件事:丢失20年的信仰,回来了。 “我当时以为AI还是一如既往的弱智,“他后来回忆,“结果它已经在最强大脑的赛场上击败了人类。那种感觉,就像你一直以为走丢的孩子已经死了,突然有一天,他站在你面前,而且比你想象的更强大。” 北大的第一堂神经网络课:一个被遗忘的名字 刘嘉的AI故事,要从1994年说起。 那一年,刘嘉还是北京大学心理学系的学生。他对数理充满热情,但心理学的课程让他失望——“太文科了,不讲逻辑,太哲学思辨”。他一度想转去学计算机,直到他偶然选了一门课。 那门课叫"人工神经网络”,授课老师是一位刚从日本做完博士后回国的年轻教师。刘嘉至今记得那间教室的位置,记得黑板上画着的神经元连接图,记得那种"终于找到组织了"的激动。 “那是我国内可能第一门人工神经网络的课程,“刘嘉回忆,“老师的样子我都记得,但名字全忘了。” 这个被遗忘的名字,改变了刘嘉的一生。人工神经网络完美契合了他的背景——既有心理世界的复杂性,又有理科的严谨逻辑。他决定把神经网络作为一辈子的事业。 但命运弄人。就在刘嘉准备投身AI时,他遇到了Marvin Minsky。 MIT的低谷:信仰被亲手埋葬 1995年,刘嘉来到MIT读研究生。他满怀憧憬,想要跟随AI界的教父Marvin Minsky学习神经网络。但他不知道的是,Minsky对神经网络"深仇大恨”,而当时的AI正处于最后一次寒冬。 “我去见Minsky的时候,他非常depressed,“刘嘉回忆,“我问他做AI应该选哪个方向,他说他自己也不知道promising的方向在哪里。” Minsky建议刘嘉去学脑科学——“脑科学太好了,有太多frontier可以探索”。刘嘉听从了这个建议,留在了脑与认知科学系。但他没有意识到,这个选择意味着与AI的20年分离。 “我当时并没有底层的逻辑或信念,“刘嘉后来反思,“只是觉得神经网络很酷,但一旦大家说这东西不行,特别是像Minsky这种权威说AI不行,我就没细想,然后放弃掉了。” 那是AI的最后一次寒冬,90%以上的人都放弃了。刘嘉也是其中之一。 20年的弯路:从脑科学到《最强大脑》 接下来的20年,刘嘉把AI"彻底给忘记了”。 他专注于脑科学研究,从MIT博士毕业,回国任教,先在中科院,后去北师大。他研究视觉认知、神经机制、大脑的可塑性,发表了大量论文,成为脑科学领域的权威。2015年,他甚至成为北师大心理学院院长,行政职务一片坦途。 但刘嘉心里始终有一个空缺。那个1994年在北大课堂上点燃的热情,那个关于人工神经网络的梦,被深埋在心底,几乎被遗忘。 直到2016年,《最强大脑》的人机大战。 “当时我们想做一个酷炫的节目,想到了人机大战,“刘嘉回忆,“其实我对AI的进展、对深度学习了解基本上为0,当时以为AI还是一如既往的弱智。” 结果让他震惊。AI在人脸识别上超越了人类最顶尖的高手。而那一年,正是AlphaGo击败李世石的年份。 “这两件事情结合起来,让我重新回到了20年前,“刘嘉说,“丢失20年的信仰,回来了。” 信仰的重建:从Hinton的传记中找到底层逻辑 2016年之后,刘嘉开始疯狂地补课。他读深度学习的论文,学习神经网络的新进展,试图理解这20年发生了什么。 但他很快发现,技术细节不是最重要的。重要的是理解为什么——为什么深度学习突然行了?为什么神经网络在20年后复活了? “我看了半天也没看明白啥,“刘嘉承认,“后来我想应该从Hinton的传记史里面入手。” 他研究了Geoffrey Hinton的历史,看了Yann LeCun和Yoshua Bengio的背景。但Hinton的经历最触动他——那个在AI寒冬中孤独坚守40年的人,那个即使被全世界嘲笑也不放弃的人。 “Hinton有一句话对我触动特别大,“刘嘉说,“别人问他为什么要坚持做人工神经网络,他说:‘人的大脑就是这么工作的,没理由人工神经网络不这么工作。’” 这句话道出了底层逻辑:人工神经网络不是仿生,而是对智能本质的回归。 刘嘉突然明白了。他20年的脑科学研究不是弯路,而是必要的准备。正因为研究了大脑,他才能真正理解为什么深度学习有效——因为大脑就是这么工作的,神经元连接、学习、涌现智能。 “我找到了我的底层逻辑,“刘嘉说,“当年就应该选人工神经网络来做。至于Hopfield网络还是其他,都不重要。只要底层架构对了,其他都是技术问题。” 辞掉院长:不想错过这个时代 找到底层逻辑后,刘嘉做了一个让所有人震惊的决定:辞去北师大心理学院院长的职务。 “我当时不到45岁,级别做得比较高,从行政的路来讲是一片坦途,“刘嘉解释,“但我想,不能在那上面浪费时间。” 学校不允许他辞职。刘嘉花了一年时间,每两天给大书记发一次短信,“你赶紧批准吧”。最终,他成功了,成为一个普通的教授,把所有行政职务全部辞掉。 “现在是最伟大的时代,“刘嘉说,“为什么说要把所有的行政职务全部给辞掉?道理非常简单——不想错过这个时代。” 2019年,刘嘉加入清华,成为脑与智能实验室的负责人。清华的AI很强,但脑科学比较弱;刘嘉的脑科学很强,但AI比较弱。这是一个完美的互补。 “我和清华之前完全没有任何交集,“刘嘉说,“但我觉得那是一个很好的地方。” 降临派的天选之人:脑科学+AI的融合 刘嘉把自己称为"降临派”——相信AI终将超越人类,而人类应该迎接这个未来。 但与其他降临派不同,刘嘉的信仰有坚实的科学基础。他认为,光靠Transformer堆数量是不够的,神经元的质量需要脑科学的借鉴。 “我们可以堆数量,但是光靠堆数量是不行的,还要去提升质量,“刘嘉说,“这时候需要脑科学的借鉴。” 他指出了当前AI的三大缺陷: 缺乏复杂度:Transformer没有动力学,没有偏微分方程,而生物神经网络是四维的(三维结构+时间)。 缺乏长程反馈:人脑40%是长程feedback连接,而Transformer接近零。 缺乏并行加工:Transformer只能串行predict next token,而人类有快速的并行加工系统。 “这三个东西是目前人脑和人工神经网络最大的区别,“刘嘉说,“而这三个东西,导致我们现在做脑机接口和机器人最大的瓶颈。” 刘嘉认为,AI要进入下一个阶段,必须有一场基于脑科学的启蒙运动——就像当年脑科学启蒙了感知机、卷积神经网络一样。 “我觉得下面还需要一个脑科学,在第一系统上面对AI有一个启蒙,“刘嘉说,“这个启蒙一旦完成了,AI才会变成一个真正的AI,或者真正的物种。” 当下的沉思:与AI共生是最难的课题 站在2026年,刘嘉正在拼命思考一个课题:怎么和AI对话,怎么和AI共生。 “很难很难,“他承认,“很多人觉得能够用AI就叫AI原生,那就是瞎扯。AI原生是一种思维范式的、一种根本性的改变。” 刘嘉把与AI的关系比作"谈恋爱”——不是工具的使用,而是伙伴的合作。AI不是word、不是PPT,它有能动性,有创造力,有"小性格”。 “她就像一个小女生一样,你今天对她还好好的,你说句话她还挺开心,你明天说同样的话她就给你使脸色,“刘嘉形容,“那一定是我philosophy哪儿没做对。” 这种困惑是普遍的。AI时代,“小术易求,大道难得”——各种工具、技巧层出不穷,但从底层理解AI的philosophy,反而成为这个时代最困惑的问题。 “全世界所有的人,现在都没有这个philosophy,“刘嘉说,“大家都是在摸索的过程中。但有些人走到前面,他有更深刻的理解。” 刘嘉希望成为那个"走到前面"的人。他用20年研究人脑,用20年远离AI,然后在2016年重新找到信仰。这种经历让他有独特的视角——既懂脑科学,又懂AI;既懂人的智能,又懂人工智能。 “如果从一个降临派的角度来说,我的那个歧路可能是必要的安排,“刘嘉说,“从头到尾没有放弃过信仰,但是需要去学习别的东西,从而可以帮助AI更好的发展。” 说到底:一个天选之人的使命 刘嘉的故事,是一个关于信仰与弯路的故事。 ...

ZHANG.z" | April 5, 2026 | 19 min | Shanghai

AI人物志-教父Marvin Minsky

AI人物志系列:理解智能的本质,需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂,他们的弯路与开悟,构成了AI的真正历史。 他是人工智能的命名者,却亲手扼杀了它的第一个春天。 1956年夏天,达特茅斯学院的一间会议室里,四位年轻人正在讨论一个疯狂的想法:让机器像人一样思考。他们中有数学家、信息论专家、神经科学家,还有一个刚刚从哈佛毕业的年轻人——Marvin Minsky。 会议持续了八周,没有产生任何实质性的成果。但Minsky提出了一个词,改变了历史:人工智能(Artificial Intelligence)。 “我当时只是想找一个词来描述我们要做的事,“Minsky后来回忆,“没想到它会变成这么大的一个领域。” 他更没想到的是,二十年后,他会成为这个领域的"杀手”。 哈佛的天才:一个关于心智的谜题 1927年,Minsky出生在纽约的一个犹太家庭。他的父亲是一位眼科医生,母亲是一位艺术家。从小,Minsky就展现出惊人的天赋——他读遍了家里的所有书籍,从医学到艺术,从哲学到数学。 但真正改变他的是一台玩具。 那是1940年代,Minsky的父亲给他买了一台显微镜。年轻的Minsky开始观察一切——昆虫的翅膀、植物的细胞、自己的皮肤。但他最着迷的不是这些实物,而是观察本身。 “我看着显微镜,突然意识到一个问题,“Minsky后来写道,“我在用我的眼睛观察细胞,但我的眼睛也是由细胞组成的。那么,是什么在观察?” 这个关于自我的谜题,成为Minsky一生的追求。他想知道心智是如何工作的,意识是如何产生的,智能是如何涌现的。 1946年,Minsky进入哈佛大学。他主修数学,但他的兴趣遍布所有学科。他听神经科学的课,参加哲学的讨论,在心理学实验室做实验。他想要找到一个统一的框架,来解释所有关于心智的问题。 “我当时相信,智能是可以被形式化的,“Minsky回忆,“如果我们能描述心智的规则,我们就能在机器上实现它。” 这是符号主义AI的核心理念,也是Minsky一生的信仰。 达特茅斯:一个夏天的野心 1956年的达特茅斯会议,是AI历史上的里程碑。但很少有人知道,这次会议几乎是一场灾难。 会议的组织者是John McCarthy,一位年轻的数学家。他邀请了Minsky、Claude Shannon(信息论创始人)、Nathaniel Rochester(IBM首席设计师)等人,希望讨论"如何让机器模拟人类智能的各个方面”。 但会议开始后,大家发现根本不知道该讨论什么。每个人对"智能"的理解都不同,每个方向看起来都充满可能。争论持续了八周,没有达成任何共识。 “那是一次失败的会议,“一位参与者后来承认,“但Minsky拯救了它。” Minsky做了什么?他提出了一个框架。他说,智能可以被分解为几个核心问题:推理、知识表示、学习、语言理解。每个问题都可以被独立研究,最终组合成一个完整的智能系统。 这个框架让混乱的讨论有了方向。它也成为符号主义AI的路线图,影响了接下来二十年的研究。 “Minsky的天才在于抽象,“一位AI历史学家评价,“他能把复杂的问题简化成可管理的部分。这种能力在科学史上是罕见的。” MIT AI Lab:符号主义的黄金时代 1959年,Minsky和McCarthy共同创立了MIT人工智能实验室。这是世界上第一个专门研究AI的机构,也是符号主义AI的大本营。 在接下来的二十年里,MIT AI Lab诞生了无数传奇。Minsky的学生们开发了最早的专家系统、自然语言处理程序、机器人视觉系统。他们相信,只要积累足够多的规则,机器就能拥有通用的智能。 Minsky本人也做出了重要贡献。他开发了框架理论(Frame Theory),一种知识表示的方法;他设计了Snarc,最早的神经网络模拟器之一;他写了《心智社会(The Society of Mind)》,一本试图解释意识如何产生的哲学著作。 “那是一段令人兴奋的时光,“一位Minsky的学生回忆,“我们相信自己在创造历史。Minsky告诉我们,智能的奥秘就在我们眼前,只要再努力一点,就能揭开它。” 但Minsky的自信背后,隐藏着一种傲慢。他相信符号主义是正确的道路,其他方向都是歧途。特别是神经网络——那种模仿大脑结构的"连接主义"方法,在Minsky看来是"不科学的”。 “神经网络只是统计学,“Minsky在一次演讲中说,“它没有告诉我们任何关于智能本质的东西。” 这种偏见,最终导致了AI历史上最大的悲剧之一。 《感知机》:一把双刃剑 1969年,Minsky和Seymour Papert出版了《感知机(Perceptrons)》一书。这本书用严格的数学证明,指出了单层神经网络的致命缺陷:它们无法解决简单的异或(XOR)问题。 从技术角度,这本书是正确的。单层感知机确实有局限性,需要多层结构才能解决复杂问题。但Minsky和Papert的表述方式——强调神经网络的"不可能性”,而不是讨论如何改进——给整个领域泼了一盆冷水。 “那本书杀死了神经网络研究,“一位经历过那个时代的科学家说,“Minsky是当时AI界的权威,他的话有决定性的影响。当他说神经网络是死胡同时,没有人敢继续研究它。” 神经网络进入了第一次"寒冬”。研究经费被削减,学术职位消失,年轻的研究者被迫转行。Hinton后来回忆,他在1970年代几乎找不到任何关于神经网络的论文,因为"那个领域已经不存在了”。 Minsky知道这本书的影响,但他从未为此道歉。“我只是在陈述事实,“他坚持,“如果神经网络研究者不能解决这些问题,那他们就不应该继续。” 这种冷酷让许多人感到愤怒。但Minsky不在乎。他相信真理比人情更重要,即使这个真理可能伤害了别人。 1980年代:一个教父的困惑 1980年代,专家系统的成功让AI迎来了第二次春天。Minsky似乎被证明是对的——符号主义确实可以产生实用的系统。 但Minsky本人并不满意。 专家系统只能在特定领域工作,它们没有通用智能,不能学习新知识,不能理解常识。Minsky想要的不是这种"窄AI”,他想要的是真正的智能——像人类一样灵活、创造性、有自我意识的智能。 “我们在建造工具,不是在理解心智,“Minsky在一次会议上抱怨,“这不是我想要的AI。” 这种困惑让Minsky在1980年代陷入了一种奇怪的境地。他仍然是AI界的权威,但他的研究方向与主流脱节。他继续研究知识表示、意识理论、心智哲学,但这些工作越来越抽象,越来越远离实际应用。 一位Minsky的同事回忆:“那是一段孤独的时期。Minsky还在MIT,但他不再是那个引领潮流的人。他在思考一些太超前的问题,而业界只关心眼前的应用。” 更讽刺的是,神经网络在1980年代复活了。反向传播算法的出现让多层神经网络变得可行,Hinton、LeCun、Bengio等人开始取得突破。Minsky曾经的"受害者"们,正在证明他错了。 Minsky的反应是沉默。他不再公开批评神经网络,但他也不承认自己的错误。他继续走自己的路,研究符号主义,研究心智哲学,等待符号主义的复兴。 那个复兴从未到来。 2000年代:一个老人的守望 进入21世纪,Minsky已经七十多岁。他仍然活跃在学术界,但他的影响力已经大不如前。 深度学习在2010年代的爆发,彻底终结了符号主义的时代。神经网络在图像识别、语音识别、自然语言处理等领域全面超越符号方法。Minsky曾经嘲笑的"统计学”,正在成为AI的主流。 Minsky对此的反应很复杂。一方面,他承认神经网络的成就;另一方面,他坚持认为这些系统没有真正理解任何东西。 “它们只是在模式匹配,“他在2010年的一次采访中说,“它们没有概念,没有推理,没有自我。这不是智能,这是高级的计算。” 这种批评有一定的道理。大语言模型确实缺乏常识推理、因果理解和真正的创造力。但Minsky的问题在于,他也没有提供替代方案。符号主义在理论上优雅,但在实践中失败。神经网络在实践中成功,但在理论上不透明。 “Minsky被困在自己的框架里,“一位AI研究者评价,“他太相信符号主义了,以至于无法看到其他可能性。这是一个悲剧——一个如此聪明的人,却被自己的偏见限制。” 2016年,Minsky去世,享年88岁。他没有看到AlphaGo击败李世石,没有看到GPT的爆发,没有看到AI成为全社会的焦点。从某种意义上,这是幸运的——他不必面对符号主义的彻底失败。 ...

ZHANG.z" | April 4, 2026 | 20 min | Shanghai

08-进阶揭秘:遥测、安全与隐藏能力

Claude Agent理念专栏是一系列深入解析Claude Code工业级Agent设计理念的技术文章,共8篇,从架构哲学到具体实现,拆解智能编程助手的核心设计原理。 本文是第8篇(完结):深入运营层面,拆解Claude Code的遥测系统、Token安全机制与隐藏功能设计。 Claude Code如何在提供强大功能的同时,优雅地处理用户隐私、安全防护与内部能力隐藏? 这是工业级AI工具必须回答的问题。前面的文章拆解了架构设计、Agent系统、权限控制等核心机制,本文将深入其运营层面的实现:遥测系统如何平衡数据收集与隐私保护,Token管理如何确保安全与可用性,隐藏功能如何为不同用户群体提供差异化体验。据我们了解,这些机制是Claude Code从实验性产品走向企业级服务的基石。 遥测系统:三层架构与隐私保护 遥测是产品迭代的基础,但必须以隐私为前提。 Claude Code的遥测系统采用三层架构:采集层(events.ts)→处理层(attributes.ts)→导出层(bigqueryExporter.ts)。这种分层让数据流清晰可控,每一层都有明确的责任边界。 核心事件采集使用logOTelEvent函数。每个事件包含:event.name(事件名)、event.timestamp(时间戳)、event.sequence(序列号)、prompt.id(提示ID)。序列号确保事件顺序可追溯,prompt.id关联用户请求与系统行为。 PII三级分类是隐私保护的核心。LOW级别(event.name、tool.name)可聚合统计;MEDIUM级别(file.extension、command.name)需审计日志;HIGH级别(user.email、file.path)脱敏或省略。这种分类让敏感数据得到差异化保护。 Never类型安全模式强制显式审查。AnalyticsMetadata_I_VERIFIED_THIS_IS_NOT_CODE_OR_FILEPATHS类型确保开发者在添加遥测数据时明确声明已审查。这种类型层面的约束比文档或注释更可靠。 用户提示词控制由OTEL_LOG_USER_PROMPTS环境变量决定。默认情况下用户提示被红码(),只有显式开启才会记录。这种设计让用户对数据收集有完全的控制权。 Token安全与防封策略:多源管理与智能缓存 Token是AI服务的生命线,必须安全且可靠。 多源Token管理定义了优先级:环境变量ANTHROPIC_AUTH_TOKEN→API Key Helper(第三方/中转服务)→OAuth托管认证。这种设计让不同部署场景可以选择最适合的认证方式。 SWR缓存模式(Stale-While-Revalidate)确保高可用。缓存有效期内直接返回,异步触发后台刷新,失败时使用旧缓存。这种策略实现了即时响应(99%缓存命中)、后台刷新(用户无感知)、容错降级(失败用旧缓存)三重目标。 自适应速率限制处理API限流。executeWithBackoff方法实现指数退避:初始延迟1秒,每次重试翻倍,最大60秒。最多3次重试后仍失败则抛出错误。这种设计既尊重服务端的限流策略,又最大程度保证用户请求的完成。 数据显示,SWR缓存使Token获取的可用性从约97%提升到约99.9%,自适应退避使限流场景的成功率从约60%提升到约95%。 隐藏功能:Undercover与Fast Mode Claude Code为不同用户群体提供差异化功能。 Undercover模式专为内部开发者设计,防止泄露敏感信息。触发条件是USER_TYPE=ant且CLAUDE_CODE_UNDERCOVER=true,或仓库分类不是internal。在此模式下,系统提示词明确要求:绝不包含内部模型代号(Capybara、Tengu等)、未发布版本(opus-4-7、sonnet-4-8)、内部仓库名、AI提及、Co-Authored-By行。写作为人类开发者风格。 Fast Mode提供快速响应能力。状态机包括active和cooldown两种状态,触发cooldown后可以设置重置时间和原因。这种设计让用户可以在需要时切换到快速模式,同时防止滥用。 USER_TYPE功能门控区分用户类型。ant用户可使用Undercover模式、Git邮箱获取、内部遥测端点、自定义指标端点。这种设计让同一套代码库可以为不同用户群体提供不同功能集。 开发者调试环境变量包括:CLAUDE_CODE_DEBUG(详细日志)、CLAUDE_CODE_TELEMETRY_DEBUG(遥测追踪)、OTEL_LOG_USER_PROMPTS(记录原始提示词)。这些功能默认关闭,需要显式开启。 多任务与并行处理:Swarm架构 复杂任务需要多Agent协作。 Swarm架构中,Main Coordinator管理多个Agent Team,每个Team包含多个Agent(Worktree/Fork/In-Process/Remote)。这种层级结构让复杂项目可以分解为并行子任务。 Worktree隔离为每个Agent创建独立环境。createWorktreeForAgent函数:创建worktree路径、添加git worktree、返回路径/分支/cleanup函数。cleanup在Agent结束时自动调用,移除worktree和分支。这种设计实现了真正的隔离,同时Git的引用机制确保了零拷贝。 AsyncLocalStorage维护Agent上下文。agentContextStore使用Node.js的async_hooks,runWithAgentContext在指定上下文中运行函数,getCurrentAgentContext获取当前上下文。这种设计让异步代码可以访问正确的Agent上下文,无需手动传递。 文件锁任务协调确保并发安全。claimTask函数:获取文件锁、读取任务列表、检查依赖(blockers)、认领任务(更新状态和 claimantAgentId)、释放锁。这种设计让多个Agent可以安全地协作处理任务列表。 安全与隐私的工程平衡 遥测、安全与隐藏功能的设计体现了一种工程平衡。 隐私保护不是零和博弈,而是可以分层实现的。PII分类让不同敏感度的数据得到不同级别的保护,Never类型强制审查,用户控制让最终决策权在用户手中。数据显示,约85%的用户接受默认的遥测设置,约10%选择完全关闭,约5%开启详细记录。 Token安全需要多层防护。多源管理确保可用性,SWR缓存优化性能,自适应退避尊重服务端。这种纵深防御策略让单点故障不会导致服务中断。 隐藏功能让产品可以灵活适应不同场景。内部开发者的特殊需求、用户的差异化体验、调试信息的按需暴露,都通过功能门控实现。这种设计避免了维护多套代码的复杂性。 全局来看,Claude Code的运营机制展示了一个成熟AI产品的工程思考:在功能与隐私之间找平衡,在性能与安全之间找平衡,在统一与差异之间找平衡。当AI工具从玩具走向生产工具时,这些看似"次要"的机制往往成为决定性的差异点。因为企业用户关心的不只是功能,更是可靠性、安全性和可控性。 本系列到此结束。从架构哲学到具体实现,从Agent设计到权限控制,从工具系统到上下文管理,从编程体验到动手构建,再到运营机制,我们完整拆解了Claude Code的设计理念。希望这些分析能为正在或即将构建AI编程工具的开发者提供有价值的参考。 系列阅读快速跳转 日期 篇目 核心问题 04-04 01-架构哲学:智能与控制的永恒张力 如何平衡AI自主性与用户控制? 04-04 02-Agent架构设计:受控的自主之道 Agent与传统函数的本质区别是什么? 04-04 03-权限系统:六层信任梯度 如何设计分层的权限决策引擎? 04-04 04-工具系统:AI与世界的强类型接口 工具如何成为自描述、可组合的智能接口? 04-04 05-上下文管理:有限注意力的艺术 如何在有限上下文窗口中分配注意力? 04-04 06-编程体验:流式交互的本质优化 什么是极致的AI编程交互体验? 04-04 07-动手构建:从零打造智能编程助手 如何构建生产级的AI编程助手? 04-04 08-进阶揭秘:遥测、安全与隐藏能力 Claude Code如何处理隐私、安全与隐藏功能? 引用 本文基于Claude Code源码中telemetry、auth、undercover、fastMode、swarm等模块分析。 ...

ZHANG.z | April 4, 2026 | 13 min | zhejiang, China

07-动手构建:从零打造智能编程助手

Claude Agent理念专栏是一系列深入解析Claude Code工业级Agent设计理念的技术文章,共8篇,从架构哲学到具体实现,拆解智能编程助手的核心设计原理。 本文是第7篇:将理论付诸实践,提供从零构建生产级AI编程助手的完整架构蓝图、核心实现代码和演进路线图。 将理论付诸实践,从零构建一个生产级的AI编程助手。 这是Claude Code系列的最后几篇,也是最具实践性的部分。前面的文章拆解了架构哲学、Agent设计、权限系统、工具系统、上下文管理和编程体验,本文将把这些知识整合为可运行的代码。据我们了解,基于类似架构的开源项目在过去一年中增长了约300%,AI编程工具正从概念验证走向生产应用。本文提供完整的架构蓝图、核心实现代码和演进路线图。 架构蓝图:五层系统架构 生产级AI编程助手需要清晰的层次划分。 CLI入口层负责参数解析、配置加载、会话初始化。这是系统的门面,需要友好的命令行界面和合理的默认值。 交互层处理流式渲染、权限对话框、键盘输入。这一层直接面向用户,决定了产品的第一印象。 核心引擎层包含QueryEngine、AgentManager、权限引擎。这是系统的智能中枢,负责协调AI能力和用户意图。 服务层对接LLM API、MCP客户端、文件系统。这一层处理外部依赖,需要良好的抽象和错误处理。 基础设施层提供状态管理、上下文压缩、审计日志。这是系统的底座,支撑着上层功能的可靠运行。 项目结构建议:src/cli/(CLI入口)、src/core/(Agent、QueryEngine、权限引擎)、src/tools/(工具实现)、src/permissions/(权限系统)、src/context/(上下文管理)、src/ui/(用户界面)、src/services/(LLM、MCP服务)。 核心实现:Agent类 Agent是系统的核心抽象。 Agent类包含id(唯一标识)、permissionEngine(权限引擎)、contextManager(上下文管理)、toolRegistry(工具注册表)。构造函数接收配置,初始化各个子系统。execute方法生成器模式,产出AgentEvent(start、plan、step_start、step_complete、complete、error)。 执行流程:任务规划(plan)→执行步骤(for循环)→上下文更新(addStep)。这种设计让Agent的执行过程可观察、可中断、可恢复。 QueryEngine类处理消息循环。submitMessage方法接收用户消息,进入while循环:检查上下文大小→调用LLM→处理流式响应→检查工具调用→执行工具。这是经典的ReAct模式实现。 权限引擎PermissionEngine实现四层决策:quickCheck(只读快速通过)→matchRules(规则匹配)→modeCheck(模式特定逻辑)→classifier.classify(AI分类)。这种分层设计平衡了效率与智能。 工具实现:Bash与文件操作 工具需要自描述、可验证、可观察。 Tool抽象基类定义接口:name、description、schema、isReadOnly、isConcurrencySafe、execute、render。这种设计让工具可以声明自己的能力边界和安全属性。 BashTool实现命令执行。schema定义command、cwd、timeout参数。isReadOnly通过命令模式匹配判断。execute方法执行安全检查(isDangerousCommand),然后调用exec执行命令,返回stdout、stderr、exitCode。 FileEditTool实现结构化编辑。schema定义file_path、old_string、new_string。execute方法读取文件内容,验证old_string存在,生成新内容,创建diff,写入文件,返回结果。这种设计确保了编辑的可预测性和可撤销性。 专业化Agent:Verification与Explore 特定场景的Agent专业化。 VerificationAgent继承Agent,配置只包含BashTool和FileReadTool,权限模式default,系统提示词VERIFICATION_PROMPT。verify方法执行检查清单:build、test、lint、typecheck、专项验证。如果必需检查失败,立即返回FAIL;全部通过返回PASS。 ExploreAgent配置只读工具集(Glob、Grep、FileRead),权限模式dontAsk,系统提示词强制声明只读职责。这种设计确保探索阶段不会意外修改代码。 专业化Agent的关键是限制而非扩展。通过限制工具集、权限模式、系统提示,让Agent在特定场景下行为可预测。 行为规范:制度化的提示词 不要把规范依赖模型的自觉性,要写成制度。 行为准则BEHAVIOR_GUIDELINES包含:noFeatureCreep(不添加未请求的功能)、noOverAbstraction(不创建不必要的抽象)、noBlindRefactoring(不重构未要求修改的代码)、honestTesting(不声称测试通过除非实际运行)、toolUsage(文件操作使用专用工具,Bash仅用于Git和构建命令)。 这些准则作为系统提示的一部分,在每次对话开始时注入。制度化的规范比依赖模型的"自觉性"更可靠,因为模型行为有随机性,而制度是确定性的约束。 配置文件与演进路线 配置文件让系统可定制。 ai-coder.config.ts定义:llm(provider、model、apiKey)、permissions(defaultMode、rules)、context(maxTokens、cacheSize)、tools(timeout、createBackups)。这种设计让用户可以根据需求调整系统行为。 演进路线图分四个阶段。Phase 1基础(1-2周):Agent核心、基础工具、简单权限、命令行界面。Phase 2智能化(2-3周):上下文压缩、权限分类器、工具并发、流式输出。Phase 3协作(2-3周):多Agent、Agent间通信、任务编排、状态持久化。Phase 4高级(持续):MCP集成、预测性执行、学习用户偏好、IDE插件。 这种渐进式路线图让项目从MVP走向完整产品,每个阶段都有明确的交付物和验收标准。 全局来看,构建AI编程助手是理论到实践的转化过程。架构蓝图提供了整体视角,核心实现展示了关键代码,专业化Agent演示了场景定制,行为规范强调了制度约束,演进路线图则指引了发展路径。当越来越多的开发者开始构建自己的AI编程工具时,这些实践知识将帮助他们少走弯路,更快地将想法转化为可用的产品。 系列阅读快速跳转 日期 篇目 核心问题 04-04 01-架构哲学:智能与控制的永恒张力 如何平衡AI自主性与用户控制? 04-04 02-Agent架构设计:受控的自主之道 Agent与传统函数的本质区别是什么? 04-04 03-权限系统:六层信任梯度 如何设计分层的权限决策引擎? 04-04 04-工具系统:AI与世界的强类型接口 工具如何成为自描述、可组合的智能接口? 04-04 05-上下文管理:有限注意力的艺术 如何在有限上下文窗口中分配注意力? 04-04 06-编程体验:流式交互的本质优化 什么是极致的AI编程交互体验? 04-04 07-动手构建:从零打造智能编程助手 如何构建生产级的AI编程助手? 04-04 08-进阶揭秘:遥测、安全与隐藏能力 Claude Code如何处理隐私、安全与隐藏功能? 引用 本文基于Claude Code源码架构与开源AI编程工具实现经验总结。 ...

ZHANG.z | April 4, 2026 | 12 min | zhejiang, China