👋 Hi, I’m ZHANG.z

Hi, this is ZHANG. I'm a developer, AI builder, and quant investor writing about where engineering meets economics. This blog documents my learning journey, paper readings, and building in public—you can tell how much I love technical deep-dives from the math formulas scattered everywhere 😉. For more details, check the FAQ.

Harness:AI编程的中间站还是终点站?

核心思考:当我们为AI构建Harness时,究竟是在弥补模型能力的不足,还是在定义智能系统的终极架构?2026年4月的技术讨论已经超越了工具层面,指向了更根本的问题:人类与AI的协作边界究竟在哪里? 从Prompt到Harness:智能的进化路径 2026年4月,AI编程的讨论重心已经从"如何写好提示词"转向了"如何构建智能系统"。这不是简单的术语替换,而是认知范式的跃迁。 当Garry Tan在Y Combinator的分享中提出"瘦外壳+胖技能"架构时,他触及了一个被忽视的真相:AI的能力边界不是由模型参数决定的,而是由我们如何组织和引导这些能力决定的。 为什么Harness成为必然? 这不是因为AI能力不足,恰恰相反,是因为AI能力太强——强到我们无法用简单的指令驾驭。当模型能够处理复杂推理、生成代码、分析数据时,我们需要的不再是更聪明的模型,而是更智能的"操作系统"。 Harness的出现,本质上是在回答一个核心问题:如何将AI的通用智能转化为领域专精的生产力? 智能的分层:从能力到架构 2026年的技术实践已经证明,最有效的AI系统不是单一的大模型,而是由三层构成的智能体: 1. 厚技能层:人类判断的编码 Skill文件不是简单的提示词集合,而是人类领域知识的结构化表达。当我们将"如何分析用户反馈"编码为Markdown文档时,我们实际上是在创建一个可复用的认知框架。 这种方法的革命性在于:它将人类的隐性知识转化为AI可执行的显性流程。一个好的Skill文件不是告诉AI"做什么",而是教会它"如何思考"。 2. 薄Harness层:智能的调度中心 理想的Harness应该像一个轻量的操作系统,只负责最核心的功能:上下文管理、工具调用、安全检查。它不是智能的来源,而是智能的组织者。 2026年4月的实践数据显示,一个精简的Harness(约200行代码)配合厚技能,比复杂的框架(数千行代码)能实现75倍的性能提升。这印证了一个古老的工程原则:简洁是智慧的灵魂。 3. 确定性工具层:信任的基石 当我们将精确计算、数据查询、代码执行等任务交给确定性工具时,我们不是在限制AI,而是在为它创造发挥优势的空间。 最成功的AI系统都遵循一个原则:让AI做它擅长的(思考、判断、综合),让工具做它们擅长的(精确、可靠、可重复)。 这是终点还是中间站? 2026年4月的技术讨论中,最具争议的问题是:Harness架构是AI编程的最终形态,还是通往更高级智能的过渡阶段? 进化的可能路径 路径一:Harness作为终极架构 如果我们将智能定义为"能力的组织方式",那么Harness可能就是最终答案。因为无论模型如何进化,我们始终需要一个框架来组织和引导智能。 路径二:Harness的自我进化 更有可能的是,Harness本身会进化。未来的Harness可能会: 自动生成和优化Skill文件 动态调整上下文管理策略 从系统交互中学习最佳实践 路径三:超越Harness的智能体 最激进的观点认为,当模型能力达到一定阈值时,Harness会内化到模型本身。那时,模型将能够: 自我组织上下文 动态创建和执行工具 自主学习和优化流程 为什么现在做这件事? 2026年不是偶然的时间点。我们正处于AI能力爆发与应用落地的临界点: 1. 模型能力的成熟 GPT-5、Claude 3等模型已经具备了处理复杂任务的能力,但如何将这种能力转化为实际生产力,成为了新的挑战。 2. 实践经验的积累 经过2024-2025年的探索,开发者已经意识到:单纯依赖提示词工程无法构建可靠的AI系统。我们需要更系统的方法。 3. 行业需求的倒逼 企业级应用对AI系统的可靠性、可扩展性和可维护性提出了更高要求。Harness架构正是回应这种需求的产物。 未来的创想:智能的新范式 如果我们将Harness视为智能系统的核心架构,那么未来的AI编程将呈现以下特征: 1. 技能的民主化 Skill文件的Markdown格式使得领域专家可以直接参与AI系统的构建,而不需要深厚的编程背景。这将开启一个"人人都是AI工程师"的时代。 2. 系统的自进化 当Skill文件能够从系统交互中学习和优化时,AI系统将进入一个持续进化的状态。每一次使用都成为系统改进的机会。 3. 人类与AI的新协作模式 Harness架构清晰地界定了人类与AI的职责边界:人类负责定义目标和提供领域知识,AI负责执行和优化。这种协作模式将释放出前所未有的生产力。 架构的革命 2026年4月的技术讨论已经超越了工具层面,指向了智能系统的本质。Harness不是对AI能力的弥补,而是对智能组织方式的重新思考。 无论它是终点还是中间站,Harness架构已经为我们打开了一扇通往更高效、更可靠、更智能的AI编程未来的大门。真正的革命不是模型参数的增长,而是我们组织和引导智能的方式。 系统会不断叠加,智能会持续进化。但核心的架构原则将永远存在:让智能归智能,让执行归执行,让框架归框架。

ZHANG.z | April 19, 2026 | 9 min | Hong Kong, China

AI需要更强的模型还是更智能的Harness-技术路线

核心观点:实现10倍、100倍甚至1000倍生产力的秘密不在于AI模型本身,而在于包裹模型的那个"Harness"。这是Garry Tan(Y Combinator总裁)和Steve Yegge(前亚马逊/谷歌工程师)等行业专家的共同洞见。 生产力的巨大差距 新一轮AI编程革命正在带来前所未有的生产力提升。 “使用 AI 编程代理的人比今天使用 Cursor 和聊天的工程师生产效率高 10 倍到 100 倍,并且比 2005 年时的谷歌员工高约 1000 倍。"[1] 这个数字来自Steve Yegge——一位在美国程序员圈里的网红人物,曾在亚马逊工作7年、谷歌任职13年,现任Sourcegraph工程主管,职业生涯跨越从1992年到AI时代的三十多年技术演变。 现任Y Combinator(知名创业加速器)总裁兼首席执行官的Garry Tan在帖子里引用Steve的话时特别强调:这个数字是真的,他自己亲眼见过,也亲身实践过。 但最关键的一点是——实现10倍、100倍甚至1000倍生产力的人,和只提升2倍的人,用的其实是同一个AI模型。 Garry Tan认为:秘密不在于模型,而在于包裹模型的那个东西。 Harness是什么 在2026年3月31日,Anthropic意外地将Claude Code的51.2万行源代码上传到了npm注册中心,证实了Garry Tan一直在YC所教授的一切:秘密不在于模型,而在于包裹模型的那个东西。[2] 实时仓库上下文、提示缓存、专门构建的工具、上下文冗余最小化、结构化会话记忆、并行子代理——这些都不让模型变得更聪明,而是全部为模型提供恰当的上下文,在恰当的时间,不让它被噪音淹没。 Garry Tan把那个包裹器称为"harness”。 而每个AI构建者都应该问的问题是:什么东西应该放在harness里,什么东西应该留在harness外? Garry Tan的回答是**“瘦外壳 + 胖技能”**——harness要"瘦"(轻量简单,只负责最基本的调度和管理);Skills要厚(内容丰富、可反复使用)。 五个核心定义 为解决这个问题,Garry Tan给出了五个定义: 1. Skill文件:教会AI如何思考 Skill文件其实就是一个可重复使用的Markdown文档,它提供的是过程——不是直接告诉AI"做什么",而是教AI"怎么做"。 用户只提供目标和内容,技能文件提供的是完整的思考过程和判断流程。 这里有一个最多人忽略的关键:技能文件就像一个方法调用——它需要参数。当用不同的参数去调用它,同一个技能就能发挥出完全不同的能力。 Garry Tan举了个例子:有一个叫/investigate的技能文件,里面写了固定的七个步骤:界定数据范围 → 构建时间线 → 分析每份文件 → 综合判断 → 正反方论证 → 引用来源。 这个技能只需要三个参数:TARGET(目标)、QUESTION(问题)和DATASET(数据集)。 当你把目标指向一位安全科学家 + 210万封邮件时,它就会变成一位医疗研究分析师,专门判断是否有人举报人进行压制。 当你把目标指向一家空壳公司 + 联邦选举委员会的申报文件时,它又会变成一位法医调查员,专门追踪有组织的竞选捐款路径。 同样的技能文件,同样的七个步骤,同样的Markdown文档。 Garry Tan:“Skill文件描述的是判断过程,而调用时提供的参数才是’世界’。” 这不是提示词工程,而是软件设计——使用Markdown作为编程语言,使用人类判断作为运行时。 ...

ZHANG.z | April 17, 2026 | 21 min | zhejiang, China

AI人物志-人文主义者李飞飞

AI人物志系列:理解智能的本质,需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂,他们的弯路与开悟,构成了AI的真正历史。 她教会了机器看见世界,却担心这个世界正在失去对人的看见。 2015年,硅谷的一个会议室里,一位穿着简单、气质干练的华裔女性正在向一群投资人展示她的新项目。屏幕上不是算法公式,而是一张张照片——一个中国女孩站在新泽西的街头,眼神中带着迷茫和倔强。 “这是16岁的我,“李飞飞说,“不会说英语,家里破产,在餐馆打工洗盘子。” 投资人们交换着困惑的眼神。他们来听AI项目,不是来听移民故事。但李飞飞继续说:“我今天站在这里,不是因为算法,而是因为有人相信了我——我的高中老师、我的邻居、整个社区。AI可以改变世界,但我们必须确保它是在帮助人,而不是取代人。” 这是李飞飞的风格。她是ImageNet的创造者,是计算机视觉领域的领军人物,是斯坦福AI实验室的主任。但她谈论AI时,总是从人开始。 从北京到新泽西:一个关于看见的故事 1976年,李飞飞出生在北京的一个知识分子家庭。她的父亲是工程师,母亲是教师。在那个年代,这样的家庭意味着稳定,但也意味着限制。 1992年,16岁的李飞飞随父母移民美国。他们带着全部积蓄——不到一千美元——来到新泽西州的一个小镇。父亲做相机修理,母亲在超市当收银员,李飞飞在餐馆洗盘子。 “那是我人生中最艰难的时期,“李飞飞后来回忆,“我不会说英语,不懂美国文化,感觉自己像个隐形人。” 但李飞飞没有放弃。她每天只睡四个小时,白天上学,晚上打工,周末去图书馆自学英语。她的高中老师发现了这个特殊的学生——一个洗盘子的小女孩,却对物理和数学有着惊人的天赋。 “我的老师帮我申请奖学金,帮我写推荐信,“李飞飞说,“他们让我相信,我可以做任何事。” 1995年,李飞飞以全额奖学金进入普林斯顿大学,主修物理。但她很快发现,自己对抽象的理论不感兴趣。她想要解决真实的问题——关于人的问题。 “物理告诉我世界如何运作,“李飞飞说,“但我想知道,我们如何理解这个世界。” 这个疑问把她带向了神经科学,然后又带向了计算机视觉。 加州理工的困惑:机器为什么看不见? 2000年代初,李飞飞在加州理工学院读博士,研究计算机视觉。 当时的计算机视觉领域正处于困境。研究者们开发了各种算法来识别图像——边缘检测、特征提取、模式匹配——但这些算法只能在特定场景下工作,换个角度、换个光照,就失效了。 “我们像是在教机器背诵答案,“李飞飞回忆,“而不是教它真正理解图像。” 问题的核心是数据。当时的图像识别算法依赖于人工设计的特征,但这些特征太有限了。人类可以识别猫,不管它是坐着、躺着、在黑暗中还是在阳光下。但机器做不到,因为它没有见过足够多的例子。 “人类通过视觉经验学习,“李飞飞想,“为什么机器不能?” 这个简单的想法,催生了ImageNet。 ImageNet:一场关于数据的革命 2006年,李飞飞在伊利诺伊大学厄巴纳-香槟分校担任助理教授。她决定做一件疯狂的事:构建一个超大规模的图像数据库。 当时的标准数据集只有几千张图片。李飞飞想要的是一百万张、一千万张、甚至更多。她相信,只有足够大的数据,才能让机器学习到真正的视觉理解。 “所有人都说我疯了,“李飞飞回忆,“他们说,标注这么多图片是不可能的,成本太高,时间太长。” 但李飞飞找到了一个创新的方法——众包。她通过互联网平台,把图片标注任务分发给全世界的网民。每张图片由多人标注,通过投票机制确保准确性。 这个项目花了两年时间和数百万美元。2009年,ImageNet终于发布——包含超过1400万张图片,涵盖2万多个类别。 “那是计算机视觉的转折点,“一位参与ImageNet的研究者说,“它证明了数据的力量。不是更好的算法,是更多的数据。” 但ImageNet的真正影响在两年后才真正显现。 2012年的夏天:深度学习的黎明 2012年,Hinton的学生Alex Krizhevsky使用深度卷积神经网络(AlexNet)参加ImageNet竞赛,以压倒性优势获胜。错误率比第二名低了10个百分点——在图像识别领域,这是代差。 深度学习革命开始了。 “ImageNet让深度学习成为可能,“Hinton后来承认,“没有ImageNet,我们无法训练这么大的模型。” 李飞飞成为了这场革命的无名英雄。但她没有沉浸在成功的喜悦中,而是开始思考一个更深层次的问题:这场革命会把我们带向哪里? 斯坦福的反思:AI的伦理困境 2013年,李飞飞加入斯坦福大学,担任AI实验室主任。在这个位置上,她看到了AI发展的另一面。 偏见。ImageNet的数据主要来自西方互联网,导致训练出的模型对非西方文化存在偏见。一个识别"新娘"的模型,主要输出的是西方婚纱;一个识别"家庭"的模型,主要输出的是白人家庭。 隐私。人脸识别技术的进步,让监控变得前所未有的容易。政府和企业可以追踪任何人的行踪,而普通人对此毫无察觉。 就业。自动化正在取代越来越多的工作,从工厂工人到白领职员。AI创造的新工作,需要更高的技能,而失业者往往无法胜任。 “我们创造了强大的技术,“李飞飞说,“但我们没有准备好如何使用它。” 这种担忧让李飞飞开始关注AI的伦理问题。她在斯坦福成立了"以人为本的AI(Human-Centered AI)“研究院,致力于研究AI的社会影响,推动负责任的AI发展。 AI4ALL:让AI属于所有人 2015年,李飞飞联合创办了AI4ALL(原名AI4ALL),一个非营利组织,旨在增加AI领域的多样性。 “AI正在塑造我们的世界,“李飞飞说,“但创造AI的人,不能只是硅谷的白人男性。我们需要女性的声音,需要少数族裔的声音,需要来自不同背景的声音。” AI4ALL为高中生——特别是女性和少数族裔——提供AI教育项目。它不仅仅教授编程和算法,更重要的是培养学生的批判性思维,让他们思考AI的社会影响。 “技术本身是中性的,“李飞飞说,“但技术的使用是有价值取向的。我们需要更多人来参与这个价值的塑造。” 这个项目已经培养了数千名学生,其中许多人后来进入了顶尖大学,成为AI领域的研究者。 当下的沉思:人文主义者的警告 站在2026年,李飞飞对AI的发展既有期待,也有担忧。 她看到了AI在医疗、教育、环保等领域的巨大潜力。AI可以帮助医生诊断疾病,帮助老师个性化教学,帮助科学家预测气候变化。这些都是她梦寐以求的应用。 但她也看到了危险。 AI的集中化。训练大模型需要巨大的计算资源和数据,只有少数几家科技巨头能够做到。这种集中化可能导致权力的垄断,让AI成为少数人的工具。 AI的滥用。深度伪造、自动化武器、大规模监控——这些技术正在威胁个人隐私和社会稳定。 AI的异化。当AI越来越强大,人类可能变得依赖它,失去独立思考和判断的能力。 “我担心我们正在创造一个我们不理解的世界,“李飞飞说,“一个由算法决定一切的世界,而人类只是旁观者。” 她的解决方案是人文主义——把人的价值放在AI发展的中心。 “AI应该是增强人类,而不是取代人类,“李飞飞说,“它应该帮助我们成为更好的自己,而不是让我们变得多余。” 说到底:一个看见者的使命 回顾李飞飞的一生,她的核心使命始终是看见——让机器看见世界,让世界看见被忽视的人。 ImageNet让机器学会了视觉理解,这是技术上的看见。AI4ALL让少数族裔和女性进入AI领域,这是社会上的看见。以人为本的AI倡议让伦理问题进入主流讨论,这是价值上的看见。 “我16岁时感觉自己像个隐形人,“李飞飞说,“那种不被看见的感觉,我永远不会忘记。这就是为什么我相信,技术应该用来帮助那些被忽视的人。” 这种信念让李飞飞成为AI界的独特声音。当其他人谈论准确率、算力、市场份额时,她谈论人、社区、价值。她提醒这个技术驱动的行业,不要忘记技术的最终目的是服务人。 一位李飞飞的同事告诉我们:“飞飞让我明白,做AI不只是写代码。你是在塑造未来,而这个未来会影响数十亿人的生活。这种责任感,是飞飞带给我们的最重要的东西。” 全局来看,李飞飞的一生诠释了技术与人文的结合。她是顶尖的科学家,创造了ImageNet这样的技术里程碑;她也是人文主义者,始终关注技术的社会影响。在AI发展最狂热的时期,她保持清醒,提醒人们不要忘记人的价值。 她教会了机器看见世界,但她更希望这个世界能够看见每一个人——尤其是那些像16岁的她一样,感到隐形的人。 而这,就是一个看见者的最高使命。 FIN - 参考

ZHANG.z" | April 7, 2026 | 16 min | Shanghai

AI人物志-强化学习之父Richard Sutton

AI人物志系列:理解智能的本质,需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂,他们的弯路与开悟,构成了AI的真正历史。 当全世界都在谈论AlphaGo的奇迹时,很少有人知道,那个让机器学会"思考未来"的人,已经在加拿大的寒风中等待了四十年。 2016年3月,韩国首尔四季酒店。AlphaGo与李世石的围棋对决进入白热化。当AlphaGo下出那手震惊世界的"神之一手"时,全球数亿观众为之疯狂。但在遥远的加拿大埃德蒙顿,一位留着胡子、穿着格子衬衫的老人只是微微一笑,然后继续在他的白板上写着公式。 他叫Richard Sutton。他是强化学习之父,是AlphaGo背后的理论奠基人。但此刻,他没有在看直播——他已经知道结果。四十年的等待,终于等到了这一天。 “AlphaGo证明了强化学习可以工作,“Sutton后来平静地说,“但我更关心的是,它还能做什么。” 马萨诸塞州的童年:一个关于选择的谜题 1957年,Sutton出生在美国马萨诸塞州的一个普通家庭。他的父亲是一位工程师,母亲是一位教师。从小,Sutton就展现出对数学和逻辑的痴迷。 但真正改变他的是一本旧书。 那是1960年代末,Sutton在图书馆的角落里发现了一本关于心理学的书。书中描述了一个实验:老鼠在迷宫中学习找到食物。Sutton被这个简单的场景迷住了——没有老师,没有标签,只有尝试、错误、和奖励。老鼠通过不断尝试,学会了最优路径。 “这就是学习的本质,“年轻的Sutton想,“不是被教导,而是通过互动。” 这个念头像一颗种子,埋进了Sutton的心里。他不知道,这颗种子将在四十年后长成参天大树。 斯坦福的困惑:监督学习的局限 1970年代末,Sutton进入斯坦福大学学习计算机科学。那是AI的第一次寒冬,但Sutton对主流的方向感到困惑。 当时的主流是监督学习——给机器大量标注数据,让它学会从输入到输出的映射。但Sutton觉得这种方法有问题:人类不是这样学习的。婴儿学走路,不是通过看一万个"正确走路"的示例;棋手学棋,不是通过记忆所有可能的局面。 人类学习是通过试错,通过与环境的互动,通过奖励和惩罚。 “监督学习假设有一个’正确答案’,“Sutton后来解释,“但现实中,很多问题的答案取决于你未来的行动。下棋时,这一步的好坏取决于你后面怎么下;投资时,这个决策的好坏取决于市场未来的变化。” Sutton想要一种不同的学习范式——强化学习(Reinforcement Learning)。在这种范式中,智能体通过行动影响环境,环境反馈奖励或惩罚,智能体的目标是最大化长期累积奖励。 这不是简单的输入-输出映射,这是一个序列决策问题。 时序差分:在未知中寻找答案 1984年,Sutton在麻省大学阿默斯特分校读博士时,做出了他一生中最重要的贡献——时序差分学习(Temporal Difference Learning)。 核心问题很简单:如何估计一个状态的价值?在棋局中,当前局面的价值取决于从当前局面出发,最终能赢还是输。但我们不知道最终结果,我们只能一步步走下去。 Sutton的洞见是:我们可以用当前的估计来更新当前的估计。 具体来说,当我们从状态A走到状态B时,我们可以用状态B的当前价值估计来更新状态A的价值估计。如果状态B看起来很好,那么状态A也应该变得更好;如果状态B看起来很糟,那么状态A也应该变得更糟。 这种"自举(bootstrapping)“的方法看起来像是循环论证——用估计来更新估计,能收敛吗? Sutton用数学证明了,在某些条件下,它能收敛。而且,它比传统的蒙特卡洛方法(等到游戏结束才更新)更快、更高效。 “时序差分是人类学习的方式,“Sutton说,“当我们做一件事时,我们不需要等到最终结果才知道好坏。我们可以根据中间反馈实时调整。” 这篇1988年发表的论文,成为强化学习领域的奠基之作。但当时的AI社区对此反应冷淡。 漫长的冬天:在边缘坚守 1980年代到2000年代,强化学习处于AI的边缘。 监督学习有ImageNet,有深度学习,有耀眼的成果。但强化学习呢?它只能在简单的玩具问题上演示,比如让机器人在网格世界里找路,或者让杆子在车上保持平衡。 “那时候很难,“Sutton回忆,“申请经费被拒,发表论文困难,学生招不到。人们问,‘这东西能做什么?‘我回答不了。” 但Sutton没有放弃。他相信,强化学习的问题不是理论问题,是规模问题。当时的计算机不够快,模拟环境不够复杂,算法无法展现真正的能力。 “我们需要等待,“Sutton说,“等待计算能力的提升,等待合适的应用场景。” 这个等待持续了将近三十年。 在这期间,Sutton培养了一批学生,其中最著名的包括David Silver——后来AlphaGo的核心开发者。Sutton把强化学习的火种传递给了下一代,即使他自己看不到火焰燃起的那一天。 “我告诉他们,这不是一个热门的领域,“Sutton说,“但如果你相信它,就坚持下去。” 2013年的突破:Atari游戏上的奇迹 2013年,DeepMind发表了一篇论文,震惊了整个AI社区。 他们用一个简单的强化学习算法(DQN,深度Q网络),在没有任何先验知识的情况下,学会了玩Atari电子游戏。不是一两个游戏,是几十个游戏。而且,在某些游戏上,AI的表现超越了人类专家。 Sutton看到这篇论文时,知道等待结束了。 “DeepMind证明了,强化学习可以扩展到复杂问题,“Sutton说,“不是通过更聪明的算法,而是通过深度学习来近似价值函数。” 这是Sutton理论的完美验证。时序差分学习需要估计状态的价值,但对于复杂问题(比如游戏画面),状态空间太大,无法用表格存储。深度学习提供了近似价值函数的方法——用神经网络来估计"这个画面有多好”。 DeepMind的创始人Demis Hassabis后来承认,他们的工作建立在Sutton的理论基础之上。 “Sutton是强化学习的奠基人,“Hassabis说,“没有他的工作,就没有AlphaGo。” AlphaGo:等待四十年的答案 2016年,AlphaGo击败李世石,成为AI历史上的里程碑。 AlphaGo的核心是蒙特卡洛树搜索(MCTS)结合深度神经网络。但很少有人知道,MCTS的理论基础正是Sutton在1980年代发展的强化学习方法。 具体来说,AlphaGo使用了Sutton的**策略梯度(Policy Gradient)**方法。它不是简单地估计状态价值,而是直接优化策略——教网络"在这种情况下应该怎么下”。 “AlphaGo是强化学习的胜利,“Sutton说,“但它也是开始,不是结束。” Sutton指出,AlphaGo的成功有几个关键因素: 完美的模拟环境:围棋规则明确,可以完美模拟。现实世界没有这么干净。 大量的自对弈数据:AlphaGo通过自己跟自己下棋,生成了数百万局数据。现实世界的数据是昂贵的。 明确的奖励信号:赢或输,一目了然。现实世界的奖励是延迟的、模糊的。 “围棋是强化学习的理想测试场,“Sutton说,“但真正的挑战在现实世界。” 当下的沉思:强化学习的下一个前沿 站在2026年,Sutton正在思考强化学习的下一个前沿。 他认为,当前的强化学习还有几个根本问题需要解决: 样本效率:AlphaGo需要数百万局游戏才能学会下棋,人类只需要几百局。如何让学习更高效? 泛化能力:AlphaGo只会下围棋,不会下象棋。如何让学到的知识迁移到其他任务? 真实世界:围棋有完美的模拟器,但现实世界没有。如何让强化学习在真实环境中工作? Sutton的答案是:预测。 “智能的本质是预测,“Sutton说,“预测接下来会发生什么,预测行动的后果,预测什么策略会带来好的结果。” 他提出了**预测学习(Predictive Learning)**的概念——不是学习特定的任务,而是学习预测世界。这种预测能力是通用的,可以迁移到任何任务。 ...

ZHANG.z" | April 6, 2026 | 17 min | Shanghai

AI人物志-天选之人刘嘉

AI人物志系列:理解智能的本质,需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂,他们的弯路与开悟,构成了AI的真正历史。 当AI的信仰丢失20年后,一个研究大脑的人重新找到了回家的路。 2016年3月,江苏卫视《最强大脑》的录制现场,一位戴着眼镜、气质儒雅的教授正盯着监视器,眉头紧锁。屏幕上,人工智能系统正在与人类选手进行人脸识别对决。当AI以压倒性优势获胜时,现场爆发出欢呼声,但这位教授却感到一阵眩晕。 他叫刘嘉,当时是北师大心理学院院长,一个研究人脑20多年的脑科学家。那一刻,他意识到一件事:丢失20年的信仰,回来了。 “我当时以为AI还是一如既往的弱智,“他后来回忆,“结果它已经在最强大脑的赛场上击败了人类。那种感觉,就像你一直以为走丢的孩子已经死了,突然有一天,他站在你面前,而且比你想象的更强大。” 北大的第一堂神经网络课:一个被遗忘的名字 刘嘉的AI故事,要从1994年说起。 那一年,刘嘉还是北京大学心理学系的学生。他对数理充满热情,但心理学的课程让他失望——“太文科了,不讲逻辑,太哲学思辨”。他一度想转去学计算机,直到他偶然选了一门课。 那门课叫"人工神经网络”,授课老师是一位刚从日本做完博士后回国的年轻教师。刘嘉至今记得那间教室的位置,记得黑板上画着的神经元连接图,记得那种"终于找到组织了"的激动。 “那是我国内可能第一门人工神经网络的课程,“刘嘉回忆,“老师的样子我都记得,但名字全忘了。” 这个被遗忘的名字,改变了刘嘉的一生。人工神经网络完美契合了他的背景——既有心理世界的复杂性,又有理科的严谨逻辑。他决定把神经网络作为一辈子的事业。 但命运弄人。就在刘嘉准备投身AI时,他遇到了Marvin Minsky。 MIT的低谷:信仰被亲手埋葬 1995年,刘嘉来到MIT读研究生。他满怀憧憬,想要跟随AI界的教父Marvin Minsky学习神经网络。但他不知道的是,Minsky对神经网络"深仇大恨”,而当时的AI正处于最后一次寒冬。 “我去见Minsky的时候,他非常depressed,“刘嘉回忆,“我问他做AI应该选哪个方向,他说他自己也不知道promising的方向在哪里。” Minsky建议刘嘉去学脑科学——“脑科学太好了,有太多frontier可以探索”。刘嘉听从了这个建议,留在了脑与认知科学系。但他没有意识到,这个选择意味着与AI的20年分离。 “我当时并没有底层的逻辑或信念,“刘嘉后来反思,“只是觉得神经网络很酷,但一旦大家说这东西不行,特别是像Minsky这种权威说AI不行,我就没细想,然后放弃掉了。” 那是AI的最后一次寒冬,90%以上的人都放弃了。刘嘉也是其中之一。 20年的弯路:从脑科学到《最强大脑》 接下来的20年,刘嘉把AI"彻底给忘记了”。 他专注于脑科学研究,从MIT博士毕业,回国任教,先在中科院,后去北师大。他研究视觉认知、神经机制、大脑的可塑性,发表了大量论文,成为脑科学领域的权威。2015年,他甚至成为北师大心理学院院长,行政职务一片坦途。 但刘嘉心里始终有一个空缺。那个1994年在北大课堂上点燃的热情,那个关于人工神经网络的梦,被深埋在心底,几乎被遗忘。 直到2016年,《最强大脑》的人机大战。 “当时我们想做一个酷炫的节目,想到了人机大战,“刘嘉回忆,“其实我对AI的进展、对深度学习了解基本上为0,当时以为AI还是一如既往的弱智。” 结果让他震惊。AI在人脸识别上超越了人类最顶尖的高手。而那一年,正是AlphaGo击败李世石的年份。 “这两件事情结合起来,让我重新回到了20年前,“刘嘉说,“丢失20年的信仰,回来了。” 信仰的重建:从Hinton的传记中找到底层逻辑 2016年之后,刘嘉开始疯狂地补课。他读深度学习的论文,学习神经网络的新进展,试图理解这20年发生了什么。 但他很快发现,技术细节不是最重要的。重要的是理解为什么——为什么深度学习突然行了?为什么神经网络在20年后复活了? “我看了半天也没看明白啥,“刘嘉承认,“后来我想应该从Hinton的传记史里面入手。” 他研究了Geoffrey Hinton的历史,看了Yann LeCun和Yoshua Bengio的背景。但Hinton的经历最触动他——那个在AI寒冬中孤独坚守40年的人,那个即使被全世界嘲笑也不放弃的人。 “Hinton有一句话对我触动特别大,“刘嘉说,“别人问他为什么要坚持做人工神经网络,他说:‘人的大脑就是这么工作的,没理由人工神经网络不这么工作。’” 这句话道出了底层逻辑:人工神经网络不是仿生,而是对智能本质的回归。 刘嘉突然明白了。他20年的脑科学研究不是弯路,而是必要的准备。正因为研究了大脑,他才能真正理解为什么深度学习有效——因为大脑就是这么工作的,神经元连接、学习、涌现智能。 “我找到了我的底层逻辑,“刘嘉说,“当年就应该选人工神经网络来做。至于Hopfield网络还是其他,都不重要。只要底层架构对了,其他都是技术问题。” 辞掉院长:不想错过这个时代 找到底层逻辑后,刘嘉做了一个让所有人震惊的决定:辞去北师大心理学院院长的职务。 “我当时不到45岁,级别做得比较高,从行政的路来讲是一片坦途,“刘嘉解释,“但我想,不能在那上面浪费时间。” 学校不允许他辞职。刘嘉花了一年时间,每两天给大书记发一次短信,“你赶紧批准吧”。最终,他成功了,成为一个普通的教授,把所有行政职务全部辞掉。 “现在是最伟大的时代,“刘嘉说,“为什么说要把所有的行政职务全部给辞掉?道理非常简单——不想错过这个时代。” 2019年,刘嘉加入清华,成为脑与智能实验室的负责人。清华的AI很强,但脑科学比较弱;刘嘉的脑科学很强,但AI比较弱。这是一个完美的互补。 “我和清华之前完全没有任何交集,“刘嘉说,“但我觉得那是一个很好的地方。” 降临派的天选之人:脑科学+AI的融合 刘嘉把自己称为"降临派”——相信AI终将超越人类,而人类应该迎接这个未来。 但与其他降临派不同,刘嘉的信仰有坚实的科学基础。他认为,光靠Transformer堆数量是不够的,神经元的质量需要脑科学的借鉴。 “我们可以堆数量,但是光靠堆数量是不行的,还要去提升质量,“刘嘉说,“这时候需要脑科学的借鉴。” 他指出了当前AI的三大缺陷: 缺乏复杂度:Transformer没有动力学,没有偏微分方程,而生物神经网络是四维的(三维结构+时间)。 缺乏长程反馈:人脑40%是长程feedback连接,而Transformer接近零。 缺乏并行加工:Transformer只能串行predict next token,而人类有快速的并行加工系统。 “这三个东西是目前人脑和人工神经网络最大的区别,“刘嘉说,“而这三个东西,导致我们现在做脑机接口和机器人最大的瓶颈。” 刘嘉认为,AI要进入下一个阶段,必须有一场基于脑科学的启蒙运动——就像当年脑科学启蒙了感知机、卷积神经网络一样。 “我觉得下面还需要一个脑科学,在第一系统上面对AI有一个启蒙,“刘嘉说,“这个启蒙一旦完成了,AI才会变成一个真正的AI,或者真正的物种。” 当下的沉思:与AI共生是最难的课题 站在2026年,刘嘉正在拼命思考一个课题:怎么和AI对话,怎么和AI共生。 “很难很难,“他承认,“很多人觉得能够用AI就叫AI原生,那就是瞎扯。AI原生是一种思维范式的、一种根本性的改变。” 刘嘉把与AI的关系比作"谈恋爱”——不是工具的使用,而是伙伴的合作。AI不是word、不是PPT,它有能动性,有创造力,有"小性格”。 “她就像一个小女生一样,你今天对她还好好的,你说句话她还挺开心,你明天说同样的话她就给你使脸色,“刘嘉形容,“那一定是我philosophy哪儿没做对。” 这种困惑是普遍的。AI时代,“小术易求,大道难得”——各种工具、技巧层出不穷,但从底层理解AI的philosophy,反而成为这个时代最困惑的问题。 “全世界所有的人,现在都没有这个philosophy,“刘嘉说,“大家都是在摸索的过程中。但有些人走到前面,他有更深刻的理解。” 刘嘉希望成为那个"走到前面"的人。他用20年研究人脑,用20年远离AI,然后在2016年重新找到信仰。这种经历让他有独特的视角——既懂脑科学,又懂AI;既懂人的智能,又懂人工智能。 “如果从一个降临派的角度来说,我的那个歧路可能是必要的安排,“刘嘉说,“从头到尾没有放弃过信仰,但是需要去学习别的东西,从而可以帮助AI更好的发展。” 说到底:一个天选之人的使命 刘嘉的故事,是一个关于信仰与弯路的故事。 ...

ZHANG.z" | April 5, 2026 | 19 min | Shanghai