核心观点:实现10倍、100倍甚至1000倍生产力的秘密不在于AI模型本身,而在于包裹模型的那个"Harness"。这是Garry Tan(Y Combinator总裁)和Steve Yegge(前亚马逊/谷歌工程师)等行业专家的共同洞见。

生产力的巨大差距

新一轮AI编程革命正在带来前所未有的生产力提升。

“使用 AI 编程代理的人比今天使用 Cursor 和聊天的工程师生产效率高 10 倍到 100 倍,并且比 2005 年时的谷歌员工高约 1000 倍。"[1]

这个数字来自Steve Yegge——一位在美国程序员圈里的网红人物,曾在亚马逊工作7年、谷歌任职13年,现任Sourcegraph工程主管,职业生涯跨越从1992年到AI时代的三十多年技术演变。

现任Y Combinator(知名创业加速器)总裁兼首席执行官的Garry Tan在帖子里引用Steve的话时特别强调:这个数字是真的,他自己亲眼见过,也亲身实践过。

但最关键的一点是——实现10倍、100倍甚至1000倍生产力的人,和只提升2倍的人,用的其实是同一个AI模型。

Garry Tan认为:秘密不在于模型,而在于包裹模型的那个东西

Harness是什么

在2026年3月31日,Anthropic意外地将Claude Code的51.2万行源代码上传到了npm注册中心,证实了Garry Tan一直在YC所教授的一切:秘密不在于模型,而在于包裹模型的那个东西。[2]

实时仓库上下文、提示缓存、专门构建的工具、上下文冗余最小化、结构化会话记忆、并行子代理——这些都不让模型变得更聪明,而是全部为模型提供恰当的上下文,在恰当的时间,不让它被噪音淹没。

Garry Tan把那个包裹器称为"harness”。

而每个AI构建者都应该问的问题是:什么东西应该放在harness里,什么东西应该留在harness外?

Garry Tan的回答是**“瘦外壳 + 胖技能”**——harness要"瘦"(轻量简单,只负责最基本的调度和管理);Skills要厚(内容丰富、可反复使用)。

五个核心定义

为解决这个问题,Garry Tan给出了五个定义:

1. Skill文件:教会AI如何思考

Skill文件其实就是一个可重复使用的Markdown文档,它提供的是过程——不是直接告诉AI"做什么",而是教AI"怎么做"

用户只提供目标和内容,技能文件提供的是完整的思考过程和判断流程。

这里有一个最多人忽略的关键:技能文件就像一个方法调用——它需要参数。当用不同的参数去调用它,同一个技能就能发挥出完全不同的能力。

Garry Tan举了个例子:有一个叫/investigate的技能文件,里面写了固定的七个步骤:界定数据范围 → 构建时间线 → 分析每份文件 → 综合判断 → 正反方论证 → 引用来源。

这个技能只需要三个参数:TARGET(目标)、QUESTION(问题)和DATASET(数据集)。

当你把目标指向一位安全科学家 + 210万封邮件时,它就会变成一位医疗研究分析师,专门判断是否有人举报人进行压制。

当你把目标指向一家空壳公司 + 联邦选举委员会的申报文件时,它又会变成一位法医调查员,专门追踪有组织的竞选捐款路径。

同样的技能文件,同样的七个步骤,同样的Markdown文档。

Garry Tan:“Skill文件描述的是判断过程,而调用时提供的参数才是’世界’。”

这不是提示词工程,而是软件设计——使用Markdown作为编程语言,使用人类判断作为运行时。

Markdown反而比僵硬的源代码更适合封装能力(encapsulation of capability),它使用模型最熟悉的语言,来描述流程、判断逻辑和上下文。

2. Harness:轻量的运行框架

简单来说,Harness就是用来运行LLM的程序。

它只负责四件事:在循环中运行模型、读取和写入你的文件、管理上下文以及执行安全检查——这就是Garry Tan说的"瘦外壳"。

“瘦外壳"的对立面是Skill薄弱而外壳臃肿。

你可能见过这种情况:一个外壳里塞了40多个工具定义,占掉了半个上下文窗口;每个工具都做得很"神级”,结果调用一次要等2到5秒;把每个接口都包装成REST API工具,导致token数量变成三倍、延迟变成三倍、失败率也变成三倍。

Garry Tan指出:“需要的应该是专用的工具,它们速度快且功能专一。”

  • 一个能在100毫秒内完成每个浏览器操作的Playwright CLI;
  • 一个需要15秒来完成截图-查找-点击-等待-读取操作的Chrome MCP;

这是75倍的提升!

软件不再需要如此珍贵,只构建真正所需要的!

3. Resolver(解析器):智能的上下文管理器

Resolver是上下文的路由表。它的作用是:当任务类型是X的时候,自动先加载文档Y。

如果说Skill告诉模型怎么做,那么解析器告诉它要加载什么以及什么时候加载。

当开发者更改了提示词的时候:

  • 没有Resolver时,就会直接把新内容塞进去,导致上下文越来越乱。
  • 有了Resolver后,模型会自动先去读取docs/EVALS.md这个文件——其中说明:运行评估套件,比较分数,如果准确率下降超过2%,则回滚并调查原因;

而且,开发者并不知道这个评估套件的存在,解析器会在正确的时间,加载正确的上下文。

Claude Code就内置了解析器——每个技能都有一个描述字段,模型会自动将用户意图与技能描述进行匹配。用户不需要手动记住或调用某个技能,描述本身就是解析器。

Garry Tan分享:“我的CLAUDE.md文件曾经膨胀到20,000行,里面塞满了各种怪癖、模式和他踩过的所有坑,然后模型的注意力严重下降。后来Claude Code建议大幅删减。最终修复方案只有大约200行——只是指向不同文档的指针。”

解析器会在需要的时候,按需加载正确的文档。同时按需访问的形式,也不会污染上下文窗口。

4. 潜在的 vs. 确定的:智能与信任的边界

“你系统中的每一步都是这样或那样,而将它们混淆是代理设计中最常见的错误。”

Garry Tan分成两个空间:

  • 潜在空间:智能存在的场所——模型读取、解释、决策、判断、综合、模式识别。
  • 确定性:信任存在的场所——相同输入,相同输出。执行SQL查询、编译代码、算术。

Garry Tan举了一个例子:一个大语言模型可以在餐桌旁为8个人安排座位,考虑到每个人的个性和社交动态它能安排的非常完美;但让它为800个人安排座位,它就会产生一个看似合理但实际上完全错误的座位图。

为800人排座位是一个确定性问题,它需要绝对精确和最优解。而潜在空间擅长的是"大概感觉对",而不是"数学上完全正确"。

最糟糕的系统,就是把该用确定性工具解决的问题,强行塞给潜在空间去处理。

最好的系统,则是:

  • 思考、判断、综合 → 交给潜在空间
  • 精确计算、可靠执行 → 交给确定性工具

5. Diarization(深度剖析):从数据到判断的升华

Garry Tan认为,Diarization是让AI适用于实际知识工作的关键一步。

一句话解释:Diarization就是让AI像顶级分析师一样,阅读大量资料后输出结构化的判断,而不是简单的数据罗列。

它的核心做法很简单:让模型读取关于某个主题的所有相关信息,然后从几十份甚至几百份文档输出一份结构化的单页简介,这份简介不是简单罗列,而是提炼出的"判断"——它会指出矛盾、记录时间变化、发现隐藏模式,并最终形成有洞见的结论。

没有SQL查询能做到这一点,没有普通的RAG流程能做到这一点。因为模型必须真正去阅读,记住矛盾之处,注意到发生了什么以及何时发生,并把这一切综合成一份结构化的智能输出。

简单来说:

  • 数据库查询给的是数据和事实
  • Diarization给的是经过深度思考后的判断

这就是数据库查询与分析员简报之间的区别。

三层架构:智能、执行与框架的平衡

以上的五个概念组合成一个简单的三层架构:

  1. **厚技能(Fat skills)**位于顶层:包含判断、处理和领域知识的Markdown流程——价值中的90%就存在于这里。

  2. **一个薄的CLI框架(A thin CLI harness)**位于中间:大约200行代码。输入JSON,输出文本,默认为只读。

  3. 应用程序位于底层:QueryDB,ReadDoc,Search,Timeline——确定性基础。

对应关系:Skill文件对应顶层的厚技能;Harness对应中间的薄框架;Resolver、潜在/确定、Diarization则是贯穿各层的设计原则。

这个原则是方向性的。将智能推向技能、将执行推向确定性工具、保持框架的轻薄。

当这样做时,模型每一点的改进都会自动提升所有技能,而确定性层始终保持完美可靠。

学习系统:从理论到实践

在YC正在构建的实际系统中,这些概念如何协同工作?

Chase Center案例

2026年7月,Startup School将有六千位创始人。每位创始人都有一个结构化的申请,问卷答案,1对1顾问聊天的记录,以及公开信号:X上的帖子,GitHub提交记录,Claude Code记录显示他们如何快速交付。

传统方法是:一个15人的项目团队阅读申请,凭直觉做决定,更新电子表格。这种方法对200位创始人有效,但对6000位创始人就行不通。

没有人能在工作记忆中容纳那么多个人资料,并注意到"AI代理基础设施"组的三位最佳候选人分别是拉各斯的开发工具创始人,新加坡的合规创始人,以及布鲁克林的CLI工具创始人——他们在1对1的聊天中都用不同的措辞描述了同一个痛点。

但是模型可以。

数据丰富与匹配

一项名为/enrich-founder的技能会整合所有数据源,执行增值分析,进行事件分割,并突出创始人言论与其实际项目之间的差距。确定性层处理SQL查询、GitHub统计数据、演示URL的浏览器测试、社交信号抓取以及CrustData查询。每天运行一次定时任务,六千个用户资料,始终保持最新。

而匹配技能的三次不同调用展示了灵活性:

  • /match-breakout:1,200位创始人按行业聚类,每间房30人
  • /match-lunch:600人跨行业匹配,每桌8人,大语言模型发明主题
  • /match-live:当前在建筑物内的人,200毫秒1:1配对

模型能做出聚类算法永远无法做出的判断,比如将成本归因和编排工具的创始人分在同一组,因为他们不是竞争对手。

学习循环:系统自我进化

活动结束后,一个"/improve skill"会读取NPS调查问卷,记录那些"还行"的回答,从中提取模式,并直接写回到匹配技能文件中。

例如:

  • 当参会者说"AI基础设施"但创业公司80%以上是计费代码:→ 应归类为金融科技
  • 当同一组中有两位参会者已经互相认识:→ 优先考虑新的人际介绍

这些规则被写回Skill文件后,下一次运行时就会自动生效。7月活动:12%的"OK"评分。下次活动:4%。系统在无人重写代码的情况下得到了改进。

Garry Tan认为,2026年最有价值的循环就是这个!

Skill是永久升级

Garry Tan最近发了一条有关OpenClaw的指示反响热烈的推文:

你不允许做一次性工作。如果我问你做某事,而且这是需要再次发生的事情,你必须:在3到10个项目上手动完成第一次。给我看输出。如果我批准,把它编码成一个技能文件。如果它应该自动运行,把它放在cron上。测试:如果我不得不问你两次,你就失败了。

人们以为这是一个提示工程技巧,但实际上,这就是Garry Tan一直在讲的架构。

你编写的每一个技能都是对你系统的永久升级。

它永远不会退化,它永远不会忘记。在你睡觉时,它在凌晨三点运行。当下一个模型发布时,每个技能都会立刻变得更好——潜在步骤中的判断会得到改善,而确定性步骤则保持完美可靠。

这就是如何获得Steve Yegge的100倍提升——不是更聪明的模型,而是"瘦外壳+胖技能",以及将一切编码的纪律。

说到底,真正的AI编程革命不是模型的革命,而是架构的革命。系统会不断叠加。只需构建一次,即可永久运行。

参考

[1] Steve Yegge 关于AI编程代理生产力提升的观点,Garry Tan在Y Combinator分享中引用 [2] Anthropic Claude Code源代码上传事件,2026年3月