AI需要更强的模型还是更智能的Harness-技术路线

核心观点：实现10倍、100倍甚至1000倍生产力的秘密不在于AI模型本身，而在于包裹模型的那个"Harness"。这是Garry Tan（Y Combinator总裁）和Steve Yegge（前亚马逊/谷歌工程师）等行业专家的共同洞见。

生产力的巨大差距

新一轮AI编程革命正在带来前所未有的生产力提升。

“使用 AI 编程代理的人比今天使用 Cursor 和聊天的工程师生产效率高 10 倍到 100 倍，并且比 2005 年时的谷歌员工高约 1000 倍。"[1]

这个数字来自Steve Yegge——一位在美国程序员圈里的网红人物，曾在亚马逊工作7年、谷歌任职13年，现任Sourcegraph工程主管，职业生涯跨越从1992年到AI时代的三十多年技术演变。

现任Y Combinator（知名创业加速器）总裁兼首席执行官的Garry Tan在帖子里引用Steve的话时特别强调：这个数字是真的，他自己亲眼见过，也亲身实践过。

但最关键的一点是——实现10倍、100倍甚至1000倍生产力的人，和只提升2倍的人，用的其实是同一个AI模型。

Garry Tan认为：秘密不在于模型，而在于包裹模型的那个东西。

Harness是什么

在2026年3月31日，Anthropic意外地将Claude Code的51.2万行源代码上传到了npm注册中心，证实了Garry Tan一直在YC所教授的一切：秘密不在于模型，而在于包裹模型的那个东西。[2]

实时仓库上下文、提示缓存、专门构建的工具、上下文冗余最小化、结构化会话记忆、并行子代理——这些都不让模型变得更聪明，而是全部为模型提供恰当的上下文，在恰当的时间，不让它被噪音淹没。

Garry Tan把那个包裹器称为"harness”。

而每个AI构建者都应该问的问题是：什么东西应该放在harness里，什么东西应该留在harness外？

Garry Tan的回答是**“瘦外壳 + 胖技能”**——harness要"瘦"（轻量简单，只负责最基本的调度和管理）；Skills要厚（内容丰富、可反复使用）。

五个核心定义

为解决这个问题，Garry Tan给出了五个定义：

1. Skill文件：教会AI如何思考

Skill文件其实就是一个可重复使用的Markdown文档，它提供的是过程——不是直接告诉AI"做什么"，而是教AI"怎么做"。

用户只提供目标和内容，技能文件提供的是完整的思考过程和判断流程。

这里有一个最多人忽略的关键：技能文件就像一个方法调用——它需要参数。当用不同的参数去调用它，同一个技能就能发挥出完全不同的能力。

Garry Tan举了个例子：有一个叫/investigate的技能文件，里面写了固定的七个步骤：界定数据范围 → 构建时间线 → 分析每份文件 → 综合判断 → 正反方论证 → 引用来源。

这个技能只需要三个参数：TARGET（目标）、QUESTION（问题）和DATASET（数据集）。

当你把目标指向一位安全科学家 + 210万封邮件时，它就会变成一位医疗研究分析师，专门判断是否有人举报人进行压制。

当你把目标指向一家空壳公司 + 联邦选举委员会的申报文件时，它又会变成一位法医调查员，专门追踪有组织的竞选捐款路径。

同样的技能文件，同样的七个步骤，同样的Markdown文档。

Garry Tan：“Skill文件描述的是判断过程，而调用时提供的参数才是’世界’。”

这不是提示词工程，而是软件设计——使用Markdown作为编程语言，使用人类判断作为运行时。

Markdown反而比僵硬的源代码更适合封装能力（encapsulation of capability），它使用模型最熟悉的语言，来描述流程、判断逻辑和上下文。

2. Harness：轻量的运行框架

简单来说，Harness就是用来运行LLM的程序。

它只负责四件事：在循环中运行模型、读取和写入你的文件、管理上下文以及执行安全检查——这就是Garry Tan说的"瘦外壳"。

“瘦外壳"的对立面是Skill薄弱而外壳臃肿。

你可能见过这种情况：一个外壳里塞了40多个工具定义，占掉了半个上下文窗口；每个工具都做得很"神级”，结果调用一次要等2到5秒；把每个接口都包装成REST API工具，导致token数量变成三倍、延迟变成三倍、失败率也变成三倍。

Garry Tan指出：“需要的应该是专用的工具，它们速度快且功能专一。”

一个能在100毫秒内完成每个浏览器操作的Playwright CLI；
一个需要15秒来完成截图-查找-点击-等待-读取操作的Chrome MCP；

这是75倍的提升！

软件不再需要如此珍贵，只构建真正所需要的！

3. Resolver（解析器）：智能的上下文管理器

Resolver是上下文的路由表。它的作用是：当任务类型是X的时候，自动先加载文档Y。

如果说Skill告诉模型怎么做，那么解析器告诉它要加载什么以及什么时候加载。

当开发者更改了提示词的时候：

没有Resolver时，就会直接把新内容塞进去，导致上下文越来越乱。
有了Resolver后，模型会自动先去读取docs/EVALS.md这个文件——其中说明：运行评估套件，比较分数，如果准确率下降超过2%，则回滚并调查原因；

而且，开发者并不知道这个评估套件的存在，解析器会在正确的时间，加载正确的上下文。

Claude Code就内置了解析器——每个技能都有一个描述字段，模型会自动将用户意图与技能描述进行匹配。用户不需要手动记住或调用某个技能，描述本身就是解析器。

Garry Tan分享：“我的CLAUDE.md文件曾经膨胀到20,000行，里面塞满了各种怪癖、模式和他踩过的所有坑，然后模型的注意力严重下降。后来Claude Code建议大幅删减。最终修复方案只有大约200行——只是指向不同文档的指针。”

解析器会在需要的时候，按需加载正确的文档。同时按需访问的形式，也不会污染上下文窗口。

4. 潜在的 vs. 确定的：智能与信任的边界

“你系统中的每一步都是这样或那样，而将它们混淆是代理设计中最常见的错误。”

Garry Tan分成两个空间：

潜在空间：智能存在的场所——模型读取、解释、决策、判断、综合、模式识别。
确定性：信任存在的场所——相同输入，相同输出。执行SQL查询、编译代码、算术。

Garry Tan举了一个例子：一个大语言模型可以在餐桌旁为8个人安排座位，考虑到每个人的个性和社交动态它能安排的非常完美；但让它为800个人安排座位，它就会产生一个看似合理但实际上完全错误的座位图。

为800人排座位是一个确定性问题，它需要绝对精确和最优解。而潜在空间擅长的是"大概感觉对"，而不是"数学上完全正确"。

最糟糕的系统，就是把该用确定性工具解决的问题，强行塞给潜在空间去处理。

最好的系统，则是：

思考、判断、综合 → 交给潜在空间
精确计算、可靠执行 → 交给确定性工具

5. Diarization（深度剖析）：从数据到判断的升华

Garry Tan认为，Diarization是让AI适用于实际知识工作的关键一步。

一句话解释：Diarization就是让AI像顶级分析师一样，阅读大量资料后输出结构化的判断，而不是简单的数据罗列。

它的核心做法很简单：让模型读取关于某个主题的所有相关信息，然后从几十份甚至几百份文档输出一份结构化的单页简介，这份简介不是简单罗列，而是提炼出的"判断"——它会指出矛盾、记录时间变化、发现隐藏模式，并最终形成有洞见的结论。

没有SQL查询能做到这一点，没有普通的RAG流程能做到这一点。因为模型必须真正去阅读，记住矛盾之处，注意到发生了什么以及何时发生，并把这一切综合成一份结构化的智能输出。

简单来说：

数据库查询给的是数据和事实
Diarization给的是经过深度思考后的判断

这就是数据库查询与分析员简报之间的区别。

三层架构：智能、执行与框架的平衡

以上的五个概念组合成一个简单的三层架构：

**厚技能（Fat skills）**位于顶层：包含判断、处理和领域知识的Markdown流程——价值中的90%就存在于这里。
**一个薄的CLI框架（A thin CLI harness）**位于中间：大约200行代码。输入JSON，输出文本，默认为只读。
应用程序位于底层：QueryDB，ReadDoc，Search，Timeline——确定性基础。

对应关系：Skill文件对应顶层的厚技能；Harness对应中间的薄框架；Resolver、潜在/确定、Diarization则是贯穿各层的设计原则。

这个原则是方向性的。将智能推向技能、将执行推向确定性工具、保持框架的轻薄。

当这样做时，模型每一点的改进都会自动提升所有技能，而确定性层始终保持完美可靠。

学习系统：从理论到实践

在YC正在构建的实际系统中，这些概念如何协同工作？

Chase Center案例

2026年7月，Startup School将有六千位创始人。每位创始人都有一个结构化的申请，问卷答案，1对1顾问聊天的记录，以及公开信号：X上的帖子，GitHub提交记录，Claude Code记录显示他们如何快速交付。

传统方法是：一个15人的项目团队阅读申请，凭直觉做决定，更新电子表格。这种方法对200位创始人有效，但对6000位创始人就行不通。

没有人能在工作记忆中容纳那么多个人资料，并注意到"AI代理基础设施"组的三位最佳候选人分别是拉各斯的开发工具创始人，新加坡的合规创始人，以及布鲁克林的CLI工具创始人——他们在1对1的聊天中都用不同的措辞描述了同一个痛点。

但是模型可以。

数据丰富与匹配

一项名为/enrich-founder的技能会整合所有数据源，执行增值分析，进行事件分割，并突出创始人言论与其实际项目之间的差距。确定性层处理SQL查询、GitHub统计数据、演示URL的浏览器测试、社交信号抓取以及CrustData查询。每天运行一次定时任务，六千个用户资料，始终保持最新。

而匹配技能的三次不同调用展示了灵活性：

/match-breakout：1,200位创始人按行业聚类，每间房30人
/match-lunch：600人跨行业匹配，每桌8人，大语言模型发明主题
/match-live：当前在建筑物内的人，200毫秒1:1配对

模型能做出聚类算法永远无法做出的判断，比如将成本归因和编排工具的创始人分在同一组，因为他们不是竞争对手。

学习循环：系统自我进化

活动结束后，一个"/improve skill"会读取NPS调查问卷，记录那些"还行"的回答，从中提取模式，并直接写回到匹配技能文件中。

例如：

当参会者说"AI基础设施"但创业公司80%以上是计费代码：→ 应归类为金融科技
当同一组中有两位参会者已经互相认识：→ 优先考虑新的人际介绍

这些规则被写回Skill文件后，下一次运行时就会自动生效。7月活动：12%的"OK"评分。下次活动：4%。系统在无人重写代码的情况下得到了改进。

Garry Tan认为，2026年最有价值的循环就是这个！

Skill是永久升级

Garry Tan最近发了一条有关OpenClaw的指示反响热烈的推文：

你不允许做一次性工作。如果我问你做某事，而且这是需要再次发生的事情，你必须：在3到10个项目上手动完成第一次。给我看输出。如果我批准，把它编码成一个技能文件。如果它应该自动运行，把它放在cron上。测试：如果我不得不问你两次，你就失败了。

人们以为这是一个提示工程技巧，但实际上，这就是Garry Tan一直在讲的架构。

你编写的每一个技能都是对你系统的永久升级。

它永远不会退化，它永远不会忘记。在你睡觉时，它在凌晨三点运行。当下一个模型发布时，每个技能都会立刻变得更好——潜在步骤中的判断会得到改善，而确定性步骤则保持完美可靠。

这就是如何获得Steve Yegge的100倍提升——不是更聪明的模型，而是"瘦外壳+胖技能"，以及将一切编码的纪律。

说到底，真正的AI编程革命不是模型的革命，而是架构的革命。系统会不断叠加。只需构建一次，即可永久运行。

参考

[1] Steve Yegge 关于AI编程代理生产力提升的观点，Garry Tan在Y Combinator分享中引用 [2] Anthropic Claude Code源代码上传事件，2026年3月

生产力的巨大差距#

Harness是什么#

五个核心定义#

1. Skill文件：教会AI如何思考#

2. Harness：轻量的运行框架#

3. Resolver（解析器）：智能的上下文管理器#

4. 潜在的 vs. 确定的：智能与信任的边界#

5. Diarization（深度剖析）：从数据到判断的升华#

三层架构：智能、执行与框架的平衡#

学习系统：从理论到实践#

Chase Center案例#

数据丰富与匹配#

学习循环：系统自我进化#

Skill是永久升级#

参考#