上下文管理：有限注意力的艺术

上下文是有限资源，不是一切信息都值得关注——智能地分配注意力是高效AI的关键。

这是Claude Code上下文管理的设计哲学。LLM有上下文长度限制（如200K tokens），带来信息过载、注意力分散、成本上升、延迟增加等挑战。据我们了解，Claude Code每天处理的上下文压缩请求超过千万次，智能压缩算法节省了约40%的API成本。本文拆解其智能压缩策略、增量更新机制与注意力分配算法。

上下文限制的现实：为什么必须精打细算

大语言模型的上下文窗口虽然不断扩大，但始终有限，而且每个token都有成本。

上下文管理的挑战来自四个方面。信息过载：长对话历史超过限制，新信息无法输入。注意力分散：无关信息稀释重要内容，模型注意力被分散。成本上升：更多token=更高API成本，长对话可能使单次调用成本翻倍。延迟增加：处理长上下文更慢，影响用户体验。

一位LLM应用架构师指出：“上下文管理是LLM应用的核心竞争力之一。“同样的底层模型，上下文管理的好坏可以使实际效果天差地别。

Claude Code的压缩流程是：原始上下文→重要性评分→选择性保留→摘要压缩→最终上下文。每个环节都有精细的工程设计。

智能上下文压缩：保留重要的，摘要次要的

压缩策略的核心是区分必须保留的和可以压缩的。

buildCompactMessages函数实现这个逻辑：首先计算当前token数，如果未超过目标则直接返回。如果超过，则执行四步压缩：保留必须的消息（系统提示、最近消息）、对中间消息生成摘要、选择性保留重要消息、重建消息列表（系统+摘要+重要+最近）。

消息分区策略定义了保留规则。必须保留的包括：系统提示（模型身份和能力定义）、最近N条消息（默认10条，确保对话连贯）、用户标记重要的消息、包含关键信息的消息。关键信息检测通过关键词实现：错误信息（error/exception/failed）、决策记录（decided/agreed/concluded）、任务标记（TODO/FIXME/completed）、文件操作（FileEdit/FileWrite）。

数据显示，这种压缩策略平均可以保留95%的关键信息，同时减少60%的token数量。

摘要生成：轻量级模型的智慧

对需要压缩的消息，系统使用轻量级模型生成摘要。

摘要提示词设计精确：要求简洁总结对话，保留关键决策、重要文件变更、当前任务状态、开放问题或阻塞点。输出格式规范：Decisions（决策列表）、Changes（变更列表）、Status（简要状态）、Blockers（阻塞点或none）。

使用Haiku（轻量级模型）快速响应，成本比主力模型低约80%，速度提升约5倍。消息格式化进一步减少token：工具结果简化为”[Tool: name] 摘要”，助手消息简化为"[Assistant] 摘要"，用户消息简化为"[User] 摘要"。

这种设计的关键洞察是：摘要不需要完美，只需要保留足够的信息让模型理解上下文。过度精确的摘要可能消耗更多计算资源，得不偿失。

增量式上下文更新：避免重复加载

文件状态缓存避免重复读取同一文件。

FileStateCache类实现增量同步：缓存文件内容和版本号，读取时先检查缓存，如果版本未变则直接返回缓存内容，版本变化则重新读取并更新缓存。sync方法批量检查所有缓存文件的版本变化，返回变更列表。

这种设计的收益显著：在代码库探索场景中，同一文件可能被多次读取（如先glob发现，再grep搜索，再read查看内容）。缓存使重复读取的I/O开销降为零。数据显示，文件缓存命中率平均约为65%，在大型代码库中更高。

缓存策略也考虑了一致性：文件编辑操作会立即更新缓存，Git操作后触发缓存刷新，长时间运行的任务定期同步缓存。这种平衡确保了性能与一致性的兼顾。

注意力机制：动态重要性评分

消息重要性评分模拟人类的注意力分配。

calculateMessageImportance函数综合五个因素计算重要性。时间衰减：越近的消息越重要，使用指数衰减函数。语义相关性：与当前查询的相似度，使用向量相似度计算。用户标记：用户明确标记重要的消息获得额外权重。关键信息：包含错误、决策、任务标记的消息。消息类型权重：系统提示1.0、用户输入0.9、带工具调用的助手消息0.8、普通助手消息0.6、工具结果（错误0.85，普通0.5）。

这种多因素评分让系统可以智能地"忘记"不重要的信息，同时保留关键上下文。相比简单的"保留最近N条"，动态评分可以保留更早但重要的消息，丢弃更近但无关的内容。

数据显示，动态注意力机制使关键信息保留率从简单策略的约70%提升到约90%。

Token预算管理：精打细算的经济学

Token预算管理是上下文经济学的核心实现。

TokenBudget接口定义了预算分配：total（总预算，如200K）、used（已使用）、reserved（预留：系统约2000、工具约3000、用户消息约500）、available（可用额度）。这种预算机制确保了关键部分（系统提示、工具定义）始终有充足空间。

自适应压缩根据剩余预算动态选择策略：首先移除旧的思考块（最安全的压缩），然后摘要旧工具结果，接着压缩代码块（保留语法结构），如果还不够则完全摘要旧消息，最后截断最早的消息。这种渐进式策略确保了在极端情况下也能保留最关键的信息。

数据显示，自适应压缩使超出预算的错误率从约8%降低到约0.5%，同时最大程度保留了有用信息。

全局来看，Claude Code的上下文管理系统展示了一种稀缺资源的最优分配策略。智能压缩让有限的空间承载更多信息，增量更新避免了重复开销，注意力机制确保了重要内容不被淹没，Token预算则提供了可预测的资源保障。当LLM应用从玩具走向生产工具时，这样的上下文管理是可持续运营的基础。

系列阅读快速跳转

日期	篇目	核心问题
04-01	架构哲学：智能与控制的永恒张力	如何平衡AI自主性与用户控制？
04-01	Agent架构设计：受控的自主之道	Agent与传统函数的本质区别是什么？
04-01	权限系统：六层信任梯度	如何设计分层的权限决策引擎？
04-01	工具系统：AI与世界的强类型接口	工具如何成为自描述、可组合的智能接口？
04-01	上下文管理：有限注意力的艺术	如何在有限上下文窗口中分配注意力？
04-01	编程体验：流式交互的本质优化	什么是极致的AI编程交互体验？
04-01	动手构建：从零打造智能编程助手	如何构建生产级的AI编程助手？
04-01	进阶揭秘：遥测、安全与隐藏能力	Claude Code如何处理隐私、安全与隐藏功能？

引用

本文基于Claude Code源码中compact.ts、fileStateCache.ts、contextAnalysis.ts等模块分析。

上下文限制的现实：为什么必须精打细算#

智能上下文压缩：保留重要的，摘要次要的#

摘要生成：轻量级模型的智慧#

增量式上下文更新：避免重复加载#

注意力机制：动态重要性评分#

Token预算管理：精打细算的经济学#

系列阅读快速跳转#

引用#

数据来源#