Claude Code额度凭空蒸发20倍,官方却说「省着点用」
Claude Code缓存Bug全记录

4-17%。这是过去一个月里,Claude Code 的 prompt cache 读取率。正常水平是 97-99%。
这意味着,当你恢复一个之前的会话时,Claude Code 没有复用之前已经处理过的上下文,而是每次都从头处理全部内容,消耗的额度是正常情况的 10 到 20 倍。你以为自己在延续一段对话,实际上每次都在重新开始一段全新的、全价的对话。

这个数字来自独立开发者 ArkNill 的代理监控实测。他通过设置透明代理,记录了 Claude Code 与 Anthropic API 之间的每一次请求,发现了至少两个客户端缓存 bug 导致 API 服务器无法匹配已缓存的对话前缀,被迫每轮都做完整的 token 重建。

上图展示了三个阶段的缓存读取率对比。v2.1.69 至 v2.1.89 期间(即 Bug 存在期),standalone 版本的缓存读取率仅有 4-17%。v2.1.90 修复了其中一个关键 bug 后,冷启动缓存读取率回到 47-99.7%。到 v2.1.91,稳定运行下的缓存读取率恢复到 97-99%。
值得注意的是图表中的一个细节:v2.1.90 的范围跨度很大(47% 到 99.7%),这是因为会话刚恢复时仍需「预热」缓存,前几轮的命中率偏低,但很快回到正常水平。而在 Bug 版本中,这个预热永远不会发生——缓存读取永远停留在系统提示词的 14,500 个 token 上,所有对话历史每次都按全价计费。
28 天,20 个版本
这个 bug 不是某次更新引入、下次更新修复的那种。据 npm registry 的发布记录,引入 bug 的 v2.1.69 发布于 3 月 4 日,修复 bug 的 v2.1.90 发布于 4 月 1 日。中间隔了 28 天,横跨 20 个版本。

时间线揭示了一个耐人寻味的细节。3 月 4 日 bug 引入后,用户并没有立刻大规模投诉。直到 3 月 23 日,投诉才集中爆发,中间隔了将近三周。原因是,据 GitHub issue #41930 的梳理,3 月 13 日至 28 日 Anthropic 曾上线 2 倍额度促销(off-peak 时段翻倍),这在客观上掩盖了 bug 的影响。促销结束后,缓存 bug 的消耗回到正常计费基线,用户的额度瞬间「蒸发」。
Anthropic 的回应来得并不快。3 月 26 日,也就是用户投诉爆发三天后,工程师 Thariq Shihipar 在个人 X 账号上宣布,高峰时段(工作日 5am-11am PT)的限额已收紧。3 月 30 日,Anthropic 在 Reddit 上承认「用户触达限额的速度远超预期」,称已列为团队最高优先级。直到 4 月 1 日,团队成员 Lydia Hallie 才发布了正式的调查结论。
整个过程中,Anthropic 没有发布任何博客文章、没有发送邮件通知、没有更新状态页。所有官方沟通仅通过工程师的个人社交媒体帖子和少数 Reddit 评论完成。
你付了多少钱,能用多久?
GitHub issue #41930 汇集了数百条用户报告。最极端的案例是一位 Max 20x 订阅用户($200/月),他的 5 小时滚动窗口在 19 分钟内就完全耗尽。Max 5x 用户($100/月)报告 5 小时窗口在 90 分钟内用完。据 The Letter Two 报道,还有用户称一条简单的「hello」就消耗了 13% 的会话配额。一位 Pro 用户($20/月)在 Discord 上说,他的额度「每周一就用完了,周六才重置」,30 天里只有 12 天能正常使用。

据 ArkNill 的基准测试,在 bug 版本 v2.1.89 上,Max 20x 计划的 100% 配额在约 70 分钟内就会耗尽。他还测算了单次 --resume 操作对一个 500K token 上下文会话的额度成本,约 $0.15,因为系统会完整重放整个上下文。
「你拿的方式不对」
Lydia Hallie 的调查结论确认了两点,一是高峰时段限额确实已收紧,二是 100 万 token 上下文的会话消耗增大。她称团队修复了一些 bug,但强调「没有任何一个 bug 导致了多收费」。
随后她给出了四条省量建议:
1. 用 Sonnet 4.6 而非 Opus(Opus 消耗速度约为两倍);
2. 不需要深度推理时降低推理强度或关闭 extended thinking;
3. 闲置超过一小时的长会话不要恢复,重新开一个;
4. 设置环境变量 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 限制上下文窗口大小。
没有提及任何形式的限额重置或补偿。
AI 播客主持人 Alex Volkov 将这份回应概括为「你拿的方式不对」(You're holding it wrong),指出 Anthropic 自己把 100 万 token 上下文设为默认、把 Opus 作为旗舰模型推广、把 extended thinking 作为卖点,现在却建议付费用户不要使用这些功能。
「没有多收费」的说法也与 Claude Code 自己的更新记录存在张力。就在 Lydia 发布回应的前一天,v2.1.90 修复了一个自 v2.1.69 起存在的缓存回归 bug:使用 --resume 恢复会话时,本应命中缓存的请求会触发完整的 prompt cache miss,按全价计费。Lydia 的回应中没有提及这个已确认的计费异常。

作为对照,OpenAI 的 Codex 此前也出现过类似的额度异常消耗问题。OpenAI 的做法是重置用户配额、补发 credits,并在 3 月宣布移除 Codex 的使用上限。Anthropic 的做法是建议用户降级模型、关闭功能、限制上下文,且将责任归因于用户的使用方式。
Anthropic 卖的是「最强模型 + 最大上下文 + 最高推理能力」的订阅,收的是每月 20 到 200 美元的费用。一个横跨 28 天的缓存 bug 让付费用户的额度以 10-20 倍的速度蒸发,官方回应是让你省着点用。
