Hạn ngạch của Mã Claude đã bốc hơi 20 lần trong không khí, nhưng quan chức này nói "hãy sử dụng tiết kiệm"
Bản ghi đầy đủ lỗi bộ đệm của Claude Code

4-17%. Đây là tốc độ đọc bộ đệm nhanh chóng của Claude Code trong tháng qua. Mức bình thường là 97-99%.
Điều này có nghĩa là khi bạn tiếp tục phiên trước đó, Claude Code không sử dụng lại ngữ cảnh đã xử lý trước đó mà xử lý toàn bộ nội dung từ đầu mỗi lần, tiêu tốn gấp 10 đến 20 lần so với bình thường. Bạn nghĩ rằng bạn đang tiếp tục một cuộc trò chuyện, nhưng thực tế là bạn đang bắt đầu một cuộc trò chuyện mới, được trả giá đầy đủ mọi lúc.

Con số này xuất phát từ các phép đo giám sát proxy thực tế của nhà phát triển độc lập ArkNill. Bằng cách thiết lập một proxy minh bạch, anh đã ghi lại mọi yêu cầu giữa Claude Code và Anthropic API, đồng thời phát hiện ra ít nhất hai lỗi bộ nhớ đệm phía máy khách khiến máy chủ API không thể khớp với tiền tố hội thoại được lưu trong bộ nhớ đệm, buộc máy chủ phải thực hiện tái tạo mã thông báo hoàn chỉnh mỗi vòng.

Hình trên cho thấy so sánh tốc độ đọc bộ đệm trong ba giai đoạn. Trong khoảng thời gian từ v2.1.69 đến v2.1.89 (tức là khoảng thời gian tồn tại lỗi), tốc độ đọc bộ đệm của phiên bản độc lập chỉ là 4-17%. v2.1.90 sửa một trong những lỗi chính và đưa tốc độ đọc bộ đệm khởi động nguội trở lại 47-99,7%. Đến v2.1.91, tốc độ đọc bộ đệm khi hoạt động ổn định trở lại 97-99%.
Điều đáng chú ý là một chi tiết trong biểu đồ: phạm vi của v2.1.90 rất lớn (47% đến 99,7%). Điều này là do bộ đệm vẫn cần được "khởi động" khi phiên vừa được khôi phục. Tỉ lệ trúng trong vài hiệp đầu thấp nhưng nhanh chóng trở lại mức bình thường. Trong phiên bản có lỗi, quá trình khởi động này không bao giờ xảy ra - việc đọc bộ đệm luôn ở mức 14.500 mã thông báo của từ nhắc hệ thống và tất cả lịch sử hội thoại sẽ được tính ở mức giá đầy đủ mỗi lần.
28 ngày, 20 phiên bản
Lỗi này không phải là lỗi được đưa ra trong một bản cập nhật và được sửa trong bản cập nhật tiếp theo. Theo hồ sơ phát hành của npm register, v2.1.69, giới thiệu lỗi, đã được phát hành vào ngày 4 tháng 3 và v2.1.90, đã sửa lỗi, được phát hành vào ngày 1 tháng 4. Có khoảng cách 28 ngày, trải dài trên 20 phiên bản.

Dòng thời gian tiết lộ một chi tiết hấp dẫn. Sau khi lỗi được phát hiện vào ngày 4 tháng 3, người dùng đã không phàn nàn ngay lập tức trên quy mô lớn. Phải đến ngày 23 tháng 3, các khiếu nại mới tập hợp lại, cách nhau gần ba tuần. Lý do là vì, theo vấn đề GitHub #41930, Anthropic đã tung ra chương trình khuyến mãi hạn ngạch gấp đôi (gấp đôi trong thời gian thấp điểm) từ ngày 13 đến ngày 28 tháng 3, nhằm che đậy một cách khách quan tác động của lỗi. Sau khi chương trình khuyến mãi kết thúc, mức sử dụng lỗi bộ nhớ đệm sẽ quay trở lại mức thanh toán cơ bản thông thường và hạn ngạch của người dùng "bốc hơi" ngay lập tức.
Phản ứng của Anthropic không đến nhanh chóng. Vào ngày 26 tháng 3, ba ngày sau khi khiếu nại của người dùng nổ ra, kỹ sư Thariq Shihipar đã thông báo trên tài khoản X cá nhân của mình rằng các giới hạn trong giờ cao điểm (5 giờ sáng đến 11 giờ sáng theo giờ Thái Bình Dương các ngày trong tuần) đã được thắt chặt. Vào ngày 30 tháng 3, Anthropic thừa nhận trên Reddit rằng “người dùng đang đạt đến giới hạn của họ nhanh hơn nhiều so với dự kiến”, cho biết đây là ưu tiên cao nhất của nhóm. Phải đến ngày 1 tháng 4, thành viên nhóm Lydia Hallie mới đưa ra kết luận chính thức về cuộc điều tra.
Trong toàn bộ quá trình, Anthropic không xuất bản bất kỳ bài đăng blog nào, không gửi thông báo qua email hoặc cập nhật trang trạng thái. Tất cả thông tin liên lạc chính thức được thực hiện độc quyền thông qua các bài đăng trên mạng xã hội cá nhân từ các kỹ sư và một số bình luận trên Reddit.
Bạn đã trả bao nhiêu và nó sẽ kéo dài bao lâu?
Vấn đề GitHub #41930 tập hợp hàng trăm báo cáo của người dùng. Trường hợp nghiêm trọng nhất là người đăng ký Max 20x ($200/tháng) có thời lượng luân phiên 5 giờ đã hết hoàn toàn trong 19 phút. Người dùng tối đa 5x ($100/tháng) báo cáo rằng thời lượng 5 giờ sẽ hết sau 90 phút. Theo The Letter Two, một số người dùng cho rằng một câu "xin chào" đơn giản đã tiêu tốn 13% hạn ngạch phiên của họ. Một người dùng Pro ($20/tháng) cho biết trên Discord rằng tín dụng của anh ấy "đã hết vào thứ Hai hàng tuần và được đặt lại vào thứ Bảy" và chỉ có thể sử dụng được 12 ngày trong số 30 ngày.

Theo điểm chuẩn của ArkNill, trên phiên bản có lỗi v2.1.89, hạn ngạch 100% theo kế hoạch Max 20x sẽ hết sau khoảng 70 phút. Anh ấy cũng đã tính toán chi phí tín dụng của một hoạt động --resume duy nhất cho phiên bối cảnh mã thông báo 500K, khoảng 0,15 USD, vì hệ thống sẽ phát lại hoàn toàn toàn bộ bối cảnh.
"Bạn đang đi sai hướng"
Cuộc điều tra của Lydia Hallie đã kết luận hai điểm. Một là giới hạn giờ cao điểm thực sự đã được thắt chặt và thứ hai là mức tiêu thụ phiên của bối cảnh 1 triệu mã thông báo đã tăng lên. Cô cho biết nhóm đã sửa một số lỗi nhưng nhấn mạnh rằng "không có lỗi nào gây ra tình trạng tính phí quá mức".
Sau đó, cô đưa ra bốn gợi ý tiết kiệm chi phí:
1. Sử dụng Sonnet 4.6 thay vì Opus (Opus tiêu thụ nhanh gấp đôi);
2. Giảm cường độ suy luận hoặc tắt tư duy mở rộng khi không cần suy luận sâu;
3. Không tiếp tục các phiên dài đã không hoạt động trong hơn một giờ và mở một phiên mới;
4. Đặt biến môi trường CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 giới hạn kích thước cửa sổ ngữ cảnh.
Không có đề cập đến bất kỳ hình thức thiết lập lại giới hạn hoặc bồi thường nào.
Người dẫn chương trình AI Podcast Alex Volkov đã tóm tắt phản hồi này là "Bạn đang hiểu sai" (Bạn đang hiểu sai), chỉ ra rằng chính Anthropic đã đặt bối cảnh 1 triệu mã thông báo làm mặc định, quảng cáo Opus là mô hình hàng đầu và mở rộng tư duy như một điểm bán hàng, nhưng giờ đây khuyến nghị người dùng trả tiền không nên sử dụng các tính năng này.
Tuyên bố "không tính phí quá mức" cũng mâu thuẫn với hồ sơ cập nhật của chính Claude Code. Chỉ một ngày trước khi Lydia đưa ra phản hồi, v2.1.90 đã sửa lỗi hồi quy bộ nhớ đệm tồn tại từ phiên bản 2.1.69: khi tiếp tục một phiên sử dụng --resume, một yêu cầu đáng lẽ phải chạm vào bộ nhớ đệm sẽ gây ra lỗi bộ nhớ đệm hoàn toàn nhanh chóng, được tính phí đầy đủ. Phản hồi của Lydia không đề cập đến sự bất thường trong thanh toán đã được xác nhận này.

Để so sánh, Codex của OpenAI trước đây đã gặp phải vấn đề tiêu thụ hạn ngạch bất thường tương tự. Cách tiếp cận của OpenAI là đặt lại hạn ngạch người dùng, cấp lại tín dụng và vào tháng 3 đã thông báo loại bỏ giới hạn sử dụng Codex. Cách tiếp cận của Anthropic là khuyên người dùng hạ cấp mô hình, tắt tính năng, giới hạn bối cảnh và quy trách nhiệm cho cách người dùng sử dụng nó.
Anthropic bán các gói đăng ký cho “mô hình mạnh nhất + bối cảnh lớn nhất + khả năng lý luận cao nhất”, tính phí hàng tháng từ 20 đến 200 USD. Một lỗi bộ nhớ đệm kéo dài 28 ngày đã khiến tín dụng của người dùng trả phí bốc hơi với tốc độ 10-20 lần. Câu trả lời chính thức là để bạn tiết kiệm một số tiền.
