3 слова "hello" — і вже ліміт, куди поділося ваше обмеження на Claude Code? Помилка кешу, яка тривала 28 днів, і офіційна відповідь, що змусить вас «економити».

robot
Генерація анотацій у процесі

Оригінальний заголовок: 3 слова hello — і ліміт вичерпано, куди поділися ваші ліміти для Claude Code? Кеш-баг, що розтягнувся на 28 днів, і офіційна відповідь, яка підказує вам «витрачати обережно»

Оригінальний автор:律动BlockBeats

Оригінальне джерело:

Переслано: 火星财经

4-17%. Це рівень зчитування prompt cache для Claude Code за минулий місяць. Нормальний рівень — 97-99%.

Це означає, що коли ви відновлюєте попередню сесію, Claude Code не повторно використовує контекст, який уже було опрацьовано раніше, а щоразу з нуля обробляє весь вміст. У результаті витрати лімітів у 10–20 разів вищі, ніж за нормальних умов. Ви думаєте, що продовжуєте розмову, але насправді щоразу починаєте абсолютно нову, повністю оплачувану розмову.

Цифри отримані з практичних тестів незалежного розробника ArkNill, який здійснював проксі-моніторинг. Він налаштував прозорий проксі, щоб записувати кожен запит між Claude Code та Anthropic API, і з’ясував щонайменше два клієнтські кеш-баги, через які API-сервер не міг зіставити префікс кешованої розмови, тож його змусило кожним раундом виконувати повне відтворення токенів.

На верхньому зображенні показано порівняння рівня зчитування кешу на трьох етапах. У періоді v2.1.69–v2.1.89 (тобто коли баг існував) standalone-версія мала лише 4–17% рівня зчитування кешу. Після того як v2.1.90 виправив один із критичних багів, рівень зчитування кешу після холодного старту повернувся до 47–99,7%. А починаючи з v2.1.91, за стабільної роботи рівень зчитування кешу відновився до 97–99%.

Варто зазначити одну деталь на графіку: у діапазоні v2.1.90 розкид був дуже великий (від 47% до 99,7%), бо під час відновлення сесії кеш ще потрібно «прогріти». На перших раундах показники влучань були нижчими, але згодом швидко поверталися до норми. Натомість у баг-версії такого прогріву ніколи не відбувається: зчитування кешу назавжди лишається на рівні 14 500 токенів системного промпту, а вся історія діалогів щоразу нараховується за повним тарифом.

28 днів, 20 версій

Цей баг не з’явився внаслідок якогось одного оновлення, а потім був виправлений наступним. Згідно з записами про релізи в npm registry, баг-вразливість з версії v2.1.69 вийшла 4 березня, а виправлення багу в версії v2.1.90 — 1 квітня. Між ними — 28 днів і 20 версій.

Хронологія розкриває цікаву деталь. Після появи багу 4 березня користувачі не почали одразу масово скаржитися. Лише 23 березня хвиля протестів спалахнула, а між цими датами минуло майже три тижні. Причина, як випливає з аналізу GitHub issue #41930, полягала в тому, що з 13 по 28 березня Anthropic запустив(ла) промо зі збільшенням лімітів удвічі (подвоєння в off-peak періодах), що об’єктивно маскувало вплив багу. Після завершення промо витрати через кеш-баг повернулися до звичайної базової моделі нарахувань, і ліміти користувачів миттєво «випарувалися».

Відповідь Anthropic надійшла не дуже швидко. 26 березня — через три дні після спалаху скарг — інженер Thariq Shihipar у своєму особистому акаунті X оголосив, що ліміти в години пік (робочі дні з 5:00 до 11:00 PT) були знижені. 30 березня Anthropic визнав на Reddit, що «швидкість, з якою користувачі досягають ліміту, значно перевищила очікування», і зазначив, що це внесено до переліку найвищих пріоритетів команди. Лише до 1 квітня член команди Lydia Hallie опублікувала офіційні висновки розслідування.

Протягом усього процесу Anthropic не опублікував жодної статті в блозі, не надсилав листів і не оновлював статусну сторінку. Уся офіційна комунікація відбувалася лише через особисті пости інженерів у соцмережах і кілька коментарів на Reddit.

Скільки ви заплатили і як довго можете користуватися?

GitHub issue #41930 зібрав сотні повідомлень від користувачів. Найекстремальніший випадок — у користувача з підпискою Max 20x ($200/місяць): його 5-годинне «ковзне» вікно було повністю вичерпано за 19 хвилин. Користувачі Max 5x ($100/місяць) повідомляли, що 5-годинне вікно вони витрачали за 90 хвилин. Як повідомляє The Letter Two, є також користувачі, які стверджують, що навіть одна проста «hello» споживає 13% ліміту сесії. Один Pro-користувач ($20/місяць) у Discord зазначив, що його ліміт «закінчується вже в перший день тижня, а в суботу тільки скидається», і за 30 днів лише 12 днів можна нормально користуватися.

За бенчмарками ArkNill, у версії-багу v2.1.89 ліміт 100% для плану Max 20x закінчувався приблизно за 70 хвилин. Він також підрахував вартість ліміту для одного операційного виклику --resume для сесії контексту на 500K токенів — приблизно $0.15, бо система повністю заново програє весь контекст.

«Ви тримаєте це не так»

Висновки розслідування Lydia Hallie підтвердили дві речі: по-перше, ліміти в години пік справді були знижені; по-друге, витрати на сесії з контекстом у 1 мільйон токенів зросли. Вона зазначила, що команда виправила деякі баги, але підкреслила: «Жоден із багів не спричинив додаткові нарахування».

Після цього вона дала чотири поради, як економніше витрачати: 1. Використовуйте Sonnet 4.6 замість Opus (Opus витрачає приблизно вдвічі швидше);

  1. Коли не потрібне глибоке міркування, зменшуйте силу міркування або вимикайте extended thinking;

  2. Довгі сесії, в яких ви неактивні понад годину, не відновлюйте — відкрийте нову;

  3. Налаштуйте змінну середовища CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000, щоб обмежити розмір контекстного вікна.

Жодної згадки про будь-які форми скидання лімітів або компенсації не було.

Ведучий AI-подкасту Alex Volkov підсумував цю відповідь як «Ви тримаєте це не так» (You’re holding it wrong). Він зазначив, що Anthropic сам налаштував 1 мільйон токенів контексту як значення за замовчуванням, просував Opus як флагманську модель і подавав extended thinking як перевагу, а тепер радить платним користувачам не користуватися цими функціями.

Твердження про те, що «не було додаткових нарахувань», також суперечить записам оновлень самого Claude Code. За день до публікації відповіді Lydia, v2.1.90 виправив кеш-регресійний баг, який існував із v2.1.69: під час відновлення сесії за допомогою --resume запити, які мали потрапляти в кеш, спричиняли повний prompt cache miss і нараховувалися за повною ціною. У відповіді Lydia цього підтвердженого аномального нарахування не згадано.

Для порівняння: раніше подібна проблема аномального споживання лімітів траплялася і в Codex від OpenAI. Дії OpenAI полягали в тому, щоб скидати ліміти користувачам, надсилати додаткові credits, а також у березні оголосити про видалення верхньої межі використання Codex. Натомість дії Anthropic — радити користувачам знижувати рівень моделі, вимикати функції, обмежувати контекст і перекладати відповідальність на спосіб використання користувачами.

Anthropic продає підписку «найсильніша модель + максимальний контекст + найвища здатність до міркування», беручи $20–200 на місяць. Кеш-баг, що тривав 28 днів, змушує ліміти платних користувачів «випаровуватися» зі швидкістю в 10–20 разів. А офіційна відповідь каже вам «витрачайте обережно».

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.26KХолдери:2
    0.07%
  • Рин. кап.:$2.22KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:0
    0.00%
  • Закріпити