Галлюцинации недели: Antigravity 2.0, Codex и лимиты Claude

Месяц тишины в канале — это был отпуск, а не творческий кризис, честно. Но без всего этого я заскучал быстрее, чем рассчитывал. Вот сводка за время, пока меня не было.

Gemini Flash подорожал, DeepSeek подешевел, Андрей Карпаты присоединился к Anthropic, где Mythos взламывает чипы Apple. У всех свои планы на месяц.

На своём I/O Google показал Gemini 3.5 Flash и сразу отправил его в GA, не превью, не waitlist, а рабочая модель по умолчанию для агентов и кодинга. Цифры приятные: Intelligence Index вырос до 55, это +9 от прошлой версии, в Text Arena модель прыгнула на девятое место сразу на +70 очков, MMMU-Pro 84%, скорость за 280 токенов в секунду. Контекст на миллион токенов, четыре уровня мышления под разные задачи.

Новый Flash стоит $1.5/$9 за миллион токенов. Это в 5.5 раза дороже прошлого Flash и на 75% дороже, чем Gemini 3.1 Pro на момент его запуска. То есть "быстрая дешёвая модель" по цене подобралась к флагману прошлого поколения. Flash перестал быть бюджетным вариантом, он стал хорошим вариантом, а за хорошее придётся заплатить.

Вместе с моделью Google выкатил Antigravity 2.0, и это уже не редактор кода, а полноценная среда исполнения агентов, внешне очень похожая на Codex или Cursor. CLI, SDK, десктопное приложение, Managed Agents API с облачной песочницей на Linux, где агент сам гоняет bash, python и node, монтирует репозиторий и подхватывает skills, описанные обычным Markdown. В демо 93 параллельных суб-агента собрали операционную систему за 12 часов: 15 тысяч с лишним запросов, 2.6 миллиарда токенов и меньше тысячи долларов на API-кредитах.

Antigravity встаёт в один ряд с тем, что с января делали остальные. Конкуренция окончательно уехала от вопроса "чья модель умнее" к вопросу "чей harness удобнее". Cursor открыл SDK, чтобы его рантайм можно было встраивать в CI/CD и собственные автоматизации, а механизм /orchestrate срезал расход токенов на 20% и холодный старт на 80%. OpenAI за месяц превратил Codex из ассистента в платформу: Chrome-плагин для управления браузером в фоновых вкладках, режим /goal для задач на много часов (в тесте он набрал 61% на ARC-AGI-3 за 160 часов и 30 тысяч действий), мобильный запуск прямо из приложения ChatGPT. За первую неделю мобильный Codex взял 4 миллиона недельных пользователей и миллион загрузок, Remote SSH доехал до GA. А под конец месяца Codex научился управлять приложениями на вашем Mac прямо с телефона, даже когда Mac заблокирован. Плюс Appshots: агент снимает скриншот и текст из окна, чтобы понимать, что вообще происходит на экране. VS Code, не отставая, добавил Agents Window для работы с несколькими агентами по нескольким проектам.

Раз агентов стало много, протокол под них тоже пришлось чинить. Свежий релиз-кандидат MCP (датирован 2026-07-28) делает протокол полностью stateless: больше нет рукопожатия и session ID, любой запрос может прилететь на любой инстанс сервера. Для инфраструктурных команд это означает, что MCP-серверы наконец масштабируются и балансируются как нормальные stateless-сервисы, а не как капризные сессии, которые нельзя ронять. Заодно в протокол завезли полноценные расширения: MCP Apps и Tasks. MCP то хоронят, то чинят.

Параллельно с харнессами весь месяц шла другая война, ценовая. DeepSeek сделал скидку 75% на V4 Pro постоянной, и Artificial Analysis посчитал итог: $0.435 за миллион входных токенов, $0.87 за выходные, $0.0036 за кэш. Это примерно втрое дешевле Gemini 3.1 Pro, в 12 раз дешевле GPT-5.5 и в 19 раз дешевле Claude Opus 4.7 на одних и тех же прогонах. При этом по качеству на агентных бенчах V4 Pro держится в одной группе с куда более дорогими моделями.

Тот же сдвиг виден и на бирже. Cerebras вышла на IPO, и её финансовый директор Боб Комин прямо сказал, что компания обслуживает модели на триллион параметров, в том числе внутренние OpenAI 5.4 и 5.5.

На фоне дешёвых открытых моделей отдельно стоит Qwen3.7-Max. Превью Max и Plus появились на Arena, Max занял пятое место у Artificial Analysis, примерно на уровне GPT-5.4 в режиме xhigh и чуть выше Gemini 3.5 Flash. Звучит как ещё одна победа open-weight, но это не так: Max-серию Alibaba исторически не открывает, и эта вряд ли станет исключением. Из заметных слабостей: модель многословна и сжигает токены, так что её "дешевизна" на практике может оказаться не такой уж дешёвой.

У Anthropic месяц вышел нервный. С 15 июня платные планы Claude получают отдельный кредитный пул под programmatic-использование: Agent SDK, claude -p, GitHub Actions. Формально это "уточнение лимитов", по факту тихий даунгрейд: разработчики посчитали, что практическая ценность тарифа на автоматизацию упала с условных $2000 токенов до $200. Реакция была предсказуемо громкой, пошла волна отписок, и Anthropic в ответ задрала недельные лимиты на 50% до 13 июля и сбросила пятичасовые. История знакомая: сначала приучаем к щедрости, потом аккуратно закручиваем гайки, потом откатываемся. И всё это на фоне оценки в районе $900 миллиардов и доли бизнес-клиентов в 34.4% против 32.3% у OpenAI.

Андрей Карпаты присоединился к команде Anthropic, снова к передовым исследованиям LLM, с паузой в образовательных проектах. По данным Axios, заниматься он будет автоматизацией ресёрча и новым направлением в pretraining. Когда человек, которого половина индустрии знает по его обучающим видео, бросает преподавание ради pretraining, это само по себе сигнал, куда сместился интерес.

Команда Calif (Брюс Дэнг, Дион Блазакис и Джош Мэйн) вместе с Mythos Preview нашла первую публичную уязвимость повреждения памяти ядра на чипе Apple M5, ту самую, что обходит MIE, аппаратную защиту целостности памяти, которую Apple строила годами. Хронология отрезвляет: уязвимость обнаружили 25 апреля, рабочий эксплойт собрали к 1 мая (пять дней), а 14 мая уже сидели с этим в Apple Park. Цель: macOS 26.4.1, механизм: data-only цепочка повышения привилегий от обычного пользователя до root через системные вызовы. Это не единичный фокус: тот же Mythos за месяц помог в рамках Project Glasswing найти больше десяти тысяч критических уязвимостей и стал первой моделью, прошедшей оба кибердиапазона AISI. Защиту строили пять лет, обошли за пять дней. Сторона меча в этой паре пока разгоняется быстрее стороны щита.

Интересный вопрос: если "дешёвая" модель сжигает на задаче вдвое больше токенов, она всё ещё дешёвая?

Оставайтесь любопытными.

Галлюцинации недели: Antigravity 2.0, Codex в телефоне и тихий бунт подписчиков Claude

Другие статьи на эту тему