Галлюцинации недели: DeepSeek V4, Kimi K2.6 и неконтролируемые галлюцинации нового флагмана OpenAI

Codex на Mac становится супераппом, Anthropic выкатила постмортем на собственные баги, а DeepSeek на 58 страницах объяснил, почему у них лучшая open weight модель.
OpenAI выпустила GPT-5.5 и позиционирует её как "флагман для реальной работы и автономных потоков". Цена $5 за миллион входных и $30 за миллион выходных токенов, у Pro варианта $30/$180. Это ровно вдвое дороже GPT-5.4 за токен. Идею "за это надо платить" компенсируют тем, что модель тратит токенов меньше: Artificial Analysis отрапортовала ~40% сокращения расхода токенов по их Intelligence Index, и итоговый счёт растёт всего на ~20%. Контекст 1M в API, 400K в Codex.
Бенчмарки это подтверждают. Terminal-Bench 2.0: 82.7%, OSWorld-Verified: 78.7%, SWE-Bench Pro: 58.6%. ARC Prize подтвердил ARC-AGI-2 на 85.0% при цене $1.87 за задачу. На Intelligence Index от AA модель заняла чистое первое место, при этом GPT-5.5 medium сравнялся с Claude Opus 4.7 max при ~четверти стоимости. Дэн Шиппер из Every протестировал её на их Senior Engineer benchmark, 62/100 против 33/100 у Opus 4.7, причём лучшие результаты получились, когда план писал Opus, а реализовывал GPT-5.5.

Ложка дёгтя у этой модели одна и большая. Hallucination rate на AA-Omniscience у GPT-5.5 — 86%. У Opus 4.7 этот же показатель 36%, у Gemini 3.1 Pro Preview 50%. Если планируете использовать её там, где правда важнее темпа, это надо держать в голове.
Главное событие дня прячется не в самой модели. К релизу Codex Mac App прикрутили управление браузером, работу с Sheets и Slides, Docs и PDF, системную диктовку и автоматический ревью кода. WSJ ещё в марте писали, что OpenAI готовит desktop superapp, и теперь понятно, на чём он строится.

DeepSeek дропнул долгожданную V4. Это первое крупное обновление архитектуры с DSV3, и они выкатили сразу два модельных тира. V4 Pro даёт 1.6T параметров MoE с 49B активных, V4 Flash 284B/13B. У обеих контекст 1M, обе под MIT, обе работают на Huawei Ascend через CANN. Цены агрессивные, Pro $1.74/$3.48 за миллион, Flash $0.14/$0.28. И в техотчёте на 58 страниц лежит главное: новая система длинного контекста, где KV-cache сжимается до 9.62 GiB на 1M токенов против 83.9 GiB у V3.2. В 8.7 раза меньше. На AA Intelligence Index V4 Pro в режиме max выдал 52, став вторым среди open weights после Kimi K2.6. Несколько ресёрчеров называли сам пейпер "самым важным AI-текстом года".

У V4 та же проблема — галлюцинации. AA-Omniscience: 94% у Pro, 96% у Flash. Цены смотрятся хорошо ровно до момента, пока не считаешь стоимость полного прогона их индекса: V4 Pro съел 190 миллионов выходных токенов, V4 Flash — 240. Дёшево за токен ≠ дёшево за задачу.
Moonshot за пару дней до этого показала Kimi K2.6, 1T MoE с 32B активных и 256K контекста, по Modified MIT. По их собственным агентским демкам видно, к чему всё идёт. Один прогон скачивал и оптимизировал Zig-инференс Qwen3.5-0.8B больше 12 часов через 4000+ tool calls и поднял пропускную способность с 15 до 193 tok/sec. Другой за 1000+ tool calls перепахал exchange-core биржевого матчинга и выдал +185% к медианной пропускной способности. Это всё ещё вендорские демонстрации, но они ближе к реальной работе, чем скриншоты из лидербордов. На r/LocalLLaMA появились тонны постов в духе "Kimi K2.6 закрывает 85% задач, для которых я держал Opus 4.7". Учитывая разницу в цене и open weight, это серьёзный сигнал.
Xiaomi на этой же неделе анонсировала MiMo-V2.5 и V2.5-Pro — третий китайский open-weight игрок рядом с Kimi и DeepSeek. V2.5-Pro заточен под код и длинные агентные сессии: SWE-bench Pro 57.2, τ3-Bench 72.9, Claw-Eval 63.8, заявлены 1000+ автономных tool calls. Базовый V2.5 идёт с нативной омнимодальностью и контекстом 1M. Семейство менее раскрученное, чем Kimi или DeepSeek, но Artificial Analysis уже встроил MiMo в свой Index, а Hermes agent подхватил интеграцию за пару дней.

На прошлой неделе я писал про Qwen 3.6 35B-A3B, на этой Alibaba выпустила её dense-сестру Qwen 3.6 27B под Apache 2.0. Разница в архитектуре. У MoE-версии 35B параметров суммарно, но на каждом токене активны только 3B (отсюда "A3B"), это даёт ~65 tok/sec на M5 Max. У dense все 27B работают на каждом токене: 24 tok/sec, зато точность и стабильность на длинных инструкциях выше. 27B и стала главной локальной историей недели.
По коду 27B обходит свою же Qwen3.5-397B-A17B MoE. SWE-bench Verified 77.2 против 76.2, SWE-bench Pro 53.5 против 50.9, Terminal-Bench 2.0 59.3 против 52.5. Пишут, что на M5 Max через llama.cpp ощущения близкие к Opus на многих задачах кода (но мы то всё понимаем). С квантизацией модель влезает в 16GB VRAM. Если грубо, 35B-A3B берёшь, когда важна скорость, 27B, когда важна точность.

Внутри Anthropic параллельно бушевал свой шторм. Сначала Claude Code тихо исчез из Pro-плана за $20, что было оформлено как A/B-тест на 2% новых подписчиков. Реддит и твиттер взорвались за день, Anthropic объяснила это растущей нагрузкой на Max-тариф: Claude Code, Cowork, длинные асинхронные агенты, всё дорого. Сэм Альтман в твиттере бросил ехидное "ok boomer". Через пару дней Claude Code в Pro вернулся, но осадочек остался.
Anthropic ещё и опубликовала постмортем на три бага, которые целый месяц подтачивали Claude Code:
- 4 марта незаметно понизили reasoning effort с high до medium ради снижения латентности, откатили только 7 апреля.
- С 26 марта кеш-баг приводил к тому, что Claude забывал свою историю reasoning, кеш промахивался, лимиты у пользователей сгорали быстрее обычного.
- 16 апреля изменение system prompt ограничило ответы между tool calls 25 словами и заметно ухудшило кодинг, откатили 20-го.
Все три починили в v2.1.116, всем подписчикам сбросили лимиты. Хорошо, что Anthropic вообще выпустила такой постмортем, для AI-лаб это редкий жанр.
В тот же день, что и GPT-5.5, OpenAI запустила Workspace Agents в ChatGPT для бизнес-планов, образования и команд. Это Codex-агенты, которые умеют ходить по docs, email, чату, коду и внешним системам, имеют доступ к Slack-воркфлоу и могут запускаться в фоне или по расписанию. Та же история, что и с Codex за пределами кодинга: продукт сдвигается в сторону рабочего стола команды, а не отдельного юзера в чате.
GPT-Image-2 взорвала интернет, на Image Arena #1 во всех лидербордах, text-to-image 1512, single-image edit 1513, multi-image edit 1464. Лидерство +242 Elo по text-to-image — это уровень смены поколения. Главное, что она читает и пишет текст внутри картинки и выдаёт UI-макеты, инфографику и QR-коды как полноценные читаемые артефакты, готовые к использованию. Thinking-вариант умеет проверять собственный вывод и итерировать, и да, на одну картинку уходит до 11 минут.

Cursor подписал контракт с xAI на $10 миллиардов с опционом на покупку Cursor за $60 миллиардов. Цифры такие, что новостной фон GPT-Image-2 их еле закрыл. Если опцион сработает, это будет крупнейшая M&A в AI-tooling и одновременно попытка запереть AI-кодинг внутри одного экосистемного контура. Сидеть на двух стульях (модель и IDE/среда) сейчас вообще модно: у OpenAI это Codex, у Anthropic Claude Code, у Google потенциально что угодно через Gemini. Cursor через xAI получает дешёвую и подконтрольную модель и финансирование, xAI получает распределение через инструмент с миллионами активных разработчиков.
Пока Кремниевая долина делит AI-инструменты, в нашей версии Матрицы красная таблетка теперь продаётся в RuStore, а синяя через турецкий App Store.
Оставайтесь любопытными.



