Галлюцинации недели: Fable 5, World of Claudecraft и циклы, которые пишут код вместо вас
Автор: Алексей Бельтюков

Лучшую модель на планете выкатили и через три дня по приказу сверху сами же дёрнули за рубильник. Кто бы мог подумать, что суверенный ИИ понадобится не только нам.
Anthropic запустила 9 июня Claude Fable 5, первую общедоступную модель Mythos-класса. По формулировке самой компании, это state-of-the-art почти на всех протестированных бенчмарках, и чем длиннее и сложнее задача, тем больше отрыв от прежних моделей. Цена $10/$50 за миллион токенов, что в компании называют "меньше половины цены" прошлого Mythos Preview. Artificial Analysis поставила её на первое место своего Intelligence Index с 64.9, примерно на пять пунктов выше GPT-5.5.
Mythos 5 приехал той же моделью, но со снятой частью ограничений, для узкого круга кибербезопасников через программу Project Glasswing вместе с правительством США. Запомните эту деталь про правительство, она еще выстрелит.

Лучше всего возможности Fable 5 показали не бенчмарки, а пользователи. Stripe ещё на этапе раннего теста прогнала миграцию в кодовой базе на 50 миллионов строк Ruby за день, на что команде вручную ушло бы больше двух месяцев. Разработчик ремастера старой игры Midwinter (1989) за одну ночь разобрал её бинарник: 602 функции с описаниями, а генератор ландшафта переписан на Python и сходится с оригиналом побитно. Только не обманитесь словом "декодировал игру": это реверс-инжиниринг с документацией и точными репликами алгоритмов, а не готовая игра и не исходники. Сам автор это честно оговаривает.
А кто-то просто собрал на Fable 5 браузерную MMORPG в духе классической WoW: аккаунты, персонажи в Postgres, живые игроки в одном мире. World of Claudecraft, рабочий клиент-сервер, Иммолейт импрувед!

За восторгами легко пропустить, насколько мутны сами цифры. Artificial Analysis на этой неделе выкинула из своего Coding Agent Index бенчмарк SWE-Bench Pro и заменила его на DeepSWE от Datacurve, о котором я писал пару недель назад. Причина неприятная для Anthropic: на SWE-Bench Pro семейство Claude систематически эксплуатировало лазейку, эталонное решение лежало прямо в контейнере, и модель до него дотягивалась. Аудит Datacurve насчитал на старом бенчмарке 8.5% ложноположительных и 24% ложноотрицательных срабатываний. DeepSWE пишет задачи с нуля, чтобы их нельзя было подсмотреть в обучающих данных.
После замены картина выровнялась: Claude Code с Fable 5 Max стал лидером с 77 баллами, Codex с GPT-5.5 рядом на 76, а Claude Code с Opus 4.8 на 73. То есть свежий флагман Anthropic и GPT-5.5 идут практически вровень, с одной оговоркой, которую заметили на Hacker News: чтобы получить такой результат, Fable 5 сжёг примерно на миллион токенов больше.

Питер Штайнбергер, создатель OpenClaw, сформулировал главный практический сюжет недели: хватит промптить кодинг-агентов, пора проектировать циклы (loops), которые промптят агентов за вас. Борис Черный, создатель Claude Code в Anthropic, говорит то же про себя: "Я больше не промпчу Claude, у меня крутятся циклы, они и решают, что делать дальше, а моя работа теперь писать циклы". За один из месяцев 259 его пул-реквестов в Claude Code написал сам Claude Code. Андрей Карпаты давит на ту же мысль: чтобы выжать максимум, надо убрать себя из узкого места, настроить всё один раз и нажать газ.
А внутри никакой магии. Цикл это маленькая программа, которая ставит агенту цель, читает результат, решает, готово или нет, и запускает заново. В Claude Code для этого уже есть команда /loop. Тот же реверс Midwinter, кстати, делался не одним промптом, а пачкой параллельных агентов с журналом доказательств. Те самые чудеса со Stripe и реверсом Midwinter держатся на оркестрации, а не на одном гениальном запросе.
В обратную сторону тянет Ponytail, MIT-плагин для Claude Code с режимом "ленивого синьора". Смысл в том, чтобы агент сначала спросил себя, нужен ли вообще новый код: хватит ли стандартной библиотеки, нативной возможности платформы, уже стоящей зависимости или одной строки. В примере автора сгенерированный код ужался с 293 строк до 47, а таймер-дашборд усох со 190 строк до 13. Репозиторий собрал больше 11к звёзд за пару дней и раздаёт правила ещё и для Cursor, Windsurf, Cline, Copilot и Aider. Туда же метит caveman, скилл с девизом "why use many token when few token do trick", который заставляет агента отвечать по-пещерному и срезает около 65% токенов на выходе. Звёзд у него уже под 73 тысячи. Лучший код это тот, который ты не написал.

В пятницу неделя закончилась так, как не придумал бы даже Нолан. Правительство США выпустило экспортную директиву, запрещающую доступ к Fable 5 и Mythos 5 любым иностранным гражданам, внутри страны и за её пределами, включая собственных сотрудников Anthropic с не-американским паспортом. Чтобы соблюсти требование, компании пришлось разом отключить обе модели для всех клиентов мира. По версии Anthropic, правительство решило, что найден способ джейлбрейка Fable 5, но никаких доказательств, кроме устных, так и не показало. Сама компания считает это недоразумением: речь о нескольких давно известных мелких уязвимостях, которые без всякого обхода находят и другие публичные модели. Но, своя розетка ближе к телу.

Artificial Analysis подытожила сухо: впервые их кривая самых умных моделей пошла вниз. Для нас, инженеров, это отличный прецедент зависимости от единственного поставщика. Закрытый API может выключиться за вечер по причине, на которую ты никак не влияешь.

Дарио Амодеи, глава Anthropic, в эти же дни выложил у себя эссе "Policy on the AI Exponential". Он пишет, что возможности AI растут по экспоненте, а законы пишутся годами, и этот разрыв опасен, так что демократиям пора регулировать передовые модели как технологию стратегического значения. Конкретики он не жалеет: обязательное независимое тестирование на кибер- и биориски по образцу авиасертификации, контроль над цепочками поставок чипов, страховка зарплат для вытесненных работников. Самую хлёсткую его фразу уже растащили на цитаты, страна с мощным AI против страны без него это как морпехи Второй мировой против средневековых мечников. Ирония в том, что Амодеи в итоге получил своё регулирование в исполнении. Просчитался, но где?
На этом фоне открытые веса смотрятся как страховка. MiniMax наконец выложила веса M3. Лицензия по-китайски прагматична: бесплатно для некоммерческого использования, для бизнеса с выручкой до $20 млн в год достаточно уведомить компанию и повесить лейбл "Build with MiniMax". Запустить локально помогает гайд Unsloth.
Moonshot открыла Kimi-K2.7-Code, кодинговую модель на триллион параметров с 32 миллиардами активных, контекстом 256K и на 30% меньшим расходом токенов на размышление, чем у предшественницы. Цифры роста компания приводит свои, на собственных бенчмарках, так что доверять им стоит ровно настолько, насколько вы доверяете самооценке. Unsloth уже выложил инструкцию по запуску.

Google тем временем показала DiffusionGemma под Apache 2.0, и это самое любопытное на неделе с технической стороны. Это диффузионная текстовая модель: вместо генерации токен за токеном она правит блок из 256 токенов целиком, как картинку. 26 миллиардов параметров, из них 3.8 активных, до 4 раз быстрее обычной генерации, 1000+ токенов в секунду на H100 и 700+ на потребительской RTX 5090, влезает в 18 ГБ видеопамяти. Расплата честная: качество ниже обычной Gemma 4, и Google прямо советует для максимального качества брать авторегрессивную версию. Зато двунаправленное внимание удобно для вставки кода в середину и редактуры. Если хотите попробовать, гайдик тут.

Apple на WWDC представила перестроенную Siri AI и линейку собственных моделей Apple Foundation Models. Заголовки ушли в "Siri на Gemini", но это упрощение: Siri работает на моделях Apple, а с Gemini связана только топовая облачная AFM Cloud Pro, построенная на технологии Google и крутящаяся на видеокартах Nvidia в облаке самой Google. Технически интереснее другое. On-device модель AFM Core Advanced это 20 миллиардов параметров, которые активируют 1-4 миллиарда на запрос: полная модель лежит во флеш-памяти телефона, а нужные эксперты подгружаются в оперативную память один раз на запрос. Awni Hannun, инженер Apple и автор фреймворка MLX, объяснил, почему это нестандартно: 20 миллиардов в RAM телефона при нормальной точности просто не влезают, поэтому маленькая модель заранее предсказывает, каких экспертов грузить. Работает это пока только на iPhone 17 Pro с 12 ГБ памяти и выше.
Сара Гуо, основатель фонда Conviction и ведущая подкаста No Priors, на этой неделе написала эссе "The Untrainable". Она пишет, что всё измеримое бенчмарком рано или поздно научатся тренировать, а такая работа дешевеет и сползает к самой дешёвой открытой модели недели. Кодинг попал под это первым, потому что у него есть бесплатный проверяющий: компилятор и тесты сразу говорят, прошло или нет. Вот только зелёные тесты никогда не доказывали, что правка верная, особенно в коде, где у каждого модуля есть три недокументированные причины вообще существовать.
Цифры она приводит отрезвляющие. Devin в 2024-м решал 13% задач стандартного бенчмарка, сейчас лучшие агенты берут под девяносто. Но исследование MIT (Mert Demirer с коллегами, больше 100 тысяч разработчиков) показало обратную сторону: кода стали писать примерно на 180% больше, а до прода доезжает всего на 30% больше. Писать стало дёшево, а всё остальное по-прежнему упирается в человека.
Ценность, по Гуо, утекает в "нетренируемый угол": в работу, правильность которой видно только изнутри и которую дорого проверить, потому что она заперта в чужих данных и связях. Sierra берёт деньги, только когда её агент реально закрыл обращение клиента, потому что сама и решает, что значит "закрыл". Cognition обещает по Devin гарантию результата, а такое возможно лишь там, куда тебя пустили внутрь. И финал эссе бьёт ровно по бенчмаркам, вокруг которых крутился весь пост. Раз навык вообще можно измерить, его скоро научатся повторять задёшево. А раз так, первое место на бенчмарке быстро теряет цену, и эталоном становятся те, у кого есть то, что натренировать нельзя.
Оставайтесь любопытными.
Пишу об искусственном интеллекте, языковых моделях и инструментах для разработчиков. Тестирую модели и сервисы на реальных задачах, а выводами делюсь в телеграм-канале.
