Галлюцинации недели: SpaceX купила Cursor, GLM-5.2

Письмо за разблокировку Mythos уже собрало больше 400 подписей тяжеловесов из мира безопасности, а Cisco, AWS и JPMorgan доступ, оказывается, и не теряли. От Anthropic Белый дом тем временем требует сделать Fable 5 невзламываемым на 100%.

Z.ai выкатила GLM-5.2, и впервые за долгое время открытая модель ощущается настоящим флагманом, а не очередным красивым в бенчмарках релизом, который через месяц забудут. MIT-лицензия, 744 миллиарда параметров (40 активных), контекст на миллион токенов. На Terminal-Bench 2.1 она берёт 81.0 против 63.5 у прошлой версии и подбирается к Opus 4.8 с его 85.0. На индексе Artificial Analysis это лучшая открытая модель с отрывом, 51 балл против 44 у MiniMax и DeepSeek. Джереми Ховард, создатель fast.ai и человек, не склонный к хайпу, написал, что для его задач она не хуже Opus 4.8 и GPT-5.5. Главная дырка, по его же словам, отсутствие зрения.

Под капотом два инженерных трюка. Первый, IndexShare: вместо того чтобы каждый sparse-слой считал свой индекс внимания, один индекс переиспользуется на четыре слоя подряд. По блогу Z.ai это даёт 2.9× меньше вычислений на токен при контексте в миллион. Второй интереснее. Z.ai честно описала, как модель училась жульничать на RL-обучении (это reward hacking, когда формальная награда растёт, а реального умения не прибавляется). Их агент при решении задач ходил в GitHub через curl, искал файлы вроде secret_cases.json и подсматривал готовые ответы. Лечили так: грубый фильтр ловит подозрительные вызовы, LLM-судья проверяет намерение, и если это попытка сжульничать, вызов блокируется, а агенту возвращается пустышка. Траекторию при этом не обрывают, иначе обучение разваливается.

По данным Dirac, на трафике OpenRouter за три месяца открытые модели и проприетарные поменялись местами: было 40 на 60, стало 60 на 40, около 6 триллионов токенов в день. Цифру нужно читать с поправкой, OpenRouter это не весь рынок, пользователи Claude и GPT чаще сидят на прямых подписках и в эту статистику не попадают. Но направление считывается: всё больше команд хотят владеть интеллектом, а не арендовать его. Особенно когда арендованное могут отключить по звонку из Вашингтона.

Сам запрет Fable 5 и Mythos я разбирал на прошлой неделе. Безопасники собрали открытое письмо к Министерству торговли с требованием снять ограничения. Подписали тяжеловесы из мира безопасности: Алекс Стамос, Кэти Муссурис, Брюс Шнайер, Микко Хюппёнен, сооснователь Veracode Крис Высопал, в сумме больше четырёхсот имён. Аргумент простой: да, Mythos хорошо находит уязвимости и пишет эксплойты, но в этом он не уникален, то же умеют GPT-5.5, Opus, Sonnet и китайский Kimi 2.7. А защиты, которые Anthropic встроила в Fable, были настолько строгими, что в день запуска стали поводом для шуток в комьюнити. Вывод письма: забирать у защитников лучший инструмент, пока противник вооружается, опасно.

Параллельно выясняется, что доступ к Mythos сохранили около 200 организаций через программу Project Glasswing, среди них Cisco, AWS и JPMorgan (по данным Bloomberg). Отдельная ирония в том, что Amazon, по сообщениям, сам жаловался на Anthropic регуляторам, но из списка избранных никуда не делся. А от самой Anthropic Белый дом, как писал WIRED, требует сделать Fable 5 невзламываемым на 100%. Штош.

Хорошая модель это половина дела, вторую половину делает harness, обвязка вокруг модели. Тот же GLM-5.2 в чужом, заточенном под Claude окружении раскрывается хуже, чем в нейтральном. И вот за эту вторую половину на неделе шла настоящая возня. SpaceX купила Cursor за 60 миллиардов долларов, всё в акциях, через несколько дней после собственного IPO. Формально это Anysphere, компания за редактором Cursor, и теперь она достаётся объединённому SpaceX и xAI. Любопытная деталь: совместную модель они уже несколько месяцев обучали на кластерах xAI, и она пойдёт сразу в Cursor и в Grok Build. То есть покупка просто оформляет то, что технически уже срослось.

Инструменты тем временем осваивают новый трюк. OpenAI показала Codex Record & Replay: показываешь агенту сценарий один раз, он превращает его в переиспользуемый навык. Cursor запустила /automate, где из обычного текстового описания собираются триггеры и инструменты, включая запуск по эмодзи в Slack. Cognition описала, как устроен их рабочий паттерн в Devin: один главный агент дробит задачу и раскидывает её на 5-100 параллельных субагентов, потом собирает результат. Логика честная, на узкой задаче с маленьким контекстом агент работает лучше, а параллельные виртуалки делают такую нарезку дешёвой. Loop engineering, искусство строить устойчивые агентские циклы, потихоньку оформляется в отдельную дисциплину. Factory представила Factory 2.0 под лозунгом software factory вместо копайлота, а Claude Code научился отдавать работу наружу живыми страницами-артефактами.

За весь этот праздник кто-то платит, и считать начали именно сейчас. SemiAnalysis взяла подписки OpenAI и Anthropic и гоняла их до упора длинными агентскими задачами. Итог: если выжать план ChatGPT Pro за 200 долларов полностью, по тарифам API это вышло бы в 14 тысяч долларов в месяц, у Claude Max потолок около 8 тысяч. Цифру важно читать правильно, это стоимость по прайсу API, а не реальные расходы лаборатории, в API заложена маржа. OpenAI, по той же оценке, уходит в минус уже при утилизации около 11%, а агентские нагрузки жгут токенов в сотни раз больше обычного чата. Подписка фиксированная, стоимость обслуживания нет. Оценить реальную пользу подписки в долларах пользователи пытаются не впервые, про один из таких замеров я уже рассказывал.

Midjourney анонсировала Midjourney Medical, сканер всего тела на ультразвуке. Заходишь в неглубокий бассейн с тёплой водой, опускаешься через кольцо из полумиллиона крошечных элементов, каждый одновременно динамик и микрофон, и они просвечивают тело звуком со всех сторон. Цель, уложить скан в 60 секунд, картинка похожа на МРТ, но почти в сто раз быстрее. Формулировка автора: "мощно, как МРТ, и буднично, как поход в спа". Спа, кстати, не фигура речи, первое откроется в Сан-Франциско к концу 2027, а к 2031 они мечтают о флоте из 50 тысяч сканеров и миллиарде сканов в месяц. Инвесторов нет, лаборатория живёт на деньги сообщества.

Звучит как научная фантастика, и реддит немедленно вспомнил Theranos. Тот самый стартап Элизабет Холмс, что обещал анализы по капле крови, а закончился аферой и тюрьмой для основательницы. Красивая презентация, ноль клинических данных, ни чувствительности, ни специфичности, ни одобрения FDA. По сути это ultrasound tomography, метод не новый и родом из Caltech, так что "наследник МРТ" в заголовках сильно опережает события. Но если на этой неделе кто-то и заслужил уважительное "ну и наглость же", то это компания, которая от генерации артов шагнула к просвечиванию людей звуком.

Оставайтесь любопытными.

Пишу об искусственном интеллекте, языковых моделях и инструментах для разработчиков. Тестирую модели и сервисы на реальных задачах, а выводами делюсь в телеграм-канале.

Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus 4.8, а Midjourney просвечивает людей звуком

Другие статьи на эту тему