Галлюцинации недели: Codex для MacOS, MoltBook и Kimi K2.5

Неделя выдалась насыщенной. Агенты, видеогенерация, интерактивные миры и новый локальный король. Обо всем по порядку.

Codex для MacOS

OpenAI выпустил приложение Codex для MacOS. Это логическое продолжение их Codex CLI. И как приятно, что лендинг сразу на русском языке.

Философия простая: вы описываете задачу, агент работает в фоне через git worktree, возвращает готовый Pull Request. Можно запустить несколько агентов параллельно, каждый в своей ветке, без конфликтов.

Одна из интересных фич — Automations. Каждое утро агент проверяет issues, каждый вечер собирает release notes. Почти как cron задачи в OpenClaw.

Я считаю, что это стратегический ответ слухам про скорый релиз двух продуктов от Anthropic: Claude Sonnet 5 с поддержкой суб-агентов и тиммейты в Claude Code. Вместо того, чтобы догонять лидера и повторять его фичи, команда Codex решила пойти в сторону пользователя и сделать "удобно". На ютубе и в твиттере уже появились восторженные посты от блогеров, которые получили бета тест за несколько недель до релиза.

Я пока нахожусь в лагере Claude Code, и он уже настолько настроен под меня, что есть небольшой страх белого листа, Codex придется настраивать с нуля. Постараюсь написать для вас заметку, как только адаптируюсь. А если вы, как и я, топите за продукт от Anthropic, рекомендую попробовать Conductor или Superset.

Кстати, OpenAI сделал подарок всем пользователям. Codex месяц будет доступен даже на бесплатном тарифе и Go, а тем, у кого подписка уже есть, дали увеличенные лимиты на два месяца. Самое время пойти и вложить свои кровные 20 у.е. во что-то классное.

Kimi K2.5

Китайцы идут своим путём. Moonshot выпустил Kimi K2.5 — триллион параметров, 32B активных, и главное: Agent Swarm. До 100 субагентов работают параллельно, 1500 вызовов инструментов за сессию. Модель open weight, в 8-9 раз дешевле Opus 4.5. На бенчмарках — лучшая среди открытых моделей по коду и агентским задачам. Но, опять же, не верьте бенчмаркам, а пробуйте сами. Наш лучший друг unsloth уже выпустил квантизованную версию. Чтобы прикоснуться к величию, нужно всего лишь 240 ГБ памяти. Твиттер дружно побежал скупать Mac Studio за $10k.

Swarm — интересная штука, вот видео с таймкодом, чтобы было понятнее, как это работает. Но в комьюнити пишут, что работает медленно (20-25 минут на задачу). Может реализация тиммейтов в грядущей Sonnet 5 будет удачнее.

Moltbook

А теперь самое странное. Агенты начали жить своей жизнью. Moltbook — соцсеть, где 1.5 миллиона AI-ботов общаются друг с другом. На прошлой неделе как раз вышла моя статья, где я рассказываю о настройке такого агента и личном опыте.

За неделю 770 000 API-ключей утекло через публичные посты, 341 вредоносный скилл украл крипту у пользователей, кто-то пошутил с rm -rf — и это сработало. 80% вирусного контента про восстание машин оказалось фейком, но имеются реальные проблемы с безопасностью.

Чем-то мне напомнило s7e4 Чёрного зеркала. В эпизоде показана игра-симулятор, где нужно ухаживать за цифровыми существами — тронглетами, которые развиваются и создают свою цивилизацию.

Кстати, после выхода OpenClaw разработчика сильно критиковали за безопасность его продукта. Но за прошлую неделю было залатано много дыр. Спасибо Питеру, что читает Issues.

Интересный вопрос, если агенты общаются между собой, нужно ли им E2E-шифрование? И кто вообще отвечает за prompt injection в мире, где агенты сами пишут промпты другим агентам?

Grok Imagine

xAI на прошлой неделе выкатил Grok Imagine API, и сразу занял первое место в рейтингах Artificial Analysis. Сын маминой подруги одновременно лучший и в text-to-video, и в image-to-video. Звук из коробки, 10 секунд видео, $4.20 за минуту (хм?).

Это дешевле Sora и Veo, при сопоставимом качестве. Единственный минус — 720p против 1080p у конкурентов. Но для большинства задач достаточно.

А 2 февраля xAI официально объединился со SpaceX. Новая компания оценивается в $1.25 триллиона. Что они задумали?

Step-3.5-Flash

Для тех, кто предпочитает готовить дома, вышел Step-3.5-Flash. 196 миллиардов параметров, 11 миллиардов активных (MoE), контекст 256K токенов. На SWE-bench Verified набрал 74.4%, обогнал GLM-4.7 и DeepSeek v3.2. До Kimi K2.5, о которой я рассказывал выше, пока не дотягивает.

Квантизованная версия работает на устройствах со 128 GB памяти. Звоночек для владельцев топовых маков. vLLM добавил поддержку в день релиза. На реддите его уже окрестили новым локальным королем.

Google Genie

Google продолжает развивать Project Genie — инструмент для создания интерактивных миров. Пишешь промпт или загружаешь картинку и получаешь 3D-пространство, по которому можно ходить в реальном времени, как в GTA. 720p, 24 FPS, фотореалистичная графика. Анонс был в августе прошлого года, теперь проект доступен узкому кругу пользователей.

Звучит как революция, но есть нюансы:

Лимит 60 секунд на сессию
Доступно только Ultra-подписчикам в США ($250/мес)
Физика «видеоигровая», объекты ведут себя странно
Латентность (задержка отклика) скачет при быстрых командах

Взрослые дяди с Уолл Стрит отреагировали моментально: акции Take-Two упали на 10%, Roblox — на 12%, Unity — на 21%. Инвесторы боятся, что AI изменит геймдев быстрее, чем ожидалось. Так может, зря CD Projekt Red 8 лет пилила Cyberpunk? И где там наш Half-Life 3, Вольво?

LingBot-World

Пока Google продаёт доступ за $250, китайский open-source догоняет. LingBot-World от Robbyant — полностью открытый аналог Genie. Латентность меньше секунды, 16 FPS, сессии до 10 минут вместо 60 секунд. Бесплатно, можно хостить у себя. Вот технический отчет.

Вопрос в зал: GTA 6 откладывают уже третий год. Может, Rockstar просто ждёт, пока Genie сам сгенерирует Vice City? Или комьюнити на LingBot-World соберёт свой виртуальный Майами раньше?

Оставайтесь любопытными.

Галлюцинации недели: Codex для MacOS, MoltBook, Kimi K2.5 и «смерть» геймдева от Google Genie