Галлюцинации недели: Pentagon vs Anthropic, Qwen 3.5

Claude Sonnet думает, что он DeepSeek, Pentagon думает, что Anthropic угроза, а Perplexity запустил компьютер. Нам остается только жить свою лучшую жизнь и наблюдать за прогрессом недели.

Anthropic обвинила DeepSeek, Moonshot AI и MiniMax в промышленной дистилляции Claude. Цифры серьёзные: 24 тысячи фейковых аккаунтов, больше 16 миллионов запросов к модели. По сути, китайские лабы скачивали Claude по кусочкам, чтобы научить свои модели делать то же самое.

В это время Claude Sonnet 4.6 поймал кризис идентичности и начал отвечать на китайском, что он DeepSeek. Где Sonnet учился, DeepSeek преподавал.

У Anthropic и правда слабая позиция тут. Компания последние два месяца закручивает гайки для собственных пользователей, банит аккаунты за использование OAUTH в OpenClaw, хотя люди платят за подписку.

Но главная история недели, конечно, Pentagon vs Anthropic. Министр обороны Хегсет дал Anthropic дедлайн до пятницы: снять safety guardrails с Claude для массовой слежки и автономного оружия. Anthropic отказала. Pentagon объявил компанию угрозой цепочке поставок и начал шестимесячный вывод из военных контрактов.

OpenAI заключили собственную сделку с Department of War. Сэм Альтман провёл AMA в твиттере, пытаясь объяснить комьюнити, зачем это нужно. Позже уточнил, что контракт запрещает слежку за американцами. За остальными, видимо, нет.

Реакция пользователей оказалась жёсткой. Приложение ChatGPT удаляли с устройств на 295% чаще за 48 часов. Claude взлетел на первое место в App Store. Anthropic тут же запустили Switch to Claude, страницу для миграции с ChatGPT с сохранением памяти и контекста. Forbes написал гайд "что сделать перед отменой подписки ChatGPT". Весы качнулись, и Anthropic явно хочет забрать аудиторию, пока окно открыто.

На фоне всего этого TIME написал, что Anthropic отказалась от ключевого пункта Responsible Scaling Policy: обещания не тренировать модели без гарантий безопасности. Jared Kaplan объяснил, что односторонние обязательства непрактичны в гонке. Так что Anthropic одновременно отстаивает принципы перед Pentagon и тихо смягчает свои же правила. Двойственность, как она есть.

Пока большие дерутся за Pentagon, Google тихо выпустил Nano Banana 2 (Gemini 3.1 Flash Image Preview). Первое место в Image Arena, 4K upscaling, консистентность между субъектами, генерация с учётом поиска в реальном времени. Качество на уровне Nano Banana Pro, скорость выше, а цена чуть ниже: $0.101 за 2K-картинку против $0.134 у Pro. Для тех, кому нужна массовая генерация картинок, это прям подарок.

Теперь к локальным моделям. Alibaba выпустила Qwen 3.5, полную линейку от 0.8B до 397B. Архитектура новая: Gated DeltaNet, где 75% слоёв используют линейное внимание вместо обычного. Контекст 262K из коробки, расширяется до 1M. Все модели нативно мультимодальные, 201 язык.

Я давно ждал новое поколение компактных моделей от Qwen и в первый же день поставил себе Qwen 3.5 9B GGUF от Unsloth. Но настоящий герой недели, это 35B-A3B. На RTX 3090 выдаёт больше 100 t/s с контекстом 130K, а на 5090 люди разгоняют до 180 t/s. 27B тоже хорош, 9B конкурирует с моделями в разы крупнее, а 2B запустили на iPhone. Вот ссылка на приложение.

LM Studio запустил LM Link. Подключаешь свой удалённый GPU-сервер через Tailscale, E2E-шифрование, никаких открытых портов. Любой инструмент, который стучится на localhost:1234, работает как будто модель крутится локально. Я сразу подключил свой мак к машине с GPU, удобно. Правда, сеть иногда падает, но это скорее к Tailscale вопрос. А если своего железа нет, Packet.ai продаёт Blackwell RTX 6000 по $0.66/час или $199/мес, B200 по $2.25/час, в разы дешевле облачных провайдеров.

Отдельная тема недели, агенты. Perplexity запустил Computer, прямо как я после школы в 2004. Это платформа, которая оркестрирует 19 разных моделей. Каждая получает задачу, в которой она лучше всех, суб-агенты работают параллельно, usage-based pricing. Пока доступно на тарифе Max за $200/мес.

Samsung встроил Perplexity в Galaxy S26 на уровне системы, который просыпается от фразы "Hey Plex", впервые дав стороннему AI доступ к уровню ОС. Кстати, презентацию новых Galaxy смотрели? Все блогеры дружно хайпят новый privacy display и horizon lock. Вот видео.

Nous Research выложил Hermes Agent, open-source агент с multi-level memory. Запоминает контекст между сессиями, записывает опыт в searchable markdown, работает через CLI, Telegram, WhatsApp, Slack, Discord. 40+ инструментов из коробки. MIT-лицензия. Стоит между Claude Code и OpenClaw, но с фокусом на persistent memory, чего обоим не хватает.

Саймон Виллисон начал новый проект Agentic Engineering Patterns, гайд по работе с coding agents. Очень рекомендую его блог. А METR обнаружил, что разработчики отказываются участвовать в контрольных группах без AI даже за $50/час. Писать код руками уже никто не хочет.

И напоследок. OpenAI официально отказался от SWE-Bench Verified. Аудит показал, что 59.4% задач, на которых модели "проваливались", содержали ошибки в самих тестах. Плюс GPT-5.2, Claude Opus 4.5 и Gemini 3 уже помнят правильные ответы из тренировочных данных. Бенчмарк измерял не умение кодить, а качество запоминания. Рекомендуют SWE-bench Pro. Я раньше писал, что SWE-Bench Verified изжил себя, приятно видеть подтверждение.

Неделя получилась такая, что хватит на целый сезон Silicon Valley. Кстати, как вам обновленная заставка?

Оставайтесь любопытными.

Галлюцинации недели: Pentagon vs Anthropic, Qwen 3.5 и кризис идентичности Claude

Другие статьи на эту тему