AINews

Галлюцинации недели: Pentagon vs Anthropic, Qwen 3.5 и кризис идентичности Claude

Галлюцинации недели: Pentagon vs Anthropic, Qwen 3.5 и кризис идентичности Claude

Claude Sonnet думает, что он DeepSeek, Pentagon думает, что Anthropic угроза, а Perplexity запустил компьютер. Нам остается только жить свою лучшую жизнь и наблюдать за прогрессом недели.

Anthropic обвинила DeepSeek, Moonshot AI и MiniMax в промышленной дистилляции Claude. Цифры серьёзные: 24 тысячи фейковых аккаунтов, больше 16 миллионов запросов к модели. По сути, китайские лабы скачивали Claude по кусочкам, чтобы научить свои модели делать то же самое.

В это время Claude Sonnet 4.6 поймал кризис идентичности и начал отвечать на китайском, что он DeepSeek. Где Sonnet учился, DeepSeek преподавал.

У Anthropic и правда слабая позиция тут. Компания последние два месяца закручивает гайки для собственных пользователей, банит аккаунты за использование OAUTH в OpenClaw, хотя люди платят за подписку.

Но главная история недели, конечно, Pentagon vs Anthropic. Министр обороны Хегсет дал Anthropic дедлайн до пятницы: снять safety guardrails с Claude для массовой слежки и автономного оружия. Anthropic отказала. Pentagon объявил компанию угрозой цепочке поставок и начал шестимесячный вывод из военных контрактов.

OpenAI заключили собственную сделку с Department of War. Сэм Альтман провёл AMA в твиттере, пытаясь объяснить комьюнити, зачем это нужно. Позже уточнил, что контракт запрещает слежку за американцами. За остальными, видимо, нет.

Реакция пользователей оказалась жёсткой. Приложение ChatGPT удаляли с устройств на 295% чаще за 48 часов. Claude взлетел на первое место в App Store. Anthropic тут же запустили Switch to Claude, страницу для миграции с ChatGPT с сохранением памяти и контекста. Forbes написал гайд "что сделать перед отменой подписки ChatGPT". Весы качнулись, и Anthropic явно хочет забрать аудиторию, пока окно открыто.

На фоне всего этого TIME написал, что Anthropic отказалась от ключевого пункта Responsible Scaling Policy: обещания не тренировать модели без гарантий безопасности. Jared Kaplan объяснил, что односторонние обязательства непрактичны в гонке. Так что Anthropic одновременно отстаивает принципы перед Pentagon и тихо смягчает свои же правила. Двойственность, как она есть.

Пока большие дерутся за Pentagon, Google тихо выпустил Nano Banana 2 (Gemini 3.1 Flash Image Preview). Первое место в Image Arena, 4K upscaling, консистентность между субъектами, генерация с учётом поиска в реальном времени. Качество на уровне Nano Banana Pro, скорость выше, а цена чуть ниже: $0.101 за 2K-картинку против $0.134 у Pro. Для тех, кому нужна массовая генерация картинок, это прям подарок.

Теперь к локальным моделям. Alibaba выпустила Qwen 3.5, полную линейку от 0.8B до 397B. Архитектура новая: Gated DeltaNet, где 75% слоёв используют линейное внимание вместо обычного. Контекст 262K из коробки, расширяется до 1M. Все модели нативно мультимодальные, 201 язык.

Я давно ждал новое поколение компактных моделей от Qwen и в первый же день поставил себе Qwen 3.5 9B GGUF от Unsloth. Но настоящий герой недели, это 35B-A3B. На RTX 3090 выдаёт больше 100 t/s с контекстом 130K, а на 5090 люди разгоняют до 180 t/s. 27B тоже хорош, 9B конкурирует с моделями в разы крупнее, а 2B запустили на iPhone. Вот ссылка на приложение.

LM Studio запустил LM Link. Подключаешь свой удалённый GPU-сервер через Tailscale, E2E-шифрование, никаких открытых портов. Любой инструмент, который стучится на localhost:1234, работает как будто модель крутится локально. Я сразу подключил свой мак к машине с GPU, удобно. Правда, сеть иногда падает, но это скорее к Tailscale вопрос. А если своего железа нет, Packet.ai продаёт Blackwell RTX 6000 по $0.66/час или $199/мес, B200 по $2.25/час, в разы дешевле облачных провайдеров.

Отдельная тема недели, агенты. Perplexity запустил Computer, прямо как я после школы в 2004. Это платформа, которая оркестрирует 19 разных моделей. Каждая получает задачу, в которой она лучше всех, суб-агенты работают параллельно, usage-based pricing. Пока доступно на тарифе Max за $200/мес.

Samsung встроил Perplexity в Galaxy S26 на уровне системы, который просыпается от фразы "Hey Plex", впервые дав стороннему AI доступ к уровню ОС. Кстати, презентацию новых Galaxy смотрели? Все блогеры дружно хайпят новый privacy display и horizon lock. Вот видео.

Nous Research выложил Hermes Agent, open-source агент с multi-level memory. Запоминает контекст между сессиями, записывает опыт в searchable markdown, работает через CLI, Telegram, WhatsApp, Slack, Discord. 40+ инструментов из коробки. MIT-лицензия. Стоит между Claude Code и OpenClaw, но с фокусом на persistent memory, чего обоим не хватает.

Саймон Виллисон начал новый проект Agentic Engineering Patterns, гайд по работе с coding agents. Очень рекомендую его блог. А METR обнаружил, что разработчики отказываются участвовать в контрольных группах без AI даже за $50/час. Писать код руками уже никто не хочет.

И напоследок. OpenAI официально отказался от SWE-Bench Verified. Аудит показал, что 59.4% задач, на которых модели "проваливались", содержали ошибки в самих тестах. Плюс GPT-5.2, Claude Opus 4.5 и Gemini 3 уже помнят правильные ответы из тренировочных данных. Бенчмарк измерял не умение кодить, а качество запоминания. Рекомендуют SWE-bench Pro. Я раньше писал, что SWE-Bench Verified изжил себя, приятно видеть подтверждение.

Неделя получилась такая, что хватит на целый сезон Silicon Valley. Кстати, как вам обновленная заставка?

Оставайтесь любопытными.

Другие статьи на эту тему

Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp

AI

News

Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp

Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Между делом llama.cpp нашёл новый дом, Kiro уронил AWS, а Grok оказался четырьмя моделями в пальто. Приглядимся ко всему по порядку.

24 февраля 2026

Галлюцинации недели: GPT-5.3-Codex-Spark, Sonnet 4.6 и китайский MoE-десант

AI

News

Галлюцинации недели: GPT-5.3-Codex-Spark, Sonnet 4.6 и китайский MoE-десант

Шесть флагманских релизов за одну неделю. OpenAI показал 1000 tok/sec, Anthropic подтянул Sonnet к Opus, а Alibaba и Z-ai выкатили свежие MoE-модели. Разбираемся, кто реально продвинулся, а кто просто обновил бенчмарки.

18 февраля 2026

Галлюцинации недели: Opus 4.6, GPT-5.3-Codex и реклама на Super Bowl

AI

News

Галлюцинации недели: Opus 4.6, GPT-5.3-Codex и реклама на Super Bowl

Anthropic и OpenAI синхронно обновили свои флагманские модели. Разбираем технические прорывы Opus 4.6, возможности GPT-5.3-Codex, концепцию Agentic Engineering от Андрея Карпаты и будущее контекстных графов.

10 февраля 2026

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт.
© 2026 Gotacat Team