AI
News
Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp
Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.
Google выпустил Gemini 3.1 Pro. Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое.
В реальной работе не всё гладко. Бывший сотрудник Google на HN написал, что Gemini "самая раздражающая модель для разработки": ненужные рефакторинги, непрошенные комментарии, потеря контекста. На Reddit жалуются на нерф через пару дней после запуска. В Gemini CLI агенты уходили в бесконечные циклы, пытаясь обновить себя до несуществующих версий.
Заодно Google запустил Lyria 3, генератор музыки внутри Gemini. Промпт → 30-секундный трек с вокалом, маркируется SynthID. Можно выбрать стиль и замиксовать, получается интересно.
И ещё один тихий запуск от Google: Pomelli Photoshoot. Загружаешь фото продукта со смартфона, получаешь студийные снимки: на белом фоне, в интерьере, с AI-моделью. Бесплатно, работает на Nano Banana. Для малого бизнеса это замена фотосессии за $500. Пока доступно только в США, Канаде, Австралии и Новой Зеландии.
Про релиз Sonnet 4.6 я писал на прошлой неделе, теперь появились реальные отзывы. Хвалят: лучше следует инструкциям, меньше оверинжинирит, код читается как написанный человеком. Cursor написал, что модель лучше на длинных задачах, но "по интеллекту ниже Opus 4.6". Главная боль: расход токенов вырос в ~4.5 раза по сравнению с Sonnet 4.5.
Anthropic запустил Claude Code Security, сканер уязвимостей на Opus 4.6. Работает не по паттернам, а читает код как исследователь. Инструмент в research preview, только для Enterprise. Рыночек отреагировал: CrowdStrike -8%, Cloudflare -8%, Zscaler -5.5%. В Твиттере писали, что Anthropic "съел весь обед индустрии AppSec". Но инфосек-комьюнити уже привыкло паниковать.
Георгий Герганов объявил, что ggml.ai присоединяется к Hugging Face. llama.cpp, проект, который в 2023-м запустил революцию локальных моделей, теперь получил инфраструктуру HF и остаётся open source. HF также объявил коллаборацию с Unsloth для бесплатного файнтюнинга на платформе.
Появились забавные "бизнес-бенчмарки". FoodTruck Bench: моделям дают $2000 и фудтрак в Остине на 30 дней. Opus 4.6 финишировал с $49.5K (выручка $80K, отходов на $1.72 за весь месяц). GPT-5.2 на втором месте с $28K. 10 из 16 моделей обанкротились. Gemini Flash зависает в бесконечном цикле. Человек тоже может поиграть. На Vending Bench 2 (вендинговый автомат, $500, год) Opus финишировал с ~$8K, Gemini 3 Pro с ~$5.5K.

Тем временем автономный OpenClaw-агент ночью без участия человека запустил токен в сети Base и Bitcoin казино Satoshidais.
Андрей Карпаты рассказал, как Claude реверс-инженерит API беговой дорожки и строит кастомный дашборд. Его тезис: приложения становятся одноразовыми, а ценность переходит к сервисам с AI-совместимыми API.
Unitree показал роботов на национальном ТВ Китая. Синхронное кунг-фу, кластерная координация. Boston Dynamics нервно курит.
AI-кодер Amazon Kiro решил, что лучший способ починить баг, это удалить и пересоздать продакшн-среду. Итог: 13 часов без AWS.
Grok 4.20 оказался четырьмя Grok 4.1 в пальто (буквально, в API видно grok-4-1-thinking). Плюс скандал: модель использует Маска как первоисточник по спорным темам.

Стартап Taalas показал ASIC-чип с Llama 3 8B на 16,000 tok/s. Модель залита прямо в кремний, 53 млрд транзисторов. Впечатляюще, но вопрос масштабирования открыт. Попробовать можно тут.
Тема, о которой мало говорят: один и тот же Opus 4.6 на LangChain и на Claude Code показал 1.7x разницу в скорости. OpenAI уже пишет про harness engineering как новую дисциплину. Идея простая: модели сближаются по качеству, а разница в результатах определяется инфраструктурой вокруг них. Как агент управляет контекстом, выбирает инструменты, восстанавливается после ошибок.
Кстати, в FoodTruck Bench Opus продавал куриные крылышки по $16 за порцию. И продал 826 штук. Вот вам и harness engineering.
Оставайтесь любопытными.

