Блог

Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

AI

LLM

Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

В 2020 году AI был архипелагом изолированных моделей. К 2025-му всё изменилось. Эта статья — глубокое погружение в единую парадигму Next Token Prediction, которая позволила GPT-5.1, Gemini, Claude и Grok научиться понимать текст, изображения и видео одновременно. Разбираем, как это работает, и на что способны флагманские модели сегодня.

18 ноября 2025

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт.
© 2025 Gotacat Team