DeepMind представила SIMA 2 — новый уровень агентного ИИ
Компания DeepMind представила модель-агента SIMA 2 — система, способная думать, планировать и учиться в виртуальных средах. На выходных исследовательский центр сообщил, что агент теперь получает визуальный ввод (например: кадры из 3D-мира), получает цель («построй убежище», «найди красный дом») и сам разбивает её на шаги.
Как устроена модель
SIMA 2 базируется на архитектуре, ранее применённой в проекте Gemini. Модель сочетает:
- визуальные сенсоры (кадр экрана, объекты среды);
- планирование шагов (разбиение цели на действия);
- управление вводом (симуляция клавиатуры/мыши или эквивалентные команды) для взаимодействия с виртуальной средой.
Почему это важно
До сих пор большинство ИИ-моделей концентрировались на генерации текста или изображений. SIMA 2 — другой формат: агент, который видит, решает, действует. Он ближе к интерфейсу между цифровым и физическим миром.
Такой подход открывает новые применения: роботика, игры, симуляции, интерактивные помощники. Он также подчёркивает, что будущее моделей — не только ответы на запросы, а активное участие в среде.
Что дальше
DeepMind планирует внедрение SIMA 2 в симуляционные платформы и исследования в области обучения агентов. В следующие месяцы ожидается демонстрации с мульти-модальной средой: текст + визуал + действие. Также вероятна публикация исходных данных и экспериментов с долгосрочным обучением.