Компания Google DeepMind официально представила модель Gemini 3 — очередной виток развития больших языковых моделей. Эта мультимодальная система рассчитана на текст, изображения и видео, отличается улучшенным reasoning-механизмом, расширенным токен-лимитом и встроенной поддержкой агентных сценариев.
Ключевые особенности
Модель Gemini 3 построена на архитектуре Transformer с усиленным self-attention, поддерживает длинный контекст (впервые отмечаются показатели до 1 000 000 токенов), и включает улучшенные эмбеддинги и механизмы квантизации для повышения эффективности инференса. Некоторые подсистемы модели реализованы как AI Agent-решения с tool-use, что позволяет системе автоматически выполнять цепочки задач и генерировать текст, изображения или их комбинации.
Почему это важно
- Мультимодальная модель такого масштаба позволяет объединять текст, изображение и видео в одной цепочке потока данных — это выходит за рамки привычных LLM, ориентированных на текст.
- Улучшенные способности reasoning и контекстной обработки позволяют модели анализировать сложные документы, длинные диалоги и сценарии, снижая риск hallucination моделей.
- Интеграция Gemini 3 в продукты Google (Search, Workspace, агентные платформы) и открытые API-интерфейсы делает её доступной для бизнеса и разработчиков на новом уровне.
Перспективы
Google планирует использовать Gemini 3 в сервисах поиска и автоматизации, а также выпускать SDK и API-доступ для сторонних разработчиков. При этом ожидается активное продвижение модели как ядра для агентных систем, многошагового reasoning и мультимодальных приложений