Стартап Dragon LLM из Франции анонсировал новую архитектуру генеративных моделей, рассчитанную на низкое энергопотребление и локальный запуск — на SME-серверах и даже смартфонах.
Компания утверждает, что её решение работает с производительностью, сравнимой с классическими трансформерами, но требует значительно меньше вычислительных ресурсов. Это открывает путь к генеративному ИИ вне облака и дата-центров.
Архитектура ориентирована на снижение общей сложности модели и оптимизацию под ограниченные условия: уменьшенное энергопотребление, меньшая память, оптимизированный pipeline инференса. По словам Dragon LLM, эти изменения позволяют запускать серьезные ИИ-задачи локально и с меньшей задержкой.
Для аудитории Re:II важно отметить несколько технических моментов:
- Упор на latency и интерактивность: локальный инференс ближе к пользователю снижает задержку отклика.
- Благоприятная среда для on-device/edge ИИ: модели становятся возможными к запуску вне централизованных платформ.
- Ключевой вызов — обеспечить энергоэффективность и оптимизированную архитектуру при сохранении качества вывода.
Пока Dragon LLM находится на стадии демонстраций и раннего доступа, коммерческая версия ещё не доступна массово. Тем не менее, сам шаг фирмы подчёркивает тенденцию: генеративный ИИ становится ближе к пользователю, а не только в облаке.