Model memory (память модели) — это совокупность механизмов, позволяющих модели сохранять, обновлять и использовать состояние: от краткосрочного контекста внутри токенов до внешних хранилищ, которые обеспечивают устойчивую работу в длительных диалогах и сложных задачах.
Определение
Model memory — это все типы памяти, которые используются моделью или системой вокруг неё для хранения информации о прошлых шагах рассуждения, контексте диалога, промежуточных вычислениях или пользовательских данных. Память не ограничивается внутренними параметрами трансформера. В реальных LLM-системах она включает краткосрочный контекст токенов, временные буферы, внешние базы данных, векторные хранилища и специализированные механизмы долгосрочной памяти.
Модели сами по себе не «помнят» диалоги. Они опираются на предоставленный контекст. Поэтому model memory — это архитектурный слой, который дополняет саму модель и управляет тем, что она видит и на что может ссылаться.
Как работает
Model memory образуется из нескольких уровней:
1. Краткосрочная память модели
Это токены внутри текущего контекстного окна. Модель способна анализировать и удерживать зависимости между ними с помощью self-attention. Ограничения: длина окна, размывание внимания на длинных последовательностях, возможная потеря важной информации при росте расстояний между токенами.
2. Буферная память (session memory)
Это механизмы, которые пересобирают историю диалога в компактной форме. Буфер выбирает ключевые реплики, резюмирует их и подаёт модели только релевантную часть, чтобы ограничить длину контекста и не допустить деградации внимания.
3. Внешняя память
Речь о хранилищах, которые система использует для retrieval среди прошлых данных:
- векторные базы (Chroma, FAISS, Milvus);
- бэкенд с документами, заметками, данными пользователя;
- табличные источники и специализированные репозитории.
При запросе система извлекает релевантные фрагменты и подмешивает их в контекст через RAG-пайплайн.
4. Долгосрочная память
Это структурированное хранение данных между сессиями. В продакшн-системах применяются:
- документные базы (история пользователя, факты, проекты, задачи);
- knowledge graphs;
- журналы действий и reasoning-трассы;
- специализированные хранилища для персонализации.
Система не хранит «память» в модели, но использует внешние данные для подмешивания фактов с учётом контекста и разрешений.
5. Механизмы обновления памяти
Память — это не только хранение, но и управление:
- резюмирование больших диалогов в ключевые факты;
- отбор релевантных блоков;
- сжатие истории;
- удаление устаревших элементов;
- логика прав доступа и приватности.
Где применяется
- Длительные диалоги: сохранение состояния между сессиями.
- Корпоративные ассистенты: доступ к рабочим документам и персональным данным.
- RAG-системы: извлечение фактов, документов, инструкций.
- Аналитические ассистенты: сохранение предыдущих вычислений и гипотез.
- Task-oriented системы: хранение промежуточных планов и шагов.
- Code assistants: память о структуре проекта и выполненных изменениях.
- Мультимодальные пайплайны: сохранение признаков изображений и расшифровок аудио.
Практические примеры использования
В системах поддерживающих ассистентов модель может вести длительный диалог: пользователь работает над проектом неделю, а ассистент сохраняет ключевые данные — задачи, версии документов, результаты разборов. Система резюмирует историю и подмешивает нужные элементы при новых запросах.
В кодовых ассистентах память используется для локального понимания проекта: модель хранит структуру файлов, функции, зависимости. Внешнее хранилище позволяет ей возвращаться к старым частям кода без перегрузки контекстного окна.
В RAG-конвейерах память реализуется на базе векторных хранилищ: при каждом запросе извлекаются релевантные фрагменты документации. Это позволяет модели отвечать на узкоспециализированные вопросы без риска hallucination.
В продуктивных LLM-системах память используется для персонализации: модель сохраняет стиль пользователя, типичные шаблоны работы и предпочтения, но хранение осуществляется строго во внешних системах с политиками безопасности.
Преимущества и ограничения
- Плюс: устойчивость работы модели при длинных диалогах.
- Плюс: возможность сохранять важную информацию между сессиями.
- Плюс: снижение нагрузки на контекстное окно за счёт резюмирования.
- Плюс: интеграция знаний из внешних источников через retrieval.
- Минус: память требует инфраструктуры, а не только модели.
- Минус: риск накопления ошибок при плохом резюмировании.
- Минус: сложность управления правами доступа и приватностью.
- Минус: высокие требования к качеству RAG и фильтрации.
Связанные термины
- RAG
- Context window
- Vector store
- Session memory
- Knowledge graph
- Chain-of-Thought
- Tree-of-Thought
- Graph-of-Thoughts
- Consistency evaluation