Термин глоссария

Model memory

Model memory (память модели) — это совокупность механизмов, позволяющих модели сохранять, обновлять и использовать состояние: от краткосрочного контекста внутри токенов до внешних хранилищ, которые обеспечивают устойчивую работу в длительных диалогах и сложных задачах.

Определение

Model memory — это все типы памяти, которые используются моделью или системой вокруг неё для хранения информации о прошлых шагах рассуждения, контексте диалога, промежуточных вычислениях или пользовательских данных. Память не ограничивается внутренними параметрами трансформера. В реальных LLM-системах она включает краткосрочный контекст токенов, временные буферы, внешние базы данных, векторные хранилища и специализированные механизмы долгосрочной памяти.

Модели сами по себе не «помнят» диалоги. Они опираются на предоставленный контекст. Поэтому model memory — это архитектурный слой, который дополняет саму модель и управляет тем, что она видит и на что может ссылаться.

Как работает

Model memory образуется из нескольких уровней:

1. Краткосрочная память модели

Это токены внутри текущего контекстного окна. Модель способна анализировать и удерживать зависимости между ними с помощью self-attention. Ограничения: длина окна, размывание внимания на длинных последовательностях, возможная потеря важной информации при росте расстояний между токенами.

2. Буферная память (session memory)

Это механизмы, которые пересобирают историю диалога в компактной форме. Буфер выбирает ключевые реплики, резюмирует их и подаёт модели только релевантную часть, чтобы ограничить длину контекста и не допустить деградации внимания.

3. Внешняя память

Речь о хранилищах, которые система использует для retrieval среди прошлых данных:

векторные базы (Chroma, FAISS, Milvus);
бэкенд с документами, заметками, данными пользователя;
табличные источники и специализированные репозитории.

При запросе система извлекает релевантные фрагменты и подмешивает их в контекст через RAG-пайплайн.

4. Долгосрочная память

Это структурированное хранение данных между сессиями. В продакшн-системах применяются:

документные базы (история пользователя, факты, проекты, задачи);
knowledge graphs;
журналы действий и reasoning-трассы;
специализированные хранилища для персонализации.

Система не хранит «память» в модели, но использует внешние данные для подмешивания фактов с учётом контекста и разрешений.

5. Механизмы обновления памяти

Память — это не только хранение, но и управление:

резюмирование больших диалогов в ключевые факты;
отбор релевантных блоков;
сжатие истории;
удаление устаревших элементов;
логика прав доступа и приватности.

Где применяется

Длительные диалоги: сохранение состояния между сессиями.
Корпоративные ассистенты: доступ к рабочим документам и персональным данным.
RAG-системы: извлечение фактов, документов, инструкций.
Аналитические ассистенты: сохранение предыдущих вычислений и гипотез.
Task-oriented системы: хранение промежуточных планов и шагов.
Code assistants: память о структуре проекта и выполненных изменениях.
Мультимодальные пайплайны: сохранение признаков изображений и расшифровок аудио.

Практические примеры использования

В системах поддерживающих ассистентов модель может вести длительный диалог: пользователь работает над проектом неделю, а ассистент сохраняет ключевые данные — задачи, версии документов, результаты разборов. Система резюмирует историю и подмешивает нужные элементы при новых запросах.

В кодовых ассистентах память используется для локального понимания проекта: модель хранит структуру файлов, функции, зависимости. Внешнее хранилище позволяет ей возвращаться к старым частям кода без перегрузки контекстного окна.

В RAG-конвейерах память реализуется на базе векторных хранилищ: при каждом запросе извлекаются релевантные фрагменты документации. Это позволяет модели отвечать на узкоспециализированные вопросы без риска hallucination.

В продуктивных LLM-системах память используется для персонализации: модель сохраняет стиль пользователя, типичные шаблоны работы и предпочтения, но хранение осуществляется строго во внешних системах с политиками безопасности.

Преимущества и ограничения

Плюс: устойчивость работы модели при длинных диалогах.
Плюс: возможность сохранять важную информацию между сессиями.
Плюс: снижение нагрузки на контекстное окно за счёт резюмирования.
Плюс: интеграция знаний из внешних источников через retrieval.
Минус: память требует инфраструктуры, а не только модели.
Минус: риск накопления ошибок при плохом резюмировании.
Минус: сложность управления правами доступа и приватностью.
Минус: высокие требования к качеству RAG и фильтрации.

Связанные термины

RAG
Context window
Vector store
Session memory
Knowledge graph
Chain-of-Thought
Tree-of-Thought
Graph-of-Thoughts
Consistency evaluation

Категория термина

Архитектуры моделей

Экосистемы