Model memory: механизмы внутренней и внешней памяти LLM

Термин глоссария

Model memory


Model memory (память модели) — это совокупность механизмов, позволяющих модели сохранять, обновлять и использовать состояние: от краткосрочного контекста внутри токенов до внешних хранилищ, которые обеспечивают устойчивую работу в длительных диалогах и сложных задачах.

Определение

Model memory — это все типы памяти, которые используются моделью или системой вокруг неё для хранения информации о прошлых шагах рассуждения, контексте диалога, промежуточных вычислениях или пользовательских данных. Память не ограничивается внутренними параметрами трансформера. В реальных LLM-системах она включает краткосрочный контекст токенов, временные буферы, внешние базы данных, векторные хранилища и специализированные механизмы долгосрочной памяти.

Модели сами по себе не «помнят» диалоги. Они опираются на предоставленный контекст. Поэтому model memory — это архитектурный слой, который дополняет саму модель и управляет тем, что она видит и на что может ссылаться.

Как работает

Model memory образуется из нескольких уровней:

1. Краткосрочная память модели

Это токены внутри текущего контекстного окна. Модель способна анализировать и удерживать зависимости между ними с помощью self-attention. Ограничения: длина окна, размывание внимания на длинных последовательностях, возможная потеря важной информации при росте расстояний между токенами.

2. Буферная память (session memory)

Это механизмы, которые пересобирают историю диалога в компактной форме. Буфер выбирает ключевые реплики, резюмирует их и подаёт модели только релевантную часть, чтобы ограничить длину контекста и не допустить деградации внимания.

3. Внешняя память

Речь о хранилищах, которые система использует для retrieval среди прошлых данных:

  • векторные базы (Chroma, FAISS, Milvus);
  • бэкенд с документами, заметками, данными пользователя;
  • табличные источники и специализированные репозитории.

При запросе система извлекает релевантные фрагменты и подмешивает их в контекст через RAG-пайплайн.

4. Долгосрочная память

Это структурированное хранение данных между сессиями. В продакшн-системах применяются:

  • документные базы (история пользователя, факты, проекты, задачи);
  • knowledge graphs;
  • журналы действий и reasoning-трассы;
  • специализированные хранилища для персонализации.

Система не хранит «память» в модели, но использует внешние данные для подмешивания фактов с учётом контекста и разрешений.

5. Механизмы обновления памяти

Память — это не только хранение, но и управление:

  • резюмирование больших диалогов в ключевые факты;
  • отбор релевантных блоков;
  • сжатие истории;
  • удаление устаревших элементов;
  • логика прав доступа и приватности.

Где применяется

  • Длительные диалоги: сохранение состояния между сессиями.
  • Корпоративные ассистенты: доступ к рабочим документам и персональным данным.
  • RAG-системы: извлечение фактов, документов, инструкций.
  • Аналитические ассистенты: сохранение предыдущих вычислений и гипотез.
  • Task-oriented системы: хранение промежуточных планов и шагов.
  • Code assistants: память о структуре проекта и выполненных изменениях.
  • Мультимодальные пайплайны: сохранение признаков изображений и расшифровок аудио.

Практические примеры использования

В системах поддерживающих ассистентов модель может вести длительный диалог: пользователь работает над проектом неделю, а ассистент сохраняет ключевые данные — задачи, версии документов, результаты разборов. Система резюмирует историю и подмешивает нужные элементы при новых запросах.

В кодовых ассистентах память используется для локального понимания проекта: модель хранит структуру файлов, функции, зависимости. Внешнее хранилище позволяет ей возвращаться к старым частям кода без перегрузки контекстного окна.

В RAG-конвейерах память реализуется на базе векторных хранилищ: при каждом запросе извлекаются релевантные фрагменты документации. Это позволяет модели отвечать на узкоспециализированные вопросы без риска hallucination.

В продуктивных LLM-системах память используется для персонализации: модель сохраняет стиль пользователя, типичные шаблоны работы и предпочтения, но хранение осуществляется строго во внешних системах с политиками безопасности.

Преимущества и ограничения

  • Плюс: устойчивость работы модели при длинных диалогах.
  • Плюс: возможность сохранять важную информацию между сессиями.
  • Плюс: снижение нагрузки на контекстное окно за счёт резюмирования.
  • Плюс: интеграция знаний из внешних источников через retrieval.
  • Минус: память требует инфраструктуры, а не только модели.
  • Минус: риск накопления ошибок при плохом резюмировании.
  • Минус: сложность управления правами доступа и приватностью.
  • Минус: высокие требования к качеству RAG и фильтрации.

Связанные термины

  • RAG
  • Context window
  • Vector store
  • Session memory
  • Knowledge graph
  • Chain-of-Thought
  • Tree-of-Thought
  • Graph-of-Thoughts
  • Consistency evaluation

Категория термина

Архитектуры моделей