Термин глоссария

Mixture-of-Experts

Mixture-of-Experts (смешение экспертов) — архитектура, в которой модель выбирает подмножество специализированных экспертных блоков для обработки входа, уменьшая вычислительную нагрузку и повышая гибкость.

Определение

Mixture-of-Experts (MoE) — это архитектурный подход, в котором вычисления распределены между большим количеством независимых экспертных блоков. Каждый эксперт — это отдельная часть модели, обученная лучше справляться с определённым подтипом входов или задач.

Вместо обработки входа всеми слоями целиком, MoE использует механизм маршрутизации: специальный компонент оценивает вход и определяет, какие эксперты должны быть активированы. В результате большая модель работает выборочно, достигая высокого качества при меньших вычислительных затратах.

Как работает

Архитектура MoE основана на двух ключевых частях:

эксперты — отдельные блоки с собственными весами;
роутер — модуль, который выбирает экспертов для каждого токена или батча.

Рабочий процесс выглядит так:

входные токены проходят через роутер;
роутер вычисляет вероятности выбора экспертов;
активируются только те эксперты, которые получили высокий вес;
их результаты агрегируются и передаются дальше по модели.

Количество активируемых экспертов обычно ограничено (например, top-1 или top-2). Это снижает вычислительную стоимость: для каждого входа задействована лишь малая часть архитектуры, но общая мощность модели остаётся высокой за счёт большого пула экспертов.

Где применяется

Модели с большим объёмом знаний и тематической дифференциацией.
Системы, где критична экономия вычислительных ресурсов.
Архитектуры, ориентированные на масштабирование параметров без линейного роста нагрузки.
Гибридные модели, где разные эксперты специализируются на типах данных.
Модели, обученные для мультиязычных, технических или мультидисциплинарных сценариев.
Распределённые модели, в которых эксперты расположены на разных устройствах.

Практические примеры использования

В больших моделях MoE используется для распределения нагрузки: роутер обучается отличать токены, требующие детального анализа, от типичных случаев. Например, сложные синтаксические конструкции попадают в один набор экспертов, специализированные термины — в другой.

В мультиязычных моделях MoE позволяет разделить экспертов по языкам: один набор обучен на германских языках, другой — на азиатских. Роутер распределяет токены между лучшими экспертами для каждого языка, обеспечивая более точное понимание.

В моделях, обученных на технических корпусах, часть экспертов специализируется на математике, часть — на юридическом тексте, часть — на аналитических задачах. Распределённая архитектура помогает избежать «размывания» знаний в одной общей модели.

На уровне инфраструктуры MoE снижает стоимость обучения и инференса: активируются только необходимые эксперты, а остальные остаются в неиспользуемом состоянии. Это делает архитектуру более энергоэффективной при тех же размерах параметров.

Преимущества и ограничения

Плюс: значительное снижение вычислительной нагрузки при больших размерах моделей.
Плюс: возможность точной специализации экспертов.
Плюс: улучшение качества на задачах, требующих разных типов экспертизы.
Плюс: гибкость при масштабировании числа экспертов.
Минус: сложность обучения роутера и риск дисбаланса загрузки.
Минус: возможная «застывшая» специализация, когда эксперты не развиваются равномерно.
Минус: трудности в распределённой инфраструктуре — требуется синхронизация экспертов.
Минус: риск деградации качества, если маршрутизация выбирает неправильных экспертов.

Связанные термины

Sparse models
Router
Expert layers
Load balancing
Scaling laws
Distributed training
Self-consistency
Architecture search

Категория термина

Архитектуры моделей

Экосистемы