Предобучение — основной этап, который превращает нейросеть в языковую модель. На нём она изучает структуру языка, смысл слов, логику текстов и общие закономерности.
Короткое определение
Предобучение — это обучение модели на огромном датасете без конкретной задачи, чтобы она усвоила общие правила языка или изображения и получила базовые навыки понимания.
Подробное объяснение
На этапе предобучения модель получает миллиарды фрагментов текста или изображений. Она учится предсказывать пропущенные токены, восстанавливать структуру предложения и постепенно формирует внутреннюю «карту» языка.
Это обучение не привязано к конкретной задаче — классификации, генерации, переводу. Модель просто изучает закономерности. Именно поэтому LLM способны объяснять, рассуждать и писать тексты в разных стилях.
Результат предобучения — база знаний, которую затем можно адаптировать под нужды пользователя через дообучение (fine-tuning).
Для текстовых моделей используется задача предсказания следующего токена (causal LM) или заполнения пропусков (masked LM). Для визуальных — восстановление повреждённых фрагментов изображения.
Предобучение требует огромных вычислительных мощностей: тысячи GPU, распределённые кластеры и оптимизированные пайплайны.
Любая современная модель — GPT, Llama, Claude, YandexGPT, GigaChat — проходит этап предобучения на больших корпусах данных, после чего её адаптируют под диалоги, код или мультимодальность.
Чем качественнее предобучение и датасет, тем лучше модель понимает язык, держит контекст и избегает ошибок.
Примеры использования
- Формирование общего «понимания» языка.
- Подготовка модели перед дообучением на отраслевых данных.
- Улучшение качества генерации текста.
- Снижение ошибок в reasoning.
- Создание мультизадачных моделей.
Связанные термины
- Дообучение
- Masked LM
- Causal LM
- Датасет
- Эмбеддинги
- Transformer