Термин глоссария

Supervised fine-tuning

Supervised fine-tuning — обучение модели на размеченных примерах, где каждый запрос имеет эталонный ответ, формируя базовое умение следовать задачам.

Определение

Supervised fine-tuning (SFT) — это этап обучения модели на вручную или автоматически размеченных данных, где для каждого входного примера существует правильный или целевой ответ. В отличие от базового обучения языковой модели на больших корпусах, SFT обучает модель решать конкретные задачи: отвечать по инструкции, соблюдать формат, писать код, объяснять шаги решения или корректно выполнять трансформации текста.

SFT является фундаментальным этапом перед RLHF, DPO и другими методами выравнивания, потому что переводит модель из режима генерации текста в режим выполнения задач.

Как работает

В SFT модель получает вход (запрос, инструкцию, пример задачи) и должна воспроизвести эталонный выход. Обучение идёт путём минимизации функции потерь между предсказанием и целевым текстом.

Ключевые шаги процесса:

Сбор датасетов — инструкции, объяснения, преобразования текста, задачи по программированию, диалоги.
Нормализация форматов — приведение запросов и ответов к единому стандарту.
Обучение модели — оптимизация под задачу следования инструкциям.
Валидация — оценка качества и устойчивости структуры ответов.

SFT учит модель копировать паттерны поведения: структуру, стиль, логику, форматированные списки, аналитические ответы. Этот этап формирует основу для дальнейшего выравнивания поведения модели.

Где применяется

Подготовка ассистентов общего назначения.
Fine-tuning под задачи кода, аналитики, модерации или диалогов.
Стартовый этап перед RLHF или DPO.
Доменные модели: медицина, финансы, корпоративная аналитика.
Интерфейсы, требующие строгого формата вывода.
Агентные системы, где модель должна давать структурированные команды.

Практические примеры использования

В подготовке ассистента SFT включает тысячи примеров задач: от классификации и объяснений до многошаговых инструкций. После такого этапа модель уверенно соблюдает формат ответа, умеет выделять ключевую информацию и правильно интерпретировать запрос.

В системах генерации кода SFT проводится на наборах пар «проблема → корректное решение», что улучшает способность модели давать рабочие фрагменты кода.

В корпоративных системах SFT помогает адаптировать модель под доменные стандарты: стиль документов, шаблоны отчётов, ограничения безопасности.

В агентных инструментах SFT обучает модель выдавать ответы в формате JSON, команд API или структурированных планов.

Ключевые свойства SFT

Точное соответствие данным — модель обучается воспроизводить целевой ответ.
Строгая структура — формирование привычки отвечать в стандартных форматах.
Основа для alignment — задаёт каркас поведения перед RLHF/DPO.
Передача доменных знаний — модель перенимает стиль и требования области.

Проблемы и ограничения

Шумные данные — ошибки размеченных примеров копируются в модель.
Переобучение — при небольших датасетах модель теряет универсальность.
Скованность форматов — модель привыкает к шаблонам, хуже работает на свободных запросах.
Не решает полностью reasoning — качество рассуждений улучшает RLHF, а не только SFT.
Зависимость от разнообразия — плохой охват задач уменьшает обобщающую способность.

Преимущества и ограничения

Плюс: создаёт базовое умение выполнять задания.
Плюс: улучшает форматирование и структуру ответов.
Плюс: позволяет адаптировать модель под конкретный домен.
Плюс: необходимый этап перед RLHF и DPO.
Минус: требует качественных размеченных данных.
Минус: может ограничить гибкость модели.
Минус: дорого масштабируется при больших датасетах.
Минус: не гарантирует устойчивость к сложным атакам или ловушкам.

Связанные термины

Instruction tuning
RLHF
DPO
Preference modeling
Реward model
Supervised datasets
Chain-of-Thought prompting

Категория термина

Обучение и дообучение

Экосистемы