Supervised fine-tuning — обучение модели на размеченных примерах, где каждый запрос имеет эталонный ответ, формируя базовое умение следовать задачам.
Определение
Supervised fine-tuning (SFT) — это этап обучения модели на вручную или автоматически размеченных данных, где для каждого входного примера существует правильный или целевой ответ. В отличие от базового обучения языковой модели на больших корпусах, SFT обучает модель решать конкретные задачи: отвечать по инструкции, соблюдать формат, писать код, объяснять шаги решения или корректно выполнять трансформации текста.
SFT является фундаментальным этапом перед RLHF, DPO и другими методами выравнивания, потому что переводит модель из режима генерации текста в режим выполнения задач.
Как работает
В SFT модель получает вход (запрос, инструкцию, пример задачи) и должна воспроизвести эталонный выход. Обучение идёт путём минимизации функции потерь между предсказанием и целевым текстом.
Ключевые шаги процесса:
- Сбор датасетов — инструкции, объяснения, преобразования текста, задачи по программированию, диалоги.
- Нормализация форматов — приведение запросов и ответов к единому стандарту.
- Обучение модели — оптимизация под задачу следования инструкциям.
- Валидация — оценка качества и устойчивости структуры ответов.
SFT учит модель копировать паттерны поведения: структуру, стиль, логику, форматированные списки, аналитические ответы. Этот этап формирует основу для дальнейшего выравнивания поведения модели.
Где применяется
- Подготовка ассистентов общего назначения.
- Fine-tuning под задачи кода, аналитики, модерации или диалогов.
- Стартовый этап перед RLHF или DPO.
- Доменные модели: медицина, финансы, корпоративная аналитика.
- Интерфейсы, требующие строгого формата вывода.
- Агентные системы, где модель должна давать структурированные команды.
Практические примеры использования
В подготовке ассистента SFT включает тысячи примеров задач: от классификации и объяснений до многошаговых инструкций. После такого этапа модель уверенно соблюдает формат ответа, умеет выделять ключевую информацию и правильно интерпретировать запрос.
В системах генерации кода SFT проводится на наборах пар «проблема → корректное решение», что улучшает способность модели давать рабочие фрагменты кода.
В корпоративных системах SFT помогает адаптировать модель под доменные стандарты: стиль документов, шаблоны отчётов, ограничения безопасности.
В агентных инструментах SFT обучает модель выдавать ответы в формате JSON, команд API или структурированных планов.
Ключевые свойства SFT
- Точное соответствие данным — модель обучается воспроизводить целевой ответ.
- Строгая структура — формирование привычки отвечать в стандартных форматах.
- Основа для alignment — задаёт каркас поведения перед RLHF/DPO.
- Передача доменных знаний — модель перенимает стиль и требования области.
Проблемы и ограничения
- Шумные данные — ошибки размеченных примеров копируются в модель.
- Переобучение — при небольших датасетах модель теряет универсальность.
- Скованность форматов — модель привыкает к шаблонам, хуже работает на свободных запросах.
- Не решает полностью reasoning — качество рассуждений улучшает RLHF, а не только SFT.
- Зависимость от разнообразия — плохой охват задач уменьшает обобщающую способность.
Преимущества и ограничения
- Плюс: создаёт базовое умение выполнять задания.
- Плюс: улучшает форматирование и структуру ответов.
- Плюс: позволяет адаптировать модель под конкретный домен.
- Плюс: необходимый этап перед RLHF и DPO.
- Минус: требует качественных размеченных данных.
- Минус: может ограничить гибкость модели.
- Минус: дорого масштабируется при больших датасетах.
- Минус: не гарантирует устойчивость к сложным атакам или ловушкам.
Связанные термины
- Instruction tuning
- RLHF
- DPO
- Preference modeling
- Reward model
- Supervised datasets
- Chain-of-Thought prompting