Supervised fine-tuning для языковых моделей

Термин глоссария

Supervised fine-tuning


Supervised fine-tuning — обучение модели на размеченных примерах, где каждый запрос имеет эталонный ответ, формируя базовое умение следовать задачам.

Определение

Supervised fine-tuning (SFT) — это этап обучения модели на вручную или автоматически размеченных данных, где для каждого входного примера существует правильный или целевой ответ. В отличие от базового обучения языковой модели на больших корпусах, SFT обучает модель решать конкретные задачи: отвечать по инструкции, соблюдать формат, писать код, объяснять шаги решения или корректно выполнять трансформации текста.

SFT является фундаментальным этапом перед RLHF, DPO и другими методами выравнивания, потому что переводит модель из режима генерации текста в режим выполнения задач.

Как работает

В SFT модель получает вход (запрос, инструкцию, пример задачи) и должна воспроизвести эталонный выход. Обучение идёт путём минимизации функции потерь между предсказанием и целевым текстом.

Ключевые шаги процесса:

  • Сбор датасетов — инструкции, объяснения, преобразования текста, задачи по программированию, диалоги.
  • Нормализация форматов — приведение запросов и ответов к единому стандарту.
  • Обучение модели — оптимизация под задачу следования инструкциям.
  • Валидация — оценка качества и устойчивости структуры ответов.

SFT учит модель копировать паттерны поведения: структуру, стиль, логику, форматированные списки, аналитические ответы. Этот этап формирует основу для дальнейшего выравнивания поведения модели.

Где применяется

  • Подготовка ассистентов общего назначения.
  • Fine-tuning под задачи кода, аналитики, модерации или диалогов.
  • Стартовый этап перед RLHF или DPO.
  • Доменные модели: медицина, финансы, корпоративная аналитика.
  • Интерфейсы, требующие строгого формата вывода.
  • Агентные системы, где модель должна давать структурированные команды.

Практические примеры использования

В подготовке ассистента SFT включает тысячи примеров задач: от классификации и объяснений до многошаговых инструкций. После такого этапа модель уверенно соблюдает формат ответа, умеет выделять ключевую информацию и правильно интерпретировать запрос.

В системах генерации кода SFT проводится на наборах пар «проблема → корректное решение», что улучшает способность модели давать рабочие фрагменты кода.

В корпоративных системах SFT помогает адаптировать модель под доменные стандарты: стиль документов, шаблоны отчётов, ограничения безопасности.

В агентных инструментах SFT обучает модель выдавать ответы в формате JSON, команд API или структурированных планов.

Ключевые свойства SFT

  • Точное соответствие данным — модель обучается воспроизводить целевой ответ.
  • Строгая структура — формирование привычки отвечать в стандартных форматах.
  • Основа для alignment — задаёт каркас поведения перед RLHF/DPO.
  • Передача доменных знаний — модель перенимает стиль и требования области.

Проблемы и ограничения

  • Шумные данные — ошибки размеченных примеров копируются в модель.
  • Переобучение — при небольших датасетах модель теряет универсальность.
  • Скованность форматов — модель привыкает к шаблонам, хуже работает на свободных запросах.
  • Не решает полностью reasoning — качество рассуждений улучшает RLHF, а не только SFT.
  • Зависимость от разнообразия — плохой охват задач уменьшает обобщающую способность.

Преимущества и ограничения

  • Плюс: создаёт базовое умение выполнять задания.
  • Плюс: улучшает форматирование и структуру ответов.
  • Плюс: позволяет адаптировать модель под конкретный домен.
  • Плюс: необходимый этап перед RLHF и DPO.
  • Минус: требует качественных размеченных данных.
  • Минус: может ограничить гибкость модели.
  • Минус: дорого масштабируется при больших датасетах.
  • Минус: не гарантирует устойчивость к сложным атакам или ловушкам.

Связанные термины

  • Instruction tuning
  • RLHF
  • DPO
  • Preference modeling
  • Reward model
  • Supervised datasets
  • Chain-of-Thought prompting

Категория термина

Обучение и дообучение