Weak supervision в разметке и обучении моделей

Термин глоссария

Weak supervision


Weak supervision — подход к разметке данных, основанный на автоматических или полуавтоматических источниках меток, позволяющий масштабировать обучение моделей без полной ручной аннотации.

Определение

Weak supervision — это метод генерации меток для обучающего корпуса с использованием слабых источников разметки: эвристик, правил, distant supervision, слабых моделей, голосовых функций (labeling functions), регулярных выражений или агрегаторов решений. Такой подход снижает стоимость разметки и ускоряет создание больших специализированных датасетов, но вводит шум — неточность меток по сравнению с human-annotated data. Weak supervision используется в системах, где объём данных слишком велик для ручной аннотации или нужны частично автоматические способы формирования лейблов.

Как работает

Weak supervision строится вокруг нескольких компонентов:

  • Labeling functions — набор правил, эвристик или моделей, которые ставят метки данным. Пример: «если текст содержит X, классифицировать как токсичный».
  • Distant supervision — использование внешних источников знаний. Например, метка создаётся по связи между сущностями в базе знаний.
  • Model-based labeling — применение слабой или старой модели для автоматической разметки данных.
  • Aggregation / Denoising — объединение сигналов от нескольких источников для уменьшения шума. Используются:
    • модели согласованности (Snorkel-style),
    • взвешенные голосования,
    • probabilistic label models.
  • Confidence weighting — каждому слабому лейблу присваивается степень уверенности, используемая при обучении.

В LLM weak supervision применяется как промежуточный слой между raw data и высококачественным human-annotated data. Он позволяет быстро сформировать большие объёмы полезных примеров, которые затем проходят фильтрацию и дообучение.

Где применяется

  • Классификаторы токсичности, спама, юридических рисков.
  • Системы NER (распознавание сущностей) через distant supervision.
  • Создание больших доменных датасетов, где дорого вручную разметить данные.
  • Подготовка данных для SFT и instruction tuning.
  • RAG-пайплайны — автоматическая типизация документов.

Практические примеры использования

Системы вроде Snorkel и аналогичные фреймворки позволяют формировать десятки миллионов размеченных примеров без ручной аннотации. В LLM weak supervision используется для разметки больших корпусов токсичности, эмоциональных тонов, структурных форматов, юридических и финансовых категорий. Сильные модели также могут выступать как источники weak labels: например, старая версия LLM генерирует метки, которые затем очищаются и используются в обучении новой модели.

В корпоративных пайплайнах weak supervision применяется для автоматизированной классификации документов, определения типов задач, маршрутизации тикетов и первичной фильтрации контента.

Ключевые свойства

  • Позволяет быстро разметить огромные объёмы данных.
  • Опирается на множество источников слабых сигналов.
  • Требует фазу агрегации и подавления шума.
  • Снижает зависимость от дорогой ручной аннотации.
  • Часто используется как первый слой разметки перед human checking.

Проблемы и ограничения

  • Шумные или противоречивые метки ухудшают итоговую модель.
  • Эвристики плохо переносятся на новые домены.
  • Ошибки слабых моделей масштабируются на весь датасет.
  • Требуется тонкая настройка фильтров и агрегации.
  • Сложно контролировать скрытое смещение, появляющееся в слабых правилах.

Преимущества и ограничения

  • Плюс: быстрый масштабируемый способ разметки больших корпусов.
  • Минус: высокая чувствительность к шуму и качеству источников меток.

Связанные термины

  • Distant supervision
  • Human-annotated dataset
  • Data filtering
  • Labeling functions
  • Synthetic dataset

Категория термина

Работа с данными и векторами