Термин глоссария

Weak supervision

Weak supervision — подход к разметке данных, основанный на автоматических или полуавтоматических источниках меток, позволяющий масштабировать обучение моделей без полной ручной аннотации.

Определение

Weak supervision — это метод генерации меток для обучающего корпуса с использованием слабых источников разметки: эвристик, правил, distant supervision, слабых моделей, голосовых функций (labeling functions), регулярных выражений или агрегаторов решений. Такой подход снижает стоимость разметки и ускоряет создание больших специализированных датасетов, но вводит шум — неточность меток по сравнению с human-annotated data. Weak supervision используется в системах, где объём данных слишком велик для ручной аннотации или нужны частично автоматические способы формирования лейблов.

Как работает

Weak supervision строится вокруг нескольких компонентов:

Labeling functions — набор правил, эвристик или моделей, которые ставят метки данным. Пример: «если текст содержит X, классифицировать как токсичный».
Distant supervision — использование внешних источников знаний. Например, метка создаётся по связи между сущностями в базе знаний.
Model-based labeling — применение слабой или старой модели для автоматической разметки данных.
Aggregation / Denoising — объединение сигналов от нескольких источников для уменьшения шума. Используются:
- модели согласованности (Snorkel-style),
- взвешенные голосования,
- probabilistic label models.
Confidence weighting — каждому слабому лейблу присваивается степень уверенности, используемая при обучении.

В LLM weak supervision применяется как промежуточный слой между raw data и высококачественным human-annotated data. Он позволяет быстро сформировать большие объёмы полезных примеров, которые затем проходят фильтрацию и дообучение.

Где применяется

Классификаторы токсичности, спама, юридических рисков.
Системы NER (распознавание сущностей) через distant supervision.
Создание больших доменных датасетов, где дорого вручную разметить данные.
Подготовка данных для SFT и instruction tuning.
RAG-пайплайны — автоматическая типизация документов.

Практические примеры использования

Системы вроде Snorkel и аналогичные фреймворки позволяют формировать десятки миллионов размеченных примеров без ручной аннотации. В LLM weak supervision используется для разметки больших корпусов токсичности, эмоциональных тонов, структурных форматов, юридических и финансовых категорий. Сильные модели также могут выступать как источники weak labels: например, старая версия LLM генерирует метки, которые затем очищаются и используются в обучении новой модели.

В корпоративных пайплайнах weak supervision применяется для автоматизированной классификации документов, определения типов задач, маршрутизации тикетов и первичной фильтрации контента.

Ключевые свойства

Позволяет быстро разметить огромные объёмы данных.
Опирается на множество источников слабых сигналов.
Требует фазу агрегации и подавления шума.
Снижает зависимость от дорогой ручной аннотации.
Часто используется как первый слой разметки перед human checking.

Проблемы и ограничения

Шумные или противоречивые метки ухудшают итоговую модель.
Эвристики плохо переносятся на новые домены.
Ошибки слабых моделей масштабируются на весь датасет.
Требуется тонкая настройка фильтров и агрегации.
Сложно контролировать скрытое смещение, появляющееся в слабых правилах.

Преимущества и ограничения

Плюс: быстрый масштабируемый способ разметки больших корпусов.
Минус: высокая чувствительность к шуму и качеству источников меток.

Связанные термины

Distant supervision
Human-annotated dataset
Data filtering
Labeling functions
Synthetic dataset

Категория термина

Работа с данными и векторами

Экосистемы