Weak supervision — подход к разметке данных, основанный на автоматических или полуавтоматических источниках меток, позволяющий масштабировать обучение моделей без полной ручной аннотации.
Определение
Weak supervision — это метод генерации меток для обучающего корпуса с использованием слабых источников разметки: эвристик, правил, distant supervision, слабых моделей, голосовых функций (labeling functions), регулярных выражений или агрегаторов решений. Такой подход снижает стоимость разметки и ускоряет создание больших специализированных датасетов, но вводит шум — неточность меток по сравнению с human-annotated data. Weak supervision используется в системах, где объём данных слишком велик для ручной аннотации или нужны частично автоматические способы формирования лейблов.
Как работает
Weak supervision строится вокруг нескольких компонентов:
- Labeling functions — набор правил, эвристик или моделей, которые ставят метки данным. Пример: «если текст содержит X, классифицировать как токсичный».
- Distant supervision — использование внешних источников знаний. Например, метка создаётся по связи между сущностями в базе знаний.
- Model-based labeling — применение слабой или старой модели для автоматической разметки данных.
- Aggregation / Denoising — объединение сигналов от нескольких источников для уменьшения шума. Используются:
- модели согласованности (Snorkel-style),
- взвешенные голосования,
- probabilistic label models.
- Confidence weighting — каждому слабому лейблу присваивается степень уверенности, используемая при обучении.
В LLM weak supervision применяется как промежуточный слой между raw data и высококачественным human-annotated data. Он позволяет быстро сформировать большие объёмы полезных примеров, которые затем проходят фильтрацию и дообучение.
Где применяется
- Классификаторы токсичности, спама, юридических рисков.
- Системы NER (распознавание сущностей) через distant supervision.
- Создание больших доменных датасетов, где дорого вручную разметить данные.
- Подготовка данных для SFT и instruction tuning.
- RAG-пайплайны — автоматическая типизация документов.
Практические примеры использования
Системы вроде Snorkel и аналогичные фреймворки позволяют формировать десятки миллионов размеченных примеров без ручной аннотации. В LLM weak supervision используется для разметки больших корпусов токсичности, эмоциональных тонов, структурных форматов, юридических и финансовых категорий. Сильные модели также могут выступать как источники weak labels: например, старая версия LLM генерирует метки, которые затем очищаются и используются в обучении новой модели.
В корпоративных пайплайнах weak supervision применяется для автоматизированной классификации документов, определения типов задач, маршрутизации тикетов и первичной фильтрации контента.
Ключевые свойства
- Позволяет быстро разметить огромные объёмы данных.
- Опирается на множество источников слабых сигналов.
- Требует фазу агрегации и подавления шума.
- Снижает зависимость от дорогой ручной аннотации.
- Часто используется как первый слой разметки перед human checking.
Проблемы и ограничения
- Шумные или противоречивые метки ухудшают итоговую модель.
- Эвристики плохо переносятся на новые домены.
- Ошибки слабых моделей масштабируются на весь датасет.
- Требуется тонкая настройка фильтров и агрегации.
- Сложно контролировать скрытое смещение, появляющееся в слабых правилах.
Преимущества и ограничения
- Плюс: быстрый масштабируемый способ разметки больших корпусов.
- Минус: высокая чувствительность к шуму и качеству источников меток.
Связанные термины
- Distant supervision
- Human-annotated dataset
- Data filtering
- Labeling functions
- Synthetic dataset