Яндекс улучшил YandexGPT 5 с помощью нового датасета

Яндекс прокачал YandexGPT 5: новый датасет по сложным правилам русского языка

~1 мин чтения

У Яндекса вышло редкое по полезности обновление: улучшена работа YandexGPT 5 в задачах проверки и исправления сложных ошибок русского языка. Исследователи МГУ и Яндекса представили открытый датасет LORuGEC и новый метод обучения, который заметно повышает качество грамматической коррекции у больших нейронных сетей.

Это не просто ещё один набор данных, а попытка закрыть старую боль LLM-моделей: они уверенно пишут тексты, но часто ломаются именно на тонких орфографических и пунктуационных правилах — от «жи–ши» и запятых в сложноподчинённых до согласования сказуемого и подлежащего.

Для контекста по экосистеме Яндекса и связке «Алиса + YandexGPT» можно посмотреть нашу карточку моделей.


Что такое LORuGEC и чем он отличается от обычных датасетов

LORuGEC — это специализированный датасет, в котором собраны примеры ошибок именно по сложным правилам русского языка. В него вошли почти тысяча предложений, каждое привязано к конкретной норме: от пунктуации в сложноподчинённых конструкциях до слитного и раздельного написания с «не».

Ключевая идея простая: вместо очередной «свалки текста» исследователи собрали компактный, но тщательно размеченный корпус, где каждая ошибка связана с конкретным правилом. Для Large Language Model это ценно: модель не просто подстраивается под статистику языка, а реально учится на явных, редких и трудных случаях.

В классических датасетах для обучения модели сложные орфографические и грамматические конструкции почти не представлены. Большинство текстов в открытых корпусах написаны либо корректно, либо с хаотичными ошибками. В результате искусственный интеллект хорошо имитирует стиль, но путается там, где нужен строгий школьный учебник.


Как Яндекс учит нейросеть исправлять ошибки

Авторы не стали просто «кормить» LORuGEC большой модели. Вместо этого они предложили метод, близкий к RAG-подходу, но для грамматической коррекции.

Схема выглядит так:

  • входное предложение с ошибкой обрабатывает отдельная модель-корректор (GEUTOR/GEСTOR-класс);
  • она ищет в LORuGEC примеры с похожим типом ошибки — например, ту же пропущенную запятую или тот же тип согласования;
  • выбранные примеры передаются в большую Large Language Model как дополнительный контекст;
  • LLM генерирует уже исправленный текст, опираясь на найденный шаблон.

Получается связка: классический инференс большой модели + точечные подсказки из специализированного корпуса. Это уменьшает риск «переделать» всё предложение и помогает менять только ту часть, где действительно есть ошибка.

По сути, это пример аккуратного prompt engineering на стероидах: вместо абстрактного «исправь ошибки», модель получает жёстко подобранные примеры того же типа, что делает поведение нейросети более предсказуемым.


Результаты: как изменился YandexGPT 5

Яндекс протестировал новый подход на своих моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах. По данным компании, точность исправления сложных ошибок выросла на 5–10 процентных пунктов по метрике F0.5 — стандарту оценки грамматической коррекции.

После дообучения и интеграции нового метода заявлены такие цифры:

  • YandexGPT 5 Pro — порядка 83% точности на сложных правилах;
  • YandexGPT 5 Lite — около 71%.

Важно, что рост качества достигается без «жёсткого» переобучения основной модели. LORuGEC используется как внешний знаниевый слой, который подключается в момент инференса. Это хороший пример того, как можно улучшать поведение Large Language Model, не трогая её параметры напрямую и не гоняя полное переобучение на новых корпусах.


Почему это важно именно для русского языка

Русский — язык с высокой морфологической сложностью и хитрой пунктуацией. Для нейронной сети это означает гораздо более сложное «латентное пространство», чем, например, для английского. Ошибка в одном окончании или частицы может менять смысл фразы, а пунктуация в сложноподчинённых предложениях очень слабо «подсвечена» в веб-корпусах.

Для бизнес-сценариев это не косметика, а фундамент: от качества грамматики зависят юридические письма, пользовательские уведомления, учебные материалы, документация. Модель, которая пишет почти правильно, но постоянно сбивается в нюансах, создаёт ощущение «дёшево и сердито» и убивает доверие к AI Agent-ассистентам.

С точки зрения рынка это шаг к тому, чтобы генеративные сервисы на базе YandexGPT 5 можно было использовать в образовательных проектах, проверке сочинений, корпоративной переписке и массовых коммуникациях — без страха, что ИИ будет регулярно позориться на базовых правилах.


Где это появится вживую

Ожидаемо, первый фронт применения — сервисы Яндекса, где уже используется связка Яндекс GPT + Алиса ИИ. Это:

  • чатовые сценарии в Alice AI LLM и других ассистентах;
  • редакторы и генераторы текста в Яндекс 360 и смежных продуктах;
  • интеграции через Yandex Cloud и AI Studio для бизнеса.

Подробную общую картину по экосистеме можно посмотреть в нашей карточке моделей Яндекс GPT и Алисы — там собраны основные версии, сценарии внедрения и ограничения.

С большой вероятностью, LORuGEC станет отправной точкой для новых образовательных сервисов: тренажёров по сложным правилам, автоматических «репетиторов» ЕГЭ и систем проверки письменных работ, где генерация текста и проверка ответов идут в паре.


Что это значит для рынка российских LLM

На фоне громких релизов «ещё одной большой модели» этот апдейт выглядит скромно, но стратегически он важен. Российские Large Language Model давно научились писать связный текст и отвечать на вопросы, но именно качественная работа с языковой нормой остаётся слабым местом.

История с LORuGEC и YandexGPT 5 показывает тренд: вместо гонки за сырыми параметрами модели (размер, токен-лимит, количество слоёв) игроки начинают усиливать конкретные навыки через специализированные датасеты и аккуратные архитектурные решения.

QR Telegram

Подписывайтесь на наш Telegram

Новости, сводки и разборы

Читайте также