VK TTS и ASR — голосовые технологии ВКонтакте
Модель ИИ

VK TTS / ASR

VK TTS / ASR
NeuroCat & VK TTS / ASR

Что входит в стек

VK развивает собственные модели распознавания речи (ASR) и синтеза голоса (TTS). Они используются в ассистенте Diona, приложениях VK, видеосервисах и экосистеме устройств.

TTS (синтез голоса)

  • естественное звучание;
  • несколько голосовых стилей;
  • возможность адаптации под характер контента;
  • быстрый отклик в реальном времени;
  • поддержка длинного контента (подкасты, лекции).

ASR (распознавание речи)

  • устойчивая работа в шумной среде;
  • точное распознавание русского разговорного языка;
  • адаптация под акценты и речь пользователей;
  • минимальная задержка;
  • поддержка диалогового режима.

Где используется

  • ассистент Diona;
  • VK Видео;
  • VK Музыка;
  • voice-сообщения в мессенджере;
  • умные устройства партнёров;
  • VK AI Studio.

Итог

TTS и ASR — фундамент голосовых технологий VK. Они обеспечивают натуральное звучание, быстрое распознавание и стабильную работу ассистента.