VK TTS и ASR — голосовые технологии ВКонтакте

Что входит в стек

VK развивает собственные модели распознавания речи (ASR) и синтеза голоса (TTS). Они используются в ассистенте Diona, приложениях VK, видеосервисах и экосистеме устройств.

TTS (синтез голоса)

естественное звучание;
несколько голосовых стилей;
возможность адаптации под характер контента;
быстрый отклик в реальном времени;
поддержка длинного контента (подкасты, лекции).

ASR (распознавание речи)

устойчивая работа в шумной среде;
точное распознавание русского разговорного языка;
адаптация под акценты и речь пользователей;
минимальная задержка;
поддержка диалогового режима.

Где используется

ассистент Diona;
VK Видео;
VK Музыка;
voice-сообщения в мессенджере;
умные устройства партнёров;
VK AI Studio.

Итог

TTS и ASR — фундамент голосовых технологий VK. Они обеспечивают натуральное звучание, быстрое распознавание и стабильную работу ассистента.

Экосистемы

VK TTS / ASR

Что входит в стек

TTS (синтез голоса)

ASR (распознавание речи)

Где используется

Итог