Что входит в стек
VK развивает собственные модели распознавания речи (ASR) и синтеза голоса (TTS). Они используются в ассистенте Diona, приложениях VK, видеосервисах и экосистеме устройств.
TTS (синтез голоса)
- естественное звучание;
- несколько голосовых стилей;
- возможность адаптации под характер контента;
- быстрый отклик в реальном времени;
- поддержка длинного контента (подкасты, лекции).
ASR (распознавание речи)
- устойчивая работа в шумной среде;
- точное распознавание русского разговорного языка;
- адаптация под акценты и речь пользователей;
- минимальная задержка;
- поддержка диалогового режима.
Где используется
- ассистент Diona;
- VK Видео;
- VK Музыка;
- voice-сообщения в мессенджере;
- умные устройства партнёров;
- VK AI Studio.
Итог
TTS и ASR — фундамент голосовых технологий VK. Они обеспечивают натуральное звучание, быстрое распознавание и стабильную работу ассистента.