Инфраструктура Doubao — облачный Volcano Engine, MoE

Как устроена платформа Doubao на уровне инфраструктуры

Doubao — это не только набор моделей ByteDance, но и промышленная инфраструктура для их обучения и вывода. Платформа развернута внутри облачного контура Volcano Engine, который выступает для Doubao тем же, чем крупные облака являются для западных LLM: средой масштабного инференса, управления трафиком и поставки моделей как сервиса. Коммерческий запуск облачного набора Doubao как LLM-suite состоялся в 2024 году, после чего ByteDance начала быстро расширять линейку и вычислительную базу под неё.

Облачный контур Volcano Engine

Основной сценарий использования Doubao — облачный. Флагманские и мультимодальные версии рассчитаны на вывод через Volcano Engine: это позволяет ByteDance держать низкую задержку, стабильный аптайм и контролируемую стоимость токена. Внутри облака работают крупные кластеры для генеративных моделей, поддерживающие единый доступ ко всем веткам Doubao — текстовым, визуальным, аудио- и видео-генеративным.

Масштабирование под большие нагрузки

Doubao изначально проектировалась для массового пользовательского трафика. Публично известно, что платформа обрабатывает сотни миллиардов токенов в день, и это показывает требования к инфраструктуре: динамическое распределение нагрузки, автоматическое масштабирование по кластерам и приоритеты под real-time сценарии. Внутренние сервисы Volcano Engine оптимизированы именно под такой режим — когда нагрузка резко скачет, но время ответа должно оставаться предсказуемым.

Архитектура MoE и влияние на инференс

Старшие модели Doubao (включая поколение 1.5 Pro) используют разреженную архитектуру Mixture-of-Experts. Это означает, что суммарный объём параметров очень большой, но на каждом запросе активируется лишь часть «экспертов». Для инференса это критично: качество растёт как у тяжелой модели, а стоимость и задержка ближе к модели среднего уровня. В облаке такая схема дополнительно усиливается маршрутизацией экспертов между узлами, что делает Doubao экономичной при большом трафике.

Почему MoE важно для продуктов ByteDance

MoE-подход позволяет Doubao обслуживать разные классы запросов без ручного выбора модели пользователем. Простые диалоги идут через лёгкие под-модули, сложные — через более дорогие эксперты. В итоге пользователь получает стабильное качество, а платформа удерживает стоимость на приемлемом уровне, что и дало ByteDance возможность агрессивно снижать цены на токены.

Контекстные окна и память вывода

Линейка Doubao включает версии с расширенными контекстами — от десятков тысяч токенов до классов, рассчитанных на сверхдлинный ввод. Для инфраструктуры это означает рост нагрузки на память и внимание, поэтому ByteDance использует оптимизации длинного контекста: разреженное внимание, кеширование префикса, потоковую обработку и «скользящее» удержание истории. В результате модели способны устойчиво работать с длинными документами и сложными диалогами без резкого падения скорости.

Мультимодальный инференс в Doubao

Volcano Engine поддерживает отдельные цепочки вывода для мультимодальных моделей: визуальных (Doubao-Vision), аудио-веток и видео-генерации. Инфраструктура построена так, чтобы разные модальности не конкурировали за один и тот же вычислительный контур. Это важно для реальных продуктов ByteDance, где один пользователь может в рамках одной сессии и общаться текстом, и генерировать изображение, и делать голосовой запрос.

Реal-time и потоковые режимы

Для ассистентов и медиа-приложений Doubao поддерживает потоковый вывод: первые токены приходят сразу, дальше ответ догружается по мере вычислений. Аналогичный подход используется в аудио- и видео-ветках, где инференс должен выдавать результат частями, чтобы пользователь ощущал работу «вживую».

Аппаратная база и инвестиции ByteDance

Расширение Doubao опирается на крупные инвестиции ByteDance в собственные вычислительные мощности. Компания наращивает дата-центры и парк AI-ускорителей как внутри Китая, так и за его пределами, чтобы обеспечить обучение новых поколений и стабильный вывод флагманов. Этот инфраструктурный рывок связан с желанием ByteDance укрепить Doubao как долгосрочную модельную платформу и снизить зависимость от внешних поставщиков вычислений.

Локальные запуски и open-weight сценарии

Часть моделей Doubao доступна в облегчённых вариантах, которые можно разворачивать локально или на частном облаке. Обычно это версии Lite или Mobile-класса: они оптимизированы под низкую задержку и умеренные требования к памяти. Однако флагманские MoE-модели и мультимодальные генеративные ветки в основном остаются облачными, поскольку их инференс требует сложной маршрутизации экспертов и крупных вычислительных ресурсов.

Итог

Инфраструктура Doubao — это промышленный облачный стек Volcano Engine, рассчитанный на огромный ежедневный трафик, экономичный MoE-инференс, поддержку длинных контекстов и богатую мультимодальность. Платформа развивается одновременно в сторону масштабирования вычислений и улучшения архитектуры вывода, что делает Doubao удобной базой для массовых сервисов и корпоративных решений.

Экосистемы

Инфраструктура