Обновления DeepSeek: V2, V3, R1 и новые релизы

Эволюция моделей DeepSeek строится вокруг перехода от специализированных dense-моделей к масштабируемой MoE-архитектуре и далее — к reasoning и мультимодальным системам. Ниже приведена хронология ключевых релизов и архитектурных изменений.

2023 — Запуск DeepSeek-Coder

Первой публичной моделью линейки стала DeepSeek-Coder. Это плотная (dense) языковая модель, ориентированная на генерацию и анализ кода.

Контекст до 16K токенов
Поддержка infilling
Open-weight публикация

DeepSeek-Coder стал технологической отправной точкой всей экосистемы. На этом этапе MoE-архитектура ещё не применялась.

2024 — Переход к MoE: DeepSeek-V2

С релизом DeepSeek-V2 линейка перешла к архитектуре Mixture-of-Experts.

Около 236B параметров
≈21B активных параметров на токен
Контекст до 128K токенов

V2 стала первым поколением DeepSeekMoE и продемонстрировала экономичный inference при большом общем масштабе модели.

Конец 2024 — Флагманская модель DeepSeek-V3

Следующим этапом развития стала DeepSeek-V3, масштабированная до 671B параметров (≈37B активных).

Развитие DeepSeekMoE
Улучшенные benchmark-показатели (MMLU, MATH)
Длинный контекст 64K–128K

V3 стала универсальным ядром платформы и базой для дальнейших специализированных моделей.

2025 — Запуск reasoning-линии DeepSeek-R1

В 2025 году была представлена специализированная reasoning-модель DeepSeek-R1.

Основана на архитектуре V3
Фокус на многошаговый логический анализ
MMLU около 90%
Высокие результаты на MATH и AIME

R1 стала первой моделью линейки, обученной с явным акцентом на устойчивый chain-of-thought reasoning.

2025 — Появление DeepSeek-R1 Distill

Для снижения требований к инфраструктуре были выпущены дистиллированные версии DeepSeek-R1 Distill.

Плотные (dense) версии 1.5B–70B
Open-weight публикация
Локальный reasoning-деплой

Distill-линия стала компромиссом между качеством флагманской R1 и практической применимостью в корпоративной среде.

2024–2025 — Развитие мультимодальной линии

Параллельно с текстовыми моделями развивалась vision-language ветка:

DeepSeek-VL — первая мультимодальная модель
DeepSeek-VL2 — MoE-версия с усиленным визуальным анализом

VL-линия добавила поддержку изображений, PDF и интерфейсного анализа в экосистему DeepSeek.

Архитектурная эволюция

2023 — Dense code-модель (DeepSeek-Coder)
2024 — Переход к MoE (DeepSeek-V2)
2024 — Масштабирование MoE (DeepSeek-V3)
2025 — Специализация reasoning (DeepSeek-R1)
2025 — Дистилляция reasoning (DeepSeek-R1 Distill)
2024–2025 — Мультимодальность (VL и VL2)

Итог развития

Линейка DeepSeek прошла путь от специализированной code-модели к масштабируемой MoE-платформе с отдельной reasoning-веткой и мультимодальной поддержкой. Ключевыми технологическими этапами стали внедрение MoE-архитектуры, расширение контекста до 128K и создание специализированной reasoning-линии.

Экосистемы

Deepseek