Эволюция моделей DeepSeek строится вокруг перехода от специализированных dense-моделей к масштабируемой MoE-архитектуре и далее — к reasoning и мультимодальным системам. Ниже приведена хронология ключевых релизов и архитектурных изменений.
2023 — Запуск DeepSeek-Coder
Первой публичной моделью линейки стала DeepSeek-Coder. Это плотная (dense) языковая модель, ориентированная на генерацию и анализ кода.
- Контекст до 16K токенов
- Поддержка infilling
- Open-weight публикация
DeepSeek-Coder стал технологической отправной точкой всей экосистемы. На этом этапе MoE-архитектура ещё не применялась.
2024 — Переход к MoE: DeepSeek-V2
С релизом DeepSeek-V2 линейка перешла к архитектуре Mixture-of-Experts.
- Около 236B параметров
- ≈21B активных параметров на токен
- Контекст до 128K токенов
V2 стала первым поколением DeepSeekMoE и продемонстрировала экономичный inference при большом общем масштабе модели.
Конец 2024 — Флагманская модель DeepSeek-V3
Следующим этапом развития стала DeepSeek-V3, масштабированная до 671B параметров (≈37B активных).
- Развитие DeepSeekMoE
- Улучшенные benchmark-показатели (MMLU, MATH)
- Длинный контекст 64K–128K
V3 стала универсальным ядром платформы и базой для дальнейших специализированных моделей.
2025 — Запуск reasoning-линии DeepSeek-R1
В 2025 году была представлена специализированная reasoning-модель DeepSeek-R1.
- Основана на архитектуре V3
- Фокус на многошаговый логический анализ
- MMLU около 90%
- Высокие результаты на MATH и AIME
R1 стала первой моделью линейки, обученной с явным акцентом на устойчивый chain-of-thought reasoning.
2025 — Появление DeepSeek-R1 Distill
Для снижения требований к инфраструктуре были выпущены дистиллированные версии DeepSeek-R1 Distill.
- Плотные (dense) версии 1.5B–70B
- Open-weight публикация
- Локальный reasoning-деплой
Distill-линия стала компромиссом между качеством флагманской R1 и практической применимостью в корпоративной среде.
2024–2025 — Развитие мультимодальной линии
Параллельно с текстовыми моделями развивалась vision-language ветка:
- DeepSeek-VL — первая мультимодальная модель
- DeepSeek-VL2 — MoE-версия с усиленным визуальным анализом
VL-линия добавила поддержку изображений, PDF и интерфейсного анализа в экосистему DeepSeek.
Архитектурная эволюция
- 2023 — Dense code-модель (DeepSeek-Coder)
- 2024 — Переход к MoE (DeepSeek-V2)
- 2024 — Масштабирование MoE (DeepSeek-V3)
- 2025 — Специализация reasoning (DeepSeek-R1)
- 2025 — Дистилляция reasoning (DeepSeek-R1 Distill)
- 2024–2025 — Мультимодальность (VL и VL2)
Итог развития
Линейка DeepSeek прошла путь от специализированной code-модели к масштабируемой MoE-платформе с отдельной reasoning-веткой и мультимодальной поддержкой. Ключевыми технологическими этапами стали внедрение MoE-архитектуры, расширение контекста до 128K и создание специализированной reasoning-линии.