Обновления DeepSeek: V2, V3, R1 и новые релизы
Обновления модели

Deepseek

Многоязычная MoE-платформа больших моделей с отдельной reasoning-линией и открытыми весами

Обновления
NeuroCat Updates

Эволюция моделей DeepSeek строится вокруг перехода от специализированных dense-моделей к масштабируемой MoE-архитектуре и далее — к reasoning и мультимодальным системам. Ниже приведена хронология ключевых релизов и архитектурных изменений.

2023 — Запуск DeepSeek-Coder

Первой публичной моделью линейки стала DeepSeek-Coder. Это плотная (dense) языковая модель, ориентированная на генерацию и анализ кода.

  • Контекст до 16K токенов
  • Поддержка infilling
  • Open-weight публикация

DeepSeek-Coder стал технологической отправной точкой всей экосистемы. На этом этапе MoE-архитектура ещё не применялась.

2024 — Переход к MoE: DeepSeek-V2

С релизом DeepSeek-V2 линейка перешла к архитектуре Mixture-of-Experts.

  • Около 236B параметров
  • ≈21B активных параметров на токен
  • Контекст до 128K токенов

V2 стала первым поколением DeepSeekMoE и продемонстрировала экономичный inference при большом общем масштабе модели.

Конец 2024 — Флагманская модель DeepSeek-V3

Следующим этапом развития стала DeepSeek-V3, масштабированная до 671B параметров (≈37B активных).

  • Развитие DeepSeekMoE
  • Улучшенные benchmark-показатели (MMLU, MATH)
  • Длинный контекст 64K–128K

V3 стала универсальным ядром платформы и базой для дальнейших специализированных моделей.

2025 — Запуск reasoning-линии DeepSeek-R1

В 2025 году была представлена специализированная reasoning-модель DeepSeek-R1.

  • Основана на архитектуре V3
  • Фокус на многошаговый логический анализ
  • MMLU около 90%
  • Высокие результаты на MATH и AIME

R1 стала первой моделью линейки, обученной с явным акцентом на устойчивый chain-of-thought reasoning.

2025 — Появление DeepSeek-R1 Distill

Для снижения требований к инфраструктуре были выпущены дистиллированные версии DeepSeek-R1 Distill.

  • Плотные (dense) версии 1.5B–70B
  • Open-weight публикация
  • Локальный reasoning-деплой

Distill-линия стала компромиссом между качеством флагманской R1 и практической применимостью в корпоративной среде.

2024–2025 — Развитие мультимодальной линии

Параллельно с текстовыми моделями развивалась vision-language ветка:

  • DeepSeek-VL — первая мультимодальная модель
  • DeepSeek-VL2 — MoE-версия с усиленным визуальным анализом

VL-линия добавила поддержку изображений, PDF и интерфейсного анализа в экосистему DeepSeek.

Архитектурная эволюция

Итог развития

Линейка DeepSeek прошла путь от специализированной code-модели к масштабируемой MoE-платформе с отдельной reasoning-веткой и мультимодальной поддержкой. Ключевыми технологическими этапами стали внедрение MoE-архитектуры, расширение контекста до 128K и создание специализированной reasoning-линии.