Семейство DeepSeek: Coder, V2, V3, R1 и VL
Модель ИИ

Deepseek

Семейство моделей и поколения

Многоязычная MoE-платформа больших моделей с отдельной reasoning-линией и открытыми весами

Семейство моделей
NeuroCat Family

DeepSeek-Coder

кодовая линия

code open-weight infill

Первая публичная open-weight линия DeepSeek, ориентированная на программирование и infilling.

DeepSeek-Coder обучался на большом массиве репозиториев и оптимизирован под генерацию, автодополнение и вставку кода. Демонстрирует сильные результаты на HumanEval, MBPP и DS-1000. Поддерживает множество языков программирования.

Период появления
2023
Роль в семействе
генерация и дополнение кода
Тип модели
dense code LLM
Контекст и масштаб
до 16K токенов
Варианты и конфигурации
1B–33B (разные конфигурации)
code open-weight infill

DeepSeek-V2

первое MoE-поколение

MoE LLM open-weight

Модель перехода к архитектуре DeepSeekMoE с акцентом на эффективность обучения и инференса.

DeepSeek-V2 использует разреженную архитектуру с активацией части экспертов на токен. Это позволило существенно снизить стоимость вывода по сравнению с dense-моделями сопоставимого масштаба.

Период появления
2024
Роль в семействе
универсальная экономичная LLM
Тип модели
Mixture-of-Experts LLM
Контекст и масштаб
до 128K токенов
Варианты и конфигурации
≈236B total / ≈21B active
MoE LLM open-weight

DeepSeek-V3

флагманское MoE-поколение

MoE LLM long-context

Крупнейшая публичная MoE-модель DeepSeek с высокими результатами на MMLU и математических бенчмарках.

DeepSeek-V3 сочетает архитектуру DeepSeekMoE и Multi-head Latent Attention. Модель демонстрирует конкурентоспособные результаты относительно ведущих закрытых LLM и стала основой для reasoning-линии R1.

Период появления
2024
Роль в семействе
универсальная LLM с усиленным reasoning
Тип модели
MoE language model
Контекст и масштаб
64K–128K токенов
Варианты и конфигурации
671B total / 37B active
MoE LLM long-context

DeepSeek-VL

vision-language линия

multimodal vision-language open-weight

Открытая модель для работы с изображениями, PDF, интерфейсами и документами.

DeepSeek-VL ориентирована на реальные сценарии: скриншоты, OCR, таблицы и сложные визуальные структуры. Используется для документного анализа и мультимодальных задач.

Период появления
2024
Роль в семействе
мультимодальное понимание изображений
Тип модели
vision-language LLM
Контекст и масштаб
зависит от конфигурации
Варианты и конфигурации
несколько вариантов
multimodal vision-language open-weight

DeepSeek-VL2

MoE мультимодальное поколение

MoE multimodal open-weight

Расширенная мультимодальная MoE-линия с улучшенным качеством визуального reasoning.

VL2 развивает идеи DeepSeek-VL, добавляя MoE-архитектуру и улучшенную обработку сложных мультимедийных входов.

Период появления
2024
Роль в семействе
продвинутое визуально-языковое понимание
Тип модели
MoE vision-language LLM
Контекст и масштаб
зависит от конфигурации
Варианты и конфигурации
несколько вариантов
MoE multimodal open-weight

DeepSeek-R1

reasoning-линия

reasoning MoE API

Специализированная reasoning-модель с высокими показателями на MMLU, MATH и кодовых тестах.

DeepSeek-R1 обучена с использованием техник стимулирования chain-of-thought reasoning. Базовая версия доступна через API как deepseek-reasoner.

Период появления
2025
Роль в семействе
глубокий многошаговый анализ
Тип модели
MoE reasoning model
Контекст и масштаб
до 32K генерации
Варианты и конфигурации
671B total / 37B active
reasoning MoE API

DeepSeek-R1 Distill

дистиллированная reasoning-линия

reasoning distilled open-weight

Open-weight дистилляты R1 на базах Qwen и Llama различных размеров.

Предлагают улучшенный reasoning при меньших ресурсах. Предназначены для локального запуска и корпоративной интеграции.

Период появления
2025
Роль в семействе
локальный reasoning и enterprise-деплой
Тип модели
dense distilled LLM
Контекст и масштаб
зависит от базовой архитектуры (Qwen/Llama)
Варианты и конфигурации
1.5B–70B
reasoning distilled open-weight