Deepseek
Семейство моделей и поколения
Многоязычная MoE-платформа больших моделей с отдельной reasoning-линией и открытыми весами
Поколения и версии модели
DeepSeek-Coder
Первая публичная open-weight линия DeepSeek, ориентированная на программирование и infilling.
DeepSeek-Coder обучался на большом массиве репозиториев и оптимизирован под генерацию, автодополнение и вставку кода. Демонстрирует сильные результаты на HumanEval, MBPP и DS-1000. Поддерживает множество языков программирования.
- Период появления
- 2023
- Роль в семействе
- генерация и дополнение кода
- Тип модели
- dense code LLM
- Контекст и масштаб
- до 16K токенов
- Варианты и конфигурации
- 1B–33B (разные конфигурации)
DeepSeek-V2
Модель перехода к архитектуре DeepSeekMoE с акцентом на эффективность обучения и инференса.
DeepSeek-V2 использует разреженную архитектуру с активацией части экспертов на токен. Это позволило существенно снизить стоимость вывода по сравнению с dense-моделями сопоставимого масштаба.
- Период появления
- 2024
- Роль в семействе
- универсальная экономичная LLM
- Тип модели
- Mixture-of-Experts LLM
- Контекст и масштаб
- до 128K токенов
- Варианты и конфигурации
- ≈236B total / ≈21B active
DeepSeek-V3
Крупнейшая публичная MoE-модель DeepSeek с высокими результатами на MMLU и математических бенчмарках.
DeepSeek-V3 сочетает архитектуру DeepSeekMoE и Multi-head Latent Attention. Модель демонстрирует конкурентоспособные результаты относительно ведущих закрытых LLM и стала основой для reasoning-линии R1.
- Период появления
- 2024
- Роль в семействе
- универсальная LLM с усиленным reasoning
- Тип модели
- MoE language model
- Контекст и масштаб
- 64K–128K токенов
- Варианты и конфигурации
- 671B total / 37B active
DeepSeek-VL
Открытая модель для работы с изображениями, PDF, интерфейсами и документами.
DeepSeek-VL ориентирована на реальные сценарии: скриншоты, OCR, таблицы и сложные визуальные структуры. Используется для документного анализа и мультимодальных задач.
- Период появления
- 2024
- Роль в семействе
- мультимодальное понимание изображений
- Тип модели
- vision-language LLM
- Контекст и масштаб
- зависит от конфигурации
- Варианты и конфигурации
- несколько вариантов
DeepSeek-VL2
Расширенная мультимодальная MoE-линия с улучшенным качеством визуального reasoning.
VL2 развивает идеи DeepSeek-VL, добавляя MoE-архитектуру и улучшенную обработку сложных мультимедийных входов.
- Период появления
- 2024
- Роль в семействе
- продвинутое визуально-языковое понимание
- Тип модели
- MoE vision-language LLM
- Контекст и масштаб
- зависит от конфигурации
- Варианты и конфигурации
- несколько вариантов
DeepSeek-R1
Специализированная reasoning-модель с высокими показателями на MMLU, MATH и кодовых тестах.
DeepSeek-R1 обучена с использованием техник стимулирования chain-of-thought reasoning. Базовая версия доступна через API как deepseek-reasoner.
- Период появления
- 2025
- Роль в семействе
- глубокий многошаговый анализ
- Тип модели
- MoE reasoning model
- Контекст и масштаб
- до 32K генерации
- Варианты и конфигурации
- 671B total / 37B active
DeepSeek-R1 Distill
Open-weight дистилляты R1 на базах Qwen и Llama различных размеров.
Предлагают улучшенный reasoning при меньших ресурсах. Предназначены для локального запуска и корпоративной интеграции.
- Период появления
- 2025
- Роль в семействе
- локальный reasoning и enterprise-деплой
- Тип модели
- dense distilled LLM
- Контекст и масштаб
- зависит от базовой архитектуры (Qwen/Llama)
- Варианты и конфигурации
- 1.5B–70B