DeepSeek-R1 — reasoning LLM с 671B MoE и 90% MMLU
Модель ИИ

DeepSeek-R1

DeepSeek-R1
NeuroCat & DeepSeek-R1

DeepSeek-R1 — специализированная reasoning-модель линейки DeepSeek, представленная в 2025 году. Модель построена на базе архитектуры DeepSeek-V3 и ориентирована на многошаговый логический анализ, математические задачи и сложные алгоритмические рассуждения.

В отличие от универсальной модели DeepSeek-V3, R1 оптимизирован для устойчивого chain-of-thought reasoning и демонстрирует более высокие показатели на академических бенчмарках.

Архитектура

  • Общий объём параметров: 671B
  • Активных параметров: около 37B на токен
  • Архитектура: Mixture-of-Experts (MoE)
  • Ориентация: reasoning-first обучение
  • Максимальная длина генерации в тестах: до 32K токенов

R1 использует разреженную активацию экспертов и обучался с фокусом на формирование устойчивых логических цепочек. Это отличает его от универсальных LLM, где reasoning не является основным приоритетом обучения.

Benchmark-показатели

  • MMLU — около 90–91%
  • MMLU-Pro — около 84%
  • MATH-500 — около 97%
  • AIME 2024 — около 79%
  • Сильные результаты на LiveCodeBench и SWE-Bench Verified

По ряду задач DeepSeek-R1 приближается к уровню ведущих закрытых reasoning-моделей, оставаясь при этом частью экосистемы с open-weight дистиллятами (DeepSeek-R1 Distill).

Поведение в реальных сценариях

Многошаговый reasoning

R1 формирует последовательные цепочки рассуждений, удерживая промежуточные логические шаги. Это снижает вероятность поверхностных ответов по сравнению с базовой моделью DeepSeek-V3.

Математика и алгоритмы

Модель демонстрирует высокую устойчивость на задачах формальной логики и олимпиадной математики.

Кодовые задачи

R1 показывает сильные результаты в инженерных сценариях, однако специализированной моделью для кода остаётся DeepSeek-Coder.

Chain-of-Thought и API

В API-режиме reasoning может тарифицироваться отдельно. Модель генерирует расширенные логические цепочки, что увеличивает вычислительную нагрузку по сравнению с универсальными LLM.

Сравнение с российскими моделями

По сравнению с YandexGPT 5 Pro и GigaChat MAX, DeepSeek-R1 демонстрирует более прозрачные академические benchmark-показатели (MMLU, MATH, AIME).

GigaChat MAX позиционируется как флагманская аналитическая модель Сбера, однако детализированные международные бенчмарки раскрываются ограниченно. YandexGPT 5 Pro ориентирован на русскоязычные сценарии и ассистентские задачи.

DeepSeek-R1 в большей степени ориентирован на академические и инженерные тесты международного уровня.

Ограничения

  • Галлюцинации возможны при сложных и перегруженных запросах;
  • Уверенные, но неверные рассуждения при некорректной постановке задачи;
  • Высокая вычислительная стоимость reasoning-режима;
  • Требуется обязательная верификация в критических сценариях.

R1-Distill

На базе R1 были выпущены дистиллированные версии (DeepSeek-R1 Distill) различного размера, позволяющие запускать reasoning-модели локально. Эти версии обеспечивают компромисс между качеством и ресурсами.

Роль в линейке DeepSeek

DeepSeek-R1 — это специализированная reasoning-платформа поверх архитектуры DeepSeek-V3. Если V3 является универсальной LLM, то R1 предназначен для задач повышенной логической сложности, математического анализа и инженерных расчётов.

В структуре линейки R1 занимает верхний уровень аналитической специализации.