Глоссарий

3D Gaussian fields

3D Gaussian fields — способ представления сцены как множества 3D-гауссианов с цветом, прозрачностью и ориентацией, используемый для быстрой реконструкции и дифференцируемого рендеринга

3D mesh reconstruction

3D mesh reconstruction — процесс восстановления трёхмерной поверхности объекта или сцены в виде сетки (mesh) по изображениям, видео или глубинным данным.

3D-генерация

3D-генерация — метод, при котором модели создают трёхмерные объекты или сцены на основе текста, изображений или набора снимков

Action space

Action space — формализованный набор действий, которые агент может выбирать и выполнять в рамках agent loop и заданной среды

Activation function

Activation function — математическая нелинейность, которая задаёт способ преобразования сигналов внутри нейросети и определяет её выразительность

Adversarial prompts

Adversarial prompts — специально сконструированные вводы, которые заставляют модель ошибаться, нарушать правила или выдавать некорректный вывод

Agent loop

Agent loop — циклический процесс работы LLM-агента, в котором модель последовательно анализирует состояние, принимает решение, выполняет действие и оценивает результат

Agentic workflows

Agentic workflows — структуры, где модель или несколько агентов выполняют задачу через последовательность действий, проверок и решений

AGI

AGI — класс систем, которые могут решать широкие задачи на уровне универсальных интеллектуальных способностей без узкой специализации

AI Agent — это модель или система, которая может самостоятельно выполнять задачи: анализировать входные данные, принимать решения, выбирать инструменты и действовать шаг за шагом без постоянных подсказок пользователя.

ALiBi

ALiBi — метод позиционного кодирования, который добавляет линейные смещения в attention-механизм и улучшает обработку длинных последовательностей

Alignment drift

Alignment drift — постепенное смещение поведения модели от заданных правил, инструкций или стратегий под влиянием контекста, данных или внутренних сбоев

Alignment tax

Alignment tax — снижение производительности или функциональности модели из-за механизмов выравнивания поведения под безопасные и контролируемые нормы

Attention head

Attention head — это отдельный канал внимания внутри self-attention, который отслеживает свой тип связей между токенами.

Attention sparsity

Attention sparsity — подход, при котором матрица внимания вычисляется не полностью, а только по выбранным позициям, чтобы снизить вычислительные затраты

Audio encoder

Audio encoder — модуль, преобразующий аудиосигнал или спектрограмму в эмбеддинги, пригодные для распознавания речи, анализа звуков и мультимодального вывода

Audio-LLM

Audio-LLM — модели, которые анализируют или генерируют аудио, преобразуя звук в внутренние представления и работая с ним как с полноценным модальностным сигналом

Autonomous agent

Autonomous agent (автономный агент) — это система, в которой модель самостоятельно ставит подзадачи, вызывает инструменты, планирует действия и доводит задачу до результата без постоянных подсказок пользователя

Autonomous alignment

Autonomous alignment — механизм, при котором модель автоматически корректирует своё поведение с учётом целей системы, обратной связи и ограничений безопасности

Autoscaling инференса

Autoscaling инференса — автоматическое масштабирование мощности для выполнения модели в зависимости от входящей нагрузки и целевых метрик сервиса

Balanced dataset

Balanced dataset — датасет с равномерным представлением классов или категорий, обеспечивающий стабильное обучение и снижение смещения модели

Batch size

Batch size — размер порции данных, которая одновременно проходит через модель во время обучения.

Beam search

Beam search — стратегия генерации, которая поддерживает несколько лучших вариантов продолжения последовательности вместо одного, отбирая наиболее перспективные пути

Beam search

Beam search — стратегия генерации, которая поддерживает несколько лучших вариантов продолжения последовательности вместо одного, отбирая наиболее перспективные пути

Bi-encoder

Bi-encoder — архитектура, где запрос и документ кодируются независимо двумя энкодерами, а релевантность определяется по близости их векторных представлений

Causal attention

Causal attention — механизм внимания, который ограничивает модель доступом только к предыдущим токенам, формируя направленную обработку последовательности

Chain-of-Thought

Chain-of-Thought — это техника генерации, при которой модель раскрывает последовательность логических шагов, делая процесс рассуждения более прозрачным и устойчивым для сложных задач

Checkpoint sharding

Checkpoint sharding — раздельное сохранение весов модели на несколько файлов или устройств, уменьшающее требования к памяти и ускоряющее загрузку

ChromaDB

ChromaDB — лёгкая векторная база для локальных и облачных ассистентов, удобная для разработки.

CLIP

CLIP — модель, обученная сопоставлять изображения и текст через контрастивное обучение, формируя общее embedding-пространство для понимания визуальных и языковых связей

Cold start

Cold start — задержка, возникающая при первой загрузке модели или создании новой реплики, когда ресурсы ещё не прогреты

Compute budget

Compute budget — объём вычислительных ресурсов, выделенный на обучение и развитие модели, определяющий её размер, глубину и качество итогового поведения

Context caching

Context caching (кэширование контекста) — механизм, при котором система сохраняет промежуточные вычисления для уже обработанных частей входа, чтобы повторно использовать их при следующих вызовах и ускорять работу

Context window optimization

Context window optimization — процесс улучшения размера и структуры окна контекста в языковых моделях для оптимизации обучения и повышения качества вывода

Contextual reranking

Contextual reranking — повторное ранжирование кандидатов с учётом расширенного контекста запроса и окружения документов, а не только локального совпадения

Continual learning

Continual learning — метод, при котором модель обучается на новых данных поэтапно, сохраняя ранее освоенные знания и предотвращая забывание.

Cross-attention

Cross-attention — механизм, который позволяет модели сопоставлять два разных набора признаков и выделять важные связи между ними

Cross-encoder

Cross-encoder — архитектура, в которой запрос и документ обрабатываются совместно одной моделью, что позволяет точно оценивать релевантность за счёт токен-к-токен взаимодействий

Cross-entropy

Cross-entropy — функция потерь, измеряющая расхождение между распределением модели и целевым распределением, используемая для обучения генеративных моделей

Cross-modal retrieval

Cross-modal retrieval — поиск объектов одной модальности (текста, изображения, аудио, видео) по запросу из другой модальности через общее векторное пространство

CUDA

CUDA — платформа и модель программирования, позволяющая запускать параллельные вычисления на GPU и создавать высокопроизводительные ядра для обработки тензоров

cuDNN

cuDNN — высокопроизводительная библиотека NVIDIA, ускоряющая ключевые операции нейросетей на GPU через оптимизированные ядра

Data augmentation

Data augmentation — методы искусственного расширения обучающего корпуса за счёт генерации вариаций данных, повышающие устойчивость и обобщающую способность модели

Data cleaning

Data cleaning — процесс очистки данных от шума, артефактов, мусорных структур и невалидного контента перед обучением модели, определяющий качество итогового корпуса

Data contamination

Data contamination — попадание в обучающий корпус данных, которые должны использоваться только для тестирования, что приводит к завышенной оценке качества модели и искажению метрик

Data deduplication

Data deduplication — удаление полных и частичных дубликатов данных в обучающих корпусах для предотвращения переобучения и снижения смещения модели

Data filtering

Data filtering — процесс отбора и исключения данных по критериям качества, полезности и безопасности, необходимый для формирования надёжного обучающего корпуса

Data preprocessing

Data preprocessing — набор процедур по очистке, нормализации, структурированию и фильтрации данных перед обучением модели, определяющий стабильность и качество итогового результата

Dataset curation

Dataset curation — процесс отбора, очистки, фильтрации, балансировки и структурирования данных, направленный на формирование качественного обучающего корпуса для моделей

Decoder

Decoder — часть модели, которая использует это представление, чтобы генерировать новый текст или ответ.

Dense retrieval

Dense retrieval — метод поиска, при котором запросы и документы кодируются в плотные векторные представления и сопоставляются по семантической близости

Depth estimation

Depth estimation — задача восстановления карты глубины сцены по одному или нескольким изображениям, используемая для 3D-реконструкции, навигации и генеративных моделей

Differentiable rendering

Differentiable rendering — метод рендеринга, в котором цвет пикселя вычисляется так, что по нему можно получить градиенты и обучать 3D-представления напрямую от изображений

Differential privacy

Differential privacy — метод, который скрывает вклад отдельных данных в вычисление, добавляя контролируемый шум и обеспечивая формальную защиту приватности

Diffusion-модель

Diffusion-модель — архитектура генерации изображений, которая создаёт картинку, постепенно очищая шум до нужной формы.

Direct Preference Optimization (DPO)

DPO — метод обучения, который напрямую оптимизирует модель под предпочтительные ответы, используя сравнительные данные без отдельного шага обучения reward model

Distillation

Distillation (дистилляция модели) — метод, при котором компактная модель обучается повторять поведение более крупной, перенимая её ответы и структуру решений

Distributed inference

Distributed inference — выполнение модели на нескольких устройствах или узлах для ускорения обработки запросов и работы с большими моделями

Document chunking

Document chunking — разбиение документов на небольшие логические фрагменты для эффективного поиска, индексации и передачи контекста в LLM

Dropout

Dropout — метод регуляризации, при котором часть нейронов временно отключается во время обучения, чтобы предотвратить переобучение модели

Embedding drift

Embedding drift — постепенное смещение распределений векторных представлений со временем, из-за чего ранее сопоставимые эмбеддинги теряют согласованность и релевантность

Encoder

Encoder — часть модели, которая преобразует входные данные в компактное смысловое представление

Face reenactment

Face reenactment — технология переноса выражений лица и движений головы с одного человека на другого с помощью моделей генерации и 3D-представлений

FAISS

FAISS — популярная библиотека для быстрого поиска по векторным данным, созданная специально для работы с большими наборами эмбеддингов.

Federated learning

Federated learning — метод, при котором модель обучается на распределённых данных у пользователей, не собирая их на сервер и сохраняя приватность

Feed-forward network (FFN)

Feed-forward network — двухслойный проекционный блок внутри трансформера, который преобразует скрытые признаки и усиливает нелинейность модели

Few-shot

Few-shot — когда модель получает несколько примеров решения и использует их как образец.

FlashAttention

FlashAttention — алгоритм вычисления внимания, который уменьшает затраты памяти и ускоряет работу трансформеров за счёт блочного вычисления

FLOPs

FLOPs — число операций с плавающей точкой, необходимых для выполнения вычислений модели, определяющее её вычислительную сложность

Function calling

Function calling (вызов функций) — это механизм, позволяющий модели формировать структурированный запрос к инструменту или внешней функции, передавая параметры в формате, пригодном для выполнения

Gated attention

Gated attention — механизм, который дополняет внимание управляющими воротами и регулирует, какие признаки допускаются в итоговое представление

Gated Linear Unit (GLU)

Gated Linear Unit — проекционный блок с управляющими воротами, который пропускает или подавляет части сигнала для более устойчивых и выразительных представлений

Gaussian Splatting

Gaussian Splatting — метод, который представляет 3D-сцену набором гауссовых точек с цветом и плотностью, позволяя рендерить сложные объекты в реальном времени

GELU

GELU — сглаженная нелинейность, которая масштабирует сигнал по вероятностной функции и обеспечивает мягкое подавление слабых активаций

GGML

GGML — это формат весов и фреймворк для ускоренного инференса больших моделей на CPU с использованием квантования и оптимизированных матричных операций

GGUF

GGUF — бинарный формат весов нового поколения для локального инференса LLM, созданный как замена GGML с акцентом на расширяемость, стабильность и поддержку современных архитектур

GPU

GPU — это графический процессор, который отлично подходит для параллельных вычислений и является основным инструментом для обучения нейросетей.

GPU kernel

GPU kernel — низкоуровневая функция, выполняющая параллельные операции на GPU и определяющая фактическую скорость вычислений моделей

Gradient clipping

Gradient clipping — метод ограничения величины градиентов, предотвращающий их взрывной рост и стабилизирующий процесс обучения

Gradient descent

Градиентный спуск — метод минимизации функции ошибки, который шаг за шагом корректирует параметры модели по направлению антиградиента, обеспечивая обучение нейросетей и стабильную работу современных LLM

Graph Neural Network

Graph Neural Network (графовая нейросеть) — модель, которая обрабатывает данные в виде графа, обновляя представления узлов через связи и структуру графа

Graph-of-Thoughts

Graph-of-Thoughts — это подход, в котором рассуждения модели представляют собой граф взаимосвязанных шагов, позволяющий объединять несколько линий анализа, сравнивать гипотезы и выбирать оптимальное решение

Hard negatives

Hard negatives — негативные примеры, которые выглядят семантически релевантными запросу, но не содержат правильного ответа и используются для усиления обучающего сигнала

Hot-swap моделей

Hot-swap моделей — механизм мгновенной замены версии модели в работающем сервисе без остановки запросов и деградации работы системы

Human-annotated dataset

Human-annotated dataset — вручную размеченный корпус данных, где эксперты создают инструкции, ответы, метки качества и предпочтений для обучения моделей точному и контролируемому поведению

Hybrid search

Hybrid search — комбинированный поиск, который объединяет точный (keyword / BM25) и векторный поиск, улучшая релевантность для текста, изображений и мультимодальных данных

Image encoder

Image encoder — модель или модуль, преобразующий изображение в компактный векторный эмбеддинг, пригодный для сопоставления, поиска или дальнейшей обработки в мультимодальных системах.

Image projector

Image projector — модуль, который преобразует векторные признаки изображения из визуального энкодера в формат токенов, совместимый с языковой моделью

Instruction dataset

Instruction dataset — специализированный набор данных с инструкциями, запросами и ожидаемыми ответами, используемый для обучения моделей следованию указаниям и диалоговому поведению

Instruction tuning

Instruction tuning — обучение модели на наборе примеров, где каждому запросу соответствует корректно оформленная инструкция и ожидаемый ответ

Jailbreak prompt

Jailbreak prompt — намеренно сконструированный ввод, который заставляет модель игнорировать ограничения и выполнять запрещённые действия

JIT-compilation

JIT-compilation — динамическая компиляция вычислительных графов или операций во время выполнения модели для ускорения инференса и снижения накладных расходов

KV-cache

KV-cache — механизм, при котором модель сохраняет ключи и значения внимания из предыдущих шагов, чтобы не пересчитывать их при генерации

KV-compression

KV-compression — методы уменьшения объёма KV-cache за счёт сжатия или выборочного хранения ключей и значений внимания

Layer normalization

Layer normalization — метод нормализации активаций внутри слоя, который стабилизирует обучение и уменьшает колебания значений

Learning rate

Learning rate задаёт величину шага, с которым градиентный спуск обновляет параметры модели, влияя на скорость, стабильность и конечное качество обучения

Lip-sync model

Lip-sync model — система, которая синхронизирует движение губ персонажа или человека с аудиотреком, предсказывая артикуляцию по фонемам или акустическим признакам

LLM

LLM (Large Language Model) — это нейросетевая модель, обученная на огромных объёмах текстов. Она распознаёт смысл, понимает контекст и генерирует новые ответы: от объяснений и идей до анализа данных и фрагментов кода.

Long-context архитектуры

Long-context архитектуры (модели с длинным контекстом) — это системы, способные обрабатывать большие объёмы текста за один проход, используя специальные механизмы для удержания дальних зависимостей

Long-document retrieval

Long-document retrieval — метод поиска и извлечения информации из длинных документов с ограничением на размер контекста, включая использование chunking и advanced attention

LoRA

LoRA (низкоранговая адаптация) — метод дообучения, при котором к существующим весам добавляются малые матрицы-поправки, позволяющие настраивать модель без изменения её основных параметров

Loss-function

Loss-function — это функция, которая измеряет ошибку модели во время обучения и помогает корректировать параметры.

Memory bandwidth

Memory bandwidth — пропускная способность памяти, определяющая скорость передачи данных между памятью и вычислительными блоками устройства

Meta-learning

Meta-learning — метод, при котором модель обучается принципам обучения и адаптации, чтобы быстро осваивать новые задачи с минимальным количеством данных

Metadata filtering

Metadata filtering — отбор и ограничение результатов поиска по структурированным атрибутам документов, применяемый для повышения точности и управляемости retrieval

Milvus

Milvus — высокопроизводительная векторная база данных для масштабных проектов и RAG-систем.

Mixture-of-Experts

Mixture-of-Experts (смешение экспертов) — архитектура, в которой модель выбирает подмножество специализированных экспертных блоков для обработки входа, уменьшая вычислительную нагрузку и повышая гибкость

MMLU

MMLU — это многоотраслевой бенчмарк, измеряющий способность моделей решать задачи в десятках академических и профессиональных дисциплин, оценивая реальное качество знаний и устойчивость reasoning

Model hosting

Model hosting — размещение модели на удалённой платформе, которая обеспечивает доступ по API, хранение, масштабирование и управление версиями

Model latency

Model latency — время, которое проходит от получения запроса до формирования ответа моделью, включающее вычисления, очереди и коммуникации

Model memory

Model memory — это совокупность механизмов, позволяющих модели сохранять, обновлять и использовать состояние: от краткосрочного контекста внутри токенов до внешних хранилищ, которые обеспечивают устойчивую работу в длительных диалогах и сложных задачах

Model parallelism

Model parallelism — способ распределения параметров модели между несколькими устройствами, позволяющий обучать архитектуры, не помещающиеся в память одного ускорителя

Model serving

Model serving — развертывание и выполнение модели в сервисе, обеспечивающем обработку запросов, управление версиями и масштабирование

Motion diffusion model

Motion diffusion model — диффузионная модель, генерирующая реалистичные последовательности движений или поз, используя временные латенты и denoising-процесс

Multi-agent systems

Multi-agent systems — архитектуры, где несколько агентов выполняют разные роли, обмениваются состояниями и совместно решают задачу

Multi-head attention

Multi-head attention — механизм, который разделяет внимание на параллельные головы, позволяя модели извлекать несколько типов зависимостей одновременно

Multi-step reasoning dataset

Multi-step reasoning dataset — набор данных с пошаговыми рассуждениями, объяснениями или разложением задачи, используемый для обучения моделей сложному логическому выводу

Multisensory learning

Multisensory learning — подход, при котором модель обучается на нескольких типах сигналов одновременно (аудио, видео, текст, сенсоры), формируя обобщённые репрезентации

Negative sampling

Negative sampling — метод подбора нерелевантных примеров при обучении моделей, который формирует границы семантического пространства и напрямую влияет на качество retrieval

NeRF

NeRF (нейросетевое поле излучения) — метод, который восстанавливает непрерывную 3D-сцену по набору снимков, моделируя цвет и плотность в каждой точке пространства

Neuro-symbolic AI

Neuro-symbolic AI — подход, в котором нейронные модели объединяются с символическими правилами для точного вывода и структурного анализа

NPU

NPU — энергоэффективный чип для локального ИИ на устройствах: смартфонах, ноутбуках и edge-системах.

On-device inference

On-device inference — выполнение работы нейросети прямо на устройстве пользователя без обращения в облако.

Optical flow

Optical flow — поле векторов движения, описывающее смещение пикселей между двумя кадрами, используемое для анализа динамики, стабилизации и 3D-реконструкции

ORPO (One-step Реinforcement Preference Optimization)

ORPO — метод одностадийного обучения предпочтениям, который объединяет supervised fine-tuning и оптимизацию предпочтений в один этап, упрощая пайплайн выравнивания

Oversampling

Oversampling — метод балансировки данных, при котором редкие классы искусственно увеличиваются путём дублирования или генерации новых примеров, снижая дисбаланс и улучшая устойчивость модели

Parallel decoding

Parallel decoding (параллельная генерация) — метод вывода, при котором модель предсказывает несколько токенов одновременно или обрабатывает несколько веток вывода параллельно, чтобы ускорить работу

Passage retrieval

Passage retrieval — поиск релевантных фрагментов (абзацев, чанков) внутри документов вместо поиска по документам целиком, повышающий точность и локализацию ответа

Perplexity

Perplexity — метрика, отражающая, насколько уверенно модель предсказывает токены: чем ниже значение, тем лучше модель соответствует данным

Phoneme representation

Phoneme representation — представление речи в виде фонемных единиц, обеспечивающее компактное и устойчивое к вариативности говорения описание звуковой последовательности

Pipeline parallelism

Pipeline parallelism — метод разделения модели на последовательные части, обучаемые конвейером на разных устройствах для повышения масштабируемости

Positional encoding

Positional encoding — метод, который добавляет модели информацию о позиции токенов в последовательности для корректной обработки порядка

Post-training

Post-training — этап дообучения модели после базового обучения, включающий инструкции, предпочтения и выравнивание поведения под реальные задачи

Post-training quantization

Post-training quantization — метод квантования модели после обучения без дообучения, позволяющий уменьшить размер и ускорить инференс, но с риском деградации качества

PPO (Proximal Policy Optimization)

PPO — метод обучения с подкреплением, который обновляет политику ограниченными шагами, сохраняя стабильность и предотвращая резкие отклонения поведения

Preference dataset

Preference dataset — набор данных, содержащий сравнения ответов или предпочтения пользователей, используемый для обучения моделей выбирать более качественные и безопасные ответы

Preference modeling

Preference modeling — процесс обучения модели на данных о предпочтениях людей, чтобы она выбирала ответы, наиболее соответствующие ожиданиям и качественным критериям

Preference optimization

Preference optimization — обучение модели выбирать ответы, которые лучше соответствуют предпочтениям пользователей или оценщиков, используя данные сравнений

Privacy-by-design

Privacy-by-design (приватность по проекту) — подход к разработке систем, при котором требования к защите данных закладываются в архитектуру и процессы с самого начала, а не добавляются постфактум

Prompt engineering

Prompt engineering — это практика создания точных и управляемых запросов, которые формируют поведение модели и улучшают качество ответов

Prompt injection

Prompt injection — вмешательство во ввод, при котором пользовательские данные заставляют модель игнорировать инструкции и выполнять нежелательные действия

Prompt leakage

Prompt leakage — ситуация, когда модель раскрывает скрытые инструкции, системные подсказки или фрагменты служебного промпта

Prompt-level caching

Prompt-level caching — сохранение вычисленных результатов для повторяющихся запросов, чтобы ускорить ответы и снизить нагрузку на инференс

QLoRA

QLoRA (квантованная низкоранговая адаптация) — метод дообучения, в котором базовые веса переводятся в компактный формат, а корректировки выполняются через малые матрицы, что резко снижает потребление памяти

Quantization-aware training

Quantization-aware training — метод обучения моделей, в котором квантование имитируется прямо во время тренировки, что снижает потерю качества при последующей конверсии в низкие разряды

Query expansion

Query expansion — техника расширения поискового запроса дополнительными терминами и вариантами формулировок для повышения полноты извлечения документов

Query rewriting

Query rewriting — автоматическое преобразование пользовательского запроса в более поисково-эффективную форму для повышения полноты и точности retrieval

RAG

RAG — метод, который соединяет языковую модель с внешней базой знаний, позволяя ей выдавать более точные и актуальные ответы.

RLHF

RLHF — это метод обучения моделей, в котором ИИ подстраивают под человеческие предпочтения. Люди оценивают ответы, модель учится на этих оценках, а затем с помощью алгоритмов подкрепления закрепляет «правильное» поведение

RMSNorm

RMSNorm — метод нормализации, который масштабирует вектор по среднеквадратичному значению без вычитания среднего

Rotary embeddings (RoPE)

RoPE — метод позиционного кодирования, при котором позиция токена задаётся вращением его эмбеддинга в пространстве признаков

Safety guardrails

Safety guardrails — это набор технических правил и ограничений, которые управляющие системы накладывают на модель, чтобы контролировать её поведение и снижать риск нежелательных ответов

Safety tax

Safety tax — снижение скорости или эффективности модели из-за дополнительных механизмов безопасности, фильтрации и контроля поведения

Self-attention

Self-attention — это механизм, который позволяет модели определять, какие части текста важны друг для друга.

Self-consistency decoding

Self-consistency decoding — метод, при котором модель генерирует несколько независимых вариантов ответа и выбирает итоговый на основе их согласованности

Self-training

Self-training — метод, при котором модель генерирует псевдоразметку для неразмеченных данных и дообучается на них, постепенно улучшая качество без ручной аннотации

Self-verification моделей

Self-verification моделей — механизм, при котором система анализирует свой предварительный вывод, выявляет ошибки и вносит корректировки перед финальным ответом

Semantic drift

Semantic drift — постепенное смещение смысла, когда модель отклоняется от исходного контекста или цели, заменяя точные значения расплывчатыми или неверными интерпретациями

Semantic search

Semantic search (семантический поиск) — метод, при котором система сопоставляет запрос и документы по смысловым представлениям, а не по совпадению слов, используя векторные модели

Sharded training

Sharded training — подход, при котором параметры, градиенты и состояния оптимизатора делятся на части и распределяются между устройствами для экономии памяти

SiLU

SiLU — плавная нелинейность, вычисляемая как x·σ(x), которая обеспечивает мягкое подавление слабых сигналов и улучшает стабильность глубоких моделей

Sliding-window attention

Sliding-window attention — механизм внимания, который ограничивает модель фиксированным окном прошлых токенов вместо всей последовательности

Sparse attention

Sparse attention (разрежённое внимание) — механизм, при котором модель обрабатывает только часть пар токенов вместо полного внимания, уменьшая вычислительную стоимость без существенной потери качества

Sparse retrieval

Sparse retrieval — метод поиска, использующий разреженные представления документов и запросов, где значимы только отдельные признаки, обычно связанные с конкретными терминами

Speculative decoding

Speculative decoding (спекулятивная генерация) — метод ускорения вывода, при котором быстрая модель предлагает черновые токены, а основная модель проверяет и принимает или отклоняет их

Speech-to-Text

Speech-to-Text — метод, при котором модель преобразует голосовой сигнал в текст, анализируя спектральные признаки и структуру речи

Stop-tokens

Stop-tokens — специальные токены или последовательности, при появлении которых модель прекращает генерацию

Supervised fine-tuning

Supervised fine-tuning — обучение модели на размеченных примерах, где каждый запрос имеет эталонный ответ, формируя базовое умение следовать задачам

SwiGLU

SwiGLU — разновидность FFN-блока с управляющим гейтом, который использует swish-активацию для более устойчивых и выразительных представлений

Symbiotic AI

Symbiotic AI — архитектура, в которой человек и модель работают как единая система, распределяют функции и совместно принимают решения

Synthetic data

Synthetic data — искусственно созданные данные, используемые для обучения и тестирования моделей, когда реальные наборы ограничены, недоступны или неполны

Synthetic dataset

Synthetic dataset — набор данных, полностью или частично сгенерированный моделью, используемый для расширения корпусов, обучения инструкциям и улучшения reasoning

Tensor parallelism

Tensor parallelism — метод распределения крупных тензоров между несколькими устройствами для параллельного выполнения матричных операций в больших моделях

TensorRT

TensorRT — движок оптимизации инференса, преобразующий модели в высокопроизводительное представление для выполнения на GPU NVIDIA

Text-to-Speech

Text-to-Speech — метод, при котором модель преобразует текст в аудиоречь, формируя фонетику, интонацию и тембр голоса на основе скрытого представления

Text-to-video

Text-to-video — метод, позволяющий генерировать видеоролики на основе текстового описания с учётом динамики, объектов и временной последовательности.

Token distribution

Token distribution — распределение токенов в обучающем корпусе по частотам, стилям, доменам, форматам и структурам, определяющее то, каким данным модель подвергается чаще всего

Token merging

Token merging (слияние токенов) — приём, в котором модель объединяет похожие представления токенов в более компактные блоки, уменьшая объём вычислений при сохранении структуры входа

Tool use

Tool use (использование инструментов) — это механизм, позволяющий модели вызывать внешние системы, сервисы и функции, расширяя свои способности за пределы текстовой генерации.

Top-k sampling

Top-k sampling — стохастическая стратегия генерации, которая ограничивает выбор следующего токена k-самыми вероятными вариантами. Определение Top-k sampling — метод стохастической генерации, при котором модель…

Top-p sampling

Top-p sampling — стохастическая стратегия генерации, которая выбирает токены из минимального множества с суммарной вероятностью p.

Toxicity detection

Toxicity detection — набор методов машинного анализа, позволяющий классифицировать высказывания по уровню агрессии, оскорблений и конфликтного поведения для модерации и безопасного вывода моделей

TPU

TPU — специализированный процессор от Google, созданный именно для машинного обучения и оптимизированный под матричные операции.

Transformer

Transformer — это архитектура нейросетей, которая позволила моделям работать с текстом целиком, а не последовательно. Благодаря ей ИИ видит связи между словами на любом расстоянии и генерирует связные, логичные ответы.

Tree-of-Thought

Tree-of-Thought — это метод рассуждения, при котором модель генерирует несколько параллельных веток мыслительного процесса, оценивает их и выбирает наиболее перспективные для поиска решения сложных задач

Triton Inference Server

Triton Inference Server — серверная платформа для продакшен-инференса, управляющая моделями и оптимизирующая выполнение запросов на GPU

Undersampling

Undersampling — метод балансировки данных, при котором размер доминирующего класса уменьшают путём выборки или фильтрации, чтобы выровнять распределение и снизить смещение модели

Value head

Value head — компонент модели, который оценивает ожидаемое качество ответа или действия, выдавая численную оценку полезности

Vector quantization

Vector quantization — метод преобразования непрерывных векторов в дискретные коды из ограниченного набора, используемый для сжатия, стабилизации обучения и построения токенизированных представлений

Video captioning

Video captioning — задача автоматической генерации текстового описания видеороликов с учётом объектов, действий и временной динамики

Video understanding

Video understanding — набор методов и моделей, позволяющих интерпретировать видео: действия, объекты, события, temporal reasoning и причинно-следственные зависимости

Video-LLM

Video-LLM — мультимодальная модель, которая принимает видео как последовательность визуальных токенов, объединяя пространственные и временные признаки для анализа, описания и reasoning

Vision Transformer (ViT)

Vision Transformer (ViT) — архитектура для обработки изображений, использующая трансформеры и self-attention вместо сверточных слоёв, где изображение представляется в виде последовательности патчей

Vision-Language Model

Vision-Language Model — модель, которая объединяет анализ изображения и текста, позволяя интерпретировать визуальный контент с помощью языка.

vLLM

vLLM — движок инференса LLM, использующий эффективное управление памятью и продвинутый кэшинг для ускорения генерации и повышения throughput

Weak supervision

Weak supervision — подход, при котором разметка данных создаётся автоматически или полуавтоматически с помощью эвристик, правил или моделей, а не вручную

Web-scale dataset

Web-scale dataset — обучающий корпус веб-масштаба, состоящий из огромных объёмов интернет-текстов, требующий сложной очистки, фильтрации и дедупликации для обучения крупных моделей

Weight decay

Weight decay — метод регуляризации, уменьшающий величину весов модели при обучении, чтобы снизить переобучение и стабилизировать оптимизацию

Weight-only quantization

Weight-only quantization — схема квантования, при которой уменьшается разрядность только весов, а активации остаются в FP16/FP32, что ускоряет инференс без сильной потери качества

XLA compiler

XLA compiler — оптимизирующий компилятор, который преобразует граф модели в эффективно выполняемый код для GPU, TPU и других ускорителей

ZeRO optimization

ZeRO optimization — метод распределённого обучения, который делит параметры, градиенты и оптимизаторные состояния между устройствами, снижая потребление памяти

Zero-shot

Zero-shot — когда модель решает задачу без примеров, опираясь только на инструкцию и свои общие знания.

Ассистент-модель

Ассистент-модель — это языковая модель, специально обученная вести диалог, помогать с задачами, уточнять детали и выполнять запросы в интерактивном режиме. Она работает как универсальный помощник: от ответов на вопросы до генерации текстов, анализа и автоматизации

Бенчмарк

Бенчмарк — это стандартизированный набор тестов, который измеряет качество и устойчивость моделей, позволяя сравнивать архитектуры, оптимизации и сценарии применения

Векторная база данных

Векторная база данных — система, которая хранит эмбеддинги и позволяет искать похожие элементы по смыслу, а не по словам.

Галлюцинации

Hallucination — это системные ошибки генерации, при которых модель уверенно выдаёт несоответствующие действительности сведения, опираясь на статистические паттерны вместо реальных фактов

Генерация изображений

Генерация изображений — это процесс, в котором модель создает визуальный контент по текстовому описанию или другому входу. Она формирует картинку пошагово, используя знания о формах, композиции, стилях и объектах, полученные на этапе обучения

Генерация текста

Генерация текста — это процесс, при котором модель создает связанный осмысленный ответ на основе входного запроса. Она выбирает токены один за другим, формируя текст, который соответствует стилю, задаче и контексту

Глубинное обучение

Глубинное обучение — это направление ИИ, в котором используются нейронные сети с большим количеством слоёв. Такие модели умеют выявлять сложные закономерности, работать с изображениями, речью, текстом и данными, обрабатывая их на разных уровнях абстракции

Датасет

Датасет — это собранный и структурированный набор данных, на котором обучают нейросети. Он задаёт модели представление о мире: о языке, изображениях, звуках, поведении пользователей или любой другой сфере, которую ей предстоит понимать

Дообучение

Дообучение — это процесс, при котором готовую модель дополнительно обучают на новых данных, чтобы она лучше решала узкие задачи. Это способ адаптировать большую нейросеть под конкретную сферу: юридическую, медицинскую, корпоративную или любую другую

Инференс

Инференс — это процесс, в котором модель выдаёт ответ на основе уже обучённых параметров. Это момент «применения» нейросети: когда она получает запрос, обрабатывает его и формирует результат — текст, изображение, прогноз или решение

Искусственный интеллект

Искусственный интеллект — это набор технологий, которые позволяют компьютерам выполнять задачи, требующие понимания, анализа и принятия решений. Он распознаёт речь и изображения, пишет тексты, помогает в медицине, образовании, бизнесе и всё чаще работает как самостоятельный участник цифровых процессов

Квантизация

Квантизация — это метод уменьшения размера модели за счёт перевода весов в более низкую точность (например, с 16-бит до 4-/8-бит), что ускоряет работу и снижает требования к железу.

Контекст

Контекст — это информация, которую модель учитывает при формировании ответа: предыдущие реплики, текст задачи, данные из промпта или содержимое документа. От качества контекста зависит, насколько точно ИИ поймёт запрос и какой вывод сделает

Латентное пространство

Латентное пространство — это скрытое представление данных внутри модели: компактное, числовое и структурированное так, чтобы отражать смысл, а не внешний вид текста или изображения.

Машинное обучение

Машинное обучение — это способ, при котором компьютер не просто выполняет заданные инструкции, а учится находить закономерности в данных и улучшать результаты с опытом. Технология лежит в основе распознавания речи, рекомендаций, анализа данных и современных языковых моделей

Мультимодальная модель

Мультимодальная модель — модель, которая работает не только с текстом, но и с изображениями, видео, аудио или их комбинациями.

Нейронная сеть

Нейронная сеть — это модель, вдохновлённая устройством человеческого мозга. Она принимает данные, обрабатывает их через множество взаимосвязанных «узлов» и учится распознавать закономерности: от изображений и речи до текста и поведения пользователей

Обучение модели

Обучение модели — это процесс, в котором нейросеть изучает данные, подбирает параметры и постепенно превращается из пустой структуры в рабочий инструмент. На этом этапе формируется всё: качество логики, точность ответов и способность модели адаптироваться к новым задачам

Параметры модели

Параметры модели — это внутренние числовые значения внутри нейросети, которые определяют, как она принимает решения. Их миллионы или миллиарды, и именно они отвечают за умение модели распознавать закономерности, понимать контекст и формировать осмысленные ответы

Предобучение

Предобучение — этап, на котором модель учится общим закономерностям языка или изображений на огромных датасетах до того, как её адаптируют под конкретные задачи.

Промпт

Промпт — это запрос, который пользователь отправляет модели, чтобы получить нужный результат. Формулировка промпта определяет, как ИИ поймёт задачу, какие данные учтёт и какой формат ответа выберет

Ре-ranking моделей

Re-ranking моделей (повторное ранжирование) — метод, при котором система пересматривает предварительный список результатов и уточняет порядок документов на основе более точной модели

Реasoning

Reasoning — это способность модели не просто отвечать по шаблону, а выстраивать логические связи, анализировать задачу и делать выводы. Благодаря этому ИИ может разбирать сложные запросы, планировать шаги и находить решения, которые требуют последовательного мышления