[Яндекс Практикум] Обработка естественного языка — NLP (Антон Моргунов, Даниил Вяжев)

Евражкa · 30 апр 2026 в 11:32

Natural Language Processing позволяет нейросетям понимать человека
В том числе имитировать разговор, выполнять запросы, извлекать пользу из массивов естественной речи
Например, NLP используют чат‑боты, голосовые ассистенты, автопереводчики, сложные аналитические системы

Курс подойдёт тем, у кого есть опыт работы с данными, Machine Learning и Deep Learning:

Специалистам в области Data Science
Разберёте методы извлечения признаков из текста и сможете применять NLP для работы с большими данными и решения бизнес-задач

DL- и ML-инженерам
Изучите способы обработки текстовых данных и современные архитектуры и будете использовать NLP в своих реальных проектах

Разработчикам
Освоите актуальные библиотеки и инструменты, чтобы внедрить технологии NLP в разработку приложений, которые используют текстовые данные

Освойте продвинутые подходы, модели и архитектуры

GPT

RoBERTa

DeBERTa

NER

AutoGen

STF

PEFT

RLHF

LoRA

vLLM

TS

Seq2Seq

RAG

ANN

FAISS

BM25

CLIP

SigLip

Векторные БД

Florence

LangChain

AutoGen

smolagents

MCP

ElasticSearch

Чему научитесь на курсе:

Понимать и применять современные NLP-модели: от BERT до LLM

Строить RAG и агентные системы

Обучать LLM с оптимизацией операций на GPU

Создавать модели генерации текста, перевода, NER и мультимодальные решения

Работать с поиском: от классического BM25 до векторного по эмбеддингам

Как проходит курс:

Сопровождение кураторами

Обратная связь от опытных наставников

Воркшопы с экспертами

Теория на платформе Практикума

Практические задания с ревью на готовой инфраструктуре в облаке

Что вас ждёт на курсе:

Ключевые NLP-архитектуры: от вариаций BERT до RAG и агентных систем

Фокус на актуальные задачи: NER, QA, VQA, машинный перевод и сценарии с RAG

Удостоверение о повышении квалификации

Программа:

00 Бесплатная часть. Нейросетевые решения на практике

Практическая работа

Научитесь использовать предобученные модели для анализа текста и изображений и интерпретировать результаты их работы

Инструменты и технологии

PyTorch

CV

NLP

Содержание

Знакомство с курсом
Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут

Введение в нейросети и их роль в решении сложных задач
Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни

Работа с текстами
Классифицируете тексты с использованием предобученной модели

Работа с изображениями
Классифицируете изображения с помощью предобученной модели

Нейросети на практике
Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач

01 Современные модели: обучение и ключевые механизмы

Проект

Решите задачу NER, выявив все сущности, и предскажете, сколько их в тексте, через регрессию по CLS

Инструменты и технологии

RoBERTa

XLM-RoBERTa

DeBERTa

NER

PyTorch Lightning

DP

DDP

FSDP

Содержание

Multi-Head Attention и BERT
Разберёте трансформер на уровне тензоров, attention-механизм, позиционные эмбеддинги и skip connections. Напишете полный encoder с нуля. Изучите архитектуру BERT, задачи MLM и NSP, CLS-токен, ограничения attention и такие решения, как flash/sparse attention

Эволюция моделей в NLP
Сравните токенизаторы (BPE, WordPiece и другие) по стабильности и размеру словаря. Рассмотрите развитие моделей: RoBERTa, XLM-R, DeBERTa, e5, включая мультиязычные и облегчённые версии для продакшна. Изучите NER: BIO-разметку, entity spans, лоссы

Эффективная тренировка моделей
Освоите float16, bfloat16, mixed precision, включите AMP в PyTorch. Изучите квантизацию (PTQ, QAT) и распределённую тренировку (DataParallel, DDP, FSDP). Разберёте torch.compile и научитесь работать с PyTorch Lightning

02 Большие языковые модели

Проект

Дообучите языковую модель, чтобы управлять генерацией текстов на разных этапах — pretrain, SFT, alignment

Инструменты и технологии

LoRA

QLoRA

SFT

TRL

vLLM

FlashAttention

Triton

ALiBi

RoPE

Содержание

Введение в большие языковые модели
Изучите фундаментальные концепции LLM. Рассмотрите архитектуры для генерации текста: decoder-only, encoder-decoder, диффузионные модели. Разберётесь с устройством attention-масок, их влиянием на генерацию. Реализуете вызов API через OpenRouter. Исследуете ограничения LLM

Архитектура и принципы работы LLM
Узнаете принципы обучения декодера. Реализуете цикл генерации текста с чат-шаблонами Jinja. Рассмотрите методы улучшения генерации: In-Context Learning, reasoning, CoT. Изучите стратегии генерации текста: beam search, sampling, temperature, top-k, top-p, repetition penalty. Поймёте причины их выбора

Оптимизации в LLM
Попробуете методы обучения и оптимизации LLM: LoRA, QLoRA, адаптеры, PEFT и Unsloth. Поймёте проблему длинного контекста. Освоите методы расширения контекста: KV cache, paged attention, speculative decoding, continuous batching. Проведёте оптимизацию на GPU с использованием Triton, fused layers и FlashAttention. Примените gradient checkpointing и выберете стратегии обучения под ресурсы и скорость

03 Путь генеративного NLP: от Seq2Seq к RAG

Проект

Разработаете retrieval-систему по статьям из arXiv, с поиском по документам и генерацией ответов на естественном языке

Инструменты и технологии

T5

LoRA

Seq2Seq

BLEU

ROUGE

chrF

COMET

RAG

Векторные базы данных

LangChain

Содержание

Архитектуры Seq2Seq в трансформерах
На примере T5 и русскоязычных аналогов разберёте архитектуру encoder-decoder. Поймёте принципы cross-attention и teacher forcing. Изучите метрики BLEU и ROUGE. Примените T5 к разным NLP-задачам. Освоите предобучение T5 с помощью span corruption. Рассмотрите ключевые бенчмарки

Генерация текста для практических задач
Изучите модели машинного перевода mT5 и NLLB. Освоите их дообучение для доменов. Разберёте методы улучшения параллельных корпусов: выравнивание, фильтрацию, back-translation и paraphrasing. Решите NER-задачу в формате генерации с промптингом и constrained decoding. Дообучите Seq2Seq-модели и оцените качество перевода

Retrieval-Augmented Generation — RAG
Узнаете причины галлюцинаций и как RAG снижает риск ошибок. Изучите bi-encoder и cross-encoder, гибридный поиск и векторные базы (FAISS, Chroma, Qdrant). Рассмотрите методы снижения размерности и индексации. Построите RAG-пайплайн: от подготовки документов до генерации ответа. Освоите LangChain и оценку качества поиска

04 Современный NLP: поиск, агенты и мультимодальность

Проект

Разработаете модель, которая будет искать изображения по описанию, проверять их на релевантность и отвечать на вопросы по содержанию

Инструменты и технологии

rapidfuzz

OpenSearch

datasketch

LangChain

AutoGen

smolagents

MCP

CLIP

SigLIP

BLIP

LLaVA

Florence

Содержание

Полнотекстовый поиск
Рассмотрите нечёткий поиск и алгоритм Левенштейна. Освоите rapidfuzz и BM25. Поработаете с индексами в OpenSearch. Разберёте расширенные техники поиска. Изучите LSH с datasketch. Сравните подходы через хэши и эмбеддинги. Реализуете гибридный поиск с опечатками, а также индексацию и дедупликацию коллекций

Агенты
Изучите function calling, structured output, а также интеграцию функций через LangChain. Разберёте агентные системы: ReAct, LLM-as-judge и современные фреймворки (AutoGen, smolagents), а также протокол MCP. Создадите агента для работы с интернетом и веб-страницами. Рассмотрите архитектуры Perplexity и Deep Research

Мультимодальные архитектуры
Узнаете, как создаются мультимодальные датасеты и бенчмарки. Разберёте CLIP и его варианты (SigLIP, ViT-L/14), а также модели BLIP, Florence и LLaVA для VQA. Научитесь выявлять ошибки аннотаций с помощью CLIP и применять его для поиска, очистки датасетов и VQA-задач

Авторы — инженеры с большим опытом обучения нейросетей
Они собрали и систематизировали свои знания, чтобы вы учились на реальных кейсах, с которыми сталкиваются специалисты на практике

Антон Моргунов
Программный эксперт курса. Senior ML-инженер в Базис Центре

Даниил Важев
Исследователь в Научно-учебной лаборатории моделей и методов вычислительной прагматики в ВШЭ. Мидл DL/ML-инженер в НБКИ. PhD Student в Сколтехе

Кирилл Бобылев
Senior Data Scientist в Ozon Tech. Специализируется в Moderation, Anti-fraud, QC

Станислав Жбанников
NLP-инженер в GigaChat Pretrain. Занимается оптимизацией обучения крупных MoE-моделей. Был Lead Data Scientist в Ecom.tech, руководил DS-командой разработки умного ассистента для поиска товаров

Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...