Скрыть объявление

Внимание!


Наш телеграм-канал попал под массовую блокировку и, пока мы подготовили для вас резервный!


Подписывайтесь по этой ССЫЛКЕ

Скрыть объявление

Мы обновили Telegram-бот!

Ссылку на новый бот и все детали ищите ТУТ и скорее подписывайтесь, чтобы не пропускать важные уведомления и новости форума

Скрыть объявление

Было ли у Вас такое, что Вы не могли найти курс? Если да, то напишите нам в Службу поддержки какой курс вам нужен и мы постараемся его найти.

Скрыть объявление

Пополняйте баланс и получайте при оплате складчин кэшбек в размере 10%

Запись

[Яндекс Практикум] Обработка естественного языка — NLP (Антон Моргунов, Даниил Вяжев)

Тема в разделе "Нейросети и искусственный интеллект"

Цена:
60000 руб
Взнос:
806 руб
Организатор:
Евражкa

Список участников складчины:

1. Евражкa
open
2
Записаться
  1. Евражкa Организатор складчин

    [Яндекс Практикум] Обработка естественного языка — NLP (Антон Моргунов, Даниил Вяжев)

    [​IMG]


    Natural Language Processing позволяет нейросетям понимать человека
    В том числе имитировать разговор, выполнять запросы, извлекать пользу из массивов естественной речи
    Например, NLP используют чат‑боты, голосовые ассистенты, автопереводчики, сложные аналитические системы

    Курс подойдёт тем, у кого есть опыт работы с данными, Machine Learning и Deep Learning:
    • Специалистам в области Data Science
      Разберёте методы извлечения признаков из текста и сможете применять NLP для работы с большими данными и решения бизнес-задач
    • DL- и ML-инженерам
      Изучите способы обработки текстовых данных и современные архитектуры и будете использовать NLP в своих реальных проектах
    • Разработчикам
      Освоите актуальные библиотеки и инструменты, чтобы внедрить технологии NLP в разработку приложений, которые используют текстовые данные
    Освойте продвинутые подходы, модели и архитектуры
    • GPT
    • RoBERTa
    • DeBERTa
    • NER
    • AutoGen
    • STF
    • PEFT
    • RLHF
    • LoRA
    • vLLM
    • TS
    • Seq2Seq
    • RAG
    • ANN
    • FAISS
    • BM25
    • CLIP
    • SigLip
    • Векторные БД
    • Florence
    • LangChain
    • AutoGen
    • smolagents
    • MCP
    • ElasticSearch
    Чему научитесь на курсе:
    • Понимать и применять современные NLP-модели: от BERT до LLM
    • Строить RAG и агентные системы
    • Обучать LLM с оптимизацией операций на GPU
    • Создавать модели генерации текста, перевода, NER и мультимодальные решения
    • Работать с поиском: от классического BM25 до векторного по эмбеддингам
    Как проходит курс:
    • Сопровождение кураторами
    • Обратная связь от опытных наставников
    • Воркшопы с экспертами
    • Теория на платформе Практикума
    • Практические задания с ревью на готовой инфраструктуре в облаке
    Что вас ждёт на курсе:
    • Ключевые NLP-архитектуры: от вариаций BERT до RAG и агентных систем
    • Фокус на актуальные задачи: NER, QA, VQA, машинный перевод и сценарии с RAG
    • Удостоверение о повышении квалификации
    Программа:

    00 Бесплатная часть. Нейросетевые решения на практике

    Практическая работа
    • Научитесь использовать предобученные модели для анализа текста и изображений и интерпретировать результаты их работы
    Инструменты и технологии
    • PyTorch
    • CV
    • NLP
    Содержание
    1. Знакомство с курсом
      Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут
    2. Введение в нейросети и их роль в решении сложных задач
      Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни
    3. Работа с текстами
      Классифицируете тексты с использованием предобученной модели
    4. Работа с изображениями
      Классифицируете изображения с помощью предобученной модели
    5. Нейросети на практике
      Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач
    01 Современные модели: обучение и ключевые механизмы

    Проект
    • Решите задачу NER, выявив все сущности, и предскажете, сколько их в тексте, через регрессию по CLS
    Инструменты и технологии
    • RoBERTa
    • XLM-RoBERTa
    • DeBERTa
    • NER
    • PyTorch Lightning
    • DP
    • DDP
    • FSDP
    Содержание
    1. Multi-Head Attention и BERT
      Разберёте трансформер на уровне тензоров, attention-механизм, позиционные эмбеддинги и skip connections. Напишете полный encoder с нуля. Изучите архитектуру BERT, задачи MLM и NSP, CLS-токен, ограничения attention и такие решения, как flash/sparse attention
    2. Эволюция моделей в NLP
      Сравните токенизаторы (BPE, WordPiece и другие) по стабильности и размеру словаря. Рассмотрите развитие моделей: RoBERTa, XLM-R, DeBERTa, e5, включая мультиязычные и облегчённые версии для продакшна. Изучите NER: BIO-разметку, entity spans, лоссы
    3. Эффективная тренировка моделей
      Освоите float16, bfloat16, mixed precision, включите AMP в PyTorch. Изучите квантизацию (PTQ, QAT) и распределённую тренировку (DataParallel, DDP, FSDP). Разберёте torch.compile и научитесь работать с PyTorch Lightning
    02 Большие языковые модели

    Проект
    • Дообучите языковую модель, чтобы управлять генерацией текстов на разных этапах — pretrain, SFT, alignment
    Инструменты и технологии
    • LoRA
    • QLoRA
    • SFT
    • TRL
    • vLLM
    • FlashAttention
    • Triton
    • ALiBi
    • RoPE
    Содержание
    1. Введение в большие языковые модели
      Изучите фундаментальные концепции LLM. Рассмотрите архитектуры для генерации текста: decoder-only, encoder-decoder, диффузионные модели. Разберётесь с устройством attention-масок, их влиянием на генерацию. Реализуете вызов API через OpenRouter. Исследуете ограничения LLM
    2. Архитектура и принципы работы LLM
      Узнаете принципы обучения декодера. Реализуете цикл генерации текста с чат-шаблонами Jinja. Рассмотрите методы улучшения генерации: In-Context Learning, reasoning, CoT. Изучите стратегии генерации текста: beam search, sampling, temperature, top-k, top-p, repetition penalty. Поймёте причины их выбора
    3. Оптимизации в LLM
      Попробуете методы обучения и оптимизации LLM: LoRA, QLoRA, адаптеры, PEFT и Unsloth. Поймёте проблему длинного контекста. Освоите методы расширения контекста: KV cache, paged attention, speculative decoding, continuous batching. Проведёте оптимизацию на GPU с использованием Triton, fused layers и FlashAttention. Примените gradient checkpointing и выберете стратегии обучения под ресурсы и скорость
    03 Путь генеративного NLP: от Seq2Seq к RAG

    Проект
    • Разработаете retrieval-систему по статьям из arXiv, с поиском по документам и генерацией ответов на естественном языке
    Инструменты и технологии
    • T5
    • LoRA
    • Seq2Seq
    • BLEU
    • ROUGE
    • chrF
    • COMET
    • RAG
    • Векторные базы данных
    • LangChain
    Содержание
    1. Архитектуры Seq2Seq в трансформерах
      На примере T5 и русскоязычных аналогов разберёте архитектуру encoder-decoder. Поймёте принципы cross-attention и teacher forcing. Изучите метрики BLEU и ROUGE. Примените T5 к разным NLP-задачам. Освоите предобучение T5 с помощью span corruption. Рассмотрите ключевые бенчмарки
    2. Генерация текста для практических задач
      Изучите модели машинного перевода mT5 и NLLB. Освоите их дообучение для доменов. Разберёте методы улучшения параллельных корпусов: выравнивание, фильтрацию, back-translation и paraphrasing. Решите NER-задачу в формате генерации с промптингом и constrained decoding. Дообучите Seq2Seq-модели и оцените качество перевода
    3. Retrieval-Augmented Generation — RAG
      Узнаете причины галлюцинаций и как RAG снижает риск ошибок. Изучите bi-encoder и cross-encoder, гибридный поиск и векторные базы (FAISS, Chroma, Qdrant). Рассмотрите методы снижения размерности и индексации. Построите RAG-пайплайн: от подготовки документов до генерации ответа. Освоите LangChain и оценку качества поиска
    04 Современный NLP: поиск, агенты и мультимодальность

    Проект
    • Разработаете модель, которая будет искать изображения по описанию, проверять их на релевантность и отвечать на вопросы по содержанию
    Инструменты и технологии
    • rapidfuzz
    • OpenSearch
    • datasketch
    • LangChain
    • AutoGen
    • smolagents
    • MCP
    • CLIP
    • SigLIP
    • BLIP
    • LLaVA
    • Florence
    Содержание
    1. Полнотекстовый поиск
      Рассмотрите нечёткий поиск и алгоритм Левенштейна. Освоите rapidfuzz и BM25. Поработаете с индексами в OpenSearch. Разберёте расширенные техники поиска. Изучите LSH с datasketch. Сравните подходы через хэши и эмбеддинги. Реализуете гибридный поиск с опечатками, а также индексацию и дедупликацию коллекций
    2. Агенты
      Изучите function calling, structured output, а также интеграцию функций через LangChain. Разберёте агентные системы: ReAct, LLM-as-judge и современные фреймворки (AutoGen, smolagents), а также протокол MCP. Создадите агента для работы с интернетом и веб-страницами. Рассмотрите архитектуры Perplexity и Deep Research
    3. Мультимодальные архитектуры
      Узнаете, как создаются мультимодальные датасеты и бенчмарки. Разберёте CLIP и его варианты (SigLIP, ViT-L/14), а также модели BLIP, Florence и LLaVA для VQA. Научитесь выявлять ошибки аннотаций с помощью CLIP и применять его для поиска, очистки датасетов и VQA-задач
    Авторы — инженеры с большим опытом обучения нейросетей
    Они собрали и систематизировали свои знания, чтобы вы учились на реальных кейсах, с которыми сталкиваются специалисты на практике
    • Антон Моргунов
      Программный эксперт курса. Senior ML-инженер в Базис Центре
    • Даниил Важев
      Исследователь в Научно-учебной лаборатории моделей и методов вычислительной прагматики в ВШЭ. Мидл DL/ML-инженер в НБКИ. PhD Student в Сколтехе
    • Кирилл Бобылев
      Senior Data Scientist в Ozon Tech. Специализируется в Moderation, Anti-fraud, QC
    • Станислав Жбанников
      NLP-инженер в GigaChat Pretrain. Занимается оптимизацией обучения крупных MoE-моделей. Был Lead Data Scientist в Ecom.tech, руководил DS-командой разработки умного ассистента для поиска товаров

    Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...
     
  2. Похожие складчины
    Загрузка...
Наверх