Reinforcement Learning
Научим внедрять RL-алгоритмы на практике в играх, робототехнике, энергетике и финансах
28 июня
Advanced
3 месяца
Онлайн
Вт/Пт 20:00 Мск
Для кого этот курс?
Курс предназначен для DS/DL/ML специалистов, которые хотят погрузиться в алгоритмы обучения с подкреплением. После прохождения курса студенты научатся применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем.
Необходимые знания:
- базовое знакомство с Python
- базовые знания линейной алгебры (матрицы, векторы, градиентный спуск)
- базовые навыки работы с ML (pandas, sklearn, линейная регрессия, логистическая регрессия)
Что вам даст этот курс?
- Овладеете основными алгоритмами RL, такими как Q-learning, SARSA, Monte Carlo
- Научитесь строить свои модели среды и обучать агента на своих уникальных условиях
- Изучите Deep RL и алгоритмы с использованием нейросетей, такие как Deep Q-Network (DQN), Policy Gradient (PG), Deep Deterministic Policy Gradient (DDPG), Actor-Critic, и сможете реализовать их в своих проектах
- Познакомитесь с продвинутыми темами в Reinforcement Learning, такими как оптимальное управление, методы обучения со скользящим горизонтом, Model-based RL
- Научитесь применять RL для решения конкретных задач и понимать, как это применение работает на практике
Фокус на практических примерах и проектной работе. Студенты получат необходимые знания для реализации RL алгоритмов в своих собственных проектах и приложениях.
NOTE! По итогу большинства вебинаров вы получаете Jupyter Notebook с разбором практического кейса по материалам занятий.
Почему стоит освоить?
RL находит применение в совершенно разных областях: беспилотниках, автоматизации на производстве, трейдинге и финансах, в здравоохранении, в новостных лентах и для инженерных разработок.
Процесс обучения
Обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в Telegram, сдача домашних работ и получение обратной связи от преподавателя.
Вебинары проводятся 2 раза в неделю по 2 ак. часа и сохраняются в записи в личном кабинете. Вы можете посмотреть их в любое удобное для вас время.
В ходе обучения вы будете выполнять домашние задания. Каждое из них посвящено одному из компонентов вашего выпускного проекта.
После выполнения всех домашних заданий вы получите готовый выпускной проект.
Оптимальная нагрузка
Возможность совмещать учебу с работой.Эксперты
Преподаватели из разных сфер, каждый со своим уникальным опытом.
Перспективы
Получите знания, которые помогут повысить вашу востребованность и доход.
Трудоустройство
- Получите помощь с оформлением резюме, портфолио и сопроводительного письма.
- Получите рекомендации, как искать работу, и советы по прохождению собеседования.
Формат обучения
Интерактивные вебинары
2 занятия по 2 ак.часа в неделю.
Доступ к записям и материалам остается навсегда.
Обратная связь
Домашние задания с поддержкой и обратной связью наших преподавателей помогут освоить изучаемые технологии.
Активное комьюнити
Чат в Telegram для общения преподавателей и студентов.
Программа
Введение в Reinforcement Learning
Модуль начинается с общего введения, охватывает ключевые особенности обучения с подкреплением, основные алгоритмы. Вы рассмотрите, как построить модель окружения и агента, и примените свои знания на простых сценариях.
Тема 1: Знакомство с Reinforcement Learning
Тема 2: Ключевые понятия RL: агент, среда, награда, политика. Построение среды
Тема 3: Основные алгоритмы RL: Value based
Тема 4: Основные алгоритмы RL: Policy based
Deep Reinforcement Learning
В этом модуле вы рассмотрите введение в глубокое обучение с подкреплением, которое объясняет значимость глубоких Q-сетей, представляет алгоритмы на основе политик. Затем объединяет методы на основе политик и значений с использованием алгоритма Actor-Critic. И, наконец, охватывает то, как нейронные сети могут использоваться для аппроксимации функций вознаграждения и политик.
Тема 1: Введение в Deep Reinforcement Learning
Тема 2: Deep Q-Network (DQN) алгоритм
Тема 3: Deep Policy Gradient (PG) алгоритм
Тема 4: Actor-Critic алгоритм
Тема 5: TRPO -> PPO
Тема 6: DDPG -> TD3 -> LSTM-TD3
Advanced Reinforcement Learning
Модуль содержит более сложные темы и глубже раскрывает пройденный материал. Здесь рассматривается применение алгоритмов к более сложным ситуациям, например наличие фиксированных правил (model-based) или взаимодействие нескольких агентов между собой для достижения общей темы.
Тема 1: Обучение с использованием модели среды (model-based rl)
Тема 2: Model-based, часть 2
Тема 3: Иерархическое обучение с подкреплением
Тема 4: Многоагентное обучение и кооперация агентов
Тема 5: Выбор темы и организация проектной работы
Применение RL в реальных задачах
Модуль посвящен обзору практических примеров применения RL. Вы познакомитесь с игровой индустрией и рассмотрите какие задачи здесь можно решать с помощью RL. Поговорите о робототехнике, поймете какое применение RL находит в рекомендательных системах и более подробно рассмотрите финансовые модели на примере задачи балансировки портфеля активов и задачи кредитного скоринга.
Тема 1: Применение RL в игровой индустрии
Тема 2: Применение RL в робототехнике
Тема 3: RL в рекомендательных системах
Тема 4: RL в задаче скоринга
Тема 5: Применение RL в управлении финансовым портфелем
Проектная работа
Заключительный месяц курса посвящен проектной работе. Свой проект — это то, над чем интересно поработать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.
Тема 1: Консультация по проектам и домашним заданиям
Тема 2: Предзащита
Тема 3: Защита проектных работ. Подведение итогов курса
Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит
Выпускной проект
Последний месяц отводится для проектной работы. Студенты могут выбрать одну из сфер, где будут реализовывать алгоритмы обучения с подкреплением:
- игровая индустрия
- робототехника
- управление энергетическими системами
- управление финансовым портфелем
Преподаватели
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
Ближайшие мероприятия
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Вы узнаете о трех парадигмах машинного обучения и поймете, чем обучение с подкреплением отличается от остальных.
Разберетесь с основными понятиями этой области, такими как окружение, агент, награда, политика. Поймете, чем марковский процесс принятия решений отличается от случайного поиска и как на его основе обучить агента действовать в незнакомой среде и получать максимальную награду.
Так же вы разберете два базовых алгоритма обучения с подкреплением SARSA и Q-learning и поймете почему они лежат в основе всех современных алгоритмов.
Мы рассмотрим в чем проявляются недостатки классических алгоритмов и как нейросети помогают их решить.
Посмотрим, как реализовать алгоритм Q-learning на базе нейросети и какие возможности перед нами открывает это решение. Поговорим о различных видах функции потерь и сформируем реализацию для алгоритма DQN (Deep Q-learning).
В заключении рассмотрим какие дополнительные условия предъявляются к архитектуре нейросети, моделирующей поведение агента в алгоритме DQN.
Конечно нет. Мир полон свободных инструментов, помогающих нам использовать опыт и наработки гигантов индустрии. Не надо изобретать велосипед, или быть Генри Фордом, чтобы ездить на автомобиле.
На занятии мы посмотрим на один из свободно распространяемых фреймворков для моделирования финансового рынка.
Этот фреймфорк предлагает реализованные алгоритмы обучения с подкреплением для разработки своего собственного торгового агента. Вам не придется разбираться с тонкостями программирования нейросетей и реализаций сложных математических концепций. Вы сосредоточитесь на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя.
К концу урока вы узнаете, как реализовать модель финансового рынка и построить торгового агента в несколько строк кода с использованием специализированного фрейворка FinRL.
Для кого будет полезен этот урок: инвесторы, финансисты, DS/ML/DL специалисты, IT-специалисты, которые хотят погрузиться в обучение с подкреплением.
Прошедшие
мероприятия
Корпоративное обучение для ваших сотрудников
- Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
- Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
- OTUS проверяет знания студентов перед стартом обучения и после его завершения
- Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
- Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
- OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год
Отзывы
Сертификат о прохождении курса
OTUS осуществляет лицензированную образовательную деятельность.
В конце обучения вы получите сертификат OTUS о прохождении курса
После обучения вы:
- заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям и другие дополнительные материалы
- получите все необходимые навыки для работы с алгоритмами обучения с подкреплением
- пополните свое портфолио новыми работами для будущего работодателя
- получите сертификат о прохождении курса
Reinforcement Learning
Стоимость в рассрочку
Стоимость указана для оплаты физическими лицами
вычета до 13% стоимости обучения. Оставьте заявку и менеджер вас проконсультирует
+7 499 938-92-02 бесплатно