Свържете се с нас

Съдържание и теми, включени в курса

Въведение в ученето с подкрепление и агентния AI

  • Вземане на решения в условия на несигурност и последователно планиране
  • Ключови компоненти на RL: агенти, среди, състояния и награди
  • Роля на RL в адаптивните и агентни AI системи

Марковски процеси на вземане на решения (MDPs)

  • Формална дефиниция и свойства на MDPs
  • Функции на стойността, уравнения на Белман и динамично програмиране
  • Оценка на политиката, подобрение и итерация

Учене с подкрепление без модел

  • Учене по метод Монте Карло и с времева разлика (TD)
  • Q-обучение и SARSA
  • Практическо занятие: внедряване на таблични RL методи в Python

Дълбоко учене с подкрепление

  • Комбиниране на невронни мрежи с RL за апроксимация на функции
  • Дълбоки Q-мрежи (DQN) и преиграване на опита
  • Архитектури актьор-критик и градиенти на политиката
  • Практическо занятие: обучение на агент с помощта на DQN и PPO с Stable-Baselines3

Стратегии за проучване и оформяне на наградата

  • Балансиране на проучване срещу експлоатация (ε-алчен, UCB, ентропийни методи)
  • Проектиране на функции на наградата и избягване на нежелани поведения
  • Оформяне на наградата и обучение с учебна програма

Напреднали теми в RL и вземането на решения

  • Многоагентно учене с подкрепление и кооперативни стратегии
  • Йерархично учене с подкрепление и рамка с опции
  • Офлайн RL и имитационно учене за по-безопасно внедряване

Симулационни среди и оценяване

  • Използване на OpenAI Gym и персонализирани среди
  • Непрекъснати срещу дискретни пространства на действията
  • Метрики за представяне на агента, стабилност и ефективност на извадката

Интегриране на RL в агентни AI системи

  • Комбиниране на разсъждение и RL в хибридни агентни архитектури
  • Интегриране на учене с подкрепление с агенти, използващи инструменти
  • Оперативни съображения за мащабиране и внедряване

Капстон проект

  • Проектиране и внедряване на агент за учене с подкрепление за симулирана задача
  • Анализ на ефективността на обучението и оптимизиране на хиперпараметрите
  • Демонстриране на адаптивно поведение и вземане на решения в агентен контекст

Обобщение и следващи стъпки

Изисквания

  • Силно владеене на програмирането на Python
  • Солидно разбиране на концепциите за машинно обучение и дълбоко обучение
  • Запознатост с линейната алгебра, вероятностите и основните методи за оптимизация

Аудитория

  • Инженери по учене с подкрепление и приложни изследователи в областта на AI
  • Разработчици в областта на роботиката и автоматизацията
  • Инженерни екипи, работещи върху адаптивни и агентни AI системи
 28 Часа

Брой участници


Цена за участник

Отзиви от участници (3)

Предстоящи Курсове

Свързани Kатегории