План на курса

Въведение в подкрепяващото обучение и агентната ИИ

  • Преходно вземане на решения при неизвестност и последователно планиране.
  • Ключови компоненти на RL: агенти, среди, състояния и награди.
  • Ролята на RL в адаптивните и агентни ИИ системи.

Марковски процеси на преход (MDPs)

  • Формално определение и свойства на MDPs.
  • Възможности, уравненията на Белман и динамично програмиране.
  • Оценка на политики, подобряване и итерация.

Безмоделно обучение

  • Методите на Monte Carlo и Temporal-Difference (TD) обучение.
  • Q-обучение и SARSA.
  • Практическа работа: реализиране на табуларни методи за RL в Python.

Дълбоко обучение

  • Комбиниране на невронните мрежи с RL за функционална апроксимация.
  • Дълбоки Q-сетове (DQN) и опитно повторение.
  • Архитектури Actor-Critic и градиенти на политики.
  • Практическа работа: обучаване на агент с DQN и PPO с Stable-Baselines3.

Стратегии за преход и формиране на награди

  • Балансиране между преходите и използването (ε-greedy, UCB, методи с ентропия).
  • Проектиране на наградни функции и избягване на нежелани поведения.
  • Формиране на награди и курсови обучение.

Напредък в RL и преходно вземане на решения

  • Подкрепяващо обучение с много агенти и кооперативни стратегии.
  • Иерархично подкрепяващо обучение и рамка на опции.
  • Офлайн RL и имитационно обучение за по-сигурна употреба.

Симулационни среди и оценка

  • Използване на OpenAI Gym и персонализирани среди.
  • Непрекъснати против дискретни пространства за действия.
  • Мерки за производителност, стабилност и ефективност на пробите при обучението.

Интегриране на RL в агентни ИИ системи

  • Комбиниране на мисленето и RL в хибридни архитектури на агенти.
  • Интеграция на подкрепяващото обучение с агенти, които използват инструменти.
  • Операционни разглеждания за обезпечаване и употреба при по-голям мащаб.

Затворен проект

  • Проектиране и реализиране на агент за подкрепяващо обучение за симулирани задачи.
  • Анализ на производителността при обучението и оптимизация на хиперпараметрите.
  • Демонстрация на адаптивно поведение и преходно вземане на решения в агентен контекст.

Обобщение и следващи стъпки

Изисквания

  • Силна умение в програмирането на Python
  • Солидно разбиране на концепциите за машинно обучение и дълбоко обучение.
  • Запознанство с линейна алгебра, вероятностни теории и основни методи за оптимизация.

Целева група

  • Инженери по подкрепяващото обучение и приложни изследователи на ИИ
  • Разработчици в областта на роботиката и автоматизацията
  • Инженерски екипи, работещи над адаптивни и агентни ИИ системи
 28 часа

Брой участници


Цена за участник

Отзиви от потребители (3)

Предстоящи Курсове

Свързани Kатегории