План на курса

Напредни техники на Reinforcement Learning

Разработка на модели на Reinforcement Learning

Разследване и експлоатация

Введение в Reinforcement Learning

Методи базирани на политика

Q-обучение и дълбоки Q-мрежи (DQNs)

Резюме и следващи стъпки

Работа с OpenAI Gym

  • Балансиране на разследване и експлоатация в RL модели
  • Стратегии за разследване: epsilon-greedy, softmax и други
  • Введение в Q-обучение
  • Реализация на DQNs с TensorFlow
  • Оптимизация на Q-обучение с възстановяване на опит и целови мрежи
  • Многоагентно подкрепящо обучение
  • Дълбоки детерминистични градиентни методи на политика (DDPG)
  • Проксимална оптимизация на политика (PPO)
  • Алгоритми за градиенти на политика
  • Алгоритъм REINFORCE и неговата реализация
  • Методи на актьор-критик
  • Реални приложения на подкрепящо обучение
  • Интегриране на RL модели в продукционни среди
  • Настройка на среди в OpenAI Gym
  • Симулиране на агенти в динамични среди
  • Оценка на изпълнението на агентите
  • Какво е подкрепящо обучение?
  • Основни концепции: агент, среда, състояния, действия и награди
  • Проблеми в подкрепящото обучение

Изисквания

Целева публикация

  • Данни науки
  • Практикуващи машинно обучение
  • Изследователи на изкуствен интелект
  • Опит с програмно Python
  • Основно разбиране на концепциите на дълбокото и машинното обучение
  • Знаеми с алгоритми и математически концепции, използвани в обучението с подкрепление
 28 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории