План на курса

Введение в Reinforcement Learning

  • Какво е укрепващо обучение?
  • Основни концепции: агент, среда, състояния, действия и награди
  • Проблеми в укрепващото обучение

Изследване и използване

  • Баланс между изследване и използване в модели на укрепващо обучение
  • Стратегии за изследване: epsilon-greedy, softmax и други

Q-обучение и дълбоки Q-сети (DQNs)

  • Введение в Q-обучението
  • Реализация на DQNs с TensorFlow
  • Оптимизация на Q-обучението с възпроизвеждане на опит и цели мрежи

Методи базирани на политики

  • Алгоритми на градиент на политиките
  • Алгоритъм REINFORCE и неговото реализиране
  • Методи на актьор-критик

Работа с OpenAI Gym

  • Настройка на среди в OpenAI Gym
  • Симулиране на агенти в динамични среди
  • Оценяване на ефективността на агентите

Напредни техники на Reinforcement Learning

  • Укрепващо обучение с множество агенти
  • Дълбок детерминиран градиент на политиката (DDPG)
  • Оптимизация на близката политика (PPO)

Разработване на модели на Reinforcement Learning

  • Приложения на укрепващото обучение в реалния свят
  • Интегриране на модели на RL в производствени среди

Резюме и следващи стъпки

Изисквания

  • Опит в програмиране с Python
  • Основни познания за концепции на дълбокото обучение и машиненото обучение
  • Знания за алгоритми и математически концепции, използвани в подкрепящо обучение

Целева аудитория

  • Специалисти по данни
  • Практици по машинен обучение
  • Изследователи на изкуствен интелект
 28 часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории