План на курса

1. Въведение в дълбокото подкрепящо обучение

  • Какво е подкрепящото обучение?
  • Разликите между надзорно, безнадзорно и подкрепящо обучение
  • Приложения на DRL до 2025 г. (роботика, здравеопазване, финанси, логистика)
  • Разбиране на цикъла взаимодействие агента-среде

2. Основи на подкрепящото обучение

  • Марковски процеси на вземане на решения (MDP)
  • Състояние, действие, награда, политика и функции на стойност
  • Търговия между изследване и експлоатация
  • Методи Монте Карло и временно различаващо (TD) обучение

3. Реализация на базови алгоритми за RL

  • Таблични методи: динамично програмиране, оценка и итерация на политика
  • Q-Learning и SARSA
  • Epsilon-жадно изследване и стратегии на отслабване
  • Реализация на среди за RL с OpenAI Gymnasium

4. Преход към дълбокото подкрепящо обучение

  • Ограничения на табличните методи
  • Използване на нейронни мрежи за приближение на функции
  • Архитектура и работен процес на Deep Q-Network (DQN)
  • Повторно използване на опит и целови мрежи

5. Напреднали алгоритми за DRL

  • Double DQN, Dueling DQN и Prioritized Experience Replay
  • Методи на градиент на политика: алгоритъм REINFORCE
  • Архитектури Actor-Critic (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Работа с непрекъснати пространства на действия

  • Проблеми в непрекъснато управление
  • Използване на DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Практични инструменти и рамки

  • Използване на Stable-Baselines3 и Ray RLlib
  • Логване и мониторинг с TensorBoard
  • Настройка на хиперпараметри за модели DRL

8. Инженерия на награди и дизайн на среда

  • Формиране на награди и балансиране на наказания
  • Концепции за прехвърляне на обучение от симулация към реалност
  • Създаване на собствени среди в Gymnasium

9. Частично наблюдавани среди и обобщение

  • Обработка на непълна информация за състояние (POMDPs)
  • Подходи с база данни за памет с LSTMs и RNNs
  • Улучшаване на устойчивостта и обобщението на агента

10. Теория на игрите и многоагентно подкрепящо обучение

  • Въведение в многоагентни среди
  • Сътрудничество срещу съревнование
  • Приложения в антагонистично обучение и оптимизация на стратегии

11. Примерни изследвания и приложения в реалния свят

  • Симулации на автономно управление
  • Динамично ценослагане и финансови търговски стратегии
  • Роботика и индустриално автоматизиране

12. Диагностика и оптимизация

  • Диагностика на нестабилно обучение
  • Управление на редкост на наградите и преобученост
  • Мащабиране на модели DRL на GPUs и разпределени системи

13. Резюме и следващи стъпки

  • Повторение на архитектурата на DRL и ключовите алгоритми
  • Тенденции в индустрията и направления на изследвания (например, RLHF, хибридни модели)
  • Дополнителни ресурси и материали за четене

Изисквания

  • Способност в програмиране с Python
  • Разбиране на диференциално сметане и линейна алгебра
  • Основни знания по вероятност и статистика
  • Опит в изграждане на модели за машинно обучение с использоване на Python и NumPy или TensorFlow/PyTorch

Целева аудитория

  • Разработчици, заинтересовани в изкуствен интелигент и интелигентни системи
  • Данни науки, изследващи рамки за подкрепящо обучение
  • Инженери на машинно обучение, работащи с автономни системи
 21 часа

Брой участници


Цена за участник

Отзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории