План на курса
1. Въведение в дълбокото подкрепящо обучение
- Какво е подкрепящото обучение?
- Разликите между надзорно, безнадзорно и подкрепящо обучение
- Приложения на DRL до 2025 г. (роботика, здравеопазване, финанси, логистика)
- Разбиране на цикъла взаимодействие агента-среде
2. Основи на подкрепящото обучение
- Марковски процеси на вземане на решения (MDP)
- Състояние, действие, награда, политика и функции на стойност
- Търговия между изследване и експлоатация
- Методи Монте Карло и временно различаващо (TD) обучение
3. Реализация на базови алгоритми за RL
- Таблични методи: динамично програмиране, оценка и итерация на политика
- Q-Learning и SARSA
- Epsilon-жадно изследване и стратегии на отслабване
- Реализация на среди за RL с OpenAI Gymnasium
4. Преход към дълбокото подкрепящо обучение
- Ограничения на табличните методи
- Използване на нейронни мрежи за приближение на функции
- Архитектура и работен процес на Deep Q-Network (DQN)
- Повторно използване на опит и целови мрежи
5. Напреднали алгоритми за DRL
- Double DQN, Dueling DQN и Prioritized Experience Replay
- Методи на градиент на политика: алгоритъм REINFORCE
- Архитектури Actor-Critic (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Работа с непрекъснати пространства на действия
- Проблеми в непрекъснато управление
- Използване на DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Практични инструменти и рамки
- Използване на Stable-Baselines3 и Ray RLlib
- Логване и мониторинг с TensorBoard
- Настройка на хиперпараметри за модели DRL
8. Инженерия на награди и дизайн на среда
- Формиране на награди и балансиране на наказания
- Концепции за прехвърляне на обучение от симулация към реалност
- Създаване на собствени среди в Gymnasium
9. Частично наблюдавани среди и обобщение
- Обработка на непълна информация за състояние (POMDPs)
- Подходи с база данни за памет с LSTMs и RNNs
- Улучшаване на устойчивостта и обобщението на агента
10. Теория на игрите и многоагентно подкрепящо обучение
- Въведение в многоагентни среди
- Сътрудничество срещу съревнование
- Приложения в антагонистично обучение и оптимизация на стратегии
11. Примерни изследвания и приложения в реалния свят
- Симулации на автономно управление
- Динамично ценослагане и финансови търговски стратегии
- Роботика и индустриално автоматизиране
12. Диагностика и оптимизация
- Диагностика на нестабилно обучение
- Управление на редкост на наградите и преобученост
- Мащабиране на модели DRL на GPUs и разпределени системи
13. Резюме и следващи стъпки
- Повторение на архитектурата на DRL и ключовите алгоритми
- Тенденции в индустрията и направления на изследвания (например, RLHF, хибридни модели)
- Дополнителни ресурси и материали за четене
Изисквания
- Способност в програмиране с Python
- Разбиране на диференциално сметане и линейна алгебра
- Основни знания по вероятност и статистика
- Опит в изграждане на модели за машинно обучение с использоване на Python и NumPy или TensorFlow/PyTorch
Целева аудитория
- Разработчици, заинтересовани в изкуствен интелигент и интелигентни системи
- Данни науки, изследващи рамки за подкрепящо обучение
- Инженери на машинно обучение, работащи с автономни системи
Отзиви от потребители (5)
Хънтър е невероятен, много ангажиращ, изключително информиран и представителен. Много добре направено.
Rick Johnson - Laramie County Community College
Курс - Artificial Intelligence (AI) Overview
Машинен превод
Very flexible.
Frank Ueltzhoffer
Курс - Artificial Neural Networks, Machine Learning and Deep Thinking
Машинен превод
I liked the new insights in deep machine learning.
Josip Arneric
Курс - Neural Network in R
Машинен превод
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Курс - Introduction to the use of neural networks
Машинен превод
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Курс - Artificial Neural Networks, Machine Learning, Deep Thinking
Машинен превод
 
                    