План на курса
1. Въведение в дълбокото подкрепящо обучение
- Какво е подкрепящото обучение?
- Разликите между надзорно, безнадзорно и подкрепящо обучение
- Приложения на DRL до 2025 г. (роботика, здравеопазване, финанси, логистика)
- Разбиране на цикъла взаимодействие агента-среде
2. Основи на подкрепящото обучение
- Марковски процеси на вземане на решения (MDP)
- Състояние, действие, награда, политика и функции на стойност
- Търговия между изследване и експлоатация
- Методи Монте Карло и временно различаващо (TD) обучение
3. Реализация на базови алгоритми за RL
- Таблични методи: динамично програмиране, оценка и итерация на политика
- Q-Learning и SARSA
- Epsilon-жадно изследване и стратегии на отслабване
- Реализация на среди за RL с OpenAI Gymnasium
4. Преход към дълбокото подкрепящо обучение
- Ограничения на табличните методи
- Използване на нейронни мрежи за приближение на функции
- Архитектура и работен процес на Deep Q-Network (DQN)
- Повторно използване на опит и целови мрежи
5. Напреднали алгоритми за DRL
- Double DQN, Dueling DQN и Prioritized Experience Replay
- Методи на градиент на политика: алгоритъм REINFORCE
- Архитектури Actor-Critic (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Работа с непрекъснати пространства на действия
- Проблеми в непрекъснато управление
- Използване на DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Практични инструменти и рамки
- Използване на Stable-Baselines3 и Ray RLlib
- Логване и мониторинг с TensorBoard
- Настройка на хиперпараметри за модели DRL
8. Инженерия на награди и дизайн на среда
- Формиране на награди и балансиране на наказания
- Концепции за прехвърляне на обучение от симулация към реалност
- Създаване на собствени среди в Gymnasium
9. Частично наблюдавани среди и обобщение
- Обработка на непълна информация за състояние (POMDPs)
- Подходи с база данни за памет с LSTMs и RNNs
- Улучшаване на устойчивостта и обобщението на агента
10. Теория на игрите и многоагентно подкрепящо обучение
- Въведение в многоагентни среди
- Сътрудничество срещу съревнование
- Приложения в антагонистично обучение и оптимизация на стратегии
11. Примерни изследвания и приложения в реалния свят
- Симулации на автономно управление
- Динамично ценослагане и финансови търговски стратегии
- Роботика и индустриално автоматизиране
12. Диагностика и оптимизация
- Диагностика на нестабилно обучение
- Управление на редкост на наградите и преобученост
- Мащабиране на модели DRL на GPUs и разпределени системи
13. Резюме и следващи стъпки
- Повторение на архитектурата на DRL и ключовите алгоритми
- Тенденции в индустрията и направления на изследвания (например, RLHF, хибридни модели)
- Дополнителни ресурси и материали за четене
Изисквания
- Способност в програмиране с Python
- Разбиране на диференциално сметане и линейна алгебра
- Основни знания по вероятност и статистика
- Опит в изграждане на модели за машинно обучение с использоване на Python и NumPy или TensorFlow/PyTorch
Целева аудитория
- Разработчици, заинтересовани в изкуствен интелигент и интелигентни системи
- Данни науки, изследващи рамки за подкрепящо обучение
- Инженери на машинно обучение, работащи с автономни системи
Отзиви от потребители (3)
Много ми хареса краят, когато прекарахме време, разглеждайки CHAT GPT. Залата не беше най-добре организирана за това – вместо едно голямо стола, няколко по-малки щеше да помогне, за да се разделим на малки групи и да мислим съвместно.
Nola - Laramie County Community College
Курс - Artificial Intelligence (AI) Overview
Машинен превод
Работата с първични принципи по фокусиран начин и прилагане на кейс студии вътре в същия ден
Maggie Webb - Department of Jobs, Regions, and Precincts
Курс - Artificial Neural Networks, Machine Learning, Deep Thinking
Машинен превод
Прибирахме се, че минаваме през непосредствено важна информация в подходящ темп (тоест, без допълнителни материали).
Maggie Webb - Department of Jobs, Regions, and Precincts
Курс - Introduction to the use of neural networks
Машинен превод