План на курса
Въведение в подкрепяващото обучение и агентната ИИ
- Преходно вземане на решения при неизвестност и последователно планиране.
- Ключови компоненти на RL: агенти, среди, състояния и награди.
- Ролята на RL в адаптивните и агентни ИИ системи.
Марковски процеси на преход (MDPs)
- Формално определение и свойства на MDPs.
- Възможности, уравненията на Белман и динамично програмиране.
- Оценка на политики, подобряване и итерация.
Безмоделно обучение
- Методите на Monte Carlo и Temporal-Difference (TD) обучение.
- Q-обучение и SARSA.
- Практическа работа: реализиране на табуларни методи за RL в Python.
Дълбоко обучение
- Комбиниране на невронните мрежи с RL за функционална апроксимация.
- Дълбоки Q-сетове (DQN) и опитно повторение.
- Архитектури Actor-Critic и градиенти на политики.
- Практическа работа: обучаване на агент с DQN и PPO с Stable-Baselines3.
Стратегии за преход и формиране на награди
- Балансиране между преходите и използването (ε-greedy, UCB, методи с ентропия).
- Проектиране на наградни функции и избягване на нежелани поведения.
- Формиране на награди и курсови обучение.
Напредък в RL и преходно вземане на решения
- Подкрепяващо обучение с много агенти и кооперативни стратегии.
- Иерархично подкрепяващо обучение и рамка на опции.
- Офлайн RL и имитационно обучение за по-сигурна употреба.
Симулационни среди и оценка
- Използване на OpenAI Gym и персонализирани среди.
- Непрекъснати против дискретни пространства за действия.
- Мерки за производителност, стабилност и ефективност на пробите при обучението.
Интегриране на RL в агентни ИИ системи
- Комбиниране на мисленето и RL в хибридни архитектури на агенти.
- Интеграция на подкрепяващото обучение с агенти, които използват инструменти.
- Операционни разглеждания за обезпечаване и употреба при по-голям мащаб.
Затворен проект
- Проектиране и реализиране на агент за подкрепяващо обучение за симулирани задачи.
- Анализ на производителността при обучението и оптимизация на хиперпараметрите.
- Демонстрация на адаптивно поведение и преходно вземане на решения в агентен контекст.
Обобщение и следващи стъпки
Изисквания
- Силна умение в програмирането на Python
- Солидно разбиране на концепциите за машинно обучение и дълбоко обучение.
- Запознанство с линейна алгебра, вероятностни теории и основни методи за оптимизация.
Целева група
- Инженери по подкрепяващото обучение и приложни изследователи на ИИ
- Разработчици в областта на роботиката и автоматизацията
- Инженерски екипи, работещи над адаптивни и агентни ИИ системи
Отзиви от потребители (3)
Добра смесица от знания и практика
Ion Mironescu - Facultatea S.A.I.A.P.M.
Курс - Agentic AI for Enterprise Applications
Машинен превод
Смесицата между теорията и практиката, както и между високо и ниско ниво перспективи.
Ion Mironescu - Facultatea S.A.I.A.P.M.
Курс - Autonomous Decision-Making with Agentic AI
Машинен превод
практическа упражнение
Daniel - Facultatea S.A.I.A.P.M.
Курс - Agentic AI in Multi-Agent Systems
Машинен превод