Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Въведение в Predictive AIOps
- Обзор на предиктивната аналитика в ИТ операции
- Източници на данни за прогнозиране (логове, метрики, събития)
- Основни концепции в предсказването на временни редове и аномални модели
Дизайн на модели за предсказване на инциденти
- Означаване на исторически инциденти и поведение на системата
- Избор и обучение на модели (например, LSTM, Random Forest, AutoML)
- Оценка на производителността на моделите и обработка на лъжливи положителни резултати
Сбирка на данни и инженеринг на характеристики
- Внасяне и съгласуване на лог и метрични данни за вход в моделите
- Извлечане на характеристики от структурирани и неструктурирани данни
- Обработка на шум и липсващи данни в оперативните потоци
Автоматизация на анализа на кореновата причина (RCA)
- Графово корелиране на услуги и инфраструктура
- Използване на машинно обучение за извеждане на вероятно коренови причини от вериги на събития
- Визуализация на RCA с топологично осведомени табла
Коригиране и Workflow Automation
- Интеграция с автоматизирани платформи (например, Ansible, Rundeck)
- Запускане на откази, рестартиране или преправяне на трафика
- Аудит и документация на автоматизираните намеси
Мащабиране на интелигентни AIOps потоци
- MLOps за наблюдаемост: преобучение и версия на модели
- Извършване на прогнози в реално време на разпределени възли
- Най-добри практики за развертане на AIOps в производствени среди
Случаи за изследване и практическо приложение
- Анализ на реални данни за инциденти, използвайки предиктивни AIOps модели
- Развертане на RCA потоци с синтетични и производствени данни
- Преглед на случаи за използване в индустрията: изпадане на облачни услуги, нестабилност на микроуслуги, деградиране на мрежата
Резюме и следващи стъпки
Изисквания
- Опит с мониторингови системи като Prometheus или ELK
- Работоспособно знание на Python и базисни знания в областта на машинното обучение
- Познание на процесите на управление на инциденти
Целева аудитория
- Старши инженери по надеждност на сайта (SRE)
- Архитекти на автоматизация на IT
- DevOps и ръководители на платформи за наблюдаемост
14 Часа