Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Въведение в Прогнозни AIOps
- Обзор на прогнозния анализ в ИТ операции
- Датови източници за прогноза (логове, метрики, събития)
- Ключови концепции в прогнозирането на времеви редове и аномални образци
Дизайн на Модели за Прогноза на Инциденти
- Омръжаване на исторически инциденти и поведение на системата
- Избор и трениране на модели (например, LSTM, Random Forest, AutoML)
- Оценка на производителността на моделите и управление на ложноположителни резултати
Събиране на Данны и Инженеринг на Функционалности
- Поглъзване и подравняване на логови и метрични данни за вход в модела
- Извличане на функционалности от структурирани и неструктурирани данни
- Управление на шум и липсващи данни в оперативните канали
Автоматизация на Анализа на Основна Причина (RCA)
- Графова корелация на услуги и инфраструктура
- Използване на ML за извеждане на вероятните основни причини от ланцети на събития
- Визуализация на RCA с топологията на дашбордовете
Автоматизация и Работни Процеси за Възстановяване
- Интегриране с платформи за автоматизация (например, Ansible, Rundeck)
- Активиране на откати, рестарти или пренасочване на трафик
- Контрол и документация на автоматизирани вмешателства
Мащабиране на Разумни AIOps Канали
- MLOps за наблюдаемост: трениране и версиониране на модели
- Провеждане на прогнози в реално време в разпределени нодове
- Ръководства за практика при имплементацията на AIOps в производствени среди
Кейсови Студии и Практически Приложения
- Анализ на реални данни за инциденти с помощта на модели за прогнозен AIOps
- Разпространяване на RCA канали с синтетични и производствени данни
- Обзор на отраслова практика: прекъсвания в облака, нестабилност на микросервиси, деградация на мрежата
Резюме и Следващи Крачки
Изисквания
- Опит с мониторингови системи като Prometheus или ELK
- Работно познаване на Python и основен машинен алгоритъм
- Определяне с инцидентни управляващи работни процеси
Публика
- Старши инженери за надеждност на сайта (SREs)
- Архитекти на ИТ автоматизация
- Ръководители на платформи DevOps и наблюдаемост
14 Часове