План на курса

Въведение в Predictive AIOps

  • Обзор на предиктивната аналитика в ИТ операции
  • Източници на данни за прогнозиране (логове, метрики, събития)
  • Основни концепции в предсказването на временни редове и аномални модели

Дизайн на модели за предсказване на инциденти

  • Означаване на исторически инциденти и поведение на системата
  • Избор и обучение на модели (например, LSTM, Random Forest, AutoML)
  • Оценка на производителността на моделите и обработка на лъжливи положителни резултати

Сбирка на данни и инженеринг на характеристики

  • Внасяне и съгласуване на лог и метрични данни за вход в моделите
  • Извлечане на характеристики от структурирани и неструктурирани данни
  • Обработка на шум и липсващи данни в оперативните потоци

Автоматизация на анализа на кореновата причина (RCA)

  • Графово корелиране на услуги и инфраструктура
  • Използване на машинно обучение за извеждане на вероятно коренови причини от вериги на събития
  • Визуализация на RCA с топологично осведомени табла

Коригиране и Workflow Automation

  • Интеграция с автоматизирани платформи (например, Ansible, Rundeck)
  • Запускане на откази, рестартиране или преправяне на трафика
  • Аудит и документация на автоматизираните намеси

Мащабиране на интелигентни AIOps потоци

  • MLOps за наблюдаемост: преобучение и версия на модели
  • Извършване на прогнози в реално време на разпределени възли
  • Най-добри практики за развертане на AIOps в производствени среди

Случаи за изследване и практическо приложение

  • Анализ на реални данни за инциденти, използвайки предиктивни AIOps модели
  • Развертане на RCA потоци с синтетични и производствени данни
  • Преглед на случаи за използване в индустрията: изпадане на облачни услуги, нестабилност на микроуслуги, деградиране на мрежата

Резюме и следващи стъпки

Изисквания

  • Опит с мониторингови системи като Prometheus или ELK
  • Работоспособно знание на Python и базисни знания в областта на машинното обучение
  • Познание на процесите на управление на инциденти

Целева аудитория

  • Старши инженери по надеждност на сайта (SRE)
  • Архитекти на автоматизация на IT
  • DevOps и ръководители на платформи за наблюдаемост
 14 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории