План на курса

Въведение в Predictive AIOps
  • Обзор на предсказателната аналитика в ИТ операции
  • Източници на данни за предсказания (логове, метрики, събития)
  • Основни концепции за прогнозиране на временни редове и аномални модели
Проектиране на модели за предсказване на инциденти
  • Обележване на исторически инциденти и поведение на системата
  • Избор и обучение на модели (например, LSTM, Random Forest, AutoML)
  • Оценка на производителността на модела и управление на лъжливи положителни резултати
Сбор на данни и инженеринг на характеристики
  • Внасяне и подравняване на лог и метрични данни за вход на модела
  • Извличане на характеристики от структурирани и неструктурирани данни
  • Обработка на шум и липсващи данни в операционните потоци
Автоматизация на анализ на причините за инциденти (RCA)
  • Корелация на услуги и инфраструктура базирана на графики
  • Използване на ML за извеждане на вероятни причини за инциденти от вериги събития
  • Визуализация на RCA с топология-осъзнати панели
Отстраняване и Workflow Automation
  • Интеграция с платформи за автоматизация (например, Ansible, Rundeck)
  • Започване на връщане назад, презареждане или пренасочване на трафика
  • Аудиране и документиране на автоматизирани вмешателства
Мащабиране на интелигентни AIOps потоци
  • MLOps за наблюдаемост: повторно обучение и версиониране на модели
  • Извършване на предсказания в реално време в разпределени възли
  • Наи-добри практики за развертане на AIOps в производствени среди
Случаи за проучване и практични приложения
  • Анализ на реални данни за инциденти с предсказателни AIOps модели
  • Развертане на RCA потоци с синтетични и производствени данни
  • Преглед на индустрийни случаи: изпадане на облака, нестабилност на микросъобщения, деградация на мрежите
Резюме и следващи стъпки

Изисквания

  • Опит с мониторингови системи като Prometheus или ELK
  • Работи с Python и основни знания в областта на машинното обучение
  • Знание на процесите за управление на инциденти

Целева аудитория

  • Старши инженери за надеждност на сайтовете (SREs)
  • Архитекти за автоматизация на IT
  • DevOps и ръководители на платформи за наблюдаемост
 14 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории