Свържете се с нас

Съдържание и теми, включени в курса

Въведение в прогнозния AIOps

  • Преглед на прогнозната аналитика в ИТ операциите
  • Източници на данни за прогнозиране (логове, метрики, събития)
  • Ключови концепции във времевото прогнозиране и модели на аномалии

Проектиране на модели за прогнозиране на инциденти

  • Етикетиране на исторически инциденти и поведение на системата
  • Избор и обучение на модели (напр. LSTM, Random Forest, AutoML)
  • Оценка на производителността на модела и управление на фалшиво положителните резултати

Събиране на данни и инженеринг на характеристики

  • Поглъщане и подравняване на данни от логове и метрики за вход на модела
  • Извличане на характеристики от структурирани и неструктурирани данни
  • Обработка на шум и липсващи данни в оперативните канали

Автоматизиране на анализа на първопричините (RCA)

  • Графово-базирана корелация на услуги и инфраструктура
  • Използване на ML за извеждане на вероятни първопричини от вериги от събития
  • Визуализиране на RCA с табла, отчитащи топологията

Автоматизация на отстраняването на проблеми и работните потоци

  • Интегриране с платформи за автоматизация (напр. Ansible, Rundeck)
  • Задействане на връщания назад, рестарти или пренасочване на трафик
  • Одит и документиране на автоматизирани интервенции

Мащабиране на интелигентни AIOps канали

  • MLOps за наблюдаемост: преобучение и версиониране на модели
  • Изпълнение на прогнози в реално време върху разпределени възли
  • Най-добри практики за внедряване на AIOps в производствени среди

Казуси и практически приложения

  • Анализиране на реални данни за инциденти с помощта на прогнозни AIOps модели
  • Внедряване на RCA канали със синтетични и производствени данни
  • Преглед на индустриални случаи на употреба: прекъсвания в облака, нестабилност на микросървиси, деградации на мрежата

Обобщение и следващи стъпки

Изисквания

  • Опит със системи за мониторинг като Prometheus или ELK
  • Практически познания по Python и основи на машинното обучение
  • Запознатост с работни потоци за управление на инциденти

Аудитория

  • Старши инженери по надеждност на сайтове (SREs)
  • Архитекти по ИТ автоматизация
  • Водещи на DevOps платформи и платформи за наблюдаемост
 14 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории