План на курса

Въведение в AIOps

  • Какво е AIOps и защо е важен
  • Традиционен мониторинг vs. наблюдаемост, водена от AIOps
  • Архитектура на AIOps и ключови компоненти

Събиране и нормализиране на оперативни данни

  • Видове данни за наблюдаемост: метрики, логове и следи
  • Внасяне на данни от различни източници (сървъри, контейнери, облак)
  • Използване на агенти и експортьори (Prometheus, Beats, Fluentd)

Корелация на данни и откриване на аномалии

  • Корелация на временни редици и статистически методи
  • Използване на модели на ML за откриване на аномалии
  • Откриване на инциденти в разпределени системи

Сигнализиране и намаляване на шума

  • Проектиране на интелигентни правила за сигнали и прагове
  • Подавление, дублиране и групиране на сигнали
  • Интеграция с Alertmanager, Slack, PagerDuty или Opsgenie

Анализ на причината за инцидента и визуализация

  • Използване на табло за визуализация на метрики и откриване на тенденции
  • Разглеждане на събития и временни линии за анализ на причината за инцидента
  • Следене на проблеми в различни слоеве с инструменти за разпределено следене

Автоматизация и възстановяване

  • Запускане на автоматични скриптове или процеси от инциденти
  • Интеграция с ITSM системи (ServiceNow, Jira)
  • Случаи на употреба: самоизцеляване, масштабиране, прехвърляне на трафик

Отворени и търговски платформи за AIOps

  • Обзор на инструменти: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Критерии за оценка при избора на платформа за AIOps
  • Демонстрация и ръчно работа с избран стек

Резюме и следващи стъпки

Изисквания

Предпоставки:
  • Разбиране в концепциите на ИТ операции и мониторинг на системи
  • Опит с инструменти за мониторинг или табло
  • Знание на базовите формати на логи и метрики

Целева аудитория

  • Екипи, отговорни за инфраструктура и приложения
  • Инженери за надеждност на сайта (SREs)
  • Екипи за мониторинг и наблюдаемост в ИТ
 14 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории