Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Введение в AIOps
- Какво е AIOps и защо е важно
- Традиционен мониторинг срещу наблюдаемост, управлявана от AIOps
- Архитектура на AIOps и ключови компоненти
Събиране и нормалнизация на операционни данни
- Видове наблюдаеми данни: метрики, логове и траси
- Вмъкване на данни от различни източници (сървъри, контейнери, облак)
- Използване на агенти и експортери (Prometheus, Beats, Fluentd)
Корелация на данни и откриване на аномалии
- Корилация на временни редове и статистически методи
- Използване на модели на машинно обучение за откриване на аномалии
- Откриване на инциденти в разпределени системи
Уведомяване и намаляване на шума
- Проектиране на интелигентни правила и прагове за уведомяване
- Подавление, дублиране и групиране на уведомявания
- Интеграция с Alertmanager, Slack, PagerDuty или Opsgenie
Анализ на коренова причина и визуализация
- Използване на таблици за визуализация на метрики и откриване на тенденции
- Изследване на събития и временни линии за анализа на коренова причина
- Тракене на проблеми през слоеве с инструменти за разпределено трасиране
Автоматизация и компенсация
- Запускане на автоматични скриптове или работни процеси от инциденти
- Интеграция с системи за управление на ИТ услуги (ServiceNow, Jira)
- Приложими случаи: самоизлекуване, масштабиране, препреминаване на трафик
Открит код и търговски платформи AIOps
- Обзор на инструменти: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- Критерии за оценка за избор на платформа AIOps
- Демонстрация и работа с избран стък
Резюме и следващи стъпки
Изисквания
- Разбиране в концепциите за IT операции и системно мониториране
- Опит с инструменти за мониториране или табла с информация
- Знание за основни формати на логове и метрики
Целева аудитория
- Екипи за операции, отговорни за инфраструктура и приложения
- Инженери за надеждност на сайта (SRE)
- Екипи за IT мониториране и наблюдаемост
14 Часа