Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Проектиране на отворена AIOps архитектура
- Обзор на ключови компоненти в отворени AIOps конвейери
- Поток на данни от влизане до уведомяване
- Сравнение на инструменти и стратегия за интеграция
Сбор и агрегация на данни
- Влизане на временни редове данни с Prometheus
- Захвана на логове с Logstash и Beats
- Нормализиране на данни за корелация между различни източници
Създаване на наблюдателни таблици
- Визуализиране на метрики с Grafana
- Създаване на Kibana таблици за анализ на логове
- Използване на Elasticsearch заявки за извличане на операционни инсайти
Откриване на аномалии и предсказване на инциденти
- Експортиране на наблюдателни данни в Python конвейери
- Обучение на ML модели за откриване на изключителни случаи и предсказване
- Разпълзване на модели за живо извеждане на заключения в наблюдателния конвейер
Уведомяване и автоматизация с отворени инструменти
- Създаване на Prometheus правила за уведомяване и маршрутиране на Alertmanager
- Запускане на скриптове или API процеси за автоматическа реакция
- Използване на отворени инструменти за оркестрация (напр., Ansible, Rundeck)
Интеграционни и масштабируемостни разбирания
- Разглеждане на високообемно влизане и дългосрочно съхранение
- Сигурност и контрол на достъп в отворени стекове
- Масштабиране на всеки слой независимо: влизане, обработка, уведомяване
Реални приложения и разширения
- Примерни изследвания: настройка на производителност, предотвратяване на падане и оптимизация на разходи
- Разширение на конвейерите с инструменти за трасиране или графове на услуги
- Най-добри практики за извършване и поддържане на AIOps в производствена среда
Резюме и следващи стъпки
Изисквания
- Опит с инструменти за наблюдаемост, като Prometheus или ELK
- Работи с Python и основи на машинно обучение
- Разбиране на IT операции и процеси за известия
Целева аудитория
- Надписане инженери за надеждност на сайта (SRE)
- Инженери за обработка на данни, работещи в операции
- DevOps платформни лидери и архитекти на инфраструктура
14 Часа