Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
Съдържание и теми, включени в курса
Въведение в прогнозния AIOps
- Преглед на прогнозната аналитика в ИТ операциите
- Източници на данни за прогнозиране (логове, метрики, събития)
- Ключови концепции във времевото прогнозиране и модели на аномалии
Проектиране на модели за прогнозиране на инциденти
- Етикетиране на исторически инциденти и поведение на системата
- Избор и обучение на модели (напр. LSTM, Random Forest, AutoML)
- Оценка на производителността на модела и управление на фалшиво положителните резултати
Събиране на данни и инженеринг на характеристики
- Поглъщане и подравняване на данни от логове и метрики за вход на модела
- Извличане на характеристики от структурирани и неструктурирани данни
- Обработка на шум и липсващи данни в оперативните канали
Автоматизиране на анализа на първопричините (RCA)
- Графово-базирана корелация на услуги и инфраструктура
- Използване на ML за извеждане на вероятни първопричини от вериги от събития
- Визуализиране на RCA с табла, отчитащи топологията
Автоматизация на отстраняването на проблеми и работните потоци
- Интегриране с платформи за автоматизация (напр. Ansible, Rundeck)
- Задействане на връщания назад, рестарти или пренасочване на трафик
- Одит и документиране на автоматизирани интервенции
Мащабиране на интелигентни AIOps канали
- MLOps за наблюдаемост: преобучение и версиониране на модели
- Изпълнение на прогнози в реално време върху разпределени възли
- Най-добри практики за внедряване на AIOps в производствени среди
Казуси и практически приложения
- Анализиране на реални данни за инциденти с помощта на прогнозни AIOps модели
- Внедряване на RCA канали със синтетични и производствени данни
- Преглед на индустриални случаи на употреба: прекъсвания в облака, нестабилност на микросървиси, деградации на мрежата
Обобщение и следващи стъпки
Изисквания
- Опит със системи за мониторинг като Prometheus или ELK
- Практически познания по Python и основи на машинното обучение
- Запознатост с работни потоци за управление на инциденти
Аудитория
- Старши инженери по надеждност на сайтове (SREs)
- Архитекти по ИТ автоматизация
- Водещи на DevOps платформи и платформи за наблюдаемост
14 Часа