План на курса
Въведение в Apache Airflow
- Какво е оркестриране на работни процеси
- Основни функции и предимства на Apache Airflow
- Улучшения в Airflow 2.x и обзор на екосистемата
Архитектура и основни концепции
- Процеси на планиращика, уеб сървъра и работниците
- DAGs, задачи и оператори
- Изпълнители и задни плани (Local, Celery, Kubernetes)
Инсталиране и настройка
- Инсталиране на Airflow в локални и облачни среди
- Настройка на Airflow с различни изпълнители
- Настройка на метаданни бази данни и връзки
Навигация в Airflow UI и CLI
- Разглеждане на уеб интерфейса на Airflow
- Мониторинг на изпълнения на DAGs, задачи и логи
- Използване на Airflow CLI за администрация
Създаване и управление на DAGs
- Създаване на DAGs с TaskFlow API
- Използване на оператори, сензори и хукове
- Управление на зависимости и интервали за планиране
Интегриране на Airflow с данни и облачни услуги
- Връзка с бази данни, API и очереди за съобщения
- Изпълнение на ETL пайплайни с Airflow
- Облачни интеграции: AWS, GCP, Azure оператори
Мониторинг и наблюдаемост
- Логове на задачи и реално време мониторинг
- Метрики с Prometheus и Grafana
- Уведомяване и известия с е-мейл или Slack
Сигурност на Apache Airflow
- Контрол на достъп базиран на роли (RBAC)
- Автентикация с LDAP, OAuth и SSO
- Управление на секрети с Vault и облачни хранилища за секрети
Увеличаване на Apache Airflow
- Паралелизъм, конкурентност и очереди на задачи
- Използване на CeleryExecutor и KubernetesExecutor
- Развой на Airflow на Kubernetes с Helm
Най-добирите практики за производство
- Версионно управление и CI/CD за DAGs
- Тестване и отстраняване на грешки на DAGs
- Поддържане на надеждност и производителност при масово разширяване
Диагностика и оптимизация
- Отстраняване на грешки при неуспешни DAGs и задачи
- Оптимизация на производителността на DAGs
- Често срещани проблеми и как да ги избегнете
Резюме и следващи стъпки
Изисквания
- Опит с програмно изработване на Python
- Закръгляне с концепциите за инженеринг на данни или DevOps
- Разбиране на ETL или оркестрация на работни процеси
Целева аудитория
- Специалисти по данни
- Инженери на данни
- DevOps и инфраструктурни инженери
- Софтуерни разработчици
Отзиви от потребители (7)
The training was spot on. Very useful theory and exercices.
Vladimir - PUBLIC COURSE
Курс - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Курс - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Курс - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Курс - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Курс - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Курс - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.