План на курса

Въведение в Apache Airflow

  • Какво е координацията на работни процеси
  • Ключовите функционалности и предимства на Apache Airflow
  • Улесненията в Airflow 2.x и обиколката на екосистемата

Архитектура и Основни Концепции

  • Планираният, уеб сървър и работни процеси
  • DAGs, задачи и оператори
  • Изпълнители и бекенди (Локално, Celery, Kubernetes)

Инсталиране и Настройка

  • Инсталация на Airflow в локални и облакови среди
  • Конфигуриране на Airflow с различни изпълнители
  • Настройка на метаданни бази данни и връзки

Навигация в UI и CLI на Airflow

  • Разглеждане на уеб интерфейса на Airflow
  • Мониторинг на изпълненията на DAGs, задачи и логовете
  • Използване на CLI на Airflow за администриране

Създаване и Управление на DAGs

  • Създаване на DAGs с TaskFlow API
  • Използване на оператори, сензори и хуки
  • Управление на зависимости и интервали за планиране

Интегриране на Airflow с Датови и Облакови Услуги

  • Свързване към бази данни, API и съобщения в опашки
  • Извършване на ETL трансформационни ценности с Airflow
  • Облакови интеграции: AWS, GCP, Azure оператори

Мониторинг и Наблюдаемост

  • Логове на задачите и реално време за мониторинг
  • Метрики с Prometheus и Grafana
  • Уведомления с email или Slack

Сигурност на Apache Airflow

  • Ролево управление на достъпа (RBAC)
  • Аутентикация с LDAP, OAuth и SSO
  • Управление на секрети с Vault и облакови хранилища за секрети

Масштабиране на Apache Airflow

  • Паралелност, съвместимост и опашки за задачи
  • Използване на CeleryExecutor и KubernetesExecutor
  • Разполагане на Airflow в Kubernetes с Helm

Най-добрите Практики за Производствената Среда

  • Версиониране и CI/CD за DAGs
  • Тестване и дебагиране на DAGs
  • Поддържане на надеждността и производителността в масштаб

Решаване на Проблеми и Оптимизация

  • Дебагиране на неуспешни DAGs и задачи
  • Оптимизиране на производителността на DAGs
  • Общи проблеми и как да ги избягвате

Резюме и Следващи Крачки

Изисквания

  • Опит с програмирането на Python
  • Познания в областта на датовата инженерия или DevOps концепции
  • Разбиране за ETL или координация на работни процеси

Целева Група

  • Специалисти по данни
  • Инженери по данни
  • DevOps и инфраструктурни инженери
  • Софтуерни разработчици
 21 часа

Брой участници


Цена за участник

Отзиви от потребители (7)

Предстоящи Курсове

Свързани Kатегории