План на курса

Въведение в Apache Airflow

  • Какво е оркестриране на работни процеси
  • Основни функции и предимства на Apache Airflow
  • Улучшения в Airflow 2.x и обзор на екосистемата

Архитектура и основни концепции

  • Процеси на планиращика, уеб сървъра и работниците
  • DAGs, задачи и оператори
  • Изпълнители и задни плани (Local, Celery, Kubernetes)

Инсталиране и настройка

  • Инсталиране на Airflow в локални и облачни среди
  • Настройка на Airflow с различни изпълнители
  • Настройка на метаданни бази данни и връзки

Навигация в Airflow UI и CLI

  • Разглеждане на уеб интерфейса на Airflow
  • Мониторинг на изпълнения на DAGs, задачи и логи
  • Използване на Airflow CLI за администрация

Създаване и управление на DAGs

  • Създаване на DAGs с TaskFlow API
  • Използване на оператори, сензори и хукове
  • Управление на зависимости и интервали за планиране

Интегриране на Airflow с данни и облачни услуги

  • Връзка с бази данни, API и очереди за съобщения
  • Изпълнение на ETL пайплайни с Airflow
  • Облачни интеграции: AWS, GCP, Azure оператори

Мониторинг и наблюдаемост

  • Логове на задачи и реално време мониторинг
  • Метрики с Prometheus и Grafana
  • Уведомяване и известия с е-мейл или Slack

Сигурност на Apache Airflow

  • Контрол на достъп базиран на роли (RBAC)
  • Автентикация с LDAP, OAuth и SSO
  • Управление на секрети с Vault и облачни хранилища за секрети

Увеличаване на Apache Airflow

  • Паралелизъм, конкурентност и очереди на задачи
  • Използване на CeleryExecutor и KubernetesExecutor
  • Развой на Airflow на Kubernetes с Helm

Най-добирите практики за производство

  • Версионно управление и CI/CD за DAGs
  • Тестване и отстраняване на грешки на DAGs
  • Поддържане на надеждност и производителност при масово разширяване

Диагностика и оптимизация

  • Отстраняване на грешки при неуспешни DAGs и задачи
  • Оптимизация на производителността на DAGs
  • Често срещани проблеми и как да ги избегнете

Резюме и следващи стъпки

Изисквания

    Опит с програмно изработване на Python
  • Закръгляне с концепциите за инженеринг на данни или DevOps
  • Разбиране на ETL или оркестрация на работни процеси

Целева аудитория

  • Специалисти по данни
  • Инженери на данни
  • DevOps и инфраструктурни инженери
  • Софтуерни разработчици
 21 часа

Брой участници


Цена за участник

Отзиви от потребители (7)

Предстоящи Курсове

Свързани Kатегории