План на курса

Седмица 1 — Въведение в инженерството на данни

  • Основни принципи на инженерството на данни и модерни стекове на данни
  • Модели на внасяне на данни и източници
  • Концепции за пакетно и поточно обработване на данни и техните приложения
  • Практическо упражнение: внасяне на примерни данни в облачно съхранение

Седмица 2 — Значка за основа на Lakehouse на Databricks

  • Основни принципи на платформата Databricks и навигация в работното пространство
  • Концепции на Delta Lake: ACID, пътуване във времето и еволюция на схемата
  • Безопасност на работното пространство, контрол на достъпа и основа на Unity Catalog
  • Практическо упражнение: създаване и управление на Delta таблици

Седмица 3 — Надградено SQL на Databricks

  • Надградени SQL конструкции и прозорчеви функции в големи мащаби
  • Оптимизация на заявки, обяснителни планове и модели за снижаване на разходите
  • Материализирани изгледа, кеширане и настройка на производителността
  • Практическо упражнение: оптимизация на аналитични заявки върху големи набори данни

Седмица 4 — Сертифициран разработчик на Databricks за Apache Spark (Подготовка)

  • Архитектура на Spark, глубоко погружаване в RDDs, DataFrames и Datasets
  • Основни трансформации и действия на Spark; разглеждане на производителността
  • Основни принципи на поточно обработване на данни и модели на структурирано поточно обработване
  • Упражнения с практичен екзамен и ръчни тестови проблеми

Седмица 5 — Въведение в моделирането на данни

  • Концепции: моделиране по измерения, дизайн на звезда/схема и нормализация
  • Моделиране на Lakehouse в сравнение с традиционни подходи за складове на данни
  • Дизайн модели за готови за анализ набори данни
  • Практическо упражнение: изграждане на таблици и изгледа, готови за използване

Седмица 6 — Въведение в инструменти за импортиране и автоматизация на внасяне на данни

  • Конектори и инструменти за внасяне на данни за Databricks (AWS Glue, Data Factory, Kafka)
  • Модели за внасяне на потоци данни и микро-пакетни дизайни
  • Проверка на данните, контрол на качеството и наложение на схема
  • Практическо упражнение: изграждане на устойчиви внасящи канали

Седмица 7 — Въведение в Git Flow и CI/CD за инженерство на данни

  • Стратегии за клонове и организация на репозиториум по Git Flow
  • CI/CD канали за блокноти, задачи и инфраструктура като код
  • Тестване, линтинг и автоматизация на развой на код за данни
  • Практическо упражнение: имплементиране на Git-базиран работен процес и автоматизиран развой на задачи

Седмица 8 — Сертифициран асоциативен инженер на данни на Databricks (Подготовка) & модели на инженерство на данни

  • Преглед на теми за сертификация и практични упражнения
  • Архитектурни модели: бронз/сребро/злато, CDC, бавно променящи се измерения
  • Операционни модели: мониторинг, уведомяване и родословие
  • Практическо упражнение: край-в-край канал, применявайки модели на инженерство

Седмица 9 — Въведение в Airflow и Astronomer; скриптване

  • Концепции на Airflow: DAGs, задачи, оператори и планиране
  • Преглед на платформата Astronomer и най-добри практики за оркестриране
  • Скриптване за автоматизация: Python скриптови модели за задачи с данни
  • Практическо упражнение: оркестриране на задачи на Databricks с DAGs на Airflow

Седмица 10 — Визуализация на данни, Tableau и персонализиран финален проект

  • Свързване на Tableau с Databricks и най-добри практики за BI слоеве
  • Принципи на дизайн на таблици и визуализации, ориентирани към производителност
  • Капстон: персонализиран финален проект, реализация и представяне
  • Финални представяния, оценка от колеги и обратна връзка от инструктора

Резюме и следващи стъпки

Изисквания

  • Разбиране на основни SQL и данни концепции
  • Опит в програмиране на Python или Scala
  • Знакомство с облачни услуги и виртуални среди

Целева аудитория

  • Аспиранти и практикуващи инженери на данни
  • Разработчици на ETL/BI и аналитични инженери
  • Екипи за платформи на данни и DevOps, поддържащи канали
 350 часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории