Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Седмица 1 — Въведение в инженерството на данни
- Основни принципи на инженерството на данни и модерни стекове на данни
- Модели на внасяне на данни и източници
- Концепции за пакетно и поточно обработване на данни и техните приложения
- Практическо упражнение: внасяне на примерни данни в облачно съхранение
Седмица 2 — Значка за основа на Lakehouse на Databricks
- Основни принципи на платформата Databricks и навигация в работното пространство
- Концепции на Delta Lake: ACID, пътуване във времето и еволюция на схемата
- Безопасност на работното пространство, контрол на достъпа и основа на Unity Catalog
- Практическо упражнение: създаване и управление на Delta таблици
Седмица 3 — Надградено SQL на Databricks
- Надградени SQL конструкции и прозорчеви функции в големи мащаби
- Оптимизация на заявки, обяснителни планове и модели за снижаване на разходите
- Материализирани изгледа, кеширане и настройка на производителността
- Практическо упражнение: оптимизация на аналитични заявки върху големи набори данни
Седмица 4 — Сертифициран разработчик на Databricks за Apache Spark (Подготовка)
- Архитектура на Spark, глубоко погружаване в RDDs, DataFrames и Datasets
- Основни трансформации и действия на Spark; разглеждане на производителността
- Основни принципи на поточно обработване на данни и модели на структурирано поточно обработване
- Упражнения с практичен екзамен и ръчни тестови проблеми
Седмица 5 — Въведение в моделирането на данни
- Концепции: моделиране по измерения, дизайн на звезда/схема и нормализация
- Моделиране на Lakehouse в сравнение с традиционни подходи за складове на данни
- Дизайн модели за готови за анализ набори данни
- Практическо упражнение: изграждане на таблици и изгледа, готови за използване
Седмица 6 — Въведение в инструменти за импортиране и автоматизация на внасяне на данни
- Конектори и инструменти за внасяне на данни за Databricks (AWS Glue, Data Factory, Kafka)
- Модели за внасяне на потоци данни и микро-пакетни дизайни
- Проверка на данните, контрол на качеството и наложение на схема
- Практическо упражнение: изграждане на устойчиви внасящи канали
Седмица 7 — Въведение в Git Flow и CI/CD за инженерство на данни
- Стратегии за клонове и организация на репозиториум по Git Flow
- CI/CD канали за блокноти, задачи и инфраструктура като код
- Тестване, линтинг и автоматизация на развой на код за данни
- Практическо упражнение: имплементиране на Git-базиран работен процес и автоматизиран развой на задачи
Седмица 8 — Сертифициран асоциативен инженер на данни на Databricks (Подготовка) & модели на инженерство на данни
- Преглед на теми за сертификация и практични упражнения
- Архитектурни модели: бронз/сребро/злато, CDC, бавно променящи се измерения
- Операционни модели: мониторинг, уведомяване и родословие
- Практическо упражнение: край-в-край канал, применявайки модели на инженерство
Седмица 9 — Въведение в Airflow и Astronomer; скриптване
- Концепции на Airflow: DAGs, задачи, оператори и планиране
- Преглед на платформата Astronomer и най-добри практики за оркестриране
- Скриптване за автоматизация: Python скриптови модели за задачи с данни
- Практическо упражнение: оркестриране на задачи на Databricks с DAGs на Airflow
Седмица 10 — Визуализация на данни, Tableau и персонализиран финален проект
- Свързване на Tableau с Databricks и най-добри практики за BI слоеве
- Принципи на дизайн на таблици и визуализации, ориентирани към производителност
- Капстон: персонализиран финален проект, реализация и представяне
- Финални представяния, оценка от колеги и обратна връзка от инструктора
Резюме и следващи стъпки
Изисквания
- Разбиране на основни SQL и данни концепции
- Опит в програмиране на Python или Scala
- Знакомство с облачни услуги и виртуални среди
Целева аудитория
- Аспиранти и практикуващи инженери на данни
- Разработчици на ETL/BI и аналитични инженери
- Екипи за платформи на данни и DevOps, поддържащи канали
350 часа