План на курса

Въведение, цели и мигранционна стратегия

  • Целите на курса, съответствие на профила на участниците и критериите за успех
  • Общи подходи за миграция и рискове
  • Установяване на работни пространства, хранилища и набори от данни за лаборатории

Ден 1 — Основи на миграцията и архитектура

  • Концепции на Lakehouse, общ преглед на Delta Lake и Databricks архитектура
  • Разлики между SMP и MPP и последиците за миграцията
  • Дизайн на Medallion (Bronze→Silver→Gold) и общ преглед на Unity Catalog

Лаборатория на ден 1 — Преобразуване на хранилище на процедури

  • Практическа миграция на примерно хранилище на процедури в тетрадка
  • Превръщане на временни таблици и курсори в преобразувания на DataFrame
  • Валидация и сравнение с оригиналния изход

Ден 2 — Напреднали концепции за Delta Lake и постепенно зареждане

  • Транзакции ACID, журнали на комити, версиониране и пътуване във времето
  • Auto Loader, модели MERGE INTO, upserts и еволюция на схемата
  • OPTIMIZE, VACUUM, Z-ORDER, партициониране и оптимизиране на съхранението

Лаборатория на ден 2 — Постепенно зареждане и оптимизация

  • Имплементиране на Auto Loader инжестинг и рутини MERGE
  • Применяване на OPTIMIZE, Z-ORDER и VACUUM; валидация на резултатите
  • Измерване на подобренията при четене и запис

Ден 3 — SQL в Databricks, производителност и отстраняване на грешки

  • Аналитични функции на SQL: прозорци, функции високого реда, обработка на JSON/масиви
  • Четене на Spark UI, DAGs, перемески, етапи, задачи и диагностика на бутелъни гръдени
  • Патерни за оптимизиране на заявки: широковещателни присъединения, подсказки, кеширане и намалуване на прекъпвания

Лаборатория на ден 3 — Преобразуване на SQL и оптимизиране на производителността

  • Преобразуване на тежки процеси с SQL в оптимизиран Spark SQL
  • Използване на трасирации от Spark UI, за да идентифицирате и изправите неравномерността и преаоръчванията
  • Бенчмаркиране преди и след, документиране на стъпките за оптимизиране

Ден 4 — Тактичен PySpark: Заместване на процедурна логика

  • Модел за изпълнение на Spark: драйвър, екзекутори, леностно изпълнение и стратегии за партициониране
  • Преобразуване на цикли и курсори в векторизирани операции с DataFrame
  • Модуларизация, UDFs/pandas UDFs, виджети и повторно използваеми библиотеки

Лаборатория на ден 4 — Преобразуване на процедурни скриптове

  • Преобразуване на процедурен ETL скрипт в модуларни тетрадки PySpark
  • Въвеждане на параметризиране, тестове по единици и повторно използваеми функции
  • Преглед на кода и приложение на чеклиста с най-добрите практики

Ден 5 — Оркестриране, цялостен пайплайн и най-добри практики

  • Databricks Workflows: дизайн на задачи, зависимости между задачите, тригери и обработка на грешки
  • Проектиране на постепенни пайплайни Medallion с правила за качество и валидация на схемата
  • Интеграция с Git (GitHub/Azure DevOps), CI и стратегии за тестване на логиката PySpark

Лаборатория на ден 5 — Създаване на цялостен пайплайн от край до край

  • Комплектиране на пайплайн Bronze→Silver→Gold, оркестриран с Workflows
  • Имплементация на логиране, аудит, повторени опити и автоматична валидация
  • Изпълнение на целия пайплайн, валидиране на изходите и подготовка на бележки за разглеждане

Операционализация, управление и готовност за производство

  • Най-добрите практики по управлението Unity Catalog, линеизация и контроли на достъп
  • Работни модели за разходи, размери на кластери, автоматично мащабиране и паралелно изпълнение на задачите
  • Чеклистове за разглеждане, стратегии за отката и създаване на операционен план

Финален преглед, прехвърляне на знанията и следващите стъпки

  • Презентации на участниците за мигранционната работа и усвоените уроци
  • Анализ на разстоянията, препоръки за последващи дейности и предаване на учебни материали
  • Референции, допълнителни пътеки за обучение и опции за поддръжка

Изисквания

  • Разбиране на концепции в обработката на данни
  • Опит с SQL и хранилища на процедури (Synapse / SQL Server)
  • Запознаност с концепции за оркестриране на ETL (ADF или подобни)

Целева група

  • Технологични директори с бекграунд в обработката на данни
  • Инженери по данни, които преходат от процедурна логика OLAP към модели Lakehouse
  • Платформени инженери, отговорни за внедряването на Databricks
 35 часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории