План на курса
Въведение, цели и мигранционна стратегия
- Целите на курса, съответствие на профила на участниците и критериите за успех
- Общи подходи за миграция и рискове
- Установяване на работни пространства, хранилища и набори от данни за лаборатории
Ден 1 — Основи на миграцията и архитектура
- Концепции на Lakehouse, общ преглед на Delta Lake и Databricks архитектура
- Разлики между SMP и MPP и последиците за миграцията
- Дизайн на Medallion (Bronze→Silver→Gold) и общ преглед на Unity Catalog
Лаборатория на ден 1 — Преобразуване на хранилище на процедури
- Практическа миграция на примерно хранилище на процедури в тетрадка
- Превръщане на временни таблици и курсори в преобразувания на DataFrame
- Валидация и сравнение с оригиналния изход
Ден 2 — Напреднали концепции за Delta Lake и постепенно зареждане
- Транзакции ACID, журнали на комити, версиониране и пътуване във времето
- Auto Loader, модели MERGE INTO, upserts и еволюция на схемата
- OPTIMIZE, VACUUM, Z-ORDER, партициониране и оптимизиране на съхранението
Лаборатория на ден 2 — Постепенно зареждане и оптимизация
- Имплементиране на Auto Loader инжестинг и рутини MERGE
- Применяване на OPTIMIZE, Z-ORDER и VACUUM; валидация на резултатите
- Измерване на подобренията при четене и запис
Ден 3 — SQL в Databricks, производителност и отстраняване на грешки
- Аналитични функции на SQL: прозорци, функции високого реда, обработка на JSON/масиви
- Четене на Spark UI, DAGs, перемески, етапи, задачи и диагностика на бутелъни гръдени
- Патерни за оптимизиране на заявки: широковещателни присъединения, подсказки, кеширане и намалуване на прекъпвания
Лаборатория на ден 3 — Преобразуване на SQL и оптимизиране на производителността
- Преобразуване на тежки процеси с SQL в оптимизиран Spark SQL
- Използване на трасирации от Spark UI, за да идентифицирате и изправите неравномерността и преаоръчванията
- Бенчмаркиране преди и след, документиране на стъпките за оптимизиране
Ден 4 — Тактичен PySpark: Заместване на процедурна логика
- Модел за изпълнение на Spark: драйвър, екзекутори, леностно изпълнение и стратегии за партициониране
- Преобразуване на цикли и курсори в векторизирани операции с DataFrame
- Модуларизация, UDFs/pandas UDFs, виджети и повторно използваеми библиотеки
Лаборатория на ден 4 — Преобразуване на процедурни скриптове
- Преобразуване на процедурен ETL скрипт в модуларни тетрадки PySpark
- Въвеждане на параметризиране, тестове по единици и повторно използваеми функции
- Преглед на кода и приложение на чеклиста с най-добрите практики
Ден 5 — Оркестриране, цялостен пайплайн и най-добри практики
- Databricks Workflows: дизайн на задачи, зависимости между задачите, тригери и обработка на грешки
- Проектиране на постепенни пайплайни Medallion с правила за качество и валидация на схемата
- Интеграция с Git (GitHub/Azure DevOps), CI и стратегии за тестване на логиката PySpark
Лаборатория на ден 5 — Създаване на цялостен пайплайн от край до край
- Комплектиране на пайплайн Bronze→Silver→Gold, оркестриран с Workflows
- Имплементация на логиране, аудит, повторени опити и автоматична валидация
- Изпълнение на целия пайплайн, валидиране на изходите и подготовка на бележки за разглеждане
Операционализация, управление и готовност за производство
- Най-добрите практики по управлението Unity Catalog, линеизация и контроли на достъп
- Работни модели за разходи, размери на кластери, автоматично мащабиране и паралелно изпълнение на задачите
- Чеклистове за разглеждане, стратегии за отката и създаване на операционен план
Финален преглед, прехвърляне на знанията и следващите стъпки
- Презентации на участниците за мигранционната работа и усвоените уроци
- Анализ на разстоянията, препоръки за последващи дейности и предаване на учебни материали
- Референции, допълнителни пътеки за обучение и опции за поддръжка
Изисквания
- Разбиране на концепции в обработката на данни
- Опит с SQL и хранилища на процедури (Synapse / SQL Server)
- Запознаност с концепции за оркестриране на ETL (ADF или подобни)
Целева група
- Технологични директори с бекграунд в обработката на данни
- Инженери по данни, които преходат от процедурна логика OLAP към модели Lakehouse
- Платформени инженери, отговорни за внедряването на Databricks