План на курса
Основни настройки на Data Warehousing
- Целта на складовете, компоненти и архитектура
- Data marts, корпоративни складове и модели на Lakehouse
- Основни принципи на OLTP vs OLAP и разделение на работни натоварвания
Моделиране на измервания
- Факти, измервания и зерно
- Стар схема vs снежна схема
- Типове и обработка на бавно променящи се измервания
Процеси ETL и ELT
- Стратегии за извличане от OLTP и API
- Преобразувания, почистване на данни и съответствие
- Патрони за заредяване, оркестрация и управление на зависимости
Качество на данни и управление на метаданни
- Профилиране на данни и правила за валидация
- Съгласуване на основни и референцни данни
- Продуктово наследство, каталози и документация
Аналитика и производителност
- Концепции за кубиране, агрегати и материализирани гледни точки
- Разделяне, кластеризация и индексиране за аналитика
- Управление на работни натоварвания, кеширане и оптимизация на запроси
Сигурност и управление
- Контрол на достъп, роли и сигурност на редове
- Разглеждане на съответствието и аудит
- Практики за резервно копиране, възстановяване и надеждност
Съвременни архитектури
- Облачни складове на данни и еластичност
- Потоково поглъщане и аналитика близо до реално време
- Оптимизация на разходи и мониторинг
Капстоун: От източник до звездна схема
- Моделиране на бизнес процес в факти и измервания
- Създаване на пълен ETL или ELT поток
- Публикуване на табла и валидиране на метрики
Резюме и следващи стъпки
Изисквания
- Знание на релационни бази данни и SQL
- Опит с анализ на данни или съставяне на отчетности
- Основно знание на облачни или локални платформи за данни
Целева публика
- Аналитици на данни, прехождащи към управление на хранилища данни
- Разработчици на BI и инженери на ETL
- Архитекти на данни и ръководители на отбори
Отзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
очень интерактивен...
Richard Langford
Курс - SMACK Stack for Data Science
Машинен превод
Достъпен практическо обучение, треньорът е компетентен
Chris Tan
Курс - A Practical Introduction to Stream Processing
Машинен превод
Започнете да се запознавате с Spark Streaming, Databricks и AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Курс - Apache Spark in the Cloud
Машинен превод
задачи за практика
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Курс - Python and Spark for Big Data (PySpark)
Машинен превод