План на курса
Въведение в Apache Iceberg
- Обзор на Apache Iceberg
- Преглед на основните концепции
Подробен преглед на архитектурата на Iceberg
- Подробен анализ на форматът на таблиците в Iceberg
- Подробен преглед на архитектурата, включително метаданни и структура на файловете
- Вътрешното устройство на еволюцията на схемите и партициите
Надграждане на инсталацията и конфигурирането
- Конфигуриране на Iceberg за оптимална работа в различни среди
- Интеграция с различни двигатели за обработка на данни
- Надграденото установяване: сигурност, криптиране и контрол на достъпа
- Настройка на Iceberg в разпределени среди
Надграждане на операциите и поддръжката
- Управление на големи Iceberg таблици
- Реализиране и управление на сложни промени в схемата
- Обработка на еволюцията на партициите и скритите партиции
- Надграждени операции за създаване, четене, обновяване и изтриване с промени в схемата и партициите
Техники за оптимизиране на запитванията
- Техники за намаляване на времето за изпълнение на запитванията
- Прирязване на партиции и прирязване на файлове
- Кеширане и оптимизационни стратегии на метаданни
- Реализиране и тестване на техники за оптимизиране на запитванията
Настройка на производителността за големи набори от данни
- Оптимизиране на производителността за големи набори от данни
- Използване на вградените функции на Iceberg за настройка на производителността
- Примерни изследвания за настройка на производителността в реални сценарии
- Настройка на производителността за големи набори от данни
Надграждане на миграцията и интеграцията на данни
- Миграция на сложни структури на данни от други системи
- Интеграция на Iceberg с реални потокове на данни
- Миграция на сложни набори от данни и интеграция на реални потокове на данни
Надеждност и съответствие
- Осигуряване на съответствие и цялостност на данните в разпределени среди
- Реализиране и управление на транзакционни гаранции
- Обработка на сривове и механизми за възстановяване
- Реализиране на функции за надеждност и съответствие
Надграждени функции и персонализация
- Персонализирани имплементации на каталози
- Разширение на Iceberg с персонализирани функции
- Реализиране на персонализиран каталог и разширение на функционалностите на Iceberg
Управление на данни и съответствие с регулациите
- Реализиране на политики за управление на данни
- Съответствие с регулациите за данни
- Управление на аудитни следи и произход на данни
- Реализиране на функции за управление и съответствие
Резюме и следващи стъпки
Изисквания
- Завършеност с основните концепции, базови операции и управление на таблици Iceberg
Целева аудитория
- Инженери на данни
- Архитекти на данни
- Аналитици на данни
- Разработчици на софтуер
Отзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
очень интерактивен...
Richard Langford
Курс - SMACK Stack for Data Science
Машинен превод
Достъпен практическо обучение, треньорът е компетентен
Chris Tan
Курс - A Practical Introduction to Stream Processing
Машинен превод
Започнете да се запознавате с Spark Streaming, Databricks и AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Курс - Apache Spark in the Cloud
Машинен превод
задачи за практика
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Курс - Python and Spark for Big Data (PySpark)
Машинен превод