План на курса
Въведение в Apache Iceberg
- Общ преглед на Apache Iceberg
- Важност и приложения в модерната архитектура на данни
- Основни функции и предимства
Основни концепции
- Формат и архитектура на таблиците в Iceberg
- Сравнение с други формати на таблици
- Разделяне на части и еволюция на схемата
- Времево пътуване и версиониране на данни
Настройка на Apache Iceberg
- Инсталиране и конфигуриране
- Интегриране на Iceberg с различни двигатели за обработка на данни
- Настройка на среда за Iceberg на локална машина
Основни операции
- Създаване и управление на таблици в Iceberg
- Запис и четене от таблици в Iceberg
- Основни CRUD операции
Миграция и интеграция на данни
- Миграция на данни от Hive и други системи към Iceberg
- Интеграция с инструменти за бизнес интелигентност
- Миграция на примерен набор данни към Iceberg
Оптимизиране на производителността
- Техники за настройка на производителността
- Оптимизиране на заявки и сканиране на данни
- Оптимизация на производителността в Iceberg
Преглед на напреднали функции
- Еволюция на разделянето и скрито разделяне
- Еволюция на таблиците и промени в схемата
- Функции за времево пътуване и връщане назад
- Имплементиране на напреднали функции в Iceberg
Резюме и следващи стъпки
Изисквания
- Запознатост с концепции като таблици, схемы, партиции и внесене на данни
- Основни познания по SQL
Целева аудитория
- Инженери на данни
- Архитекти на данни
- Аналитици на данни
- Разработчици на софтуер
Отзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
очень интерактивен...
Richard Langford
Курс - SMACK Stack for Data Science
Машинен превод
Достъпен практическо обучение, треньорът е компетентен
Chris Tan
Курс - A Practical Introduction to Stream Processing
Машинен превод
Започнете да се запознавате с Spark Streaming, Databricks и AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Курс - Apache Spark in the Cloud
Машинен превод
задачи за практика
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Курс - Python and Spark for Big Data (PySpark)
Машинен превод