План на курса
Раздел 1: Data Management в HDFS
- Различни формати на данни (JSON / Avro / Parquet)
- Схеми за компресия
- Маскиране на данни
- Лабораторни упражнения: Анализ на различни формати на данни; включване на компресия
Раздел 2: Упълномощен Pig
- Функции, определени от потребителя
- Въведение в библиотеките на Pig (ElephantBird / Data-Fu)
- Зареждане на сложно структурирани данни с Pig
- Оптимизация на Pig
- Лабораторни упражнения: напреднал писане на скриптове на Pig, разбор на сложни типове данни
Раздел 3: Упълномощен Hive
- Функции, определени от потребителя
- Компресирани таблици
- Оптимизация на производителността на Hive
- Лабораторни упражнения: създаване на компресирани таблици, оценка на формати на таблици и конфигурация
Раздел 4: Упълномощен HBase
- Напреднало моделиране на схеми
- Компресия
- Масов внос на данни
- Сравнение между широки и високи таблици
- HBase и Pig
- HBase и Hive
- Оптимизация на производителността на HBase
- Лабораторни упражнения: оптимизация на HBase; достъп до данни от HBase от Pig & Hive; Използване на Phoenix за моделиране на данни
Изисквания
- Удобен с езика за програмиране Java (най-много упражнения по програмиране са на java)
- Удобен в средата Linux (може да навигира по командния ред на Linux, да редактира файлове с vi / nano)
- работно знание на Hadoop.
Среда на лабораторните упражнения
Zero Install: Няма нужда да инсталираме софтуер за hadoop на машините на студентите! Работно хадуп кластер ще бъде предоставен за студентите.
Студентите ще трябва да имат следните
Отзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
Пока Джеймс ме водил през упражненията, той ми обяснявал подробно всеки стъпка, на която аз се затъквах. Бих бил напълно нов за NIFI. Той ми обяснил истинската цел на NIFI, включително и основите като отворен код. Той покрива всички концепции на Nifi, започвайки от Ниво на Начало до Ниво на Разработчик.
Firdous Hashim Ali - MOD A BLOCK
Курс - Apache NiFi for Administrators
Машинен превод
Треньорска подготовка и организация, както и качество на материалите предоставени на GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
Машинен превод
Че го имах от самото начало.
Peter Scales - CACI Ltd
Курс - Apache NiFi for Developers
Машинен превод
практични неща за правилно изпълнение, теорията е добре обхваната от Аджей
Dominik Mazur - Capgemini Polska Sp. z o.o.
Курс - Hadoop Administration on MapR
Машинен превод