План на курса
Секция 1: Введение в Hadoop
- Hadoop история, концепции
- екосистема
- дистрибуции
- високата архитектура
- Hadoop митове
- Hadoop предизвикателства
- апаратно / програмно осигуряване
- лабораторна работа: Първи поглед към Hadoop
Секция 2: HDFS
- Дизайн и архитектура
- концепции (хоризонтално масштабиране, репликация, данни на мястото, осъзнаване на рафовете)
- Демони: Наменоде, вторичен наменоде, данен възел
- коммуникации / импулси
- интегралност на данните
- път на четене / записване
- Наменоде висока наличност (HA), федерация
- лабораторни: Взаимодействие с HDFS
Секция 3: Map Reduce
- концепции и архитектура
- демони (MRV1): диспечер на задачи / изпълнител на задачи
- фази: драйвер, мапер, смесване/сортиране, редуктор
- Map Reduce версия 1 и версия 2 (YARN)
- Вътрешната работа на Map Reduce
- Въведение в Java програма за Map Reduce
- лабораторни: Изпълнение на примерен MapReduce програма
Секция 4: Pig
- pig vs java map reduce
- поток на работа на pig
- език pig latin
- ETL с Pig
- Трансформации и съединители
- Функции, определени от потребителя (UDF)
- лабораторни: писане на Pig скриптове за анализ на данни
Секция 5: Hive
- архитектура и дизайн
- типове данни
- SQL поддръжка в Hive
- Създаване на таблици Hive и заправки
- раздели
- съединители
- обработка на текст
- лабораторни: Различни лаборатории по обработка на данни с Hive
Секция 6: HBase
- концепции и архитектура
- HBase vs РДБМ vs Cassandra
- HBase Java API
- данни по време в HBase
- дизайн на схема
- лабораторни: Взаимодействие с HBase с оболочка; програмиране в HBase Java API; упражнение за дизайн на схема
Изисквания
- удобен с Java език за програмиране (много от упражненията по програмиране са на java)
- удобен в средата Linux (способен да навигира по командния ред на Linux, да редактира файлове с vi / nano)
Лабораторна среда
Нулева инсталация: Не е необходимо да инсталирате Hadoop софтуер на ученическите машини! За учениците ще бъде предоставен работен Hadoop кластер.
Учениците ще трябва да имат следните
- SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
- браузър за достъп до кластера, препоръчва се Firefox
Отзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
Пока Джеймс ме водил през упражненията, той ми обяснявал подробно всеки стъпка, на която аз се затъквах. Бих бил напълно нов за NIFI. Той ми обяснил истинската цел на NIFI, включително и основите като отворен код. Той покрива всички концепции на Nifi, започвайки от Ниво на Начало до Ниво на Разработчик.
Firdous Hashim Ali - MOD A BLOCK
Курс - Apache NiFi for Administrators
Машинен превод
Треньорска подготовка и организация, както и качество на материалите предоставени на GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
Машинен превод
Че го имах от самото начало.
Peter Scales - CACI Ltd
Курс - Apache NiFi for Developers
Машинен превод
практични неща за правилно изпълнение, теорията е добре обхваната от Аджей
Dominik Mazur - Capgemini Polska Sp. z o.o.
Курс - Hadoop Administration on MapR
Машинен превод