План на курса
- Въведение
- Hadoop история, концепции
- Екосистема
- Дистрибуции
- Архитектура на високо ниво
- Hadoop митове
- Hadoop изправителни предизвикателства (апаратно/програмно оборудване)
- Лаборатории: обсъждане на вашите Big Data проекти и проблеми
- Планиране и инсталация
- Избор на софтуер, Hadoop дистрибуции
- Размер на кластера, планиране за растеж
- Избор на апаратно и мрежово оборудване
- Топология на стойките
- Инсталация
- Мулти-тенантност
- Директориен структура, логи
- Бенчмарк тестване
- Лаборатории: инсталация на кластера, изпълнение на бенчмарк тестове
- Операции с HDFS
- Концепции (хоризонтално масштабиране, репликация, локация на данни, раково осъзнаване)
- Възли и демонски процеси (NameNode, Вторичен NameNode, HA Standby NameNode, DataNode)
- Мониторинг на състоянието
- Управление през командния ред и уеб прегледач
- Добавяне на съхранение, заменяне на дефектни дискове
- Лаборатории: започване с командния ред на HDFS
- Внасяне на данни
- Flume за логи и други данни в HDFS
- Sqoop за внасяне от SQL бази данни в HDFS, както и за изнасяне обратно в SQL
- Hadoop склада на данни с Hive
- Копиране на данни между кластери (distcp)
- Използване на S3 като допълнение към HDFS
- Най-добрите практики и архитектури за внасяне на данни
- Лаборатории: настройка и използване на Flume, същото и за Sqoop
- Операции и управление на MapReduce
- Паралелно изчисление преди MapReduce: сравнение на HPC vs Hadoop управление
- Натоварване на кластера на MapReduce
- Възли и демонски процеси (JobTracker, TaskTracker)
- Разходка през UI на MapReduce
- Конфигурация на MapReduce
- Конфигурация на задачите
- Оптимизация на MapReduce
- Защита на MR: какво да кажете на програмистите си
- Лаборатории: изпълнение на примерни задачи на MapReduce
- YARN: нова архитектура и нови възможности
- Цели при проектирането на YARN и архитектура на имплементацията
- Нови актьори: ResourceManager, NodeManager, Application Master
- Инсталация на YARN
- Планиране на задачи под YARN
- Лаборатории: разследване на планирането на задачи
- Напредни теми
- Мониторинг на апаратното оборудване
- Мониторинг на кластера
- Добавяне и премахване на сървъри, обновяване на Hadoop
- Резервно копиране, възстановяване и планиране за непрекъснатост на бизнес процесите
- Работни процеси на Oozie
- Hadoop висока достъпност (HA)
- Hadoop Федерация
- Защита на кластера с Kerberos
- Лаборатории: настройка на мониторинг
- Опционални траектории
- Cloudera Manager за управление на кластера, мониторинг и рутинни задачи; инсталация и използване. В тази траектория всички упражнения и лаборатории се изпълняват в средата на дистрибуцията на Cloudera (CDH5)
- Ambari за управление на кластера, мониторинг и рутинни задачи; инсталация и използване. В тази траектория всички упражнения и лаборатории се изпълняват в средата на Ambari кластер мениджъра и Hortonworks Data Platform (HDP 2.0)
Изисквания
- удобни с основно управление на системата
- базови умения по писане на скриптове
Знание на Hadoop и Разпределени Изчисления не е задължително, но ще бъде представено и обяснено в курса.
Среда за лабораторни упражнения
Няма нужда от инсталиране на софтуер за hadoop на машините на студентите! За студентите ще бъде предоставен работещ hadoop кластер.
Студентите ще имат нужда от следните:
- SSH клиент (Linux и Mac вече разполагат с ssh клиенти, за Windows се препоръчва Putty)
- браузър за достъп до кластера. Препоръчваме Firefox браузър с инсталиран разширение FoxyProxy
Отзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
Пока Джеймс ме водил през упражненията, той ми обяснявал подробно всеки стъпка, на която аз се затъквах. Бих бил напълно нов за NIFI. Той ми обяснил истинската цел на NIFI, включително и основите като отворен код. Той покрива всички концепции на Nifi, започвайки от Ниво на Начало до Ниво на Разработчик.
Firdous Hashim Ali - MOD A BLOCK
Курс - Apache NiFi for Administrators
Машинен превод
Треньорска подготовка и организация, както и качество на материалите предоставени на GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
Машинен превод
Че го имах от самото начало.
Peter Scales - CACI Ltd
Курс - Apache NiFi for Developers
Машинен превод
практични неща за правилно изпълнение, теорията е добре обхваната от Аджей
Dominik Mazur - Capgemini Polska Sp. z o.o.
Курс - Hadoop Administration on MapR
Машинен превод