План на курса
- Въведение
- Hadoop история, концепции
- Екосистема
- Дистрибуции
- Архитектура на високо ниво
- Hadoop митове
- Hadoop изправителни предизвикателства (апаратно/програмно оборудване)
- Лаборатории: обсъждане на вашите Big Data проекти и проблеми
- Планиране и инсталация
- Избор на софтуер, Hadoop дистрибуции
- Размер на кластера, планиране за растеж
- Избор на апаратно и мрежово оборудване
- Топология на стойките
- Инсталация
- Мулти-тенантност
- Директориен структура, логи
- Бенчмарк тестване
- Лаборатории: инсталация на кластера, изпълнение на бенчмарк тестове
- Операции с HDFS
- Концепции (хоризонтално масштабиране, репликация, локация на данни, раково осъзнаване)
- Възли и демонски процеси (NameNode, Вторичен NameNode, HA Standby NameNode, DataNode)
- Мониторинг на състоянието
- Управление през командния ред и уеб прегледач
- Добавяне на съхранение, заменяне на дефектни дискове
- Лаборатории: започване с командния ред на HDFS
- Внасяне на данни
- Flume за логи и други данни в HDFS
- Sqoop за внасяне от SQL бази данни в HDFS, както и за изнасяне обратно в SQL
- Hadoop склада на данни с Hive
- Копиране на данни между кластери (distcp)
- Използване на S3 като допълнение към HDFS
- Най-добрите практики и архитектури за внасяне на данни
- Лаборатории: настройка и използване на Flume, същото и за Sqoop
- Операции и управление на MapReduce
- Паралелно изчисление преди MapReduce: сравнение на HPC vs Hadoop управление
- Натоварване на кластера на MapReduce
- Възли и демонски процеси (JobTracker, TaskTracker)
- Разходка през UI на MapReduce
- Конфигурация на MapReduce
- Конфигурация на задачите
- Оптимизация на MapReduce
- Защита на MR: какво да кажете на програмистите си
- Лаборатории: изпълнение на примерни задачи на MapReduce
- YARN: нова архитектура и нови възможности
- Цели при проектирането на YARN и архитектура на имплементацията
- Нови актьори: ResourceManager, NodeManager, Application Master
- Инсталация на YARN
- Планиране на задачи под YARN
- Лаборатории: разследване на планирането на задачи
- Напредни теми
- Мониторинг на апаратното оборудване
- Мониторинг на кластера
- Добавяне и премахване на сървъри, обновяване на Hadoop
- Резервно копиране, възстановяване и планиране за непрекъснатост на бизнес процесите
- Работни процеси на Oozie
- Hadoop висока достъпност (HA)
- Hadoop Федерация
- Защита на кластера с Kerberos
- Лаборатории: настройка на мониторинг
- Опционални траектории
- Cloudera Manager за управление на кластера, мониторинг и рутинни задачи; инсталация и използване. В тази траектория всички упражнения и лаборатории се изпълняват в средата на дистрибуцията на Cloudera (CDH5)
- Ambari за управление на кластера, мониторинг и рутинни задачи; инсталация и използване. В тази траектория всички упражнения и лаборатории се изпълняват в средата на Ambari кластер мениджъра и Hortonworks Data Platform (HDP 2.0)
Изисквания
- удобни с основно управление на системата
- базови умения по писане на скриптове
Знание на Hadoop и Разпределени Изчисления не е задължително, но ще бъде представено и обяснено в курса.
Среда за лабораторни упражнения
Няма нужда от инсталиране на софтуер за hadoop на машините на студентите! За студентите ще бъде предоставен работещ hadoop кластер.
Студентите ще имат нужда от следните:
- SSH клиент (Linux и Mac вече разполагат с ssh клиенти, за Windows се препоръчва Putty)
- браузър за достъп до кластера. Препоръчваме Firefox браузър с инсталиран разширение FoxyProxy
Отзиви от потребители (5)
Живите примери
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
През упражненията Джеймс ми обясняваше всеки стъпка, когато се затруднявах, по-детайлно. Бях напълно нов за NIFI. Той обясни истинската цел на NIFI, дори и основите като отворен код. Джеймс разгледа всички концепции на Nifi, започвайки от Начинаещ ниво до Разработчик ниво.
Firdous Hashim Ali - MOD A BLOCK
Курс - Apache NiFi for Administrators
Машинен превод
Че го имам и във първата си опит.
Peter Scales - CACI Ltd
Курс - Apache NiFi for Developers
Машинен превод
практични неща за извършване, както и теорията беше добре представена от Аджей
Dominik Mazur - Capgemini Polska Sp. z o.o.
Курс - Hadoop Administration on MapR
Машинен превод
Виртуалната машина ми се спечели много добре. Преподавателят беше изключено компетентен както по темата, така и по другите теми, той беше много приятен и дружелюбен. Мне хареса обектът в Дубай.
Safar Alqahtani - Elm Information Security
Курс - Big Data Analytics in Health
Машинен превод