План на курса
- Въведение
- Hadoop история, концепции
- Екосистема
- Разпределения
- Архитектура на високо ниво
- Hadoop митове
- Hadoop предизвикателства (хардуер / софтуер)
- Лаборатория: обсъдете вашите Big Data проекти и проблеми
- Планиране и монтаж
- Избор на софтуер, Hadoop дистрибуции
- Оразмеряване на клъстера, планиране на растеж
- Избор на хардуер и мрежа
- Топология на стелажа
- Монтаж
- Много наемане
- Структура на директорията, регистрационни файлове
- Бенчмаркинг
- Лабораторни упражнения: инсталиране на клъстер, изпълнение на тестове за ефективност
- HDFS операции
- Концепции (хоризонтално мащабиране, репликация, локализация на данните, информираност за стелажи)
- Възли и демони (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Мониторинг на здравето
- Администриране чрез команден ред и браузър
- Добавяне на памет, подмяна на дефектни дискове
- Лабораторни упражнения: запознаване с командните редове на HDFS
- Поглъщане на данни
- Flume за поглъщане на регистрационни файлове и други данни в HDFS
- Sqoop за импортиране от SQL бази данни към HDFS, както и експортиране обратно към SQL
- Hadoop съхранение на данни с Hive
- Копиране на данни между клъстери (distcp)
- Използване на S3 като допълнение към HDFS
- Най-добри практики и архитектури за поглъщане на данни
- Лаборатория: настройка и използване на Flume, същото за Sqoop
- Операции и администриране на MapReduce
- Паралелно изчисление преди mapreduce: сравнете HPC срещу Hadoop администрация
- MapReduce натоварва клъстера
- Възли и демони (JobTracker, TaskTracker)
- MapReduce UI преминава през
- Конфигурация на Mapreduce
- Конфигурация на работа
- Оптимизиране на MapReduce
- Защита от глупаци MR: какво да кажете на вашите програмисти
- Лаборатория: изпълнение на примери за MapReduce
- YARN: нова архитектура и нови възможности
- Цели на дизайна на YARN и архитектура за изпълнение
- Нови участници: ResourceManager, NodeManager, Application Master
- Инсталиране на YARN
- График на работа под YARN
- Лаборатория: проучете графика на работата
- Теми за напреднали
- Мониторинг на хардуера
- Мониторинг на клъстери
- Добавяне и премахване на сървъри, надграждане Hadoop
- Архивиране, възстановяване и планиране на непрекъснатостта на бизнеса
- Работни процеси на Oozie
- Hadoop висока наличност (HA)
- Hadoop Федерация
- Защита на вашия клъстер с Kerberos
- Лаборатория: настройка на мониторинг
- Незадължителни песни
- Cloudera Manager за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в средата за разпространение на Cloudera (CDH5)
- Ambari за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в рамките на Ambari cluster manager и Hortonworks Data Platform (HDP 2.0)
Изисквания
- удобни с основно Linux системно администриране
- основни умения за писане на скриптове
Не се изискват познания по Hadoop и разпределени изчисления, но ще бъдат въведени и обяснени в курса.
Лабораторна среда
Нулева инсталация: Няма нужда да инсталирате софтуер hadoop на машините на учениците! За студентите ще бъде осигурен работещ hadoop клъстер.
Студентите ще имат нужда от следното
- SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
- браузър за достъп до клъстера. Препоръчваме браузър Firefox с инсталирано разширение FoxyProxy
Oтзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
Пока Джеймс ме водил през упражненията, той ми обяснявал подробно всеки стъпка, на която аз се затъквах. Бих бил напълно нов за NIFI. Той ми обяснил истинската цел на NIFI, включително и основите като отворен код. Той покрива всички концепции на Nifi, започвайки от Ниво на Начало до Ниво на Разработчик.
Firdous Hashim Ali - MOD A BLOCK
Курс - Apache NiFi for Administrators
Машинен превод
Треньорска подготовка и организация, както и качество на материалите предоставени на GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
Машинен превод
Че го имах от самото начало.
Peter Scales - CACI Ltd
Курс - Apache NiFi for Developers
Машинен превод
практични неща за правилно изпълнение, теорията е добре обхваната от Аджей
Dominik Mazur - Capgemini Polska Sp. z o.o.
Курс - Hadoop Administration on MapR
Машинен превод