План на курса
Въведение
- Въведение в облачните изчисления и решенията за големи данни Преглед на функциите и архитектурата на Apache Hadoop
Настройка Hadoop
- Планиране на Hadoop клъстер (локален, облак и т.н.) Избор на ОС и Hadoop дистрибуция Предоставяне на ресурси (хардуер, мрежа и т.н.) Изтегляне и инсталиране на софтуера Оразмеряване на клъстера за гъвкавост
Работа с HDFS
- Разбиране на Hadoop Разпределена файлова система (HDFS) Общ преглед на HDFS Command Reference Достъп до HDFS Извършване на основни файлови операции на HDFS Използване на S3 като допълнение към HDFS
Преглед на MapReduce
- Разбиране на потока от данни в MapReduce Framework Демонстрация на карта, разбъркване, сортиране и намаляване: Изчисляване на най-добрите заплати
Работа с YARN
- Разбиране на управлението на ресурсите в Hadoop Работа с ResourceManager, NodeManager, Application Master Scheduling задания под YARN Scheduling за голям брой възли и клъстери Демо: График на задания
Интегриране Hadoop със Spark
- Настройване на хранилище за Spark (HDFS, Amazon, S3, NoSQL и др.) Разбиране на устойчиви разпределени набори от данни (RDD) Създаване на RDD Внедряване на RDD трансформации Демо: Внедряване на програма за търсене на текст за заглавия на филми
Управление на Hadoop клъстер
- Мониторинг Hadoop Защита на Hadoop клъстер Добавяне и премахване на възли Изпълнение на бенчмарк за производителност Настройване на Hadoop клъстер за оптимизиране на производителността Архивиране, възстановяване и планиране на непрекъснатост на бизнеса Осигуряване на висока достъпност (HA)
Надграждане и мигриране на Hadoop клъстер
- Оценка на изискванията за работно натоварване Надграждане Hadoop Преминаване от локално към облак и обратно Възстановяване от повреди
Отстраняване на неизправности
Обобщение и заключение
Изисквания
- Опит в системната администрация
- Опит с Linux команден ред
- Разбиране на концепциите за големи данни
Публика
- Системни администратори
- DBA
Oтзиви от потребители (5)
Много практически примери, различни начини за подход към един и същ проблем и понякога не толкова очевидни трикове как да се подобри текущото решение
Rafal - Nordea
Курс - Apache Spark MLlib
Машинен превод
очень интерактивен...
Richard Langford
Курс - SMACK Stack for Data Science
Машинен превод
Достъпен практическо обучение, треньорът е компетентен
Chris Tan
Курс - A Practical Introduction to Stream Processing
Машинен превод
Треньорска подготовка и организация, както и качество на материалите предоставени на GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
Машинен превод
Започнете да се запознавате с Spark Streaming, Databricks и AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Курс - Apache Spark in the Cloud
Машинен превод