План на курса
Въведение
- Въведение в облачните изчисления и решенията за големи данни Преглед на функциите и архитектурата на Apache Hadoop
Настройка Hadoop
- Планиране на Hadoop клъстер (локален, облак и т.н.) Избор на ОС и Hadoop дистрибуция Предоставяне на ресурси (хардуер, мрежа и т.н.) Изтегляне и инсталиране на софтуера Оразмеряване на клъстера за гъвкавост
Работа с HDFS
- Разбиране на Hadoop Разпределена файлова система (HDFS) Общ преглед на HDFS Command Reference Достъп до HDFS Извършване на основни файлови операции на HDFS Използване на S3 като допълнение към HDFS
Преглед на MapReduce
- Разбиране на потока от данни в MapReduce Framework Демонстрация на карта, разбъркване, сортиране и намаляване: Изчисляване на най-добрите заплати
Работа с YARN
- Разбиране на управлението на ресурсите в Hadoop Работа с ResourceManager, NodeManager, Application Master Scheduling задания под YARN Scheduling за голям брой възли и клъстери Демо: График на задания
Интегриране Hadoop със Spark
- Настройване на хранилище за Spark (HDFS, Amazon, S3, NoSQL и др.) Разбиране на устойчиви разпределени набори от данни (RDD) Създаване на RDD Внедряване на RDD трансформации Демо: Внедряване на програма за търсене на текст за заглавия на филми
Управление на Hadoop клъстер
- Мониторинг Hadoop Защита на Hadoop клъстер Добавяне и премахване на възли Изпълнение на бенчмарк за производителност Настройване на Hadoop клъстер за оптимизиране на производителността Архивиране, възстановяване и планиране на непрекъснатост на бизнеса Осигуряване на висока достъпност (HA)
Надграждане и мигриране на Hadoop клъстер
- Оценка на изискванията за работно натоварване Надграждане Hadoop Преминаване от локално към облак и обратно Възстановяване от повреди
Отстраняване на неизправности
Обобщение и заключение
Изисквания
- Опит в системната администрация
- Опит с Linux команден ред
- Разбиране на концепциите за големи данни
Публика
- Системни администратори
- DBA
Oтзиви от потребители (7)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Course - Python and Spark for Big Data (PySpark)
Много практически примери, различни начини за подход към един и същ проблем и понякога не толкова очевидни трикове как да се подобри текущото решение
Rafał - Nordea
Course - Apache Spark MLlib
Machine Translated
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
Course - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Course - Data Analysis with Hive/HiveQL
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Course - Big Data Analytics in Health
Having hands on session / assignments