План на курса

Въведение

    Въведение в облачните изчисления и решенията за големи данни Преглед на функциите и архитектурата на Apache Hadoop

Настройка Hadoop

    Планиране на Hadoop клъстер (локален, облак и т.н.) Избор на ОС и Hadoop дистрибуция Предоставяне на ресурси (хардуер, мрежа и т.н.) Изтегляне и инсталиране на софтуера Оразмеряване на клъстера за гъвкавост

Работа с HDFS

    Разбиране на Hadoop Разпределена файлова система (HDFS) Общ преглед на HDFS Command Reference Достъп до HDFS Извършване на основни файлови операции на HDFS Използване на S3 като допълнение към HDFS

Преглед на MapReduce

    Разбиране на потока от данни в MapReduce Framework Демонстрация на карта, разбъркване, сортиране и намаляване: Изчисляване на най-добрите заплати

Работа с YARN

    Разбиране на управлението на ресурсите в Hadoop Работа с ResourceManager, NodeManager, Application Master Scheduling задания под YARN Scheduling за голям брой възли и клъстери Демо: График на задания

Интегриране Hadoop със Spark

    Настройване на хранилище за Spark (HDFS, Amazon, S3, NoSQL и др.) Разбиране на устойчиви разпределени набори от данни (RDD) Създаване на RDD Внедряване на RDD трансформации Демо: Внедряване на програма за търсене на текст за заглавия на филми

Управление на Hadoop клъстер

    Мониторинг Hadoop Защита на Hadoop клъстер Добавяне и премахване на възли Изпълнение на бенчмарк за производителност Настройване на Hadoop клъстер за оптимизиране на производителността Архивиране, възстановяване и планиране на непрекъснатост на бизнеса Осигуряване на висока достъпност (HA)

Надграждане и мигриране на Hadoop клъстер

    Оценка на изискванията за работно натоварване Надграждане Hadoop Преминаване от локално към облак и обратно Възстановяване от повреди

Отстраняване на неизправности

Обобщение и заключение

Изисквания

  • Опит в системната администрация
  • Опит с Linux команден ред
  • Разбиране на концепциите за големи данни

Публика

  • Системни администратори
  • DBA
 35 Hours

Брой участници



Цена за участник

Oтзиви от потребители (7)

Свързани Kурсове

Introduction to Graph Computing

28 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Apache Spark SQL

7 Hours

Big Data Analytics in Health

21 Hours

Свързани Kатегории