План на курса
Въведение
- Въведение в облачните решения и решения за Big Data
- Обзор на характеристиките и архитектурата на Apache Hadoop
Настройка на Hadoop
- Планиране на Hadoop кластер (на място, облачен и т.н.)
- Избор на операционна система и разпространение на Hadoop
- Предоставяне на ресурси (апаратна основа, мрежа и т.н.)
- Изтегляне и инсталиране на софтуера
- Определяне на големината на кластера за гъвкавост
Работа с HDFS
- Разбиране на разпределената файлова система на Hadoop (HDFS)
- Обзор на референцията за HDFS команди
- Достъп до HDFS
- Извършване на основни файлови операции в HDFS
- Използване на S3 като допълнение към HDFS
Обзор на MapReduce
- Разбиране на потока на данни в MapReduce рамката
- Map, Shuffle, Sort и Reduce
- Демонстрация: Изчисляване на най-високите заплати
Работа с YARN
- Разбиране на управлението на ресурси в Hadoop
- Работа с ResourceManager, NodeManager, Application Master
- Разпределяне на задачи под YARN
- Разпределяне за голям брой възли и кластери
- Демонстрация: Разпределяне на задачи
Интегриране на Hadoop с Spark
- Настройка на памет за Spark (HDFS, Amazon, S3, NoSQL и т.н.)
- Разбиране на отказоустойчивите разпределени набори данни (RDDs)
- Създаване на RDD
- Имплементиране на трансформации на RDD
- Демонстрация: Имплементиране на програма за търсене на текст за заглавия на филми
Управление на Hadoop кластер
- Мониторинг на Hadoop
- Сигурност на Hadoop кластер
- Добавяне и премахване на възли
- Извършване на измерване на производителност
- Настройка на Hadoop кластер за оптимизиране на производителността
- Резервно копиране, възстановяване и планиране за непрекъснатост на бизнес процесите
- Осигуряване на висока достъпност (HA)
Актуализация и миграция на Hadoop кластер
- Оценка на изискванията за работни процеси
- Актуализация на Hadoop
- Преход от на място до облак и обратно
- Възстановяване от сривове
Разрешаване на проблеми
Резюме и заключение
Изисквания
- Опит в системно администраторство
- Опит с командния ред на Linux
- Разбиране в концепциите за голям обем данни
Целева аудитория
- Системни администратори
- DBAs
Отзиви от потребители (5)
Примери в реално време
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
Машинен превод
очень интерактивен...
Richard Langford
Курс - SMACK Stack for Data Science
Машинен превод
Достъпен практическо обучение, треньорът е компетентен
Chris Tan
Курс - A Practical Introduction to Stream Processing
Машинен превод
Започнете да се запознавате с Spark Streaming, Databricks и AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Курс - Apache Spark in the Cloud
Машинен превод
задачи за практика
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Курс - Python and Spark for Big Data (PySpark)
Машинен превод