Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
План на курса
1.1Hadoop Концепции
1.1.1HDFS
- Дизайнът на интерфейса на командния ред на HDFS Hadoop файлова система
1.1.2 Клъстери
- Анатомия на клъстер Основен възел / Подчинен възел Име възел / възел данни
1.2 Манипулиране на данни
1.2.1MapReduce подробно
- Карта фаза Намаляване на фаза Разбъркване
1.2.2 Анализ с Map Reduce
- Групиране по с MapReduce Честотни разпределения и сортиране с MapReduce Начертаване на резултати (GNU Plot) Хистограми с MapReduce Точкови диаграми с MapReduce Разбор на сложни набори от данни Преброяване с MapReduce и Combiners Изграждане на отчети
1.2.3 Почистване на данни
- Почистване на документи Размито търсене на низове Записване на връзка / дедупликация на данни Трансформиране и сортиране на дати на събития Потвърждаване на надеждността на източника Отстраняване на отклонения
1.2.4 Извличане и трансформиране на данни
- Трансформиране на регистрационни файлове Използване на Apache Pig за филтриране Използване на Apache Pig за сортиране Използване на Apache Pig за създаване на сесии
1.2.5 Разширени съединения
- Обединяване на данни в Mapper с помощта на MapReduce Съединяване на данни с помощта на репликирано съединение на Apache Pig Свързване на сортирани данни с помощта на обединяване на Apache Pig Свързване на изкривени данни с помощта на изкривено съединение на Apache Pig Използване на съединение от страна на картата в Apache Hive Използване на оптимизирани пълни външни съединения в Apache [1 ] Обединяване на данни с помощта на външно хранилище на стойност на ключ
1.3 Техники за диагностика и оптимизация на производителността
- Карта Проучване на пикове във входните данни Идентифициране на проблеми с изкривяване на данни от страната на картата Пропускателна способност на задачите на картата Малки файлове Неразделими файлове
Изисквания
От участниците не се изисква да имат специфични умения, тъй като обучението е фокусирано върху уменията на крайните потребители както за администриране, така и за манипулиране на данни под Apache Hadoop
21 Hours
Oтзиви от потребители (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Course - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Course - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay