План на курса

1.1Hadoop Концепции

1.1.1HDFS

    Дизайнът на интерфейса на командния ред на HDFS Hadoop файлова система

1.1.2 Клъстери

    Анатомия на клъстер Основен възел / Подчинен възел Име възел / възел данни

1.2 Манипулиране на данни

1.2.1MapReduce подробно

    Карта фаза Намаляване на фаза Разбъркване

1.2.2 Анализ с Map Reduce

    Групиране по с MapReduce Честотни разпределения и сортиране с MapReduce Начертаване на резултати (GNU Plot) Хистограми с MapReduce Точкови диаграми с MapReduce Разбор на сложни набори от данни Преброяване с MapReduce и Combiners Изграждане на отчети

 

1.2.3 Почистване на данни

    Почистване на документи Размито търсене на низове Записване на връзка / дедупликация на данни Трансформиране и сортиране на дати на събития Потвърждаване на надеждността на източника Отстраняване на отклонения

1.2.4 Извличане и трансформиране на данни

    Трансформиране на регистрационни файлове Използване на Apache Pig за филтриране Използване на Apache Pig за сортиране Използване на Apache Pig за създаване на сесии

1.2.5 Разширени съединения

    Обединяване на данни в Mapper с помощта на MapReduce Съединяване на данни с помощта на репликирано съединение на Apache Pig Свързване на сортирани данни с помощта на обединяване на Apache Pig Свързване на изкривени данни с помощта на изкривено съединение на Apache Pig Използване на съединение от страна на картата в Apache Hive Използване на оптимизирани пълни външни съединения в Apache [1 ] Обединяване на данни с помощта на външно хранилище на стойност на ключ

1.3 Техники за диагностика и оптимизация на производителността

    Карта Проучване на пикове във входните данни Идентифициране на проблеми с изкривяване на данни от страната на картата Пропускателна способност на задачите на картата Малки файлове Неразделими файлове
Намалете Твърде малко или твърде много редуктори
  • Намаляване на проблемите с изкривяването на данните от страната
  • Намалете пропускателната способност на задачите
  • Бавно разбъркване и сортиране
  • Конкуриращи се задания и ограничаване на графика
  • Изхвърляния на стека и неоптимизиран код
  • Хардуерни повреди
  • Спор за процесора
  • Задачи Извличане и визуализиране на времето за изпълнение на задачите
  • Профилиране на вашата карта и намаляване на задачите
  • Избягвайте редуктора
  • Филтрирайте и проектирайте
  • Използване на комбинатора
  • Бързо сортиране с компаратори
  • Събиране на изкривени данни
  • Намалете смекчаването на изкривяването
  • Изисквания

    От участниците не се изисква да имат специфични умения, тъй като обучението е фокусирано върху уменията на крайните потребители както за администриране, така и за манипулиране на данни под Apache Hadoop

      21 Hours

    Брой участници



    Цена за участник

    Oтзиви от потребители (3)

    Свързани Kурсове

    Hadoop For Administrators

      21 Hours

    Samza for Stream Processing

      14 Hours

    Datameer for Data Analysts

      14 Hours

    Свързани Kатегории