План на курса

Секция 1: Введение в Hadoop

  • Hadoop история, концепции
  • екосистема
  • дистрибуции
  • високата архитектура
  • Hadoop митове
  • Hadoop предизвикателства
  • апаратно / програмно осигуряване
  • лабораторна работа: Първи поглед към Hadoop

Секция 2: HDFS

  • Дизайн и архитектура
  • концепции (хоризонтално масштабиране, репликация, данни на мястото, осъзнаване на рафовете)
  • Демони: Наменоде, вторичен наменоде, данен възел
  • коммуникации / импулси
  • интегралност на данните
  • път на четене / записване
  • Наменоде висока наличност (HA), федерация
  • лабораторни: Взаимодействие с HDFS

Секция 3: Map Reduce

  • концепции и архитектура
  • демони (MRV1): диспечер на задачи / изпълнител на задачи
  • фази: драйвер, мапер, смесване/сортиране, редуктор
  • Map Reduce версия 1 и версия 2 (YARN)
  • Вътрешната работа на Map Reduce
  • Въведение в Java програма за Map Reduce
  • лабораторни: Изпълнение на примерен MapReduce програма

Секция 4: Pig

  • pig vs java map reduce
  • поток на работа на pig
  • език pig latin
  • ETL с Pig
  • Трансформации и съединители
  • Функции, определени от потребителя (UDF)
  • лабораторни: писане на Pig скриптове за анализ на данни

Секция 5: Hive

  • архитектура и дизайн
  • типове данни
  • SQL поддръжка в Hive
  • Създаване на таблици Hive и заправки
  • раздели
  • съединители
  • обработка на текст
  • лабораторни: Различни лаборатории по обработка на данни с Hive

Секция 6: HBase

  • концепции и архитектура
  • HBase vs РДБМ vs Cassandra
  • HBase Java API
  • данни по време в HBase
  • дизайн на схема
  • лабораторни: Взаимодействие с HBase с оболочка; програмиране в HBase Java API; упражнение за дизайн на схема

Изисквания

  • удобен с Java език за програмиране (много от упражненията по програмиране са на java)
  • удобен в средата Linux (способен да навигира по командния ред на Linux, да редактира файлове с vi / nano)

Лабораторна среда

Нулева инсталация: Не е необходимо да инсталирате Hadoop софтуер на ученическите машини! За учениците ще бъде предоставен работен Hadoop кластер.

Учениците ще трябва да имат следните

  • SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
  • браузър за достъп до кластера, препоръчва се Firefox
 28 часа

Брой участници


Цена за участник

Отзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории