План на курса

Раздел 1: Въведение в Hadoop

  • Hadoop история, концепции
  • екосистема
  • дистрибуции
  • високо ниво архитектура
  • Hadoop митове
  • Hadoop предизвикателства
  • апаратно / софтуерно оборудване
  • лаборатория: първи поглед към Hadoop

Раздел 2: HDFS

  • Дизайн и архитектура
  • концепции (хоризонтално масштабиране, репликация, локализация на данни, осведоменост за стойките)
  • Демони: Namenode, вторичен namenode, данен възел
  • коммуникации / сърцебиене
  • интегритет на данните
  • път на четене / записване
  • Намаляване на високо ниво на Namenode (HA), Федерация
  • лаборатории: Взаимодействие с HDFS

Раздел 3: Намаляване на картата

  • концепции и архитектура
  • демони (MRV1): Jobtracker / tasktracker
  • фази: драйвер, картограф, разбъркване/сортиране, редуктор
  • Map Reduce версия 1 и версия 2 (YARN)
  • Вътрешни елементи на Map Reduce
  • Въведение в Java програмата Map Reduce
  • лаборатории : Изпълнение на примерна програма MapReduce

Секция 4: Прасе

  • прасе срещу java карта намаляване
  • прасе работа поток
  • свински латински език
  • ETL с прасе
  • Трансформации и обединения
  • Дефинирани от потребителя функции (UDF)
  • лаборатории: писане на Pig скриптове за анализ на данни

Раздел 5: Hive

  • архитектура и дизайн
  • типове данни
  • SQL поддръжка в Hive
  • Създаване на Hive таблици и заявки
  • прегради
  • се присъединява
  • обработка на текст
  • лаборатории : различни лаборатории за обработка на данни с Hive

Раздел 6: HBase

  • концепции и архитектура
  • HBase срещу RDBMS срещу Cassandra
  • HBase Java API
  • времеви данни на HBase
  • дизайн на схемата
  • лаборатории: Взаимодействие с HBase чрез оболочка; програмиране в HBase Java API; упражнение за дизайн на схемата

Изисквания

  • удобно с Java език за програмиране (повечето упражнения по програмиране са на java)
  • удобни в Linux среда (да можете да навигирате в Linux командния ред, да редактирате файлове с помощта на vi / nano)

Лабораторна среда

Zero Install : Няма нужда да инсталирате Linux софтуер на машините на студентите! За студентите ще бъде предоставен работоспособен Linux кластер.

Студентите ще имат нужда от следното

  • SSH клиент (Linux и Mac вече имат SSH клиенти, за Windows се препоръчва Putty)
  • браузър за достъп до кластера, Firefox е препоръчително
 28 Часа

Брой участници


Цена за участник

Oтзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории