План на курса

Раздел 1: Въведение в Hadoop

  • История на Hadoop, концепции
  • екосистема
  • дистрибуции
  • архитектура на високо ниво
  • мита за Hadoop
  • из признаци за Hadoop
  • хардуер и софтуер
  • лаборатория : първи преглед на Hadoop

Раздел 2: HDFS

  • Проектиране и архитектура
  • концепции (хоризонтално мащабиране, репликация, локализация на данни, осведоменост за френки)
  • демони : Namenode, Secondary namenode, Data node
  • комunikации / импулси
  • цялостна целостност на данните
  • път за четене и запис
  • Namenode High Availability (HA), Federation
  • лаборатории : взаимодействие с HDFS

Раздел 3: Map Reduce

  • концепции и архитектура
  • демони (MRV1) : jobtracker / tasktracker
  • етапи : драйвер, мапер, смесване/сортиране, редуктор
  • Map Reduce версия 1 и версия 2 (YARN)
  • вътрешният механизъм на Map Reduce
  • Въведение в Java програма за Map Reduce
  • лаборатории : изпълнение на примерна програма MapReduce

Раздел 4: Pig

  • Pig vs Java Map Reduce
  • ток на задачите в Pig
  • езикът Pig Latin
  • ETL с Pig
  • Трансформации и свързане
  • Потребителски дефинирани функции (UDF)
  • лаборатории : написание на скриптове Pig за анализ на данни

Раздел 5: Hive

  • архитектура и проектиране
  • датови типове
  • Поддръжка на SQL в Hive
  • Създаване на таблиците Hive и изпълнение на заявки
  • разделения
  • свързане
  • обработка на текст
  • лаборатории : различни лаборатории за обработка на данни с Hive

Раздел 6: HBase

  • концепции и архитектура
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Временни редове данни в HBase
  • Проектиране на схема
  • лаборатории : взаимодействие с HBase чрез конзолата; програмиране с HBase Java API ; упражнение по проектиране на схема

Изисквания

  • усещане за програмирането с Java (повечето упражнения са написани на Java)
  • усещане в средата Linux (да можете да навигирамте по командния ред на Linux, да редактирате файлове с vi или nano)

Лабораторна среда

Няма нужда от инсталация : Няма нужда да се инсталира софтуер Hadoop на машините на студентите! Ще бъде предоставен работещ кластер Hadoop за студентите.

Студентите ще имат нужда от следното

  • клиент SSH (Linux и Mac вече разполагат с клиенти SSH, за Windows се препоръчва Putty)
  • браузър за достъп до кластера, препоръчително Firefox
 28 часа

Брой участници


Цена за участник

Отзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории