План на курса

Раздел 1: Управление на данни в HDFS

  • Различни формати на данни (JSON / Avro / Parquet)
  • Схеми за сжимане
  • Маскиране на данни
  • Лаборатории: Анализ на различни формати на данни; включване на сжимане

Раздел 2: Разширен Pig

  • Потребителски дефинирани функции
  • Увод в библиотеките на Pig (ElephantBird / Data-Fu)
  • Зареждане на сложни структурирани данни с използването на Pig
  • Настройка на Pig
  • Лаборатории: Разширен скриптинг с Pig, анализ на сложни типове данни

Раздел 3: Разширен Hive

  • Потребителски дефинирани функции
  • Сжимани таблици
  • Настройка на производителността на Hive
  • Лаборатории: Създаване на сжимани таблици, оценка на форматите и конфигурацията на таблици

Раздел 4: Разширен HBase

  • Продвинати модели за схеми
  • Сжимане
  • Масовно внасяне на данни
  • Сравнение между широки и дълги таблици
  • HBase и Pig
  • HBase и Hive
  • Настройка на производителността на HBase
  • Лаборатории: Настройка на HBase; достъп до данни от HBase с използване на Pig & Hive; Използване на Phoenix за моделиране на данни

Изисквания

  • Запознат с Java програмния език (повечето програмни упражнения са на Java)
  • Запознат с Linux околната среда (способността да навигирира по командния ред на Linux, да редактира файлове с използването на vi / nano)
  • Работно знание за Hadoop.

Лабораторна среда

Нулева инсталация: Няма нужда от инсталиране на софтуер Hadoop в машините на студентите! Ще бъде предоставен работещ кластер с Hadoop за студентите.

Студентите ще имат нужда от следното

 21 часа

Брой участници


Цена за участник

Отзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории