План на курса

Раздел 1: Data Management в HDFS

  • Различни формати на данни (JSON / Avro / Parquet)
  • Схеми за компресиране
  • Маскиране на данни
  • Лабораторни упражнения: Анализиране на различни формати на данни; позволяваща компресия

Раздел 2: Напреднало прасе

  • Дефинирани от потребителя функции
  • Въведение в библиотеките за прасета (ElephantBird / Data-Fu)
  • Зареждане на сложни структурирани данни с помощта на Pig
  • Прасе Тунинг
  • Лабораторни упражнения: усъвършенствани свински скриптове, анализиране на сложни типове данни

Раздел 3: Разширени Hive

  • Дефинирани от потребителя функции
  • Компресирани таблици
  • Hive Настройка на производителността
  • Лабораторни упражнения: създаване на компресирани таблици, оценка на формати и конфигурация на таблици

Раздел 4: Разширено HBase

  • Разширено моделиране на схеми
  • Компресия
  • Поглъщане на групови данни
  • Сравнение на широка/висока маса
  • HBase и Pig
  • HBase и Hive
  • HBase Настройка на производителността
  • Лабораторни упражнения: настройка на HBase; достъп до HBase данни от Pig & Hive; Използване на Phoenix за моделиране на данни

Изисквания

  • удобно с Java език за програмиране (повечето упражнения по програмиране са на java)
  • удобни в Linux среда (да можете да навигирате в Linux командния ред, да редактирате файлове с помощта на vi / nano)
  • практически познания за Hadoop.

Лабораторна среда

Нулева инсталация: Няма нужда да инсталирате софтуер hadoop на машините на учениците! За студентите ще бъде осигурен работещ hadoop клъстер.

Студентите ще имат нужда от следното

  • SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty )
  • браузър за достъп до клъстера. Препоръчваме браузър Firefox
 21 Часа

Брой участници


Цена за участник

Oтзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории