План на курса

Раздел 1: Данни Management в HDFS

    Различни формати на данни (JSON / Avro / Parquet) Схеми за компресиране Лаборатории за маскиране на данни: Анализиране на различни формати на данни; позволяваща компресия

Раздел 2: Напреднало прасе

    Дефинирани от потребителя функции Въведение в библиотеките на Pig (ElephantBird / Data-Fu) Зареждане на сложни структурирани данни с помощта на Pig Pig Tuning Labs: разширено писане на скриптове, анализиране на сложни типове данни

Раздел 3: Напреднали Hive

    Дефинирани от потребителя функции Компресирани таблици Hive Лаборатория за настройка на производителността: създаване на компресирани таблици, оценяване на формати и конфигурация на таблици

Раздел 4: Разширен HBase

    Разширено моделиране на схема Компресия Поглъщане на масиви от данни Сравнение на широка/висока таблица HBase и Pig HBase и Hive Лаборатория за настройка на производителността на HBase: настройка на HBase; достъп до HBase данни от Pig & Hive; Използване на Phoenix за моделиране на данни

Изисквания

  • удобно с езика за програмиране Java (повечето упражнения по програмиране са на java)
  • удобни в Linux среда (да можете да навигирате в Linux командния ред, да редактирате файлове с помощта на vi / nano)
  • практически познания за Hadoop.

Лабораторна среда

Нулева инсталация: Няма нужда да инсталирате софтуер hadoop на машините на учениците! За студентите ще бъде осигурен работещ hadoop клъстер.

Студентите ще имат нужда от следното

  • SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
  • браузър за достъп до клъстера. Препоръчваме браузър Firefox
 21 Hours

Брой участници



Цена за участник

Oтзиви от потребители (3)

Свързани Kурсове

Hadoop For Administrators

21 Hours

Samza for Stream Processing

14 Hours

Datameer for Data Analysts

14 Hours

Свързани Kатегории