План на курса

Раздел 1: Data Management в HDFS

  • Различни формати на данни (JSON / Avro / Parquet)
  • Схеми за компресия
  • Маскиране на данни
  • Лабораторни упражнения: Анализ на различни формати на данни; включване на компресия

Раздел 2: Упълномощен Pig

  • Функции, определени от потребителя
  • Въведение в библиотеките на Pig (ElephantBird / Data-Fu)
  • Зареждане на сложно структурирани данни с Pig
  • Оптимизация на Pig
  • Лабораторни упражнения: напреднал писане на скриптове на Pig, разбор на сложни типове данни

Раздел 3: Упълномощен Hive

  • Функции, определени от потребителя
  • Компресирани таблици
  • Оптимизация на производителността на Hive
  • Лабораторни упражнения: създаване на компресирани таблици, оценка на формати на таблици и конфигурация

Раздел 4: Упълномощен HBase

  • Напреднало моделиране на схеми
  • Компресия
  • Масов внос на данни
  • Сравнение между широки и високи таблици
  • HBase и Pig
  • HBase и Hive
  • Оптимизация на производителността на HBase
  • Лабораторни упражнения: оптимизация на HBase; достъп до данни от HBase от Pig & Hive; Използване на Phoenix за моделиране на данни

Изисквания

  • Удобен с езика за програмиране Java (най-много упражнения по програмиране са на java)
  • Удобен в средата Linux (може да навигира по командния ред на Linux, да редактира файлове с vi / nano)
  • работно знание на Hadoop.

Среда на лабораторните упражнения

Zero Install: Няма нужда да инсталираме софтуер за hadoop на машините на студентите! Работно хадуп кластер ще бъде предоставен за студентите.

Студентите ще трябва да имат следните

 21 часа

Брой участници


Цена за участник

Отзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории