План на курса

Въведение

Разбиране на архитектурата и ключовите концепции на Hadoop.

Разбиране на Hadoop разпределената файлова система (HDFS)

    Преглед на HDFS и неговия архитектурен дизайн Взаимодействие с HDFS Извършване на основни файлови операции на HDFS Преглед на HDFS команди Справочник Преглед на Snakebite Инсталиране на Snakebite Използване на клиентската библиотека на Snakebite Използване на CLI клиента

Изучаване на модела за програмиране MapReduce с Python

    Общ преглед на MapReduce Programming Модел Разбиране на потока от данни в рамката на MapReduce Map Shuffle и Sort Reduce
Използване на Hadoop помощната програма за поточно предаване. Разбиране как работи Hadoop помощната програма за поточно предаване
  • Демо: Внедряване на приложението WordCount на Python
  • Използване на библиотеката mrjob Общ преглед на mrjob
  • Инсталиране на mrjob
  • Демонстрация: Прилагане на алгоритъма WordCount с помощта на mrjob
  • Разбиране как работи задача на MapReduce, написана с библиотеката mrjob
  • Изпълнение на приложение MapReduce с mrjob
  • Практически: Изчисляване на най-добрите заплати с помощта на mrjob
  • Учещо се прасе с Python
  • Общ преглед на Pig Demo: Внедряване на алгоритъма WordCount в Pig Конфигуриране и изпълнение на Pig скриптове и Pig изрази Използване на режимите за изпълнение на Pig Използване на интерактивния режим Pig Използване на партиден режим на Pic
  • Разбиране на основните понятия на свинския латински език с помощта на изрази

      Зареждане на данни
    Трансформиране на данни
  • Съхраняване на данни
  • Разширяване на функционалността на Pig с Python UDF Регистриране на Python UDF файл
  • Демонстрация: Проста Python UDF
  • Демонстрация: Манипулиране на низове с помощта на Python UDF
  • Практически: Изчисляване на 10-те най-нови филма с помощта на Python UDF
  • Използване на Spark и PySpark
  • Преглед на Spark Demo: Внедряване на алгоритъма WordCount в PySpark Преглед на PySpark Използване на интерактивна обвивка, внедряване на самостоятелни приложения
  • Работа с устойчиви разпределени набори от данни (RDD) Създаване на RDD от Python колекция
  • Създаване на RDD от файлове
  • Внедряване на RDD трансформации

      Изпълнение на RDD действия
    Практически: Внедряване на текстова Search програма за филмови заглавия с PySpark
  • Управление на работния процес с Python
  • Общ преглед на Apache Oozie и Luigi Инсталиране на Luigi Разбиране на Luigi Работен поток Концепции Задачи Цели Параметри
  • Демонстрация: Разглеждане на работен процес, който прилага алгоритъма WordCount
  • Работа с Hadoop работни потоци, които контролират MapReduce и Pig Jobs с помощта на конфигурационните файлове на Luigi
  • Работа с MapReduce в Luigi
  • Работа с Pig в Luigi
  • Обобщение и заключение

    Изисквания

    • Опит с Python програмиране
    • Основно познаване на Hadoop
     28 Hours

    Брой участници



    Цена за участник

    Oтзиви от потребители (3)

    Свързани Kурсове

    Hadoop For Administrators

    21 Hours

    Samza for Stream Processing

    14 Hours

    Datameer for Data Analysts

    14 Hours

    Свързани Kатегории