План на курса

  • Въведение
    • Hadoop история, концепции
    • Екосистема
    • Дистрибуции
    • Архитектура на високо ниво
    • Hadoop митове
    • Hadoop изправителни предизвикателства (апаратно/програмно оборудване)
    • Лаборатории: обсъждане на вашите Big Data проекти и проблеми
  • Планиране и инсталация
    • Избор на софтуер, Hadoop дистрибуции
    • Размер на кластера, планиране за растеж
    • Избор на апаратно и мрежово оборудване
    • Топология на стойките
    • Инсталация
    • Мулти-тенантност
    • Директориен структура, логи
    • Бенчмарк тестване
    • Лаборатории: инсталация на кластера, изпълнение на бенчмарк тестове
  • Операции с HDFS
    • Концепции (хоризонтално масштабиране, репликация, локация на данни, раково осъзнаване)
    • Възли и демонски процеси (NameNode, Вторичен NameNode, HA Standby NameNode, DataNode)
    • Мониторинг на състоянието
    • Управление през командния ред и уеб прегледач
    • Добавяне на съхранение, заменяне на дефектни дискове
    • Лаборатории: започване с командния ред на HDFS
  • Внасяне на данни
    • Flume за логи и други данни в HDFS
    • Sqoop за внасяне от SQL бази данни в HDFS, както и за изнасяне обратно в SQL
    • Hadoop склада на данни с Hive
    • Копиране на данни между кластери (distcp)
    • Използване на S3 като допълнение към HDFS
    • Най-добрите практики и архитектури за внасяне на данни
    • Лаборатории: настройка и използване на Flume, същото и за Sqoop
  • Операции и управление на MapReduce
    • Паралелно изчисление преди MapReduce: сравнение на HPC vs Hadoop управление
    • Натоварване на кластера на MapReduce
    • Възли и демонски процеси (JobTracker, TaskTracker)
    • Разходка през UI на MapReduce
    • Конфигурация на MapReduce
    • Конфигурация на задачите
    • Оптимизация на MapReduce
    • Защита на MR: какво да кажете на програмистите си
    • Лаборатории: изпълнение на примерни задачи на MapReduce
  • YARN: нова архитектура и нови възможности
    • Цели при проектирането на YARN и архитектура на имплементацията
    • Нови актьори: ResourceManager, NodeManager, Application Master
    • Инсталация на YARN
    • Планиране на задачи под YARN
    • Лаборатории: разследване на планирането на задачи
  • Напредни теми
    • Мониторинг на апаратното оборудване
    • Мониторинг на кластера
    • Добавяне и премахване на сървъри, обновяване на Hadoop
    • Резервно копиране, възстановяване и планиране за непрекъснатост на бизнес процесите
    • Работни процеси на Oozie
    • Hadoop висока достъпност (HA)
    • Hadoop Федерация
    • Защита на кластера с Kerberos
    • Лаборатории: настройка на мониторинг
  • Опционални траектории
    • Cloudera Manager за управление на кластера, мониторинг и рутинни задачи; инсталация и използване. В тази траектория всички упражнения и лаборатории се изпълняват в средата на дистрибуцията на Cloudera (CDH5)
    • Ambari за управление на кластера, мониторинг и рутинни задачи; инсталация и използване. В тази траектория всички упражнения и лаборатории се изпълняват в средата на Ambari кластер мениджъра и Hortonworks Data Platform (HDP 2.0)

Изисквания

  • удобни с основно управление на системата
  • базови умения по писане на скриптове

Знание на Hadoop и Разпределени Изчисления не е задължително, но ще бъде представено и обяснено в курса.

Среда за лабораторни упражнения

Няма нужда от инсталиране на софтуер за hadoop на машините на студентите! За студентите ще бъде предоставен работещ hadoop кластер.

Студентите ще имат нужда от следните:

  • SSH клиент (Linux и Mac вече разполагат с ssh клиенти, за Windows се препоръчва Putty)
  • браузър за достъп до кластера. Препоръчваме Firefox браузър с инсталиран разширение FoxyProxy
 21 часа

Брой участници


Цена за участник

Отзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории