План на курса

    Въведение Hadoop история, концепции Екосистемни дистрибуции Архитектура на високо ниво Hadoop митове Hadoop предизвикателства (хардуер / софтуер) Лаборатории: обсъдете вашите проекти и проблеми с големи данни
Планиране и инсталиране Избор на софтуер, Hadoop дистрибуции Оразмеряване на клъстера, планиране на растеж Избор на хардуер и мрежа Rack топология Инсталация Multi-tenancy Структура на директория, регистрационни файлове Лаборатория за сравнителен анализ: инсталиране на клъстер, изпълнение на показатели за ефективност
    Операции на HDFS Концепции (хоризонтално мащабиране, репликация, локализация на данните, информираност за стелажи) Възли и демони (NameNode, Secondary NameNode, HA Standby NameNode, DataNode) Мониторинг на здравето Администриране, базирано на команден ред и браузър Добавяне на хранилище, подмяна на дефектни дискове Лаборатории: запознаване с HDFS командни редове
Поглъщане на данни Flume за регистрационни файлове и поглъщане на други данни в HDFS Sqoop за импортиране от SQL бази данни към HDFS, както и експортиране обратно към SQL Hadoop складиране на данни с Hive Копиране на данни между клъстери (distcp) Използване на S3 като допълнение към HDFS данни най-добри практики и архитектури за поглъщане Лаборатории: настройка и използване на Flume, същото за Sqoop
    Операции и администриране на MapReduce Паралелно изчисление преди mapreduce: сравнете HPC срещу Hadoop администрация MapReduce клъстер зарежда възли и демони (JobTracker, TaskTracker) MapReduce UI преминава през конфигурацията на Mapreduce Конфигурация на работа Оптимизиране на MapReduce Fool-proofing MR: какво да кажете на програмистите си Labs: работи Примери за MapReduce
YARN: нова архитектура и нови възможности Цели на дизайна на YARN и архитектура за внедряване Нови участници: ResourceManager, NodeManager, Application Master Инсталиране на YARN График на работа под YARN Labs: проучете графика на работа
    Разширени теми Наблюдение на хардуер Наблюдение на клъстери Добавяне и премахване на сървъри, надграждане Hadoop Архивиране, възстановяване и планиране на непрекъснатост на бизнеса Работни потоци на Oozie Hadoop висока достъпност (HA) Hadoop Федерация Защита на вашия клъстер с Kerberos Labs: настройте наблюдение
Допълнителни следи Cloudera Manager за администриране на клъстер, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лаборатории се изпълняват в средата за разпространение на Cloudera (CDH5) Ambari за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в рамките на мениджъра на клъстери Ambari и платформата за данни Hortonworks (HDP 2.0)

Изисквания

  • удобни с основно Linux системно администриране
  • основни умения за писане на скриптове

Не се изискват познания по Hadoop и разпределени изчисления, но ще бъдат въведени и обяснени в курса.

Лабораторна среда

Нулева инсталация: Няма нужда да инсталирате софтуер hadoop на машините на учениците! За студентите ще бъде осигурен работещ hadoop клъстер.

Студентите ще имат нужда от следното

  • SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
  • браузър за достъп до клъстера. Препоръчваме браузър Firefox с инсталирано разширение FoxyProxy
  21 Hours
 

Брой участници


Започва

Свършва


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Oтзиви от потребители (3)

Свързани Kурсове

Samza for Stream Processing

  14 Hours

Datameer for Data Analysts

  14 Hours

Свързани Kатегории