План на курса

    Въведение Hadoop история, концепции Екосистемни дистрибуции Архитектура на високо ниво Hadoop митове Hadoop предизвикателства (хардуер / софтуер) Лаборатории: обсъдете вашите проекти и проблеми с големи данни
Планиране и инсталиране Избор на софтуер, Hadoop дистрибуции Оразмеряване на клъстера, планиране на растеж Избор на хардуер и мрежа Rack топология Инсталация Multi-tenancy Структура на директория, регистрационни файлове Лаборатория за сравнителен анализ: инсталиране на клъстер, изпълнение на показатели за ефективност
    Операции на HDFS Концепции (хоризонтално мащабиране, репликация, локализация на данните, информираност за стелажи) Възли и демони (NameNode, Secondary NameNode, HA Standby NameNode, DataNode) Мониторинг на здравето Администриране, базирано на команден ред и браузър Добавяне на хранилище, подмяна на дефектни дискове Лаборатории: запознаване с HDFS командни редове
Поглъщане на данни Flume за регистрационни файлове и поглъщане на други данни в HDFS Sqoop за импортиране от SQL бази данни към HDFS, както и експортиране обратно към SQL Hadoop складиране на данни с Hive Копиране на данни между клъстери (distcp) Използване на S3 като допълнение към HDFS данни най-добри практики и архитектури за поглъщане Лаборатории: настройка и използване на Flume, същото за Sqoop
    Операции и администриране на MapReduce Паралелно изчисление преди mapreduce: сравнете HPC срещу Hadoop администрация MapReduce клъстер зарежда възли и демони (JobTracker, TaskTracker) MapReduce UI преминава през конфигурацията на Mapreduce Конфигурация на работа Оптимизиране на MapReduce Fool-proofing MR: какво да кажете на програмистите си Labs: работи Примери за MapReduce
YARN: нова архитектура и нови възможности Цели на дизайна на YARN и архитектура за внедряване Нови участници: ResourceManager, NodeManager, Application Master Инсталиране на YARN График на работа под YARN Labs: проучете графика на работа
    Разширени теми Наблюдение на хардуер Наблюдение на клъстери Добавяне и премахване на сървъри, надграждане Hadoop Архивиране, възстановяване и планиране на непрекъснатост на бизнеса Работни потоци на Oozie Hadoop висока достъпност (HA) Hadoop Федерация Защита на вашия клъстер с Kerberos Labs: настройте наблюдение
Допълнителни следи Cloudera Manager за администриране на клъстер, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лаборатории се изпълняват в средата за разпространение на Cloudera (CDH5) Ambari за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в рамките на мениджъра на клъстери Ambari и платформата за данни Hortonworks (HDP 2.0)

Изисквания

  • удобни с основно Linux системно администриране
  • основни умения за писане на скриптове

Не се изискват познания по Hadoop и разпределени изчисления, но ще бъдат въведени и обяснени в курса.

Лабораторна среда

Нулева инсталация: Няма нужда да инсталирате софтуер hadoop на машините на учениците! За студентите ще бъде осигурен работещ hadoop клъстер.

Студентите ще имат нужда от следното

  • SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
  • браузър за достъп до клъстера. Препоръчваме браузър Firefox с инсталирано разширение FoxyProxy
 21 Hours

Брой участници



Цена за участник

Oтзиви от потребители (6)

Свързани Kурсове

Big Data Analytics in Health

21 Hours

Datameer for Data Analysts

14 Hours

Hadoop with Python

28 Hours

Hadoop and Spark for Administrators

35 Hours

Свързани Kатегории