План на курса

Модул 1. Въведение в Hadoop

    Hadoop Разпределената файлова система (HDFS) Пътят за четене и пътят за запис Управление на метаданни на файловата система Namenode и Datanode Namenode High Availability Namenode Federation Инструментите на командния ред Разбиране на поддръжката на REST

Модул 2. Въведение в MapReduce

    Анализиране на данните с Hadoop Map и шаблон за редуциране Java MapReduce Мащабиране на поток от данни Разработване на комбиниращи функции Изпълнение на разпределена задача MapReduce

Модул 3. Планиране на Hadoop клъстер

    Избор на разпространение и версия на Hadoop версии и функции Избор на хардуер Избор на главен и работен хардуер Оразмеряване на клъстер Избор и подготовка на операционна система Оформление за разполагане Настройване на потребители, групи и привилегии Конфигурация на диска Мрежов дизайн

Модул 4. Инсталиране и конфигуриране

    Инсталиране на Hadoop конфигурация: Общ преглед Hadoop XML Конфигурационни файлове Променливи на средата и скриптове на обвивката Конфигурация за регистриране Управление на HDFS оптимизация и настройка Форматиране на Namenode Създаване на /tmp директория Мислене за Namenode Висока наличност Опциите за ограждане Автоматично конфигуриране при отказ Форматиране и стартиране на Namenodes Namenode Federation

Модул 5. Разбиране Hadoop I/O

    Интегритет на данните в HDFS Разбиране на кодеци Компресия и разделяне на входа Използване на компресия в MapReduce Механизмът за сериализация Базирани на файлове структури на данни Форматът SequenceFile Други файлови формати и формати, ориентирани към колони

Модул 6. Разработване на приложение MapReduce

    Конфигурационният API Настройка на средата за разработка Управление на конфигурацията GenericOptionsParser, Tool и ToolRunner Писане на Unit Test с MRUnit Mapper и Reducer Работещи локално върху тестови данни Тестване на драйвера Работещ на клъстер Пакетиране и стартиране на задание MapReduce Web UI Настройка на задание

Модул 7. Идентификация, автентификация и авторизация

    Управление на самоличността Kerberos и Hadoop Разбиране на авторизацията

Модул 8. Ресурс Management

    Какво е ресурс Management? HDFS квоти MapReduce Schedulers Анатомия на приложение YARN Заявки за изпълнение на ресурси Продължителност на живота на приложението YARN в сравнение с MapReduce 1 Планиране в YARN Опции на Scheduler Капацитет Конфигурация на Scheduler Справедлива конфигурация на Scheduler График на забавяне на доминиращ ресурс

Модул 9. Типове и формати на MapReduce

    Типове MapReduce Работата по подразбиране MapReduce Дефиниране на входните формати Управление на разделянето на входа и записите Въвеждане на текст и двоично въвеждане Управление на множество входове Database Вход (и изход) Изходни формати Текстово извеждане и двоичен изход Управление на множество изходи Database Изход

Модул 10. Използване на функциите на MapReduce

    Използване на броячи Четене на вградени броячи Дефинирани от потребителя Java Броячи Разбиране на сортирането Използване на разпределения кеш

Модул 11. Поддръжка на клъстер и отстраняване на проблеми

    Управление Hadoop Процеси Стартиране и спиране на процеси с начални скриптове Ръчно стартиране и спиране на процеси Задачи за поддръжка на HDFS Добавяне на Datanode Извеждане от експлоатация на Datanode Проверка на целостта на файловата система с fsck Балансиране на HDFS блокови данни Справяне с повреден диск MapReduce Задачи за поддръжка Унищожаване на MapReduce задание Унищожаване на MapReduce Изчерпване на ресурсите за управление на задачи

Модул 12. Мониторинг

    Наличните Hadoop показатели Ролята на SNMP Health Monitoring Проверки на ниво хост Проверки HDFS Проверки MapReduce

Модул 13. Архивиране и възстановяване

    Резервно копие на данни Разпределено копие (distcp) Паралелно приемане на данни Namenode Метаданни
 21 Hours

Брой участници



Цена за участник

Oтзиви от потребители (1)

Свързани Kурсове

Hadoop For Administrators

21 Hours

Samza for Stream Processing

14 Hours

Datameer for Data Analysts

14 Hours

Свързани Kатегории