Курс за обучение по Hadoop and Spark for Administrators
Apache Hadoop е популярна рамка за обработка на данни за обработка на големи набори от данни на много компютри.
Това обучение, ръководено от инструктори (онлайн или онлайн) е насочено към системни администратори, които искат да научат как да създават, разпространяват и управляват Hadoop кластери в рамките на своята организация.
В края на обучението участниците ще могат да:
- Инсталиране и конфигуриране на Apache Hadoop.
- Разберете четирите основни компоненти в Hadoop екосистемата: HDFS, MapReduce, YARN и Hadoop Common.
- Използвайте Distributed File System (HDFS) за скалиране на кластер до стотици или хиляди възли. •
- Инсталирайте HDFS, за да работи като двигател за съхранение за разпространението на Spark.
- Настройване на Spark за достъп до алтернативни решения за съхранение като Amazon S3 и NoSQL бази данни системи като Redis, Elasticsearch, Couchbase, Aerospike, и т.н.
- Извършване на административни задачи като предоставяне, управление, мониторинг и сигурност на Apache Hadoop кластер.
Формат на курса
- Интерактивна лекция и дискусия.
- Много упражнения и упражнения.
- Изпълнение на ръката в живо лабораторна среда.
Опции за персонализиране на курса
- За да поискате персонализирано обучение за този курс, моля, свържете се с нас, за да организирате.
План на курса
Въведение
- Въведение в облачните изчисления и решенията за големи данни Преглед на функциите и архитектурата на Apache Hadoop
Настройка Hadoop
- Планиране на Hadoop клъстер (локален, облак и т.н.) Избор на ОС и Hadoop дистрибуция Предоставяне на ресурси (хардуер, мрежа и т.н.) Изтегляне и инсталиране на софтуера Оразмеряване на клъстера за гъвкавост
Работа с HDFS
- Разбиране на Hadoop Разпределена файлова система (HDFS) Общ преглед на HDFS Command Reference Достъп до HDFS Извършване на основни файлови операции на HDFS Използване на S3 като допълнение към HDFS
Преглед на MapReduce
- Разбиране на потока от данни в MapReduce Framework Демонстрация на карта, разбъркване, сортиране и намаляване: Изчисляване на най-добрите заплати
Работа с YARN
- Разбиране на управлението на ресурсите в Hadoop Работа с ResourceManager, NodeManager, Application Master Scheduling задания под YARN Scheduling за голям брой възли и клъстери Демо: График на задания
Интегриране Hadoop със Spark
- Настройване на хранилище за Spark (HDFS, Amazon, S3, NoSQL и др.) Разбиране на устойчиви разпределени набори от данни (RDD) Създаване на RDD Внедряване на RDD трансформации Демо: Внедряване на програма за търсене на текст за заглавия на филми
Управление на Hadoop клъстер
- Мониторинг Hadoop Защита на Hadoop клъстер Добавяне и премахване на възли Изпълнение на бенчмарк за производителност Настройване на Hadoop клъстер за оптимизиране на производителността Архивиране, възстановяване и планиране на непрекъснатост на бизнеса Осигуряване на висока достъпност (HA)
Надграждане и мигриране на Hadoop клъстер
- Оценка на изискванията за работно натоварване Надграждане Hadoop Преминаване от локално към облак и обратно Възстановяване от повреди
Отстраняване на неизправности
Обобщение и заключение
Изисквания
- Опит в системната администрация
- Опит с Linux команден ред
- Разбиране на концепциите за големи данни
Публика
- Системни администратори
- DBA
Отворените курсове за обучение изискват 5+ участници.
Курс за обучение по Hadoop and Spark for Administrators - Booking
Курс за обучение по Hadoop and Spark for Administrators - Enquiry
Hadoop and Spark for Administrators - Консултантско запитване
Консултантско запитване
Oтзиви от потребители (5)
Много практически примери, различни начини за подход към един и същ проблем и понякога не толкова очевидни трикове как да се подобри текущото решение
Rafal - Nordea
Курс - Apache Spark MLlib
Машинен превод
very interactive...
Richard Langford
Курс - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Курс - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Курс - Apache Spark in the Cloud
Предстоящи Курсове
Свързани Kурсове
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 ЧасаТози курс е предназначен за разработчици и специалисти по данни, които искат да разберат и внедрят изкуствения интелект в своите приложения. Специален фокус е върху анализа на данни, разпределения изкуствен интелект и обработката на естествен език.
Big Data Analytics with Google Colab and Apache Spark
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към специалисти по данни и инженери на средно ниво, които желаят да използват Google Colab и Apache Spark за обработка и анализ на големи данни.
До края на това обучение участниците ще могат:
- Настройте среда с големи данни с помощта на Google Colab и Spark.
- Обработвайте и анализирайте ефективно големи набори от данни с Apache Spark.
- Визуализирайте големи данни в среда за сътрудничество.
- Интегрирайте Apache Spark с облачни инструменти.
Big Data Analytics in Health
21 ЧасаАнализът на големи данни включва процеса на изследване на големи количества разнообразни набори от данни, за да се разкрият корелации, скрити модели и други полезни прозрения.
Здравната индустрия разполага с огромно количество сложни разнородни медицински и клинични данни. Прилагането на анализ на големи данни върху здравни данни представлява огромен потенциал за извличане на прозрения за подобряване на предоставянето на здравни грижи. Огромността на тези набори от данни обаче поставя големи предизвикателства в анализите и практическите приложения в клинична среда.
В това водено от инструктор обучение на живо (дистанционно) участниците ще се научат как да извършват анализ на големи данни в здравеопазването, докато преминават през поредица от практически лабораторни упражнения на живо.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте инструменти за анализ на големи данни като Hadoop MapReduce и Spark Разбирайте характеристиките на медицинските данни Прилагайте техники за големи данни за работа с медицински данни Изучавайте системи и алгоритми за големи данни в контекста на здравни приложения
Публика
- Разработчици Учени по данни
Формат на курса
- Част лекция, част дискусия, упражнения и тежка практическа практика.
Забележка
- За да поискате персонализирано обучение за този курс, моля свържете се с нас, за да уговорим.
Introduction to Graph Computing
28 ЧасаВ това водено от инструктор обучение на живо в България участниците ще научат за технологичните предложения и подходите за внедряване за обработка на графични данни. Целта е да се идентифицират обекти от реалния свят, техните характеристики и взаимоотношения, след това да се моделират тези взаимоотношения и да се обработят като данни с помощта на Graph Computing (известен също като Graph Analytics) подход. Започваме с широк преглед и се ограничаваме до конкретни инструменти, докато преминаваме през поредица от казуси, практически упражнения и внедрявания на живо.
До края на това обучение участниците ще могат:
- Разберете как данните от графиката се поддържат и преминават.
- Изберете най-добрата рамка за дадена задача (от бази данни с графики до рамки за пакетна обработка.)
- Приложете Hadoop, Spark, GraphX и Pregel за извършване на графични изчисления в много машини паралелно.
- Вижте реални проблеми с големи данни от гледна точка на графики, процеси и обхождания.
Hortonworks Data Platform (HDP) for Administrators
21 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) представя Hortonworks Data Platform (HDP) и превежда участниците през внедряването на решението Spark + Hadoop.
До края на това обучение участниците ще могат:
- Използвайте Hortonworks за надеждно изпълнение на Hadoop в голям мащаб.
- Обединете възможностите за сигурност, управление и операции на Hadoop с гъвкавите аналитични работни процеси на Spark.
- Използвайте Hortonworks, за да проучите, валидирате, сертифицирате и поддържате всеки от компонентите в проект на Spark.
- Обработвайте различни видове данни, включително структурирани, неструктурирани, в движение и в покой.
Data Analysis with Hive/HiveQL
7 ЧасаТози курс обхваща как да използвате езика Hive SQL (AKA: Hive HQL, SQL на Hive, HiveQL) за хора, които извличат данни от Hive
Impala for Business Intelligence
21 ЧасаCloudera Impala е машина за заявки за масивна паралелна обработка (MPP) SQL с отворен код за Apache Hadoop клъстери.
Impala позволява на потребителите да изпращат заявки с ниска латентност SQL към данни, съхранявани в Hadoop Distributed File System и Apache Hbase, без да се изисква движение или трансформация на данни.
Публика
Този курс е насочен към анализатори и специалисти по данни, извършващи анализ на данни, съхранявани в Hadoop чрез Business Intelligence или SQL инструменти.
След този курс делегатите ще могат
- Извлечете значима информация от Hadoop клъстери с Impala.
- Напишете специфични програми за улесняване на Business интелигентността на Impala SQL диалекта.
- Отстраняване на неизправности Impala.
A Practical Introduction to Stream Processing
21 ЧасаВ това водено от инструктор обучение на живо в България (на място или дистанционно), участниците ще се научат как да настройват и интегрират различни Stream Processing рамки със съществуващи системи за съхранение на големи данни и свързани софтуерни приложения и микроуслуги.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте различни Stream Processing рамки, като Spark Streaming и Kafka Streaming.
- Разберете и изберете най-подходящата рамка за работата.
- Обработване на данни непрекъснато, едновременно и по начин запис по запис.
- Интегрирайте Stream Processing решения със съществуващи бази данни, хранилища за данни, езера от данни и др.
- Интегрирайте най-подходящата библиотека за обработка на потоци с корпоративни приложения и микроуслуги.
SMACK Stack for Data Science
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към специалисти по данни, които желаят да използват стека SMACK за изграждане на платформи за обработка на данни за решения за големи данни.
До края на това обучение участниците ще могат:
- Внедрете архитектура на тръбопровод за данни за обработка на големи данни.
- Разработете клъстерна инфраструктура с Apache Mesos и Docker.
- Анализирайте данните с Spark и Scala.
- Управлявайте неструктурирани данни с Apache Cassandra.
Apache Spark Fundamentals
21 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към инженери, които желаят да настроят и внедрят Apache Spark система за обработка на много големи количества данни.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте Apache Spark.
- Бързо обработвайте и анализирайте много големи набори от данни.
- Разберете разликата между Apache Spark и Hadoop MapReduce и кога да използвате кое.
- Интегрирайте Apache Spark с други инструменти за машинно обучение.
Administration of Apache Spark
35 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към начинаещи до системни администратори на средно ниво, които желаят да разположат, поддържат и оптимизират клъстери на Spark.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте Apache Spark в различни среди.
- Управлявайте ресурсите на клъстера и наблюдавайте приложенията на Spark.
- Оптимизирайте производителността на клъстерите Spark.
- Приложете мерки за сигурност и осигурете висока наличност.
- Отстраняване на грешки и отстраняване на често срещани проблеми със Spark.
Apache Spark in the Cloud
21 ЧасаКривата на обучение на Apache Spark бавно се увеличава в началото, необходими са много усилия, за да се получи първата възвръщаемост. Този курс има за цел да премине през първата трудна част. След преминаването на този курс участниците ще разберат основите на Apache Spark, ще разграничат ясно RDD от DataFrame, ще научат Python и Scala API, ще разберат изпълнителите и задачите и т.н. Следвайки най-добрите практики, този курс силно се фокусира върху внедряването в облак, Databricks и AWS. Студентите също ще разберат разликите между AWS EMR и AWS Glue, една от най-новите услуги на Spark на AWS.
ПУБЛИКА:
Инженер по данни, DevOps, Учен по данни
Python and Spark for Big Data (PySpark)
21 ЧасаВ това водено от инструктор обучение на живо в България участниците ще се научат как да използват Python и Spark заедно, за да анализират големи данни, докато работят върху практически упражнения.
До края на това обучение участниците ще могат:
- Научете как да използвате Spark с Python за анализ на Big Data.
- Работете върху упражнения, които имитират случаи от реалния свят.
- Използвайте различни инструменти и техники за анализ на големи данни, използвайки PySpark.
Apache Spark MLlib
35 ЧасаMLlib е библиотеката за машинно обучение (ML) на Spark. Целта му е да направи практическото машинно обучение мащабируемо и лесно. Състои се от общи алгоритми и помощни програми за обучение, включително класификация, регресия, клъстериране, съвместно филтриране, намаляване на размерността, както и примитиви за оптимизация от по-ниско ниво и приложни програмни интерфейси за конвейер от по-високо ниво.
Разделя се на два пакета:
- spark.mllib съдържа оригиналния API, изграден върху RDD. spark.ml предоставя API от по-високо ниво, изграден върху DataFrames за конструиране на ML тръбопроводи.
Публика
Този курс е насочен към инженери и разработчици, които искат да използват вградена машинна библиотека за Apache Spark