План на курса
-
Въведение в Scala
- Бързо въведение в Scala
- Лаборатории: Започване с Scala
-
Основни концепции на Spark
- История и развитие
- Spark и Hadoop
- Концепции и архитектура на Spark
- Екосистема на Spark (основни компоненти, Spark SQL, MLlib, потокова обработка)
- Лаборатории: Инсталиране и стартиране на Spark
-
Първи стъпки със Spark
- Изпълнение на Spark в локален режим
- Web UI на Spark
- Spark shell
- Анализ на набор от данни – част 1
- Инспекция на RDDs
- Лаборатории: Разследване на Spark shell
-
RDDs
- Концепции на RDDs
- Партиции
- Операции / трансформации на RDDs
- Типове RDDs
- RDDs от двойки ключ-стойност
- MapReduce на RDDs
- Кеширане и трайност
- Лаборатории: Създаване и инспекция на RDDs; Кеширане на RDDs
-
Програмиране с API на Spark
- Въведение в API на Spark / API на RDDs
- Изпращане на първата програма към Spark
- Отстраняване на грешки / дневници
- Свойства за конфигурация
- Лаборатории: Програмиране с API на Spark, Изпращане на задачи
-
Spark SQL
- Поддръжка на SQL в Spark
- Dataframes
- Определяне на таблици и внасяне на набори от данни
- Запитване на Dataframes с SQL
- Формати за съхранение: JSON / Parquet
- Лаборатории: Създаване и запитване на Dataframes; Оценка на формати на данни
-
MLlib
- Въведение в MLlib
- Алгоритми на MLlib
- Лаборатории: Написване на приложения с MLlib
-
GraphX
- Преглед на библиотеката GraphX
- API на GraphX
- Лаборатории: Обработка на графични данни с Spark
-
Spark Streaming
- Преглед на потокова обработка
- Оценка на платформи за потокова обработка
- Операции за потокова обработка
- Операции със скълзящи прозорци
- Лаборатории: Написване на приложения за потокова обработка с Spark
-
Spark и Hadoop
- Въведение в Hadoop (HDFS / YARN)
- Архитектура на Hadoop + Spark
- Изпълнение на Spark на Hadoop YARN
- Обработка на файлови системи HDFS с Spark
-
Производителност и настройка на Spark
- Променливи за разпръскване
- Акумулатори
- Управление на паметта и кеширане
-
Операции със Spark
- Развертане на Spark в производствена среда
- Шаблони за развертане
- Конфигурации
- Мониторинг
- Отстраняване на проблеми
Изисквания
ПРЕДИСТАВИТЕЛНИ ЗНАНИЯ
Знание на Java / Scala / Python език (наши лаборатории са в Scala и Python)
Основно разбиране на Linux разработваща среда (навигация по командния ред / редактиране на файлове с VI или nano)
Отзиви от потребители (6)
**Съществуването на упражнения в различни форми и подходи истински помага за разбирането на какво може да извърши всеки компонент (Spark - Hadoop/самостоятелен/клъстер) сам по себе си и в комбинация. Този опит ми помогна да се представя как трябва да тествам приложението си на локалната ми машина при разработката му, спрямо това как ще бъде тествано, когато бъде развернато в клъстер.**
Thomas Carcaud - IT Frankfurt GmbH
Курс - Spark for Developers
Машинен превод
Аджай беше много приятелски настроен, полезен и също така компетентен относно темата, която обсуждаше.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Курс - Spark for Developers
Машинен превод
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Курс - Spark for Developers
Машинен превод
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Курс - Spark for Developers
Машинен превод
We know a lot more about the whole environment.
John Kidd
Курс - Spark for Developers
Машинен превод
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Курс - Spark for Developers
Машинен превод