План на курса
Въведение
Scala Задълбочен преглед на програмирането
- Синтаксис и структура Управление на потока и функции
Spark Internals
- Устойчиви разпределени набори от данни (RDD) Spark скрипт за графика към клъстер
Преглед на Spark Streaming
- Архитектура на поточно предаване Интервали в поточно предаване Толерантност към грешки
Подготовка на средата за разработка
- Инсталиране и конфигуриране на Apache Spark Инсталиране и конфигуриране на Scala IDE Инсталиране и конфигуриране на JDK
Spark Streaming Начинаещи до напреднали
- Работа с ключ/стойност RDD Филтриране RDD Подобряване на Spark скриптове с регулярни изрази Споделяне на данни в клъстер Работа с мрежови набори от данни Внедряване на BFS алгоритми Създаване на драйверни скриптове на Spark Проследяване в реално време със скриптове Писане на непрекъснати приложения Поточно предаване на линейна регресия Използване на Spark Machine Learning библиотека
Искра и клъстери
- Обединяване на зависимости и скриптове на Spark с помощта на инструмента SBT Използване на EMR за илюстриране на клъстери Оптимизиране чрез разделяне на RDD Използване на регистрационни файлове на Spark
Интеграция в Spark Streaming
- Интегриране на Apache Kafka и работа с теми на Kafka Интегриране на Apache Fume и работа с базирани на изтегляне/базирани Flume конфигурации Написване на персонализиран клас приемник Интегриране Cassandra и излагане на данни като услуги в реално време
В производство
- Пакетиране на приложение и стартирането му със Spark-Submit Отстраняване на неизправности, настройка и отстраняване на грешки на Spark Jobs и клъстери
Обобщение и заключение
Изисквания
- Programming и опит в писането на скриптове
Публика
- Софтуерни инженери
Oтзиви от потребители (5)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Course - Python and Spark for Big Data (PySpark)
Много практически примери, различни начини за подход към един и същ проблем и понякога не толкова очевидни трикове как да се подобри текущото решение
Rafał - Nordea
Course - Apache Spark MLlib
Machine Translated
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
Course - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.