План на курса
Въведение
- Преглед на характеристиките и архитектурата на Spark и Hadoop Разбиране на основите на програмирането на големи данни Python.
Приготвяме се да започнем
- Настройване на Python, Spark и Hadoop Разбиране на структурите от данни в Python Разбиране на PySpark API Разбиране на HDFS и MapReduce
Интегриране на Spark и Hadoop с Python
- Внедряване на Spark RDD в Python Обработка на данни с помощта на MapReduce Създаване на разпределени набори от данни в HDFS
Machine Learning с Spark MLlib
Обработка на големи данни с Spark Streaming
Работа с Recommender Systems
Работа с Kafka, Sqoop, Kafka и Flume
Apache Mahout със Spark и Hadoop
Отстраняване на неизправности
Обобщение и следващи стъпки
Изисквания
- Опит със Spark и Hadoop
- Python опит в програмирането
Публика
- Учени по данни
- Разработчици
Oтзиви от потребители (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
The live examples