План на курса

 

Въведение:

    Apache Spark в Hadoop екосистема Кратко въведение за python, scala

Основи (теория):

    Архитектура RDD Трансформация и Етап на действия, Задача, Зависимости

Използвайки Databricks среда, разберете основите (практическа работилница):

    Упражнения с използване на RDD API Основни функции за действие и трансформация PairRDD Стратегии за кеширане на присъединяване Упражнения с използване на DataFrame API SparkSQL DataFrame: избиране, филтриране, групиране, сортиране на UDF (дефинирана от потребителя функция) Търсене в DataSet API Streaming

Използване на AWS среда разбиране на внедряването (практически семинар):

    Основи на AWS Glue Разберете разликите между AWS EMR и AWS Glue Примерни задачи в двете среди Разберете плюсовете и минусите

Екстра:

    Въведение в Apache Airflow оркестрацията

Изисквания

Умения за програмиране (за предпочитане python, scala)

SQL основи

 21 Hours

Брой участници



Цена за участник

Oтзиви от потребители (3)

Свързани Kурсове

Introduction to Graph Computing

28 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Apache Spark SQL

7 Hours

Big Data Analytics in Health

21 Hours

Hadoop and Spark for Administrators

35 Hours

Свързани Kатегории