План на курса

Въведение:

  • Apache Spark в екосистемата на Hadoop
  • Кратко въведение за python, scala

Основи (теория):

  • Архитектура
  • RDD
  • Преобразувания и Действия
  • Етап, Задача, Зависимости

Използване на средата Databricks за разбиране на основите (практически семинари):

  • Упражнения с API на RDD
  • Основни действия и функции за преобразуване
  • PairRDD
  • Обединение
  • Стратегии за кэширане
  • Упражнения с API на DataFrame
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (Потребителски определена функция)
  • Разглеждане на DataSet API
  • Потокова обработка

Използване на AWS среда за разбиране на разверването (практически семинари):

  • Основи на AWS Glue
  • Разбиране на разликите между AWS EMR и AWS Glue
  • Примерни задачи в двете среди
  • Разбиране на преимущества и недостатъци

Допълнително:

  • Въведение в оркестрирането на Apache Airflow

Изисквания

Умения за програмиране (за предпочитане python, scala)

SQL основи

 21 часа

Брой участници


Цена за участник

Отзиви от потребители (3)

Предстоящи Курсове

Свързани Kатегории