Свържете се с нас

Съдържание и теми, включени в курса

Въведение:

  • Apache Spark в екосистемата на Hadoop
  • Кратко въведение в Python, Scala

Основи (теория):

  • Архитектура
  • RDD
  • Трансформации и действия
  • Степен, задача, зависимости

Разбиране на основите чрез средата Databricks (практически уъркшоп):

  • Упражнения с RDD API
  • Основни функции за действие и трансформация
  • PairRDD
  • Join
  • Стратегии за кеширане
  • Упражнения с DataFrame API
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (дефинирана от потребителя функция)
  • Преглед на DataSet API
  • Поточна обработка

Разбиране на внедряването чрез AWS среда (практически уъркшоп):

  • Основи на AWS Glue
  • Разбиране на разликите между AWS EMR и AWS Glue
  • Примерни задачи в двете среди
  • Разбиране на предимствата и недостатъците

Допълнително:

  • Въведение в оркестрацията с Apache Airflow

Изисквания

Умения за програмиране (за предпочитане Python, Scala)

Основи на SQL

 21 Часа

Брой участници


Цена за участник

Отзиви от участници (3)

Предстоящи Курсове

Свързани Kатегории