План на курса

  1. Въведение в Scala

    • Бързо въведение в Scala
    • Лаборатории: Започване с Scala
  2. Основни концепции на Spark

    • История и развитие
    • Spark и Hadoop
    • Концепции и архитектура на Spark
    • Екосистема на Spark (основни компоненти, Spark SQL, MLlib, потокова обработка)
    • Лаборатории: Инсталиране и стартиране на Spark
  3. Първи стъпки със Spark

    • Изпълнение на Spark в локален режим
    • Web UI на Spark
    • Spark shell
    • Анализ на набор от данни – част 1
    • Инспекция на RDDs
    • Лаборатории: Разследване на Spark shell
  4. RDDs

    • Концепции на RDDs
    • Партиции
    • Операции / трансформации на RDDs
    • Типове RDDs
    • RDDs от двойки ключ-стойност
    • MapReduce на RDDs
    • Кеширане и трайност
    • Лаборатории: Създаване и инспекция на RDDs; Кеширане на RDDs
  5. Програмиране с API на Spark

    • Въведение в API на Spark / API на RDDs
    • Изпращане на първата програма към Spark
    • Отстраняване на грешки / дневници
    • Свойства за конфигурация
    • Лаборатории: Програмиране с API на Spark, Изпращане на задачи
  6. Spark SQL

    • Поддръжка на SQL в Spark
    • Dataframes
    • Определяне на таблици и внасяне на набори от данни
    • Запитване на Dataframes с SQL
    • Формати за съхранение: JSON / Parquet
    • Лаборатории: Създаване и запитване на Dataframes; Оценка на формати на данни
  7. MLlib

    • Въведение в MLlib
    • Алгоритми на MLlib
    • Лаборатории: Написване на приложения с MLlib
  8. GraphX

    • Преглед на библиотеката GraphX
    • API на GraphX
    • Лаборатории: Обработка на графични данни с Spark
  9. Spark Streaming

    • Преглед на потокова обработка
    • Оценка на платформи за потокова обработка
    • Операции за потокова обработка
    • Операции със скълзящи прозорци
    • Лаборатории: Написване на приложения за потокова обработка с Spark
  10. Spark и Hadoop

    • Въведение в Hadoop (HDFS / YARN)
    • Архитектура на Hadoop + Spark
    • Изпълнение на Spark на Hadoop YARN
    • Обработка на файлови системи HDFS с Spark
  11. Производителност и настройка на Spark

    • Променливи за разпръскване
    • Акумулатори
    • Управление на паметта и кеширане
  12. Операции със Spark

    • Развертане на Spark в производствена среда
    • Шаблони за развертане
    • Конфигурации
    • Мониторинг
    • Отстраняване на проблеми

Изисквания

ПРЕДИСТАВИТЕЛНИ ЗНАНИЯ

Знание на Java / Scala / Python език (наши лаборатории са в Scala и Python)

Основно разбиране на Linux разработваща среда (навигация по командния ред / редактиране на файлове с VI или nano)

 21 часа

Брой участници


Цена за участник

Отзиви от потребители (6)

Предстоящи Курсове

Свързани Kатегории