План на курса

    Scala primer Бързо въведение в Scala Labs : Запознаване със Scala Spark Basics Предистория и история Spark и Hadoop Spark концепции и архитектура Spark eco system (ядро, spark sql, mlib, стрийминг) Labs : Инсталиране и стартиране на Spark Първи поглед върху Spark Работещ Spark в локален режим Spark web UI Spark shell Анализиране на набор от данни – част 1 Инспектиране на RDDs Labs: Spark shell изследване на RDD RDDs концепции Разделения RDD Операции / трансформации RDD типове двойка ключ-стойност RDD MapReduce на RDD Лабораторни работи за кеширане и постоянство: създаване и проверка на RDD; Кеширане на RDD Програмиране на Spark API Въведение в Spark API / RDD API Изпращане на първата програма в Spark Отстраняване на грешки / регистриране Свойства на конфигурацията Лабораторни работи: Програмиране в Spark API, Подаване на задания Поддръжка на Spark SQL SQL в Spark Dataframes Дефиниране на таблици и импортиране на набори от данни Запитване на данни рамки, използващи SQL Формати за съхранение: JSON / Parquet Labs: Създаване и запитване на рамки с данни; оценяване на формати на данни MLlib MLlib въведение MLlib алгоритми Лабораторни упражнения: Писане на MLib приложения GraphX GraphX преглед на библиотеката GraphX APIs Лабораторни дейности: Обработка на графични данни с помощта на Spark Spark Streaming Общ преглед на поточно предаване Оценяване на платформи за поточно предаване Операции за поточно предаване Операции с плъзгащи се прозорци Лабораторни дейности: Писане на приложения за стрийминг на spark Spark и Hadoop Hadoop Intro ( HDFS / YARN) Hadoop + Spark архитектура Изпълнение на Spark на Hadoop YARN Обработка на HDFS файлове с помощта на Spark Spark Производителност и настройка Излъчване на променливи Акумулатори Управление на паметта и кеширане Операции на Spark Внедряване на Spark в производство Примерни шаблони за внедряване Конфигурации Мониторинг Отстраняване на неизправности

Изисквания

ПРЕДПОСТАВКИ

запознаване с езика Java / Scala / Python (нашите лаборатории в Scala и Python) основно разбиране на средата за разработка на Linux (навигация в командния ред / редактиране на файлове с помощта на VI или nano)

 21 Hours

Брой участници



Цена за участник

Свързани Kурсове

Introduction to Graph Computing

28 Hours

Big Data Analytics in Health

21 Hours

Hadoop and Spark for Administrators

35 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Scaling Data Pipelines with Spark NLP

14 Hours

Свързани Kатегории