План на курса

    Scala primer Бързо въведение в Scala Labs : Запознаване със Scala Spark Basics Предистория и история Spark и Hadoop Spark концепции и архитектура Spark eco system (ядро, spark sql, mlib, стрийминг) Labs : Инсталиране и стартиране на Spark Първи поглед върху Spark Работещ Spark в локален режим Spark web UI Spark shell Анализиране на набор от данни – част 1 Инспектиране на RDDs Labs: Spark shell изследване на RDD RDDs концепции Разделения RDD Операции / трансформации RDD типове двойка ключ-стойност RDD MapReduce на RDD Лабораторни работи за кеширане и постоянство: създаване и проверка на RDD; Кеширане на RDD Програмиране на Spark API Въведение в Spark API / RDD API Изпращане на първата програма в Spark Отстраняване на грешки / регистриране Свойства на конфигурацията Лабораторни работи: Програмиране в Spark API, Подаване на задания Поддръжка на Spark SQL SQL в Spark Dataframes Дефиниране на таблици и импортиране на набори от данни Запитване на данни рамки, използващи SQL Формати за съхранение: JSON / Parquet Labs: Създаване и запитване на рамки с данни; оценяване на формати на данни MLlib MLlib въведение MLlib алгоритми Лабораторни упражнения: Писане на MLib приложения GraphX GraphX преглед на библиотеката GraphX APIs Лабораторни дейности: Обработка на графични данни с помощта на Spark Spark Streaming Общ преглед на поточно предаване Оценяване на платформи за поточно предаване Операции за поточно предаване Операции с плъзгащи се прозорци Лабораторни дейности: Писане на приложения за стрийминг на spark Spark и Hadoop Hadoop Intro ( HDFS / YARN) Hadoop + Spark архитектура Изпълнение на Spark на Hadoop YARN Обработка на HDFS файлове с помощта на Spark Spark Производителност и настройка Излъчване на променливи Акумулатори Управление на паметта и кеширане Операции на Spark Внедряване на Spark в производство Примерни шаблони за внедряване Конфигурации Мониторинг Отстраняване на неизправности

Изисквания

ПРЕДПОСТАВКИ

запознаване с езика Java / Scala / Python (нашите лаборатории в Scala и Python) основно разбиране на средата за разработка на Linux (навигация в командния ред / редактиране на файлове с помощта на VI или nano)

 21 Hours

Брой участници



Цена за участник

Свързани Kурсове

Introduction to Graph Computing

28 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Apache Spark SQL

7 Hours

Big Data Analytics in Health

21 Hours

Hadoop and Spark for Administrators

35 Hours

Свързани Kатегории