Курс за обучение по Поточна обработка на данни и обработка в реално време
Общ преглед на курса
Този курс предлага практическо и структурирано въведение в изграждането на системи за поточна обработка на данни в реално време. Той обхваща основни концепции, архитектурни модели и индустриални инструменти, използвани за обработка на непрекъснати данни в голям мащаб. Участниците ще научат как да проектират, внедряват и оптимизират поточни канали, използвайки съвременни рамки. Курсът преминава от фундаментални идеи към практически приложения, което позволява на обучаемите уверено да създават решения в реално време, готови за производствена употреба.
Формат на обучението
• Сесии, водени от инструктор, с насочващи обяснения
• Преглед на концепции с примери от реалния свят
• Практически демонстрации и упражнения по програмиране
• Постепенни лабораторни упражнения, съобразени с дневните теми
• Интерактивни дискусии и въпроси и отговори
Цели на курса
• Разбиране на концепциите за поточна обработка на данни в реално време и системната архитектура
• Разграничаване между пакетни и поточни модели за обработка на данни
• Проектиране на мащабируеми и устойчиви на грешки поточни канали
• Работа с разпределени инструменти и рамки за поточна обработка
• Прилагане на обработка по време на събитие, прозорци и операции със запазване на състояние
Изграждане и оптимизиране на решения за данни в реално време за бизнес сценарии
Съдържание и теми, включени в курса
Учебна програма – Ден 1
• Въведение в концепциите за поточна обработка на данни
• Основи на пакетната спрямо обработката в реално време
• Основи на архитектурата, задвижвана от събития
• Често срещани случаи на употреба в индустрията
• Общ преглед на екосистемата за поточна обработка
Ден 2
• Проектантски модели за архитектура на поточна обработка
• Основи на разпределените системи за съобщения
• Производители и консуматори
• Топици, дялове и поток от данни
• Стратегии за поглъщане на данни
Ден 3
• Концепции и рамки за обработка на потоци
• Време на събитието спрямо време на обработка
• Техники за прозорци и случаи на употреба
• Обработка на потоци със запазване на състояние
• Основи на устойчивостта на грешки и контролните точки
Ден 4
• Трансформация на данни в поточни канали
• ETL и ELT в системи в реално време
• Управление и еволюция на схемата
• Свързване на потоци и обогатяване
• Въведение в облачно базираните услуги за поточна обработка
Ден 5
• Мониторинг и наблюдаемост в системи за поточна обработка
• Основи на сигурността и контрола на достъпа
• Настройка на производителността и оптимизация
• Преглед на проектирането на канал от край до край
• Случаи на употреба от реалния свят, като откриване на измами и IoT обработка
Отворените курсове за обучение изискват 5+ участника.
Курс за обучение по Поточна обработка на данни и обработка в реално време - Резервация
Курс за обучение по Поточна обработка на данни и обработка в реално време - Запитване
Поточна обработка на данни и обработка в реално време - Консултантско запитване
Отзиви от участници (1)
Практически упражнения. Класът трябваше да бъде на 5 дни, но и 3 дни помогнаха значително за разяснение на много въпроси, които имах от работата с NiFi.
James - BHG Financial
Курс - Apache NiFi for Administrators
Машинен превод
Предстоящи Курсове
Свързани Kурсове
Разширен Apache Iceberg
21 ЧасаТова обучение с инструктор на живо в България (онлайн или на място) е насочено към специалисти по данни на напреднало ниво, които искат да оптимизират работните потоци за обработка на данни, да осигурят целостта на данните и да внедрят стабилни решения за data lakehouse, способни да се справят със сложността на съвременните приложения за големи данни.
До края на обучението участниците ще могат да:
- Придобият задълбочено разбиране за архитектурата на Iceberg, включително управление на метаданни и файлова структура.
- Конфигурират Iceberg за оптимална производителност в различни среди и да го интегрират с множество машини за обработка на данни.
- Управляват мащабни Iceberg таблици, да извършват сложни промени на схемата и да се справят с еволюцията на дяловете.
- Овладеят техники за оптимизиране на производителността на заявките и ефективността на сканиране на данни за големи набори от данни.
- Внедрят механизми за осигуряване на консистентност на данните, управление на транзакционни гаранции и справяне с откази в разпределени среди.
Основи на Apache Iceberg
14 ЧасаТова обучение с инструктор на живо в България (онлайн или на място) е насочено към начинаещи специалисти по данни, които искат да придобият знанията и уменията, необходими за ефективно използване на Apache Iceberg за управление на мащабни набори от данни, осигуряване на целостта на данните и оптимизиране на работните процеси за обработка на данни.
След завършване на обучението участниците ще могат да:
- Придобият задълбочено разбиране на архитектурата, функциите и предимствата на Apache Iceberg.
- Научат за табличните формати, партиционирането, еволюцията на схеми и възможностите за пътуване във времето.
- Инсталират и конфигурират Apache Iceberg в различни среди.
- Създават, управляват и манипулират Iceberg таблици.
- Разберат процеса на мигриране на данни от други таблични формати към Iceberg.
Анализ на големи данни с Google Colab и Apache Spark
14 ЧасаТова обучение с инструктор, провеждано на живо в България (онлайн или на място), е насочено към специалисти по данни и инженери на средно ниво, които желаят да използват Google Colab и Apache Spark за обработка и анализ на големи данни.
До края на обучението участниците ще могат да:
- Създават среда за големи данни с помощта на Google Colab и Spark.
- Обработват и анализират ефективно големи масиви от данни с Apache Spark.
- Визуализират големи данни в среда за съвместна работа.
- Интегрират Apache Spark с облачно базирани инструменти.
Бизнес разузнаване с големи данни за държавни агенции
35 ЧасаНапредъкът в технологиите и нарастващото количество информация трансформират начина, по който се извършва дейността в много индустрии, включително и в държавното управление. Генерирането на данни от правителството и темповете на цифрово архивиране се увеличават поради бързото развитие на мобилни устройства и приложения, интелигентни сензори и устройства, решения за облачни изчисления и портали, ориентирани към гражданите. С разрастването и усложняването на цифровата информация, управлението на информацията, обработката, съхранението, сигурността и разпореждането с нея също стават по-сложни. Нови инструменти за улавяне, търсене, откриване и анализ помагат на организациите да извлекат прозрения от своите неструктурирани данни. Правителственият пазар е в повратна точка, осъзнавайки, че информацията е стратегически актив и правителството трябва да защитава, използва и анализира както структурирана, така и неструктурирана информация, за да обслужва по-добре и да изпълнява мисията си. Докато правителствените лидери се стремят да развият организации, управлявани от данни, за успешно изпълнение на мисията, те полагат основите за корелация на зависимости между събития, хора, процеси и информация.
Правителствени решения с висока стойност ще бъдат създадени от комбинация от най-разрушителните технологии:
- Мобилни устройства и приложения
- Облачни услуги
- Технологии за социален бизнес и работа в мрежа
- Големи данни и анализи
Големите данни са едно от интелигентните индустриални решения и позволяват на правителството да взема по-добри решения, като предприема действия, базирани на модели, разкрити чрез анализ на големи обеми от данни — свързани и несвързани, структурирани и неструктурирани.
Но постигането на тези успехи изисква много повече от просто натрупване на огромни количества данни. „Осмислянето на тези обеми от големи данни изисква авангардни инструменти и технологии, които могат да анализират и извличат полезни знания от огромни и разнообразни потоци от информация,“ пишат Том Калил и Фен Джао от Службата за научна и технологична политика на Белия дом в публикация в блога на OSTP.
Белият дом направи крачка към подпомагане на агенциите да намерят тези технологии, като създаде Националната инициатива за изследване и развитие на големи данни през 2012 г. Инициативата включваше над 200 милиона долара, за да се възползва максимално от експлозията на големи данни и инструментите, необходими за анализа им.
Предизвикателствата, които големите данни поставят, са почти толкова обезсърчителни, колкото и обещанието им е окуражаващо. Ефективното съхранение на данни е едно от тези предизвикателства. Както винаги, бюджетите са ограничени, така че агенциите трябва да минимизират цената на мегабайт за съхранение и да поддържат данните в лесен достъп, така че потребителите да могат да ги получат, когато и както им е необходимо. Архивирането на огромни количества данни засилва предизвикателството.
Ефективният анализ на данните е друго голямо предизвикателство. Много агенции използват търговски инструменти, които им позволяват да пресяват планините от данни, забелязвайки тенденции, които могат да им помогнат да работят по-ефективно. (Скорошно проучване на MeriTalk установи, че федералните ИТ ръководители смятат, че големите данни биха могли да помогнат на агенциите да спестят над 500 милиарда долара, като същевременно изпълняват целите на мисията си.).
Специално разработените инструменти за големи данни също позволяват на агенциите да адресират нуждата от анализ на техните данни. Например, групата за изчислителен анализ на данни към Националната лаборатория Оук Ридж е предоставила своята система за анализ на данни Piranha на други агенции. Системата е помогнала на медицински изследователи да открият връзка, която може да предупреди лекарите за аортни аневризми, преди да настъпят. Тя се използва и за по-обикновени задачи, като пресяване на автобиографии, за да свърже кандидати за работа с мениджъри по наемане.
Практическо въведение в анализа на данни и Big Data – 3 дни
21 ЧасаУчастниците, които завършат това обучение с инструктор на живо в България, ще придобият практическо и реалистично разбиране за Big Data и свързаните с тях технологии, методологии и инструменти.
Участниците ще имат възможност да приложат тези знания на практика чрез упражнения. Груповата работа и обратната връзка от инструктора са важна част от курса.
Курсът започва с въведение в основните концепции на Big Data, след което преминава към езиците за програмиране и методологиите, използвани за анализ на данни. Накрая разглеждаме инструментите и инфраструктурата, които осигуряват съхранението на Big Data, разпределената обработка и мащабируемостта.
Големи данни и усъвършенствана аналитика
42 ЧасаГолеми данни и усъвършенствана аналитика представлява прилагането на сложни техники и инструменти за анализ на големи, комплексни набори от данни с цел извличане на приложими прозрения и стратегическо вземане на решения.
Това обучение, водено от инструктор на живо (онлайн или на място), е насочено към специалисти по данни на напреднало ниво, които желаят да използват авангардни аналитични методи и технологии за големи данни за предсказваща, предписваща аналитика и аналитика в реално време.
До края на обучението участниците ще могат да:
- Проектират и внедряват мащабни потоци за обработка на структурирани и неструктурирани данни.
- Прилагат усъвършенствани техники за машинно обучение и дълбоко обучение върху масивни набори от данни.
- Използват рамки за разпределени изчисления за аналитика в реално време и стрийминг на данни.
- Интегрират анализа на големи данни в системи за бизнес интелигентност и вземане на решения.
Формат на курса
- Интерактивна лекция и дискусия.
- Множество упражнения и практически занятия.
- Практическо внедряване в среда на живо в лабораторни условия.
Опции за персонализиране на курса
- За заявка на персонализирано обучение по този курс, моля, свържете се с нас, за да го организираме.
Apache NiFi за администратори
21 ЧасаApache NiFi е платформа с отворен код за интеграция на данни и обработка на събития, базирана на потоци. Тя позволява автоматизирано, в реално време маршрутизиране, трансформация и системно посредничество между разнородни системи, с уеб-базиран потребителски интерфейс и прецизен контрол.
Това обучение с инструктор на живо (на място или от разстояние) е насочено към администратори и инженери на средно ниво, които желаят да внедряват, управляват, защитават и оптимизират потоци от данни в NiFi в производствени среди.
До края на това обучение участниците ще могат:
- Да инсталират, конфигурират и поддържат клъстери на Apache NiFi.
- Да проектират и управляват потоци от данни от различни източници и приемници.
- Да внедряват автоматизация на потоци, маршрутизиране и логика за трансформация.
- Да оптимизират производителността, да наблюдават операциите и да отстраняват проблеми.
Формат на курса
- Интерактивна лекция с дискусия върху реална архитектура.
- Практически лабораторни упражнения: изграждане, внедряване и управление на потоци.
- Упражнения, базирани на сценарии, в среда с реална лабораторна установка.
Опции за персонализиране на курса
- За да заявите персонализирано обучение за този курс, моля, свържете се с нас за уговорка.
PySpark и машинно обучение
21 ЧасаТова обучение предоставя практическо въведение в изграждането на мащабируеми процеси за обработка на данни и машинно обучение с помощта на PySpark. Участниците научават как Apache Spark функционира в съвременните Big Data екосистеми и как ефективно да обработват големи набори от данни, използвайки принципите на разпределените изчисления.
Основи на Apache Spark
21 ЧасаТова обучение с инструктор на живо в <България> (онлайн или на място) е предназначено за инженери, които желаят да настроят и внедрят Apache Spark система за обработка на много големи обеми от данни.
След завършване на обучението участниците ще могат да:
- Инсталират и конфигурират Apache Spark.
- Бързо обработват и анализират много големи масиви от данни.
- Разбират разликата между Apache Spark и Hadoop MapReduce и кога кое да използват.
- Интегрират Apache Spark с други инструменти за машинно обучение.
Администриране на Apache Spark
35 ЧасаТова обучение с инструктор на живо в България (онлайн или на място) е насочено към системни администратори от начинаещо до средно ниво, които желаят да внедряват, поддържат и оптимизират Spark клъстери.
До края на това обучение участниците ще могат да:
- Инсталират и конфигурират Apache Spark в различни среди.
- Управляват клъстерни ресурси и наблюдават Spark приложения.
- Оптимизират производителността на Spark клъстери.
- Прилагат мерки за сигурност и осигуряват висока достъпност.
- Дебъгват и отстраняват често срещани проблеми със Spark.
Apache Spark в облака
21 ЧасаКривата на обучение на Apache Spark в началото нараства бавно – нужни са значителни усилия, за да се постигнат първите резултати. Този курс цели да преодолее трудната начална фаза. След завършването му участниците ще разбират основите на Apache Spark, ще могат ясно да разграничават RDD от DataFrame, ще се запознаят с Python и Scala API, ще разберат какво представляват изпълнителите и задачите и др. Следвайки най-добрите практики, курсът поставя силен акцент върху внедряването в облак, Databricks и AWS. Участниците ще разберат и разликите между AWS EMR и AWS Glue – една от най-новите Spark услуги на AWS.
АУДИТОРИЯ:
Инженери по данни, DevOps специалисти, учени по данни
Python и Spark за големи данни (PySpark)
21 ЧасаВ това обучение с инструктор на живо в България участниците ще научат как да използват Python и Spark заедно за анализ на големи данни, докато работят по практически упражнения.
До края на това обучение участниците ще могат да:
- Научат как да използват Spark с Python за анализ на големи данни.
- Работят по упражнения, които наподобяват реални случаи.
- Използват различни инструменти и техники за анализ на големи данни с PySpark.
Python, Spark и Hadoop за големи данни
21 ЧасаТова обучение с инструктор на живо в България (онлайн или на място) е насочено към разработчици, които желаят да използват и интегрират Spark, Hadoop и Python, за да обработват, анализират и трансформират големи и сложни набори от данни.
До края на това обучение участниците ще могат:
- Да настроят необходимата среда за започване на обработка на големи данни със Spark, Hadoop и Python.
- Да разберат характеристиките, основните компоненти и архитектурата на Spark и Hadoop.
- Да се научат как да интегрират Spark, Hadoop и Python за обработка на големи данни.
- Да изследват инструментите в екосистемата на Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka и Flume).
- Да изградят системи за препоръки с колаборативно филтриране, подобни на Netflix, YouTube, Amazon, Spotify и Google.
- Да използват Apache Mahout за мащабиране на алгоритми за машинно обучение.
Stratio: Модули Rocket и Intelligence с PySpark
14 ЧасаStratio е платформа, ориентирана към данните, която интегрира големи масиви от данни, изкуствен интелект и управление в едно решение. Нейните модули Rocket и Intelligence позволяват бързо изследване на данни, трансформация и усъвършенствана аналитика в корпоративни среди.
Това обучение с инструктор на живо (онлайн или присъствено) е насочено към специалисти по данни на средно ниво, които искат ефективно да използват модулите Rocket и Intelligence в Stratio с PySpark, като се фокусират върху циклични структури, дефинирани от потребителя функции и усъвършенствана логика за работа с данни.
След завършване на обучението участниците ще могат:
- Да навигират и работят в платформата Stratio, използвайки модулите Rocket и Intelligence.
- Да прилагат PySpark в контекста на поглъщане, трансформация и анализ на данни.
- Да използват цикли и условна логика за контролиране на работни потоци с данни и задачи за създаване на характеристики.
- Да създават и управляват дефинирани от потребителя функции (UDF) за многократно използвани операции с данни в PySpark.
Формат на курса
- Интерактивна лекция и дискусия.
- Много упражнения и практика.
- Практическо изпълнение в среда с реална лаборатория.
Опции за персонализиране на курса
- За да заявите персонализирано обучение за този курс, моля, свържете се с нас за уговаряне.