Курс за обучение по SMACK Stack for Data Science
SMACK е колекция от софтуер за платформи за данни, а именно Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, и Apache Kafka. С помощта на SMACK stack, потребителите могат да създават и скалират платформи за обработка на данни.
Това обучение, ръководено от инструктори, на живо (онлайн или онлайн) е насочено към учени на данни, които искат да използват стака SMACK за изграждане на платформи за обработка на данни за големи решения за данни.
В края на обучението участниците ще могат да:
- Извършване на архитектура на тръбопровода за обработка на големи данни.
- Разработване на кластерна инфраструктура с Apache Mesos и Docker.
- Анализ на данните с Spark и Scala.
- Управление на неструктурирани данни с Apache Cassandra.
Формат на курса
- Интерактивна лекция и дискусия.
- Много упражнения и упражнения.
- Изпълнение на ръката в живо лабораторна среда.
Опции за персонализиране на курса
- За да поискате персонализирано обучение за този курс, моля, свържете се с нас, за да организирате.
План на курса
Въведение
Преглед на стека на SMACK
- Какво е Apache Spark? Функции на Apache Spark Какво е Apache Mesos? Функции на Apache Mesos Какво е Apache Akka? Функции на Apache Akka Какво е Apache Cassandra? Функции на Apache Cassandra Какво е Apache Kafka? Функции на Apache Kafka
Scala Език
- Scala синтаксис и структура Scala контролен поток
Подготовка на средата за разработка
- Инсталиране и конфигуриране на стека SMACK Инсталиране и конфигуриране Docker
Apache Akka
- Използване на актьори
Apache Cassandra
- Създаване на база данни за операции за четене Работа с архивиране и възстановяване
Съединители
- Създаване на поток Изграждане на приложение Akka Съхраняване на данни с Cassandra Преглед на конектори
Apache Kafka
- Работа с клъстери Създаване, публикуване и използване на съобщения
Apache Mesos
- Разпределяне на ресурси Изпълнение на клъстери Работа с Apache Aurora и Docker Изпълнение на услуги и задания Разполагане на Spark, Cassandra и Kafka на Mesos
Apache Spark
- Управление на потоци от данни Работа с RDD и рамки за данни Извършване на анализ на данни
Отстраняване на неизправности
- Обработване на неизправност на услугите и грешки
Обобщение и заключение
Изисквания
- Разбиране на системите за обработка на данни
Публика
- Учени по данни
Отворените курсове за обучение изискват 5+ участници.
Курс за обучение по SMACK Stack for Data Science - Booking
Курс за обучение по SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Консултантско запитване
Oтзиви от потребители (1)
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
Upcoming Courses
Свързани Kурсове
Kaggle
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към учени и разработчици на данни, които желаят да учат и изградят кариерата си в Data Science с помощта на Kaggle.
До края на това обучение участниците ще могат:
- Научете за науката за данните и машинното обучение.
- Разгледайте анализа на данни.
- Научете за Kaggle и как работи.
Accelerating Python Pandas Workflows with Modin
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към учени и разработчици на данни, които желаят да използват Modin за изграждане и прилагане на паралелни изчисления с Pandas за по-бърз анализ на данни.
До края на това обучение участниците ще могат:
- Настройте необходимата среда, за да започнете да разработвате Pandas работни потоци в мащаб с Modin.
- Разберете характеристиките, архитектурата и предимствата на Modin.
- Познайте разликите между Modin, Dask и Ray.
- Извършвайте Pandas операции по-бързо с Modin.
- Внедрете целия Pandas API и функции.
GPU Data Science with NVIDIA RAPIDS
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към учени и разработчици на данни, които желаят да използват RAPIDS за изграждане на GPU-ускорени конвейери за данни, работни потоци и визуализации, като прилагат алгоритми за машинно обучение, като напр. XGBoost, cuML и др.
До края на това обучение участниците ще могат:
- Настройте необходимата среда за разработка за изграждане на модели на данни с NVIDIA RAPIDS.
- Разберете характеристиките, компонентите и предимствата на RAPIDS.
- Използвайте GPU за ускоряване на тръбопроводите за данни и анализи от край до край.
- Внедрете GPU-ускорена подготовка на данни и ETL с cuDF и Apache Arrow.
- Научете как да изпълнявате задачи за машинно обучение с XGBoost и cuML алгоритми.
- Изградете визуализации на данни и изпълнете анализ на графики с cuXfilter и cuGraph.
Anaconda Ecosystem for Data Scientists
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към специалисти по данни, които желаят да използват екосистемата Anaconda за улавяне, управление и внедряване на пакети и работни процеси за анализ на данни в една платформа.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте компоненти и библиотеки на Anaconda.
- Разберете основните концепции, функции и предимства на Anaconda.
- Управлявайте пакети, среди и канали с помощта на Anaconda Navigator.
- Използвайте пакети Conda, R и Python за наука за данни и машинно обучение.
- Запознайте се с някои практически случаи и техники за управление на множество среди с данни.
Python and Spark for Big Data (PySpark)
21 ЧасаВ това водено от инструктор обучение на живо в България участниците ще се научат как да използват Python и Spark заедно, за да анализират големи данни, докато работят върху практически упражнения.
До края на това обучение участниците ще могат:
- Научете как да използвате Spark с Python за анализ на големи данни.
- Работете върху упражнения, които имитират случаи от реалния свят.
- Използвайте различни инструменти и техники за анализ на големи данни с помощта на PySpark.
Introduction to Graph Computing
28 ЧасаВ това водено от инструктор обучение на живо в България участниците ще научат за технологичните предложения и подходите за внедряване за обработка на графични данни. Целта е да се идентифицират обекти от реалния свят, техните характеристики и връзки, след това да се моделират тези връзки и да се обработват като данни с помощта на Graph Computing (известен също като Graph Analytics) подход. Започваме с широк преглед и се ограничаваме до конкретни инструменти, докато преминаваме през поредица от казуси, практически упражнения и внедрявания на живо.
До края на това обучение участниците ще могат:
- Разберете как данните от графиката се поддържат и преминават.
- Изберете най-добрата рамка за дадена задача (от бази данни с графики до рамки за групова обработка.)
- Приложете Hadoop, Spark, GraphX и Pregel за извършване на изчисления на графики в много машини паралелно.
- Вижте реални проблеми с големи данни от гледна точка на графики, процеси и обхождания.
Apache Spark MLlib
35 ЧасаMLlib е библиотеката за машинно обучение (ML) на Spark. Целта му е да направи практическото машинно обучение мащабируемо и лесно. Състои се от общи алгоритми и помощни програми за обучение, включително класификация, регресия, клъстериране, съвместно филтриране, намаляване на размерността, както и примитиви за оптимизация от по-ниско ниво и приложни програмни интерфейси за конвейер от по-високо ниво.
Разделя се на два пакета:
- spark.mllib съдържа оригиналния API, изграден върху RDD. spark.ml предоставя API от по-високо ниво, изграден върху DataFrames за конструиране на ML тръбопроводи.
Публика
Този курс е насочен към инженери и разработчици, които искат да използват вградена машинна библиотека за Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 ЧасаТози курс е предназначен за разработчици и специалисти по данни, които искат да разберат и внедрят изкуствения интелект в своите приложения. Специален фокус е върху анализа на данни, разпределения изкуствен интелект и обработката на естествен език.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 ЧасаПреглед
Communication доставчиците на услуги (CSP) се сблъскват с натиск, за да намалят разходите и да максимизират средния доход на потребител (ARPU), като същевременно осигуряват отличен клиентски опит, но обемите на данните продължават да растат. Глобален мобилен трафик на данни ще расте с комбиниран годишен темп на растеж (CAGR) от 78% до 2016 г., достигайки 10,8 екзабит на месец.
Междувременно CSPs генерират големи обеми данни, включително записи за подробности за обаждания (CDR), данни за мрежата и данни за клиентите. Компаниите, които напълно експлоатират тези данни, получават конкурентен ръб. Според неотдавнашно проучване на The Economist Intelligence Unit, компаниите, които използват вземане на решения, насочени към данни, получават 5-6% увеличение на производителността. Въпреки това 53% от компаниите използват само половината от ценните си данни, а една четвърт от анкетираните отбелязват, че огромни количества полезни данни са пропуснати. Обемът на данните е толкова висок, че ръчното анализиране е невъзможно и повечето софтуерни системи могат да се запазят, което води до пренебрегване или пренебрегване на ценни данни.
С Big Data & Analytics’ високоскоростен, скалиращ софтуер за големи данни, CSPs могат да минат всичките си данни за по-добро вземане на решения в по-малко време. Различни Big Data продукти и техники осигуряват крайно-на-крайната софтуерна платформа за събиране, подготовка, анализ и представяне на увид от големите данни. Областите на приложенията включват мониторинг на мрежовата ефективност, откриване на измами, откриване на клиентите и анализ на кредитния риск. Big Data & Продукти за анализ мащаб за обработка на терабити от данни, но изпълнението на такива инструменти изисква нов вид на база данни на облака система като Hadoop или масивен мащаб паралелен компютър процесор ( KPU и т.н.)
Този курс работи върху Big Data BI за Telco обхваща всички възникващи нови области, в които CSP инвестират за увеличаване на производителността и отваряне на нов бизнес поток на приходи. Курсът ще осигури пълен 360 градуса поглед върху Big Data BI в Telco, така че вземащите решения и мениджърите могат да имат много широк и цялостен преглед на възможностите на Big Data BI в Telco за производителност и печалби.
Цели на курса
Основната цел на курса е да се въведат нови Big Data бизнес интелигентни техники в 4 сектори на Telecom Business (Marketing / продажби, мрежови операции, финансови операции и взаимоотношения с клиентите Management). Студентите ще бъдат поканени да следват:
- Въведение в Big Data-което е 4Vs (обем, скорост, разнообразие и вертикалност) в Big Data- Генерация, екстракция и управление от перспектива на Telco
- Как Big Data анализът се различава от наследствения анализ на данните
- Вътрешно оправдание на Big Data -Telco перспектива
- Въведение в Hadoop Екосистема- запознаване с всички Hadoop инструменти като Hive, Pig, SPARC –кога и как те се използват за решаване на проблема Big Data
- Как Big Data е извлечен за анализ за аналитичен инструмент-как Business Analysis’s могат да намалят техните точки на болка на събиране и анализ на данни чрез интегриран Hadoop подход на таблата
- Основно въведение в анализа на Insight, анализа на визуализацията и прогнозната анализа за Telco
- Анализът на клиента и Big Data-как Big Data анализът могат да намалят недоволството на клиента и недоволството на клиента в изследванията на Telco-каса
- Анализ на мрежови неуспехи и сервизни неуспехи от мрежови метаданни и IPDR
- Финансов анализ - измама, измама и оценка на ROI от продажбите и оперативните данни
- Проблеми с закупуването на клиенти-Целена маркетинг, сегментация на клиентите и кръстопродажба от данни за продажбите
- Въведение и обобщение на всички Big Data аналитични продукти и къде се вписват в аналитичното пространство на Telco
- Заключение-как да се вземе стъпка по стъпка подход за въвеждане Big Data Business Intelligence в организацията си
Целенасочена аудитория
- Операция на мрежата, финансови мениджъри, CRM мениджъри и топ ИТ мениджъри в офиса на Telco CIO.
- Business Аналитикуващи в Telco
- Мениджъри / Аналитици на CFO
- Оперативни мениджъри
- КА мениджъри
Data Science for Big Data Analytics
35 ЧасаГолемите данни са набори от данни, които са толкова обемни и сложни, че традиционният приложен софтуер за обработка на данни е неадекватен да се справи с тях. Предизвикателствата с големи данни включват улавяне на данни, съхранение на данни, анализ на данни, търсене, споделяне, трансфер, визуализация, заявки, актуализиране и поверителност на информацията.
Data Science: Analysis and Presentation
7 ЧасаWolfram Интегрираната среда на системата я прави ефективен инструмент както за анализиране, така и за представяне на данни. Този курс обхваща аспекти на Wolfram езика, свързани с анализа, включително статистически изчисления, визуализация, импортиране и експортиране на данни и автоматично генериране на отчети.
Data Science Programme
245 ЧасаЕксплозията от информация и данни в днешния свят е несравнима, способността ни да правим иновации и да прекрачваме границите на възможното нараства по-бързо от всякога. Ролята на Data Scientist е едно от най-търсените умения в индустрията днес.
Ние предлагаме много повече от обучение чрез теория; ние предоставяме практически, продаваеми умения, които преодоляват пропастта между света на академичните среди и изискванията на индустрията.
Тази 7-седмична учебна програма може да бъде съобразена с вашите специфични изисквания на индустрията, моля свържете се с нас за допълнителна информация или посетете уебсайта на Nobleprog Institute
Публика:
Тази програма е насочена към висшисти, както и към всеки с необходимите предварителни умения, които ще бъдат определени чрез оценка и интервю.
Доставка:
Предоставянето на курса ще бъде комбинация от класна стая, водена от инструктор, и онлайн водена от инструктор; обикновено първата седмица ще бъде „водена от класна стая“, седмици 2 – 6 „виртуална класна стая“ и седмица 7 обратно към „водена от класна стая“.
MATLAB Fundamentals, Data Science & Report Generation
35 ЧасаВ първата част на това обучение разглеждаме основите на MATLAB и функцията му като език и платформа. В тази дискусия е включено въведение в MATLAB синтаксиса, масивите и матриците, визуализацията на данни, разработването на скриптове и обектно-ориентираните принципи.
Във втората част ние демонстрираме как да използваме MATLAB за извличане на данни, машинно обучение и прогнозен анализ. За да предоставим на участниците ясна и практична перспектива за подхода и силата на MATLAB, ние правим сравнения между използването на MATLAB и използването на други инструменти като електронни таблици, C, C++ и Visual Basic.
В третата част на обучението участниците се научават как да рационализират работата си чрез автоматизиране на обработката на данните и генерирането на отчети.
По време на курса участниците ще приложат на практика идеите, научени чрез практически упражнения в лабораторна среда. До края на обучението участниците ще имат задълбочена представа за възможностите на MATLAB и ще могат да го използват за решаване на реални проблеми с науката за данни, както и за рационализиране на работата си чрез автоматизация.
По време на курса ще се извършват оценки, за да се оцени напредъкът.
Формат на курса
- Курсът включва теоретични и практически упражнения, включително дискусии по казуси, проверка на примерен код и практическо внедряване.
Забележка
- Практическите сесии ще се основават на предварително подготвени примерни шаблони за отчет с данни. Ако имате специфични изисквания, моля свържете се с нас, за да уговорим.
Jupyter for Data Science Teams
7 ЧасаJupyter е уеб-базирана интерактивна IDE и компютърна среда с отворен код.
Това водено от инструктор обучение на живо (онлайн или на място) въвежда идеята за съвместно развитие в науката за данни и демонстрира как да използвате Jupyter за проследяване и участие като екип в „жизнения цикъл на изчислителна идея“. Той превежда участниците през създаването на примерен проект за наука за данни, базиран на върха на екосистемата на Юпитер.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте Jupyter, включително създаването и интегрирането на екипно хранилище в Git.
- Използвайте функциите на Jupyter като разширения, интерактивни уиджети, многопотребителски режим и други, за да активирате сътрудничеството по проекти.
- Създавайте, споделяйте и организирайте Jupyter Notebooks с членовете на екипа.
- Изберете от Scala, Python, R, за да пишете и изпълнявате код срещу системи с големи данни като Apache Spark, всичко това чрез интерфейса на Jupyter.
Формат на курса
- Интерактивна лекция и дискусия.
- Много упражнения и практика.
- Практическо внедряване в лабораторна среда на живо.
Опции за персонализиране на курса
- Jupyter Notebook поддържа над 40 езика, включително R, Python, Scala, Julia и т.н. За да персонализирате този курс според избрания от вас език(ци), моля свържете се с нас, за да уговорим.
F# for Data Science
21 ЧасаНауката за данни е приложение на статистически анализ, машинно обучение, визуализация на данни и програмиране с цел разбиране и интерпретиране на данни от реалния свят. F# е много подходящ език за програмиране за наука за данни, тъй като съчетава ефективно изпълнение, REPL-скриптове, мощни библиотеки и мащабируема интеграция на данни.
В това водено от инструктор обучение на живо участниците ще се научат как да използват F# за решаване на поредица от реални проблеми с науката за данни.
До края на това обучение участниците ще могат:
- Използвайте интегрираните пакети за наука за данни на F# Използвайте F# за взаимодействие с други езици и платформи, включително Excel, R, Matlab и Python Използвайте пакета Deedle за решаване на проблеми с времеви серии Извършвайте усъвършенстван анализ с минимални редове код за производствено качество Разберете как функционалното програмиране е естествено подходящо за научни изчисления и изчисления с големи данни Достъп и визуализиране на данни с F# Прилагане на F# за машинно обучение
Разгледайте решения за проблеми в области като бизнес разузнаване и социални игри
Публика
- Разработчици Учени по данни
Формат на курса
- Част лекция, част дискусия, упражнения и тежка практическа практика