Курс за обучение по SMACK Stack for Data Science
SMACK е колекция от софтуер за платформи за данни, а именно Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, и Apache Kafka. С помощта на SMACK stack, потребителите могат да създават и скалират платформи за обработка на данни.
Това обучение, ръководено от инструктори, на живо (онлайн или онлайн) е насочено към учени на данни, които искат да използват стака SMACK за изграждане на платформи за обработка на данни за големи решения за данни.
В края на обучението участниците ще могат да:
- Извършване на архитектура на тръбопровода за обработка на големи данни.
- Разработване на кластерна инфраструктура с Apache Mesos и Docker.
- Анализ на данните с Spark и Scala.
- Управление на неструктурирани данни с Apache Cassandra.
Формат на курса
- Интерактивна лекция и дискусия.
- Много упражнения и упражнения.
- Изпълнение на ръката в живо лабораторна среда.
Опции за персонализиране на курса
- За да поискате персонализирано обучение за този курс, моля, свържете се с нас, за да организирате.
План на курса
Въведение
Преглед на стека на SMACK
- Какво е Apache Spark? Функции на Apache Spark Какво е Apache Mesos? Функции на Apache Mesos Какво е Apache Akka? Функции на Apache Akka Какво е Apache Cassandra? Функции на Apache Cassandra Какво е Apache Kafka? Функции на Apache Kafka
Scala Език
- Scala синтаксис и структура Scala контролен поток
Подготовка на средата за разработка
- Инсталиране и конфигуриране на стека SMACK Инсталиране и конфигуриране Docker
Apache Akka
- Използване на актьори
Apache Cassandra
- Създаване на база данни за операции за четене Работа с архивиране и възстановяване
Съединители
- Създаване на поток Изграждане на приложение Akka Съхраняване на данни с Cassandra Преглед на конектори
Apache Kafka
- Работа с клъстери Създаване, публикуване и използване на съобщения
Apache Mesos
- Разпределяне на ресурси Изпълнение на клъстери Работа с Apache Aurora и Docker Изпълнение на услуги и задания Разполагане на Spark, Cassandra и Kafka на Mesos
Apache Spark
- Управление на потоци от данни Работа с RDD и рамки за данни Извършване на анализ на данни
Отстраняване на неизправности
- Обработване на неизправност на услугите и грешки
Обобщение и заключение
Изисквания
- Разбиране на системите за обработка на данни
Публика
- Учени по данни
Отворените курсове за обучение изискват 5+ участници.
Курс за обучение по SMACK Stack for Data Science - Booking
Курс за обучение по SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Консултантско запитване
Консултантско запитване
Oтзиви от потребители (1)
очень интерактивен...
Richard Langford
Курс - SMACK Stack for Data Science
Машинен превод
Предстоящи Курсове
Свързани Kурсове
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 ЧасаТози курс е предназначен за разработчици и специалисти по данни, които искат да разберат и внедрят изкуствения интелект в своите приложения. Специален фокус е върху анализа на данни, разпределения изкуствен интелект и обработката на естествен език.
Anaconda Ecosystem for Data Scientists
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към специалисти по данни, които желаят да използват екосистемата Anaconda за улавяне, управление и внедряване на пакети и работни процеси за анализ на данни в една платформа.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте Anaconda компоненти и библиотеки.
- Разберете основните концепции, функции и предимства на Anaconda.
- Управлявайте пакети, среди и канали с помощта на Anaconda Навигатор.
- Използвайте пакети Conda, R и Python за наука за данни и машинно обучение.
- Запознайте се с някои практически случаи и техники за управление на множество среди с данни.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 ЧасаПреглед
Communication доставчиците на услуги (CSP) се сблъскват с натиск, за да намалят разходите и да максимизират средния доход на потребител (ARPU), като същевременно осигуряват отличен клиентски опит, но обемите на данните продължават да растат. Глобален мобилен трафик на данни ще расте с комбиниран годишен темп на растеж (CAGR) от 78% до 2016 г., достигайки 10,8 екзабит на месец.
Междувременно CSPs генерират големи обеми данни, включително записи за подробности за обаждания (CDR), данни за мрежата и данни за клиентите. Компаниите, които напълно експлоатират тези данни, получават конкурентен ръб. Според неотдавнашно проучване на The Economist Intelligence Unit, компаниите, които използват вземане на решения, насочени към данни, получават 5-6% увеличение на производителността. Въпреки това 53% от компаниите използват само половината от ценните си данни, а една четвърт от анкетираните отбелязват, че огромни количества полезни данни са пропуснати. Обемът на данните е толкова висок, че ръчното анализиране е невъзможно и повечето софтуерни системи могат да се запазят, което води до пренебрегване или пренебрегване на ценни данни.
С Big Data & Analytics’ високоскоростен, скалиращ софтуер за големи данни, CSPs могат да минат всичките си данни за по-добро вземане на решения в по-малко време. Различни Big Data продукти и техники осигуряват крайно-на-крайната софтуерна платформа за събиране, подготовка, анализ и представяне на увид от големите данни. Областите на приложенията включват мониторинг на мрежовата ефективност, откриване на измами, откриване на клиентите и анализ на кредитния риск. Big Data & Продукти за анализ мащаб за обработка на терабити от данни, но изпълнението на такива инструменти изисква нов вид на база данни на облака система като Hadoop или масивен мащаб паралелен компютър процесор ( KPU и т.н.)
Този курс работи върху Big Data BI за Telco обхваща всички възникващи нови области, в които CSP инвестират за увеличаване на производителността и отваряне на нов бизнес поток на приходи. Курсът ще осигури пълен 360 градуса поглед върху Big Data BI в Telco, така че вземащите решения и мениджърите могат да имат много широк и цялостен преглед на възможностите на Big Data BI в Telco за производителност и печалби.
Цели на курса
Основната цел на курса е да се въведат нови Big Data бизнес интелигентни техники в 4 сектори на Telecom Business (Marketing / продажби, мрежови операции, финансови операции и взаимоотношения с клиентите Management). Студентите ще бъдат поканени да следват:
- Въведение в Big Data-което е 4Vs (обем, скорост, разнообразие и вертикалност) в Big Data- Генерация, екстракция и управление от перспектива на Telco
- Как Big Data анализът се различава от наследствения анализ на данните
- Вътрешно оправдание на Big Data -Telco перспектива
- Въведение в Hadoop Екосистема- запознаване с всички Hadoop инструменти като Hive, Pig, SPARC –кога и как те се използват за решаване на проблема Big Data
- Как Big Data е извлечен за анализ за аналитичен инструмент-как Business Analysis’s могат да намалят техните точки на болка на събиране и анализ на данни чрез интегриран Hadoop подход на таблата
- Основно въведение в анализа на Insight, анализа на визуализацията и прогнозната анализа за Telco
- Анализът на клиента и Big Data-как Big Data анализът могат да намалят недоволството на клиента и недоволството на клиента в изследванията на Telco-каса
- Анализ на мрежови неуспехи и сервизни неуспехи от мрежови метаданни и IPDR
- Финансов анализ - измама, измама и оценка на ROI от продажбите и оперативните данни
- Проблеми с закупуването на клиенти-Целена маркетинг, сегментация на клиентите и кръстопродажба от данни за продажбите
- Въведение и обобщение на всички Big Data аналитични продукти и къде се вписват в аналитичното пространство на Telco
- Заключение-как да се вземе стъпка по стъпка подход за въвеждане Big Data Business Intelligence в организацията си
Целенасочена аудитория
- Операция на мрежата, финансови мениджъри, CRM мениджъри и топ ИТ мениджъри в офиса на Telco CIO.
- Business Аналитикуващи в Telco
- Мениджъри / Аналитици на CFO
- Оперативни мениджъри
- КА мениджъри
Data Science Programme
245 ЧасаЕксплозията от информация и данни в днешния свят е несравнима, способността ни да правим иновации и да прекрачваме границите на възможното нараства по-бързо от всякога. Ролята на Data Scientist е едно от най-търсените умения в индустрията днес.
Ние предлагаме много повече от обучение чрез теория; ние предоставяме практически, продаваеми умения, които преодоляват пропастта между света на академичните среди и изискванията на индустрията.
Тази 7-седмична учебна програма може да бъде съобразена с вашите специфични изисквания на индустрията, моля свържете се с нас за допълнителна информация или посетете уебсайта на Nobleprog Institute
Публика:
Тази програма е насочена към висшисти, както и към всеки с необходимите предварителни умения, които ще бъдат определени чрез оценка и интервю.
Доставка:
Предоставянето на курса ще бъде комбинация от класна стая, водена от инструктор, и онлайн водена от инструктор; обикновено първата седмица ще бъде „водена от класна стая“, седмици 2 – 6 „виртуална класна стая“ и седмица 7 обратно към „водена от класна стая“.
Data Science for Big Data Analytics
35 ЧасаГолемите данни са набори от данни, които са толкова обемни и сложни, че традиционният приложен софтуер за обработка на данни е неадекватен да се справи с тях. Предизвикателствата с големи данни включват улавяне на данни, съхранение на данни, анализ на данни, търсене, споделяне, трансфер, визуализация, заявки, актуализиране и поверителност на информацията.
Data Science essential for Marketing/Sales professionals
21 ЧасаТози курс е предназначен за Marketing специалисти по продажбите, които възнамеряват да навлязат по-дълбоко в приложението на науката за данни в Marketing/продажби. Курсът предоставя подробно покритие на различни техники за наука за данни, използвани за „допълнителна продажба“, „кръстосана продажба“, сегментиране на пазара, брандиране и CLV.
Разлика между Marketing и продажбите - Как се различават продажбите и маркетингът?
С много прости думи продажбите могат да бъдат определени като процес, който се фокусира или е насочен към индивиди или малки групи. Marketing от друга страна е насочен към по-голяма група или широката публика. Marketing включва проучване (идентифициране на нуждите на клиента), разработване на продукти (производство на иновативни продукти) и популяризиране на продукта (чрез реклами) и създаване на информираност за продукта сред потребителите. Като такъв маркетинг означава генериране на потенциални клиенти или перспективи. След като продуктът е на пазара, задачата на продавача е да убеди клиента да купи продукта. Продажбите означават превръщане на потенциални клиенти или перспективи в покупки и поръчки, докато маркетингът е насочен към по-дълги срокове, продажбите се отнасят към по-кратки цели.
Introduction to Graph Computing
28 ЧасаВ това водено от инструктор обучение на живо в България участниците ще научат за технологичните предложения и подходите за внедряване за обработка на графични данни. Целта е да се идентифицират обекти от реалния свят, техните характеристики и взаимоотношения, след това да се моделират тези взаимоотношения и да се обработят като данни с помощта на Graph Computing (известен също като Graph Analytics) подход. Започваме с широк преглед и се ограничаваме до конкретни инструменти, докато преминаваме през поредица от казуси, практически упражнения и внедрявания на живо.
До края на това обучение участниците ще могат:
- Разберете как данните от графиката се поддържат и преминават.
- Изберете най-добрата рамка за дадена задача (от бази данни с графики до рамки за пакетна обработка.)
- Приложете Hadoop, Spark, GraphX и Pregel за извършване на графични изчисления в много машини паралелно.
- Вижте реални проблеми с големи данни от гледна точка на графики, процеси и обхождания.
Jupyter for Data Science Teams
7 ЧасаТова обучение с инструктор, провеждано на живо (онлайн или на място), представя идеята за съвместно разработване в науката за данни и демонстрира как да използвате Jupyter за следене и участие като отбор в "живота на компютърна идея". То води участниците през създаването на примерен проект за наука за данни, базиран върху екосистемата на Jupyter.
До края на това обучение участниците ще бъдат способни да:
- Инсталират и конфигурират Jupyter, включително създаването и интеграцията на отборен репозиторий на Git.
- Използват функции на Jupyter, като разширения, интерактивни виджета, режим за многопотребители и други, за да осигурят съвместна работа по проекта.
- Създават, споделят и организират Jupyter Notebooks с членове на отбора.
- Избират между Scala, Python, R, за да пишат и изпълняват код към големи системи за данни, като Apache Spark, всичко през интерфейса на Jupyter.
Kaggle
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към учени и разработчици на данни, които желаят да учат и изградят кариерата си в Data Science с помощта на Kaggle.
До края на това обучение участниците ще могат:
- Научете за науката за данните и машинното обучение.
- Разгледайте анализа на данни.
- Научете за Kaggle и как работи.
MATLAB Fundamentals, Data Science & Report Generation
35 ЧасаВ първата част на това обучение разглеждаме основите на MATLAB и функцията му като език и платформа. В тази дискусия е включено въведение в MATLAB синтаксиса, масивите и матриците, визуализацията на данни, разработването на скриптове и обектно-ориентираните принципи.
Във втората част ние демонстрираме как да използваме MATLAB за извличане на данни, машинно обучение и прогнозен анализ. За да предоставим на участниците ясна и практична перспектива за подхода и силата на MATLAB, ние правим сравнения между използването на MATLAB и използването на други инструменти като електронни таблици, C, C++ и Visual Basic.
В третата част на обучението участниците се научават как да рационализират работата си чрез автоматизиране на обработката на данните и генерирането на отчети.
По време на курса участниците ще приложат на практика идеите, научени чрез практически упражнения в лабораторна среда. До края на обучението участниците ще имат задълбочена представа за възможностите на MATLAB и ще могат да го използват за решаване на реални проблеми с науката за данни, както и за рационализиране на работата си чрез автоматизация.
По време на курса ще се извършват оценки, за да се оцени напредъкът.
Формат на курса
- Курсът включва теоретични и практически упражнения, включително дискусии по казуси, проверка на примерен код и практическо внедряване.
Забележка
- Практическите сесии ще се основават на предварително подготвени примерни шаблони за отчет с данни. Ако имате специфични изисквания, моля свържете се с нас, за да уговорим.
Accelerating Python Pandas Workflows with Modin
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към специалисти по данни и разработчици, които желаят да използват Modin за изграждане и прилагане на паралелни изчисления с Pandas за по-бърз анализ на данни.
До края на това обучение участниците ще могат:
- Настройте необходимата среда, за да започнете да разработвате Pandas работни потоци в мащаб с Modin.
- Разберете характеристиките, архитектурата и предимствата на Modin.
- Познайте разликите между Modin, Dask и Ray.
- Изпълнете Pandas операции по-бързо с Modin.
- Внедрете целия Pandas API и функции.
Python Programming for Finance
35 ЧасаPython е език за програмиране, който придоби огромна популярност във финансовата индустрия. Приет от най-големите инвестиционни банки и хедж фондове, той се използва за изграждане на широка гама от финансови приложения, вариращи от основни програми за търговия до системи за управление на риска.
В това водено от инструктор обучение на живо участниците ще се научат как да използват Python за разработване на практически приложения за решаване на редица специфични проблеми, свързани с финансите.
До края на това обучение участниците ще могат:
- Да разберат основите на програмния език Python
- Да изтеглят, инсталират и поддържат най-добрите инструменти за разработка за създаване на финансови приложения в Python
- Да избират и използват най-подходящите пакети и програмни техники на Python за организиране, визуализиране и анализиране на финансови данни от различни източници (CSV, Excel, бази данни, уеб и др.)
- Да изграждат приложения, които решават проблеми, свързани с разпределението на активите, анализа на риска, инвестиционната ефективност и други
- Да отстраняват грешки, интегрират, разгръщат и оптимизират приложение на Python
Публика
- Разработчици
- Анализатори
- Количествени анализатори (Quants)
Формат на курса
- Комбинация от лекции, дискусии, упражнения и интензивна практическа работа
Забележка
- Това обучение има за цел да предостави решения на някои от основните проблеми, пред които са изправени финансовите специалисти. Ако обаче имате конкретна тема, инструмент или техника, върху която искате да наблегнете или да разширите, моля, свържете се с нас, за да я обсъдим.
GPU Data Science with NVIDIA RAPIDS
14 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към учени и разработчици на данни, които желаят да използват RAPIDS за изграждане на GPU-ускорени канали за данни, работни потоци и визуализации, прилагайки алгоритми за машинно обучение, като XGBoost, cuML и др.
До края на това обучение участниците ще могат:
- Настройте необходимата среда за разработка за изграждане на модели на данни с NVIDIA RAPIDS.
- Разберете характеристиките, компонентите и предимствата на RAPIDS.
- Използвайте GPU за ускоряване на тръбопроводите за данни и анализи от край до край.
- Внедрете GPU-ускорена подготовка на данни и ETL с cuDF и Apache Arrow.
- Научете как да изпълнявате задачи за машинно обучение с алгоритми XGBoost и cuML.
- Изградете визуализации на данни и изпълнете анализ на графики с cuXfilter и cuGraph.
Python and Spark for Big Data (PySpark)
21 ЧасаВ това водено от инструктор обучение на живо в България участниците ще се научат как да използват Python и Spark заедно, за да анализират големи данни, докато работят върху практически упражнения.
До края на това обучение участниците ще могат:
- Научете как да използвате Spark с Python за анализ на Big Data.
- Работете върху упражнения, които имитират случаи от реалния свят.
- Използвайте различни инструменти и техники за анализ на големи данни, използвайки PySpark.
Apache Spark MLlib
35 ЧасаMLlib е библиотеката за машинно обучение (ML) на Spark. Целта му е да направи практическото машинно обучение мащабируемо и лесно. Състои се от общи алгоритми и помощни програми за обучение, включително класификация, регресия, клъстериране, съвместно филтриране, намаляване на размерността, както и примитиви за оптимизация от по-ниско ниво и приложни програмни интерфейси за конвейер от по-високо ниво.
Разделя се на два пакета:
- spark.mllib съдържа оригиналния API, изграден върху RDD. spark.ml предоставя API от по-високо ниво, изграден върху DataFrames за конструиране на ML тръбопроводи.
Публика
Този курс е насочен към инженери и разработчици, които искат да използват вградена машинна библиотека за Apache Spark