Курс за обучение по SMACK Stack за Науки за Данни
SMACK е събиране на софтуерни платформи за обработка на данни, а именно Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra и Apache Kafka. С помощта на стека SMACK потребителите могат да създават и разширяват платформи за обработка на данни.
Този курс с инструктор, воден жив (онлайн или на място), е направен за специалисти по данни, които искат да използват стека SMACK за изграждане на платформи за обработка на данни за решения за големи данни.
До края на този курс участниците ще могат да:
- Имплементират архитектура на пиплайн за обработка на големи данни.
- Развиват кластерна инфраструктура с Apache Mesos и Docker.
- Анализират данни с Spark и Scala.
- Управляват неуредени данни с Apache Cassandra.
Формат на курса
- Интерактивна лекция и дискусия.
- Много упражнения и практика.
- Практическо изпълнение в среда за живи лаборатории.
Опции за персонализиране на курса
- За настаняване на персонализиран обучение за този курс, моля свържете се с нас, за да уредите.
План на курса
Введение
Преглед на стека SMACK
- Какво е Apache Spark? Особености на Apache Spark
- Какво е Apache Mesos? Особености на Apache Mesos
- Какво е Apache Akka? Особености на Apache Akka
- Какво е Apache Cassandra? Особености на Apache Cassandra
- Какво е Apache Kafka? Особености на Apache Kafka
Езикът Scala
- Синтаксис и структура на Scala
- Поток на контрол в Scala
Подготовка на разработващата среда
- Инсталиране и конфигуриране на стека SMACK
- Инсталиране и конфигуриране на Docker
Apache Akka
- Използване на актьори
Apache Cassandra
- Създаване на база данни за операции на четене
- Работа с резервни копия и възстановяване
Конектори
- Създаване на поток
- Създаване на приложение с Akka
- Запазване на данни с Cassandra
- Преглед на конекторите
Apache Kafka
- Работа с кластери
- Създаване, публикуване и консумиране на съобщения
Apache Mesos
- Разпределяне на ресурси
- Пускане на кластери
- Работа с Apache Aurora и Docker
- Пускане на услуги и задачи
- Развертане на Spark, Cassandra и Kafka на Mesos
Apache Spark
- Управление на потокове на данни
- Работа с RDD и датафреймове
- Извършване на анализ на данни
Диагностика на проблеми
- Разрешаване на грешки и проблемни услуги
Резюме и заключение
Изисквания
- Разбиране на системи за обработка на данни
Целева аудитория
- Данни Scientists
Отворените курсове за обучение изискват 5+ участника.
Курс за обучение по SMACK Stack за Науки за Данни - Резервация
Курс за обучение по SMACK Stack за Науки за Данни - Запитване
SMACK Stack за Науки за Данни - Консултантско запитване
Консултантско запитване
Отзиви от потребители (1)
очень интерактивен...
Richard Langford
Курс - SMACK Stack for Data Science
Машинен превод
Предстоящи Курсове
Свързани Kурсове
Екосистема за Data Scientists
14 часаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към специалисти по данни, които желаят да използват екосистемата Anaconda за улавяне, управление и внедряване на пакети и работни процеси за анализ на данни в една платформа.
До края на това обучение участниците ще могат:
- Инсталирайте и конфигурирайте Anaconda компоненти и библиотеки.
- Разберете основните концепции, функции и предимства на Anaconda.
- Управлявайте пакети, среди и канали с помощта на Anaconda Навигатор.
- Използвайте пакети Conda, R и Python за наука за данни и машинно обучение.
- Запознайте се с някои практически случаи и техники за управление на множество среди с данни.
Big Data Business Intelligence за Telecom и Communication провайдери на услуги
35 часаПреглед
Communication доставчиците на услуги (CSP) се сблъскват с натиск, за да намалят разходите и да максимизират средния доход на потребител (ARPU), като същевременно осигуряват отличен клиентски опит, но обемите на данните продължават да растат. Глобален мобилен трафик на данни ще расте с комбиниран годишен темп на растеж (CAGR) от 78% до 2016 г., достигайки 10,8 екзабит на месец.
Междувременно CSPs генерират големи обеми данни, включително записи за подробности за обаждания (CDR), данни за мрежата и данни за клиентите. Компаниите, които напълно експлоатират тези данни, получават конкурентен ръб. Според неотдавнашно проучване на The Economist Intelligence Unit, компаниите, които използват вземане на решения, насочени към данни, получават 5-6% увеличение на производителността. Въпреки това 53% от компаниите използват само половината от ценните си данни, а една четвърт от анкетираните отбелязват, че огромни количества полезни данни са пропуснати. Обемът на данните е толкова висок, че ръчното анализиране е невъзможно и повечето софтуерни системи могат да се запазят, което води до пренебрегване или пренебрегване на ценни данни.
С Big Data & Analytics’ високоскоростен, скалиращ софтуер за големи данни, CSPs могат да минат всичките си данни за по-добро вземане на решения в по-малко време. Различни Big Data продукти и техники осигуряват крайно-на-крайната софтуерна платформа за събиране, подготовка, анализ и представяне на увид от големите данни. Областите на приложенията включват мониторинг на мрежовата ефективност, откриване на измами, откриване на клиентите и анализ на кредитния риск. Big Data & Продукти за анализ мащаб за обработка на терабити от данни, но изпълнението на такива инструменти изисква нов вид на база данни на облака система като Hadoop или масивен мащаб паралелен компютър процесор ( KPU и т.н.)
Този курс работи върху Big Data BI за Telco обхваща всички възникващи нови области, в които CSP инвестират за увеличаване на производителността и отваряне на нов бизнес поток на приходи. Курсът ще осигури пълен 360 градуса поглед върху Big Data BI в Telco, така че вземащите решения и мениджърите могат да имат много широк и цялостен преглед на възможностите на Big Data BI в Telco за производителност и печалби.
Цели на курса
Основната цел на курса е да се въведат нови Big Data бизнес интелигентни техники в 4 сектори на Telecom Business (Marketing / продажби, мрежови операции, финансови операции и взаимоотношения с клиентите Management). Студентите ще бъдат поканени да следват:
- Въведение в Big Data-което е 4Vs (обем, скорост, разнообразие и вертикалност) в Big Data- Генерация, екстракция и управление от перспектива на Telco
- Как Big Data анализът се различава от наследствения анализ на данните
- Вътрешно оправдание на Big Data -Telco перспектива
- Въведение в Hadoop Екосистема- запознаване с всички Hadoop инструменти като Hive, Pig, SPARC –кога и как те се използват за решаване на проблема Big Data
- Как Big Data е извлечен за анализ за аналитичен инструмент-как Business Analysis’s могат да намалят техните точки на болка на събиране и анализ на данни чрез интегриран Hadoop подход на таблата
- Основно въведение в анализа на Insight, анализа на визуализацията и прогнозната анализа за Telco
- Анализът на клиента и Big Data-как Big Data анализът могат да намалят недоволството на клиента и недоволството на клиента в изследванията на Telco-каса
- Анализ на мрежови неуспехи и сервизни неуспехи от мрежови метаданни и IPDR
- Финансов анализ - измама, измама и оценка на ROI от продажбите и оперативните данни
- Проблеми с закупуването на клиенти-Целена маркетинг, сегментация на клиентите и кръстопродажба от данни за продажбите
- Въведение и обобщение на всички Big Data аналитични продукти и къде се вписват в аналитичното пространство на Telco
- Заключение-как да се вземе стъпка по стъпка подход за въвеждане Big Data Business Intelligence в организацията си
Целенасочена аудитория
- Операция на мрежата, финансови мениджъри, CRM мениджъри и топ ИТ мениджъри в офиса на Telco CIO.
- Business Аналитикуващи в Telco
- Мениджъри / Аналитици на CFO
- Оперативни мениджъри
- КА мениджъри
Практическо въведение в науката за данните
35 часа- Разработчици
- Технически аналитици
- Консултанти по ИТ
- Част лекции, част дискусии, упражнения и много ръководена практика
- За заявка за персонализиран тренинг за този курс, моля свържете се с нас, за да уредите.
Програма по Данни Науки
245 часаЕксплозията от информация и данни в днешния свят е несравнима, способността ни да правим иновации и да прекрачваме границите на възможното нараства по-бързо от всякога. Ролята на Data Scientist е едно от най-търсените умения в индустрията днес.
Ние предлагаме много повече от обучение чрез теория; ние предоставяме практически, продаваеми умения, които преодоляват пропастта между света на академичните среди и изискванията на индустрията.
Тази 7-седмична учебна програма може да бъде съобразена с вашите специфични изисквания на индустрията, моля свържете се с нас за допълнителна информация или посетете уебсайта на Nobleprog Institute
Публика:
Тази програма е насочена към висшисти, както и към всеки с необходимите предварителни умения, които ще бъдат определени чрез оценка и интервю.
Доставка:
Предоставянето на курса ще бъде комбинация от класна стая, водена от инструктор, и онлайн водена от инструктор; обикновено първата седмица ще бъде „водена от класна стая“, седмици 2 – 6 „виртуална класна стая“ и седмица 7 обратно към „водена от класна стая“.
Науки за данни за анализ на големи данни
35 часаГолемите данни са набори от данни, които са толкова обемни и сложни, че традиционният приложен софтуер за обработка на данни е неадекватен да се справи с тях. Предизвикателствата с големи данни включват улавяне на данни, съхранение на данни, анализ на данни, търсене, споделяне, трансфер, визуализация, заявки, актуализиране и поверителност на информацията.
Наука за данни е необходима за професионалисти в маркетинга/продажби
21 часаТози курс е предназначен за професионалисти в маркетинга и продажби, които искат да се погълбят в приложението на данните за наука в маркетинга/продажби. Курсът предлага детайлно покритие на различни техники за данни за наука, използвани за „увеличаване на продажбите“, „кросоуел продажби“, сегментиране на пазара, брандиране и CLV.
Разликата между маркетинг и продажби - Как са различните продажбите и маркетингът?
В най-простите думи, продажбите могат да бъдат определени като процес, който се фокусира или цели по отделни лица или малки групи. Маркетингът, от своя страна, цели по-голяма група или общата публика. Маркетингът включва изследване (откриване на нуждите на клиента), разработка на продукти (производство на иновативни продукти) и промоция на продукта (през реклами) и създаване на осведоменост за продукта сред потребителите. Така маркетингът означава генериране на лиди или потенциални клиенти. Веднъж, когато продукта е излязъл на пазара, задачата на продавачът е да убеди клиента да купи продукта. Продажбите означават превръщане на лидите или потенциалните клиенти в покупки и поръчки, докато маркетингът се стреми към по-дългосрочни цели, продажбите са ориентирани към по-краткосрочни цели.
Jupyter за отбори по данни науки
7 часаТова обучение с инструктор, провеждано на живо (онлайн или на място), представя идеята за съвместно разработване в науката за данни и демонстрира как да използвате Jupyter за следене и участие като отбор в "живота на компютърна идея". То води участниците през създаването на примерен проект за наука за данни, базиран върху екосистемата на Jupyter.
До края на това обучение участниците ще бъдат способни да:
- Инсталират и конфигурират Jupyter, включително създаването и интеграцията на отборен репозиторий на Git.
- Използват функции на Jupyter, като разширения, интерактивни виджета, режим за многопотребители и други, за да осигурят съвместна работа по проекта.
- Създават, споделят и организират Jupyter Notebooks с членове на отбора.
- Избират между Scala, Python, R, за да пишат и изпълняват код към големи системи за данни, като Apache Spark, всичко през интерфейса на Jupyter.
Kaggle
14 часаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към учени и разработчици на данни, които желаят да учат и изградят кариерата си в Data Science с помощта на Kaggle.
До края на това обучение участниците ще могат:
- Научете за науката за данните и машинното обучение.
- Разгледайте анализа на данни.
- Научете за Kaggle и как работи.
MATLAB Основни, Науки за Данни & Създаване на Отчети
35 часаВ първата част на това обучение разглеждаме основите на MATLAB и функцията му като език и платформа. В тази дискусия е включено въведение в MATLAB синтаксиса, масивите и матриците, визуализацията на данни, разработването на скриптове и обектно-ориентираните принципи.
Във втората част ние демонстрираме как да използваме MATLAB за извличане на данни, машинно обучение и прогнозен анализ. За да предоставим на участниците ясна и практична перспектива за подхода и силата на MATLAB, ние правим сравнения между използването на MATLAB и използването на други инструменти като електронни таблици, C, C++ и Visual Basic.
В третата част на обучението участниците се научават как да рационализират работата си чрез автоматизиране на обработката на данните и генерирането на отчети.
По време на курса участниците ще приложат на практика идеите, научени чрез практически упражнения в лабораторна среда. До края на обучението участниците ще имат задълбочена представа за възможностите на MATLAB и ще могат да го използват за решаване на реални проблеми с науката за данни, както и за рационализиране на работата си чрез автоматизация.
По време на курса ще се извършват оценки, за да се оцени напредъкът.
Формат на курса
- Курсът включва теоретични и практически упражнения, включително дискусии по казуси, проверка на примерен код и практическо внедряване.
Забележка
- Практическите сесии ще се основават на предварително подготвени примерни шаблони за отчет с данни. Ако имате специфични изисквания, моля свържете се с нас, за да уговорим.
Машинно учение за данни с Python
21 часаТова обучение, водено от инструктор, проведено в България (онлайн или на място), е насочено към професионалисти с промежуточна квалификация – анализатори на данни, програмисти или аспиранти-аналитици на данни, които искат да прилагат техники на машинното обучение в Python, за да извличат полезни заключения, правят прогнози и автоматизират решенията базирани на данни.
Към края на курса участниците ще могат да:
- Разберат и разграничават основните парадигми на машинното обучение.
- Изследват техники за препроцеждане на данни и метрики за оценка на моделите.
- Прилагат алгоритми на машинното обучение за решаване на реални проблеми с данни.
- Използват библиотеките на Python и Jupyter тетрадки за практически разработки.
- Създават модели за прогноза, класификация, препоръка и кластериране.
Ускоряване на Python Pandas Workflows с Modin
14 часаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към специалисти по данни и разработчици, които желаят да използват Modin за изграждане и прилагане на паралелни изчисления с Pandas за по-бърз анализ на данни.
До края на това обучение участниците ще могат:
- Настройте необходимата среда, за да започнете да разработвате Pandas работни потоци в мащаб с Modin.
- Разберете характеристиките, архитектурата и предимствата на Modin.
- Познайте разликите между Modin, Dask и Ray.
- Изпълнете Pandas операции по-бързо с Modin.
- Внедрете целия Pandas API и функции.
Python Programming за Финанси
35 часаPython е език за програмиране, който придоби огромна популярност във финансовата индустрия. Приет от най-големите инвестиционни банки и хедж фондове, той се използва за изграждане на широка гама от финансови приложения, вариращи от основни програми за търговия до системи за управление на риска.
В това водено от инструктор обучение на живо участниците ще се научат как да използват Python за разработване на практически приложения за решаване на редица специфични проблеми, свързани с финансите.
До края на това обучение участниците ще могат:
- Да разберат основите на програмния език Python
- Да изтеглят, инсталират и поддържат най-добрите инструменти за разработка за създаване на финансови приложения в Python
- Да избират и използват най-подходящите пакети и програмни техники на Python за организиране, визуализиране и анализиране на финансови данни от различни източници (CSV, Excel, бази данни, уеб и др.)
- Да изграждат приложения, които решават проблеми, свързани с разпределението на активите, анализа на риска, инвестиционната ефективност и други
- Да отстраняват грешки, интегрират, разгръщат и оптимизират приложение на Python
Публика
- Разработчици
- Анализатори
- Количествени анализатори (Quants)
Формат на курса
- Комбинация от лекции, дискусии, упражнения и интензивна практическа работа
Забележка
- Това обучение има за цел да предостави решения на някои от основните проблеми, пред които са изправени финансовите специалисти. Ако обаче имате конкретна тема, инструмент или техника, върху която искате да наблегнете или да разширите, моля, свържете се с нас, за да я обсъдим.
GPU Data Science с NVIDIA RAPIDS
14 часаТовато обучение с инструктор, провеждано на живо (онлайн или на място), е предназначено за специалисти по данни и разработчици, които искат да използват RAPIDS за изграждане на ускорени с GPU потоци за данни, работи и визуализации, приложени алгоритми за машинно обучение, като XGBoost, cuML и др.
До края на това обучение участниците ще могат да:
- Настроят нужната среда за разработка за изграждане на модели за данни с NVIDIA RAPIDS.
- Разберат характеристиките, компонентите и предимствата на RAPIDS.
- Използват GPU за ускоряване на потоци за данни и анализ.
- Въвеждат ускорени с GPU подготовка на данни и ETL с cuDF и Apache Arrow.
- Научат как да изпълняват задачи за машинно обучение с алгоритмите XGBoost и cuML.
- Създават визуализации на данни и изпълняват графичен анализ с cuXfilter и cuGraph.
Python and Spark за големи данни (PySpark)
21 часаВ това водено от инструктор обучение на живо в България участниците ще се научат как да използват Python и Spark заедно, за да анализират големи данни, докато работят върху практически упражнения.
До края на това обучение участниците ще могат:
- Научете как да използвате Spark с Python за анализ на Big Data.
- Работете върху упражнения, които имитират случаи от реалния свят.
- Използвайте различни инструменти и техники за анализ на големи данни, използвайки PySpark.
Stratio: Rocket и Intelligence модули с PySpark
14 часаStratio е платформа, ориентирана към данни, която интегрира големи данни, ИИ и управление в едно решение. Нейните модули Rocket и Intelligence позволяват бързо изследване на данни, трансформация и напреднати анализи в корпоративни среди.
Това обучение, водено от инструктор (онлайн или на място), е предназначено за професионалисти на данни с средно ниво, които искат да използват модулите Rocket и Intelligence в Stratio ефективно с PySpark, със фокус върху циклични структури, потребителски определени функции и напреднати данни логики.
До края на това обучение участниците ще могат да:
- Навигация и работа с платформата Stratio с модулите Rocket и Intelligence.
- Прилагане на PySpark в контекста на взимане, трансформация и анализ на данни.
- Използване на цикъл и условна логика за контрол на работните процеси на данни и задачи за инженеринг на характеристики.
- Създаване и управление на потребителски определени функции (UDFs) за повтарящи се операции с данни в PySpark.
Формат на курса
- Интерактивни лекции и дискусии.
- Много упражнения и практика.
- Практически имплементации в среда на живо лаборатория.
Опции за персонализация на курса
- За да поискате персонализирано обучение за този курс, моля свържете се с нас, за да организирате.