План на курса

Въведение в Data Science for Big Data Analytics

    Data Science Общ преглед Преглед на големи данни Структури на данни Двигатели и сложности на екосистемата на големи данни Големи данни и нов подход към анализите Ключови технологии в процеса и проблемите на извличане на големи данни на данни Модел на асоцииране Клъстериране на данни Откриване на извънредни стойности Класификация на данни

Въведение в жизнения цикъл на Data Analytics

    Откриване Подготовка на данни Планиране на модел Изграждане на модел Представяне/Communication на резултатите Операционализация Упражнение: Казус от практиката

От този момент по-голямата част от времето за обучение (80%) ще бъде изразходвано за примери и упражнения в R и свързаната технология за големи данни.

Първи стъпки с R

    Инсталиране на R и Rstudio Характеристики на езика R Обекти в R Данни в R Манипулиране на данни Проблеми с големи данни Упражнения

Първи стъпки с Hadoop

    Инсталиране Hadoop Разбиране на Hadoop режими HDFS MapReduce архитектура Hadoop преглед на свързани проекти Писане на програми в Hadoop MapReduce Упражнения

Интегриране на R и Hadoop с RHadoop

    Компоненти на RHadoop Инсталиране на RHadoop и свързване с Hadoop Архитектурата на RHadoop Hadoop поточно предаване с R Разрешаване на проблеми с анализа на данни с RHadoop Упражнения

Предварителна обработка и подготовка на данни

    Стъпки за подготовка на данни Извличане на характеристики Почистване на данни Интегриране и трансформиране на данни Намаляване на данни – вземане на проби, избор на поднабор на характеристики, намаляване на размерността Дискретизация и групиране Упражнения и казус

Проучвателни методи за анализ на данни в R

    Описателна статистика Проучвателен анализ на данни Визуализация – предварителни стъпки Визуализация на единична променлива Изследване на множество променливи Статистически методи за оценка Тестване на хипотези Упражнения и казус

Data Visualizations

    Основни визуализации в R Пакети за визуализация на данни ggplot2, lattice, plotly, lattice Форматиране на графики в R Разширени графики Упражнения

Регресия (Оценка на бъдещи стойности)

    Линейна регресия Случаи на използване Описание на модела Диагностика Проблеми с линейна регресия Методи на свиване, ръбова регресия, ласото Обобщения и нелинейност Регресионни сплайнове Локална полиномиална регресия Обобщени адитивни модели Регресия с RHadoop Упражнения и казус

Класификация

    Проблеми, свързани с класификацията Байесово опресняване Наивен Байес Логистична регресия K-най-близки съседи Алгоритъм за дървета на решения Невронни мрежи Поддържащи векторни машини Диагностика на класификатори Сравнение на класификационните методи Scala ble класификационни алгоритми Упражнения и казус

Оценка на ефективността на модела и избор

    Пристрастия, дисперсия и сложност на модела Точност срещу интерпретируемост Оценяване на класификатори Мерки за производителност на модел/алгоритъм Задържащ метод на валидиране Кръстосано валидиране Настройка на алгоритми за машинно обучение с caret пакет Визуализиране на производителността на модела с Profit ROC и Lift криви

Ансамбълни методи

    Bagging Random Forests Увеличаване Градиентно усилване Упражнения и казус

Поддържащи векторни машини за класификация и регресия

    Класификатори за максимален марж Поддържат векторни класификатори Поддържат векторни машини SVM за проблеми с класификацията SVM за проблеми с регресия
Упражнения и казус
  • Идентифициране на неизвестни групи в набор от данни
  • Избор на характеристики за клъстериране Базирани на представителни алгоритми: k-средни, k-medoids Йерархични алгоритми: агломеративни и разделящи методи Вероятностни базови алгоритми: EM Алгоритми, базирани на плътност: DBSCAN, DENCLUE Валидиране на клъстер Разширени концепции за клъстериране Клъстериране с RHadoop Упражнения и казус

      Откриване на връзки с Link Analysis

    Концепции за анализ на връзки Метрики за анализиране на мрежи Алгоритъмът за Pagerank Индуцирана от хипервръзка Тема Search Упражнения за прогнозиране на връзки и казус

      Извличане на асоциирани модели

    Често срещан модел за извличане на модели Scala Проблеми с възможността при често извличане на шаблони Brute Force алгоритми Apriori алгоритъм Подходът за растеж на FP Оценка на правилата за кандидати Приложения на правила за асоцииране Валидиране и тестване Диагностика Правила за асоцииране с R и Hadoop Упражнения и казус

      Конструиране на двигатели за препоръки

    Разбиране на препоръчителните системи Техники за извличане на данни, използвани в препоръчителните системи Системи за препоръчване с пакет recommenderlab Оценяване на препоръчителните системи Препоръки с RHadoop Упражнение: Изграждане на двигател за препоръки

      Анализ на текст

    Стъпки за анализ на текст Събиране на необработен текст Торба с думи Термин Честота – Обратна честота на документа Определяне на чувствата Упражнения и казус

      35 Hours

    Брой участници


    Започва

    Свършва


    Dates are subject to availability and take place between 09:30 and 16:30.

    Цена за участник

    Oтзиви от потребители (2)

    Свързани Kурсове

    GPU Data Science with NVIDIA RAPIDS

      14 Hours

    Unified Batch and Stream Processing with Apache Beam

      14 Hours

    Apache Apex: Processing Big Data-in-Motion

      21 Hours

    Apache Storm

      28 Hours

    Apache Flink Fundamentals

      28 Hours

    Свързани Kатегории