План на курса

Въведение в Data Science for Big Data Analytics

    Data Science Общ преглед Преглед на големи данни Структури на данни Двигатели и сложности на екосистемата на големи данни Големи данни и нов подход към анализите Ключови технологии в процеса и проблемите на извличане на големи данни на данни Модел на асоцииране Клъстериране на данни Откриване на извънредни стойности Класификация на данни

Въведение в жизнения цикъл на Data Analytics

    Откриване Подготовка на данни Планиране на модел Изграждане на модел Представяне/Communication на резултатите Операционализация Упражнение: Казус от практиката

От този момент по-голямата част от времето за обучение (80%) ще бъде изразходвано за примери и упражнения в R и свързаната технология за големи данни.

Първи стъпки с R

    Инсталиране на R и Rstudio Характеристики на езика R Обекти в R Данни в R Манипулиране на данни Проблеми с големи данни Упражнения

Първи стъпки с Hadoop

    Инсталиране Hadoop Разбиране на Hadoop режими HDFS MapReduce архитектура Hadoop преглед на свързани проекти Писане на програми в Hadoop MapReduce Упражнения

Интегриране на R и Hadoop с RHadoop

    Компоненти на RHadoop Инсталиране на RHadoop и свързване с Hadoop Архитектурата на RHadoop Hadoop поточно предаване с R Разрешаване на проблеми с анализа на данни с RHadoop Упражнения

Предварителна обработка и подготовка на данни

    Стъпки за подготовка на данни Извличане на характеристики Почистване на данни Интегриране и трансформиране на данни Намаляване на данни – вземане на проби, избор на поднабор на характеристики, намаляване на размерността Дискретизация и групиране Упражнения и казус

Проучвателни методи за анализ на данни в R

    Описателна статистика Проучвателен анализ на данни Визуализация – предварителни стъпки Визуализация на единична променлива Изследване на множество променливи Статистически методи за оценка Тестване на хипотези Упражнения и казус

Data Visualizations

    Основни визуализации в R Пакети за визуализация на данни ggplot2, lattice, plotly, lattice Форматиране на графики в R Разширени графики Упражнения

Регресия (Оценка на бъдещи стойности)

    Линейна регресия Случаи на използване Описание на модела Диагностика Проблеми с линейна регресия Методи на свиване, ръбова регресия, ласото Обобщения и нелинейност Регресионни сплайнове Локална полиномиална регресия Обобщени адитивни модели Регресия с RHadoop Упражнения и казус

Класификация

    Проблеми, свързани с класификацията Байесово опресняване Наивен Байес Логистична регресия K-най-близки съседи Алгоритъм за дървета на решения Невронни мрежи Поддържащи векторни машини Диагностика на класификатори Сравнение на класификационните методи Scala ble класификационни алгоритми Упражнения и казус

Оценка на ефективността на модела и избор

    Пристрастия, дисперсия и сложност на модела Точност срещу интерпретируемост Оценяване на класификатори Мерки за производителност на модел/алгоритъм Задържащ метод на валидиране Кръстосано валидиране Настройка на алгоритми за машинно обучение с caret пакет Визуализиране на производителността на модела с Profit ROC и Lift криви

Ансамбълни методи

    Bagging Random Forests Увеличаване Градиентно усилване Упражнения и казус

Поддържащи векторни машини за класификация и регресия

    Класификатори за максимален марж Поддържат векторни класификатори Поддържат векторни машини SVM за проблеми с класификацията SVM за проблеми с регресия
Упражнения и казус
  • Идентифициране на неизвестни групи в набор от данни
  • Избор на характеристики за клъстериране Базирани на представителни алгоритми: k-средни, k-medoids Йерархични алгоритми: агломеративни и разделящи методи Вероятностни базови алгоритми: EM Алгоритми, базирани на плътност: DBSCAN, DENCLUE Валидиране на клъстер Разширени концепции за клъстериране Клъстериране с RHadoop Упражнения и казус

      Откриване на връзки с Link Analysis

    Концепции за анализ на връзки Метрики за анализиране на мрежи Алгоритъмът за Pagerank Индуцирана от хипервръзка Тема Search Упражнения за прогнозиране на връзки и казус

      Извличане на асоциирани модели

    Често срещан модел за извличане на модели Scala Проблеми с възможността при често извличане на шаблони Brute Force алгоритми Apriori алгоритъм Подходът за растеж на FP Оценка на правилата за кандидати Приложения на правила за асоцииране Валидиране и тестване Диагностика Правила за асоцииране с R и Hadoop Упражнения и казус

      Конструиране на двигатели за препоръки

    Разбиране на препоръчителните системи Техники за извличане на данни, използвани в препоръчителните системи Системи за препоръчване с пакет recommenderlab Оценяване на препоръчителните системи Препоръки с RHadoop Упражнение: Изграждане на двигател за препоръки

      Анализ на текст

    Стъпки за анализ на текст Събиране на необработен текст Торба с думи Термин Честота – Обратна честота на документа Определяне на чувствата Упражнения и казус

     35 Hours

    Брой участници



    Цена за участник

    Oтзиви от потребители (2)

    Свързани Kурсове

    GPU Data Science with NVIDIA RAPIDS

    14 Hours

    Unified Batch and Stream Processing with Apache Beam

    14 Hours

    Apache Apex: Processing Big Data-in-Motion

    21 Hours

    Apache Storm

    28 Hours

    Apache Flink Fundamentals

    28 Hours

    Свързани Kатегории