Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
План на курса
Въведение в Data Science for Big Data Analytics
- Data Science Общ преглед Преглед на големи данни Структури на данни Двигатели и сложности на екосистемата на големи данни Големи данни и нов подход към анализите Ключови технологии в процеса и проблемите на извличане на големи данни на данни Модел на асоцииране Клъстериране на данни Откриване на извънредни стойности Класификация на данни
Въведение в жизнения цикъл на Data Analytics
- Откриване Подготовка на данни Планиране на модел Изграждане на модел Представяне/Communication на резултатите Операционализация Упражнение: Казус от практиката
От този момент по-голямата част от времето за обучение (80%) ще бъде изразходвано за примери и упражнения в R и свързаната технология за големи данни.
Първи стъпки с R
- Инсталиране на R и Rstudio Характеристики на езика R Обекти в R Данни в R Манипулиране на данни Проблеми с големи данни Упражнения
Първи стъпки с Hadoop
- Инсталиране Hadoop Разбиране на Hadoop режими HDFS MapReduce архитектура Hadoop преглед на свързани проекти Писане на програми в Hadoop MapReduce Упражнения
Интегриране на R и Hadoop с RHadoop
- Компоненти на RHadoop Инсталиране на RHadoop и свързване с Hadoop Архитектурата на RHadoop Hadoop поточно предаване с R Разрешаване на проблеми с анализа на данни с RHadoop Упражнения
Предварителна обработка и подготовка на данни
- Стъпки за подготовка на данни Извличане на характеристики Почистване на данни Интегриране и трансформиране на данни Намаляване на данни – вземане на проби, избор на поднабор на характеристики, намаляване на размерността Дискретизация и групиране Упражнения и казус
Проучвателни методи за анализ на данни в R
- Описателна статистика Проучвателен анализ на данни Визуализация – предварителни стъпки Визуализация на единична променлива Изследване на множество променливи Статистически методи за оценка Тестване на хипотези Упражнения и казус
Data Visualizations
- Основни визуализации в R Пакети за визуализация на данни ggplot2, lattice, plotly, lattice Форматиране на графики в R Разширени графики Упражнения
Регресия (Оценка на бъдещи стойности)
- Линейна регресия Случаи на използване Описание на модела Диагностика Проблеми с линейна регресия Методи на свиване, ръбова регресия, ласото Обобщения и нелинейност Регресионни сплайнове Локална полиномиална регресия Обобщени адитивни модели Регресия с RHadoop Упражнения и казус
Класификация
- Проблеми, свързани с класификацията Байесово опресняване Наивен Байес Логистична регресия K-най-близки съседи Алгоритъм за дървета на решения Невронни мрежи Поддържащи векторни машини Диагностика на класификатори Сравнение на класификационните методи Scala ble класификационни алгоритми Упражнения и казус
Оценка на ефективността на модела и избор
- Пристрастия, дисперсия и сложност на модела Точност срещу интерпретируемост Оценяване на класификатори Мерки за производителност на модел/алгоритъм Задържащ метод на валидиране Кръстосано валидиране Настройка на алгоритми за машинно обучение с caret пакет Визуализиране на производителността на модела с Profit ROC и Lift криви
Ансамбълни методи
- Bagging Random Forests Увеличаване Градиентно усилване Упражнения и казус
Поддържащи векторни машини за класификация и регресия
- Класификатори за максимален марж Поддържат векторни класификатори Поддържат векторни машини SVM за проблеми с класификацията SVM за проблеми с регресия
Избор на характеристики за клъстериране Базирани на представителни алгоритми: k-средни, k-medoids Йерархични алгоритми: агломеративни и разделящи методи Вероятностни базови алгоритми: EM Алгоритми, базирани на плътност: DBSCAN, DENCLUE Валидиране на клъстер Разширени концепции за клъстериране Клъстериране с RHadoop Упражнения и казус
- Откриване на връзки с Link Analysis
Концепции за анализ на връзки Метрики за анализиране на мрежи Алгоритъмът за Pagerank Индуцирана от хипервръзка Тема Search Упражнения за прогнозиране на връзки и казус
- Извличане на асоциирани модели
Често срещан модел за извличане на модели Scala Проблеми с възможността при често извличане на шаблони Brute Force алгоритми Apriori алгоритъм Подходът за растеж на FP Оценка на правилата за кандидати Приложения на правила за асоцииране Валидиране и тестване Диагностика Правила за асоцииране с R и Hadoop Упражнения и казус
- Конструиране на двигатели за препоръки
Разбиране на препоръчителните системи Техники за извличане на данни, използвани в препоръчителните системи Системи за препоръчване с пакет recommenderlab Оценяване на препоръчителните системи Препоръки с RHadoop Упражнение: Изграждане на двигател за препоръки
- Анализ на текст
Стъпки за анализ на текст Събиране на необработен текст Торба с думи Термин Честота – Обратна честота на документа Определяне на чувствата Упражнения и казус
35 Hours
Oтзиви от потребители (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Course - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing