Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Въведение в науката за данни за анализ на големи данни
- Обзор на науката за данни
- Обзор на големи данни
- Структури на данни
- Причини и сложности на големи данни
- Екосистема на големи данни и нов подход към анализ
- Ключови технологии в големи данни
- Процес и проблеми в извличане на данни
- Асоциативно извличане на шаблони
- Кластериране на данни
- Откриване на извънредни стойности
- Класификация на данни
Въведение в цикъла на живот на анализ на данни
- Откриване
- Подготовка на данни
- Планиране на модели
- Създаване на модели
- Представяне/Комунициране на резултати
- Операционализация
- Упражнение: Примерен случай
От този момент повечето време за обучение (80%) ще бъде посветено на примери и упражнения в R и свързани технологии за големи данни.
Започване с R
- Инсталиране на R и RStudio
- Функции на езика R
- Обекти в R
- Данни в R
- Манипулиране на данни
- Проблеми с големи данни
- Упражнения
Започване с Hadoop
- Инсталиране на Hadoop
- Разбиране на режимите на Hadoop
- HDFS
- Архитектура на MapReduce
- Преглед на проекти, свързани с Hadoop
- Писане на програми в Hadoop MapReduce
- Упражнения
Интегриране на R и Hadoop с RHadoop
- Компоненти на RHadoop
- Инсталиране на RHadoop и свързване с Hadoop
- Архитектура на RHadoop
- Потоково обработване с Hadoop и R
- Решаване на проблеми в анализ на данни с RHadoop
- Упражнения
Предварително обработване и подготвяне на данни
- Стъпки за подготвяне на данни
- Извличане на характеристики
- Чистене на данни
- Интеграция и трансформация на данни
- Редуциране на данни – изваждане на образци, подбор на подмножества от характеристики
- Редуциране на размерност
- Дискретизация и групиране
- Упражнения и Примерен случай
Методи за експлоатация на данни в R
- Описваща статистика
- Експлоатация на данни
- Визуализация – предварителни стъпки
- Визуализация на единна променлива
- Разглеждане на множество променливи
- Статистически методы за оценка
- Тестване на хипотези
- Упражнения и Примерен случай
Визуализации на данни
- Базови визуализации в R
- Пакети за визуализация на данни ggplot2, lattice, plotly, lattice
- Форматиране на графики в R
- Сложни графики
- Упражнения
Регресия (Оценяване на бъдещи стойности)
- Линейна регресия
- Случаи на употреба
- Описание на модела
- Диагностика
- Проблеми с линейна регресия
- Методи за редуциране, регресия с регулираща сила, лясо
- Генерализации и нелинейност
- Регресионни сплайни
- Локална полиномиална регресия
- Генерализирани аддитивни модели
- Регресия с RHadoop
- Упражнения и Примерен случай
Класификация
- Проблеми, свързани с класификация
- Опресняване на баейсовата теория
- Наивен Баес
- Логистична регресия
- K-най-близки съседи
- Алгоритъм на решаващи дървета
- Невронни мрежи
- Машини с поддържащи вектри
- Диагностика на класификатори
- Сравнение на методи за класификация
- Мащабируеми алгоритми за класификация
- Упражнения и Примерен случай
Оценяване на производителността на модела и избор
- Склонност, дисперсия и сложност на модела
- Точност срещу интерпретираемост
- Оценяване на класификатори
- Мерки за производителност на модел/алгоритъм
- Метод на удържане за валидация
- Кръстов тест
- Настройване на алгоритми за машинно обучение с пакет caret
- Визуализация на производителността на модела с криви на профит ROC и Lift
Енсамбъл метод
- Бъгинг
- Случайни гори
- Бустинг
- Градиентен бустинг
- Упражнения и Примерен случай
Машини с поддържащи вектри за класификация и регресия
- Класификатори с максимална граница
- Поддържащи вектри класификатори
- Машини с поддържащи вектри
- SVM за проблеми с класификация
- SVM за проблеми с регресия
- Упражнения и Примерен случай
Откриване на неизвестни групи в набор от данни
- Избор на характеристики за кластериране
- Алгоритми на база на представители: k-средни, k-медиани
- Йерархични алгоритми: агрегативни и дисперсивни методи
- Алгоритми на база на вероятности: EM
- Алгоритми на база на плътност: DBSCAN, DENCLUE
- Валидация на кластери
- Сложни концепции за кластериране
- Кластериране с RHadoop
- Упражнения и Примерен случай
Откриване на връзки с анализ на връзки
- Концепции на анализ на връзки
- Мерки за анализ на мрежи
- Алгоритъм на Pagerank
- Тематическо търсене, индуцирано от хипервъзли
- Предсказване на връзки
- Упражнения и Примерен случай
Извличане на асоциативни шаблони
- Модел за извличане на чести шаблони
- Сложности в извличане на чести шаблони
- Алгоритми с брътва сила
- Алгоритъм Apriori
- Подходът FP growth
- Оценка на кандидати правила
- Приложения на асоциативни правила
- Валидация и тестване
- Диагностика
- Асоциативни правила с R и Hadoop
- Упражнения и Примерен случай
Създаване на системи за препоръчителни системи
- Разбиране на препоръчителни системи
- Техники за извличане на данни, използвани в препоръчителни системи
- Препоръчителни системи с пакет рекомендерлаб
- Оценяване на препоръчителни системи
- Препоръки с RHadoop
- Упражнение: Създаване на препоръчителен двигател
Анализ на текст
- Стъпки за анализ на текст
- Събиране на суров текст
- Чанта със думи
- Честота на думи – обратна честота на документи
- Определяне на настроения
- Упражнения и Примерен случай
35 часа
Отзиви от потребители (2)
Интензитет, Обучение и екип, Ясност, Ефективна комуникация с Алесандра Excel
Marija Hornis Dmitrovic - Marija Hornis
Курс - Data Science for Big Data Analytics
Машинен превод
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Курс - Data Science for Big Data Analytics
Машинен превод