План на курса

Въведение в науката за данни за анализ на големи данни

  • Обзор на науката за данни
  • Обзор на големи данни
  • Структури на данни
  • Причини и сложности на големи данни
  • Екосистема на големи данни и нов подход към анализ
  • Ключови технологии в големи данни
  • Процес и проблеми в извличане на данни
    • Асоциативно извличане на шаблони
    • Кластериране на данни
    • Откриване на извънредни стойности
    • Класификация на данни

Въведение в цикъла на живот на анализ на данни

  • Откриване
  • Подготовка на данни
  • Планиране на модели
  • Създаване на модели
  • Представяне/Комунициране на резултати
  • Операционализация
  • Упражнение: Примерен случай

От този момент повечето време за обучение (80%) ще бъде посветено на примери и упражнения в R и свързани технологии за големи данни.

Започване с R

  • Инсталиране на R и RStudio
  • Функции на езика R
  • Обекти в R
  • Данни в R
  • Манипулиране на данни
  • Проблеми с големи данни
  • Упражнения

Започване с Hadoop

  • Инсталиране на Hadoop
  • Разбиране на режимите на Hadoop
  • HDFS
  • Архитектура на MapReduce
  • Преглед на проекти, свързани с Hadoop
  • Писане на програми в Hadoop MapReduce
  • Упражнения

Интегриране на R и Hadoop с RHadoop

  • Компоненти на RHadoop
  • Инсталиране на RHadoop и свързване с Hadoop
  • Архитектура на RHadoop
  • Потоково обработване с Hadoop и R
  • Решаване на проблеми в анализ на данни с RHadoop
  • Упражнения

Предварително обработване и подготвяне на данни

  • Стъпки за подготвяне на данни
  • Извличане на характеристики
  • Чистене на данни
  • Интеграция и трансформация на данни
  • Редуциране на данни – изваждане на образци, подбор на подмножества от характеристики
  • Редуциране на размерност
  • Дискретизация и групиране
  • Упражнения и Примерен случай

Методи за експлоатация на данни в R

  • Описваща статистика
  • Експлоатация на данни
  • Визуализация – предварителни стъпки
  • Визуализация на единна променлива
  • Разглеждане на множество променливи
  • Статистически методы за оценка
  • Тестване на хипотези
  • Упражнения и Примерен случай

Визуализации на данни

  • Базови визуализации в R
  • Пакети за визуализация на данни ggplot2, lattice, plotly, lattice
  • Форматиране на графики в R
  • Сложни графики
  • Упражнения

Регресия (Оценяване на бъдещи стойности)

  • Линейна регресия
  • Случаи на употреба
  • Описание на модела
  • Диагностика
  • Проблеми с линейна регресия
  • Методи за редуциране, регресия с регулираща сила, лясо
  • Генерализации и нелинейност
  • Регресионни сплайни
  • Локална полиномиална регресия
  • Генерализирани аддитивни модели
  • Регресия с RHadoop
  • Упражнения и Примерен случай

Класификация

  • Проблеми, свързани с класификация
  • Опресняване на баейсовата теория
  • Наивен Баес
  • Логистична регресия
  • K-най-близки съседи
  • Алгоритъм на решаващи дървета
  • Невронни мрежи
  • Машини с поддържащи вектри
  • Диагностика на класификатори
  • Сравнение на методи за класификация
  • Мащабируеми алгоритми за класификация
  • Упражнения и Примерен случай

Оценяване на производителността на модела и избор

  • Склонност, дисперсия и сложност на модела
  • Точност срещу интерпретираемост
  • Оценяване на класификатори
  • Мерки за производителност на модел/алгоритъм
  • Метод на удържане за валидация
  • Кръстов тест
  • Настройване на алгоритми за машинно обучение с пакет caret
  • Визуализация на производителността на модела с криви на профит ROC и Lift

Енсамбъл метод

  • Бъгинг
  • Случайни гори
  • Бустинг
  • Градиентен бустинг
  • Упражнения и Примерен случай

Машини с поддържащи вектри за класификация и регресия

  • Класификатори с максимална граница
    • Поддържащи вектри класификатори
    • Машини с поддържащи вектри
    • SVM за проблеми с класификация
    • SVM за проблеми с регресия
  • Упражнения и Примерен случай

Откриване на неизвестни групи в набор от данни

  • Избор на характеристики за кластериране
  • Алгоритми на база на представители: k-средни, k-медиани
  • Йерархични алгоритми: агрегативни и дисперсивни методи
  • Алгоритми на база на вероятности: EM
  • Алгоритми на база на плътност: DBSCAN, DENCLUE
  • Валидация на кластери
  • Сложни концепции за кластериране
  • Кластериране с RHadoop
  • Упражнения и Примерен случай

Откриване на връзки с анализ на връзки

  • Концепции на анализ на връзки
  • Мерки за анализ на мрежи
  • Алгоритъм на Pagerank
  • Тематическо търсене, индуцирано от хипервъзли
  • Предсказване на връзки
  • Упражнения и Примерен случай

Извличане на асоциативни шаблони

  • Модел за извличане на чести шаблони
  • Сложности в извличане на чести шаблони
  • Алгоритми с брътва сила
  • Алгоритъм Apriori
  • Подходът FP growth
  • Оценка на кандидати правила
  • Приложения на асоциативни правила
  • Валидация и тестване
  • Диагностика
  • Асоциативни правила с R и Hadoop
  • Упражнения и Примерен случай

Създаване на системи за препоръчителни системи

  • Разбиране на препоръчителни системи
  • Техники за извличане на данни, използвани в препоръчителни системи
  • Препоръчителни системи с пакет рекомендерлаб
  • Оценяване на препоръчителни системи
  • Препоръки с RHadoop
  • Упражнение: Създаване на препоръчителен двигател

Анализ на текст

  • Стъпки за анализ на текст
  • Събиране на суров текст
  • Чанта със думи
  • Честота на думи – обратна честота на документи
  • Определяне на настроения
  • Упражнения и Примерен случай
 35 часа

Брой участници


Цена за участник

Отзиви от потребители (2)

Предстоящи Курсове

Свързани Kатегории