План на курса

Бърз преглед

  • Източници на данни
  • Подходи към данните
  • Системи за препоръки
  • Целева маркетингова стратегия

Типове данни

  • Структурирани vs. неструктурирани
  • Статични vs. потокови
  • Атитудинални, поведенчески и демографски данни
  • Анализи базирани на данни vs. анализи базирани на потребителите
  • Валидност на данните
  • Обем, скорост и разнообразие на данните

Модели

  • Създаване на модели
  • Статистически модели
  • Машинно обучение

Класификация на данни

  • Кластеризация
  • kGroups, k-средни, най-близките съседи
  • Анти колонии, птици в стая

Предиктивни модели

  • Дървета на решенията
  • Машина за поддръжка на вектори
  • Класификация Наивен Бейс
  • Невронни мрежи
  • Марков модел
  • Регресия
  • Ансамбъл методи

Отношение на инвестициите

  • Относение на полза/разходи
  • Разходи за софтуер
  • Разходи за развитие
  • Потенциални ползи

Създаване на модели

  • Подготовка на данни (MapReduce)
  • Очистване на данни
  • Избор на методи
  • Разработка на модел
  • Тестиране на модел
  • Оценка на модел
  • Разработка и интеграция на модел

Преглед на отворени и комерсиални софтуерни решения

  • Избор на пакет R-project
  • Библиотеки на Python
  • Hadoop и Mahout
  • Избрани проекти на Apache, свързани с Big Data и анализи
  • Избрани комерсиални решения
  • Интеграция с съществуващи софтуерни решения и източници на данни

Изисквания

Разбиране на традиционните методи за управление и анализ на данни като SQL, складове за данни, бизнес разузнаване, OLAP и т.н... Разбиране на основни статистики и вероятности (средна стойност, дисперсия, вероятност, условна вероятност и т.н...)

 21 часа

Брой участници


Цена за участник

Отзиви от потребители (2)

Предстоящи Курсове

Свързани Kатегории