План на курса

Въведение

  • Процесът Data Science.
  • Роли и отговорности на Data Scientist

Подготовка на средата за разработка

  • Библиотеки, рамки, езици и инструменти
  • Местно развитие
  • Съвместна уеб базирана разработка

Събиране на данни

  • Различни типове данни
    • Структуриран
      • Локални бази данни
      • Database конектори
      • Често срещани формати: xlxs, XML, Json, csv, ...
    • Неструктуриран
      • Щракове, цензура, смартфони
      • API
      • Internet of Things (IoT)
      • Документи, снимки, видео, звуци
  • Казус от практиката: Непрекъснато събиране на големи количества неструктурирани данни

Съхранение на данни

  • Релационни бази данни
  • Нерелационни бази данни
  • Hadoop: Разпределена файлова система (HDFS)
  • Spark: Устойчив разпределен набор от данни (RDD)
  • Облачно съхранение

Подготовка на данни

  • Поглъщане, селекция, почистване и трансформация
  • Осигуряване на качество на данните – коректност, значимост и сигурност
  • Доклади за изключения

Languages се използва за подготовка, обработка и анализ

  • R език
    • Въведение в Р
    • Манипулиране на данни, изчисление и графично показване
  • Python
    • Въведение в Python
    • Манипулиране, обработка, почистване и обработка на данни

Анализ на данни

  • Проучвателен анализ
    • Основна статистика
    • Чернови визуализации
    • Разбиране на данните
  • Причинност
  • Характеристики и трансформации
  • Machine Learning
    • Надзираван срещу ненадзираван
    • Кога какъв модел да използвате
  • Natural Language Processing (NLP)

Data Visualization

  • Най-добри практики
  • Избор на правилната диаграма за точните данни
  • Цветни палети
  • Извеждане на следващото ниво
    • Табла за управление
    • Интерактивни визуализации
  • Разказване на истории с данни

Обобщение и заключение

Изисквания

  • Общо разбиране на концепциите за бази данни
  • Основно разбиране на статистиката
 35 Часа

Брой участници


Цена за участник

Oтзиви от потребители (3)

Предстоящи Курсове

Свързани Kатегории