План на курса

Въведение

  • Разбирането на важността на подготвянето на данни в анализа и машинното обучение
  • Пиплайна за подготвяне на данни и неговата роля в цикъла на данните
  • Разглеждане на общите проблеми с сурови данни и въздействието им върху анализа

Сбирка и придобиване на данни

  • Източници на данни: бази данни, API, електронни таблици, текстови файлове и др.
  • Техники за събиране на данни и осигуряване на качеството им по време на събирането
  • Събиране на данни от различни източници

Техники за почистване на данни

  • Откриване и обработка на липсващи стойности, изключения и неконсистентности
  • Справяне с дублиращи се данни и грешки в набора от данни
  • Почистване на реални набори от данни

Трансформация и стандартизация на данни

  • Техники за нормализация и стандартизация на данни
  • Обработка на категорични данни: кодиране, групиране и инженерия на характеристики
  • Трансформиране на сурови данни в ползваеми формати

Интеграция и агрегация на данни

  • Сливане и комбиниране на набори от данни от различни източници
  • Решаване на конфликти с данни и съгласуване на типовете данни
  • Техники за агрегация и консолидиране на данни

Осигуряване на качеството на данните

  • Методи за осигуряване на качеството и интегритета на данните по време на процеса
  • Имплементация на проверки за качество и валидационни процедури
  • Примерни изследвания и практични приложения на осигуряване на качеството на данните

Съкращаване на размерността и избор на характеристики

  • Разбиране на нуждата от съкращаване на размерността
  • Техники като PCA, избор на характеристики и стратегии за съкращаване
  • Имплементация на техники за съкращаване на размерността

Резюме и следващи стъпки

Изисквания

  • Основни знания за концепции на данни

Целева аудитория

  • Аналитици на данни
  • Администратори на бази данни
  • ИТ професионалисти
 14 часа

Брой участници


Цена за участник

Отзиви от потребители (2)

Предстоящи Курсове

Свързани Kатегории