План на курса

Въведение

    Разбиране на значението на подготовката на данни в анализите и машинното обучение Тръбопроводът за подготовка на данни и ролята му в жизнения цикъл на данните Проучване на често срещаните предизвикателства в необработените данни и въздействието върху анализа

Събиране и придобиване на данни

    Източници на данни: бази данни, API, електронни таблици, текстови файлове и др. Техники за събиране на данни и осигуряване на качеството на данните по време на събирането Събиране на данни от различни източници

Data Cleaning Техники

    Идентифициране и обработка на липсващи стойности, извънредни стойности и несъответствия Справяне с дубликати и грешки в набора от данни Почистване на набори от данни от реалния свят

Трансформация и стандартизация на данни

    Техники за нормализиране и стандартизиране на данни Обработка на категорични данни: кодиране, групиране и инженеринг на функции Трансформиране на необработени данни в използваеми формати

Data Integration и агрегиране

    Обединяване и комбиниране на набори от данни от различни източници Разрешаване на конфликти на данни и подравняване на типове данни Техники за агрегиране и консолидиране на данни

Data Quality Гарантиране

    Методи за осигуряване на качество и цялост на данните по време на целия процес Изпълнение на проверки на качеството и процедури за валидиране Казуси и практически приложения на осигуряване на качеството на данните

Намаляване на размерността и избор на характеристики

    Разбиране на необходимостта от намаляване на размерността Техники като PCA, избор на функции и стратегии за намаляване Прилагане на техники за намаляване на размерността

Обобщение и следващи стъпки

Изисквания

  • Основни знания за концепции на данни

Публика

  • Аналитици на данни
  • Database администратори
  • ИТ професионалисти
 14 Часа

Брой участници


Цена за участник

Oтзиви от потребители (2)

Предстоящи Курсове

Свързани Kатегории