План на курса

Въведение

    Разбиране на значението на подготовката на данни в анализите и машинното обучение Тръбопроводът за подготовка на данни и ролята му в жизнения цикъл на данните Проучване на често срещаните предизвикателства в необработените данни и въздействието върху анализа

Събиране и придобиване на данни

    Източници на данни: бази данни, API, електронни таблици, текстови файлове и др. Техники за събиране на данни и осигуряване на качеството на данните по време на събирането Събиране на данни от различни източници

Data Cleaning Техники

    Идентифициране и обработка на липсващи стойности, извънредни стойности и несъответствия Справяне с дубликати и грешки в набора от данни Почистване на набори от данни от реалния свят

Трансформация и стандартизация на данни

    Техники за нормализиране и стандартизиране на данни Обработка на категорични данни: кодиране, групиране и инженеринг на функции Трансформиране на необработени данни в използваеми формати

Data Integration и агрегиране

    Обединяване и комбиниране на набори от данни от различни източници Разрешаване на конфликти на данни и подравняване на типове данни Техники за агрегиране и консолидиране на данни

Data Quality Гарантиране

    Методи за осигуряване на качество и цялост на данните по време на целия процес Изпълнение на проверки на качеството и процедури за валидиране Казуси и практически приложения на осигуряване на качеството на данните

Намаляване на размерността и избор на характеристики

    Разбиране на необходимостта от намаляване на размерността Техники като PCA, избор на функции и стратегии за намаляване Прилагане на техники за намаляване на размерността

Обобщение и следващи стъпки

Изисквания

    Основно разбиране на концепциите за данни

Публика

    Анализатори на данни Database администратори ИТ специалисти
 14 Hours

Брой участници



Цена за участник

Oтзиви от потребители (2)

Свързани Kурсове

Свързани Kатегории