План на курса

Въведение в машино обучението

  • Типове на машино обучение – надзорено и безнадзорно
  • От статистическо учене до машино обучение
  • Работен процес за минаване през данни: бизнес разбиране, подготвка на данни, моделиране, внедряване
  • Избор на правилния алгоритъм за задачата
  • Прелагане и компромис между смещението и вариацията (bias-variance tradeoff)

Обзор на Python и библиотеките за машино обучение

  • Защо използваме програмни езици за машино обучение
  • Избор между R и Python
  • Кратък курс по Python и Jupyter Notebooks
  • Python библиотеки: pandas, NumPy, scikit-learn, matplotlib, seaborn

Тестване и оценка на алгоритми за машино обучение

  • Обобщаване, прелагане и валидация на модела
  • Стратегии за оценка: удръжване (holdout), кросс-валидация, бутстрапинг (bootstrapping)
  • Метрики за регресия: ME, MSE, RMSE, MAPE
  • Метрики за класификация: точност, матрица на объркване, несъответствия в класификаторите (unbalanced classes)
  • Визуализация на производителността на модела: крива на печалба, ROC крива, крива на подлова
  • Избор на модел и грид търсене за настройка (grid search)

Подготвка на данни

  • Внос и съхранение на данни в Python
  • Експлоративен анализ и обобщаващи статистики
  • Обработка на липсващи стойности и аномалии (outliers)
  • Стандартизиране, нормализация и трансформации
  • Кодиране на качествени данни и упражнения с pandas

Алгоритми за класификация

  • Двукласовата и многокласовата класификация
  • Логистическа регресия и дискриминанти функции
  • Наивен Байес, k-най-близките съседи (k-nearest neighbors)
  • Деревата на решаване: CART, Random Forests, Bagging, Boosting, XGBoost
  • Подкрепящи векторни машини и ядра (kernels)
  • Тehники за ансамблово учене (ensemble learning techniques)

Регресия и числови прогнози

  • Метода на най-малките квадрати и избор на променливи
  • Методи за регуляризация: L1, L2
  • Полиномна регресия и нелинейни модели
  • Деревата на решаване за регресия и сплайнове (splines)

Безнадзорно обучение

  • Методи за кластериране: k-средни, k-медоиди, иерархично кластериране, SOMs
  • Съкращаване на размерността: PCA, факторен анализ, SVD
  • Мултидимензионално скалиране (multidimensional scaling)

Анализ на текстови данни

  • Предварителна обработка и токенизиране на текст
  • Модел "мешек от думи" (bag-of-words), стъпка на извивки, лематизация
  • Анализ на мнения и честота на думи
  • Визуализация на текстови данни с облаци от думи

Системи за препоръки

  • Колаборативен филтриране, базиран на потребители и продукти (user-based and item-based)
  • Проектиране и оценка на системи за препоръки

Майниране на асоциативни модели

  • Често срещани елементи (frequent itemsets) и алгоритъм Apriori
  • Анализ на пазарни кошнички и коефициент на подлова (lift ratio)

Детектция на аномалии

  • Аналез на екстремни стойности (extreme value analysis)
  • Методи базирани на разстояние и плотност (distance-based and density-based methods)
  • Детектация на аномалии в многомерни данни

Кейс студи по машино обучение

  • Разбиране на бизнес проблема
  • Подготвка на данни и избор на характеристики (feature engineering)
  • Избор на модел и настройка на параметри
  • Оценка и представяне на откритията
  • Внедряване

Обобщение и следващи стъпки

Изисквания

  • Основно разбиране на статистиката и линейната алгебра
  • Опознаване с концепциите за анализ на данни или бизнес интелидженс
  • Някакъв опит в програмирането (по предпочитание Python или R) е препоръчителен
  • Интерес към ученето за приложно машинно обучение за даннозависими проекти

Целева група

  • Аналитици и учени на данни
  • Статистици и научни специалисти
  • Разработчици и ИТ професионалисти, които разглеждат инструменти за машинно обучение
  • Всеки участващ в проекти на данните или предиктивния анализ
 21 часа

Брой участници


Цена за участник

Отзиви от потребители (3)

Предстоящи Курсове

Свързани Kатегории