План на курса

Machine Learning Введение

  • Типове на машинно обучение – с надзор vs без надзор
  • От статистическо обучение към машинно обучение
  • Работният процес на миньориране на данни: разбиране на бизнес, подготовка на данни, моделване, развертане
  • Избор на подходящия алгоритъм за задачата
  • Преобучение и компромисът между предразяване и вариация

Python и преглед на библиотеки за ML

  • Защо да използваме програмни езици за ML
  • Избор между R и Python
  • Python кратка курс и Jupyter Notebooks
  • Python библиотеки: pandas, NumPy, scikit-learn, matplotlib, seaborn

Тестване и оценка на ML алгоритми

  • Обобщение, преобучение и валидиране на модели
  • Стратегии за оценка: holdout, кръстова валидация, бутстрапинг
  • Метрики за регресия: ME, MSE, RMSE, MAPE
  • Метрики за класификация: точност, матрица на заблуди, небалансирани класи
  • Визуализация на производителността на моделите: крива на печалба, ROC крива, крива на подем
  • Избор на модел и мрежови търсене за настройка

Подготовка на данни

  • Внасяне и съхранение на данни в Python
  • Експлоатационен анализ и резюмирани статистики
  • Работене с липсващи стойности и изключения
  • Стандартизация, нормализация и трансформация
  • Кодиране на качествени данни и обработка на данни с pandas

Алгоритми за класификация

  • Двоична vs многокласова класификация
  • Логистична регресия и дискриминантни функции
  • Naïve Bayes, k-най-близки съседи
  • Дървета за решения: CART, Random Forests, Bagging, Boosting, XGBoost
  • Машини с поддържащи вектор и ядра
  • Техники за обучение с ансамбъл

Регресия и числено предсказване

  • Най-малки квадрати и избор на променливи
  • Методи за регуларизация: L1, L2
  • Полиномна регресия и нелинейни модели
  • Дървета за регресия и сплайни

Unsupervised Learning

  • Техники за кластеризиране: k-means, k-medoids, йерархично кластеризиране, SOMs
  • Намаляване на размерността: PCA, факторен анализ, SVD
  • Мултидименсионално масштабиране

Миниране на текстови данни

  • Предварителна обработка на текст и токенизация
  • Кючеви думи, стъмняване и лематизация
  • Анализ на настроения и честота на думи
  • Визуализация на текстови данни с облаци от думи

Системи за препоръки

  • Колаборативно филтриране базирано на потребител и базарано на предмет
  • Проектиране и оценка на двигатели за препоръки

Миниране на асоциативни модели

  • Често срещани множества и алгоритъм на Apriori
  • Анализ на пазарна кошница и коефициент на подем

Откриване на изключения

  • Анализ на екстремни стойности
  • Методи базирани на разстояние и базирани на гъстота
  • Откриване на изключения в високоразмерни данни

Machine Learning Случайно изследване

  • Разбиране на бизнес проблема
  • Предварителна обработка на данни и инженерство на характеристики
  • Избор на модел и настройка на параметри
  • Оценка и представяне на резултатите
  • Развертане

Резюме и следващи стъпки

Изисквания

  • Основни знания по статистика и линейна алгебра
  • Знакомство с концепции за анализ на данни или бизнес интелиджънс
  • Някаква предходна работа с програмиране (желателно Python или R) е препоръчително
  • Интерес към изучаване на приложено машинно обучение за проекти с основа на данни

Целева аудитория

  • Аналитици и научни работници с данни
  • Статистици и изследователи
  • Разработчици и IT професионалисти, изследващи инструменти за машинно обучение
  • Всички, които са включени в проекти за наука за данни или предиктивна аналитика
 21 Часа

Брой участници


Цена за участник

Oтзиви от потребители (3)

Предстоящи Курсове

Свързани Kатегории