План на курса
Machine Learning Введение
- Типове на машинно обучение – с надзор vs без надзор
- От статистическо обучение към машинно обучение
- Работният процес на миньориране на данни: разбиране на бизнес, подготовка на данни, моделване, развертане
- Избор на подходящия алгоритъм за задачата
- Преобучение и компромисът между предразяване и вариация
Python и преглед на библиотеки за ML
- Защо да използваме програмни езици за ML
- Избор между R и Python
- Python кратка курс и Jupyter Notebooks
- Python библиотеки: pandas, NumPy, scikit-learn, matplotlib, seaborn
Тестване и оценка на ML алгоритми
- Обобщение, преобучение и валидиране на модели
- Стратегии за оценка: holdout, кръстова валидация, бутстрапинг
- Метрики за регресия: ME, MSE, RMSE, MAPE
- Метрики за класификация: точност, матрица на заблуди, небалансирани класи
- Визуализация на производителността на моделите: крива на печалба, ROC крива, крива на подем
- Избор на модел и мрежови търсене за настройка
Подготовка на данни
- Внасяне и съхранение на данни в Python
- Експлоатационен анализ и резюмирани статистики
- Работене с липсващи стойности и изключения
- Стандартизация, нормализация и трансформация
- Кодиране на качествени данни и обработка на данни с pandas
Алгоритми за класификация
- Двоична vs многокласова класификация
- Логистична регресия и дискриминантни функции
- Naïve Bayes, k-най-близки съседи
- Дървета за решения: CART, Random Forests, Bagging, Boosting, XGBoost
- Машини с поддържащи вектор и ядра
- Техники за обучение с ансамбъл
Регресия и числено предсказване
- Най-малки квадрати и избор на променливи
- Методи за регуларизация: L1, L2
- Полиномна регресия и нелинейни модели
- Дървета за регресия и сплайни
Unsupervised Learning
- Техники за кластеризиране: k-means, k-medoids, йерархично кластеризиране, SOMs
- Намаляване на размерността: PCA, факторен анализ, SVD
- Мултидименсионално масштабиране
Миниране на текстови данни
- Предварителна обработка на текст и токенизация
- Кючеви думи, стъмняване и лематизация
- Анализ на настроения и честота на думи
- Визуализация на текстови данни с облаци от думи
Системи за препоръки
- Колаборативно филтриране базирано на потребител и базарано на предмет
- Проектиране и оценка на двигатели за препоръки
Миниране на асоциативни модели
- Често срещани множества и алгоритъм на Apriori
- Анализ на пазарна кошница и коефициент на подем
Откриване на изключения
- Анализ на екстремни стойности
- Методи базирани на разстояние и базирани на гъстота
- Откриване на изключения в високоразмерни данни
Machine Learning Случайно изследване
- Разбиране на бизнес проблема
- Предварителна обработка на данни и инженерство на характеристики
- Избор на модел и настройка на параметри
- Оценка и представяне на резултатите
- Развертане
Резюме и следващи стъпки
Изисквания
- Основни знания по статистика и линейна алгебра
- Знакомство с концепции за анализ на данни или бизнес интелиджънс
- Някаква предходна работа с програмиране (желателно Python или R) е препоръчително
- Интерес към изучаване на приложено машинно обучение за проекти с основа на данни
Целева аудитория
- Аналитици и научни работници с данни
- Статистици и изследователи
- Разработчици и IT професионалисти, изследващи инструменти за машинно обучение
- Всички, които са включени в проекти за наука за данни или предиктивна аналитика
Oтзиви от потребители (3)
Евен с пропускване на един ден поради срещи с клиенти, чувствам се, че разбирам много по-добре процесите и техниките, използвани в Machine Learning и когато да прилагам един подход вместо друг. Нашата задача сега е да практикуваме това, което сме научили, и да започнем да го прилагаме към нашата проблематична област.
Richard Blewett - Rock Solid Knowledge Ltd
Курс - Machine Learning – Data science
Машинен превод
Много харесвам, че обучението беше със фокус върху примери и кодиране. Мислех, че е невъзможно да се включи толкова много съдържание в три дни обучение, но се оказа, че съм грешна. Обучението покрива много теми и всичко беше направено с много подробност (особено настрояване на параметрите на модела - не очаквах, че ще има време за това, и бях много приятно изненадана).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Курс - Machine Learning – Data science
Машинен превод
Това показва много методи с предварително подготвени скриптове - много добре подготвени материали и лесно за проследяване
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Курс - Machine Learning – Data science
Машинен превод