План на курса
Въведение в машино обучението
- Типове на машино обучение – надзорено и безнадзорно
- От статистическо учене до машино обучение
- Работен процес за минаване през данни: бизнес разбиране, подготвка на данни, моделиране, внедряване
- Избор на правилния алгоритъм за задачата
- Прелагане и компромис между смещението и вариацията (bias-variance tradeoff)
Обзор на Python и библиотеките за машино обучение
- Защо използваме програмни езици за машино обучение
- Избор между R и Python
- Кратък курс по Python и Jupyter Notebooks
- Python библиотеки: pandas, NumPy, scikit-learn, matplotlib, seaborn
Тестване и оценка на алгоритми за машино обучение
- Обобщаване, прелагане и валидация на модела
- Стратегии за оценка: удръжване (holdout), кросс-валидация, бутстрапинг (bootstrapping)
- Метрики за регресия: ME, MSE, RMSE, MAPE
- Метрики за класификация: точност, матрица на объркване, несъответствия в класификаторите (unbalanced classes)
- Визуализация на производителността на модела: крива на печалба, ROC крива, крива на подлова
- Избор на модел и грид търсене за настройка (grid search)
Подготвка на данни
- Внос и съхранение на данни в Python
- Експлоративен анализ и обобщаващи статистики
- Обработка на липсващи стойности и аномалии (outliers)
- Стандартизиране, нормализация и трансформации
- Кодиране на качествени данни и упражнения с pandas
Алгоритми за класификация
- Двукласовата и многокласовата класификация
- Логистическа регресия и дискриминанти функции
- Наивен Байес, k-най-близките съседи (k-nearest neighbors)
- Деревата на решаване: CART, Random Forests, Bagging, Boosting, XGBoost
- Подкрепящи векторни машини и ядра (kernels)
- Тehники за ансамблово учене (ensemble learning techniques)
Регресия и числови прогнози
- Метода на най-малките квадрати и избор на променливи
- Методи за регуляризация: L1, L2
- Полиномна регресия и нелинейни модели
- Деревата на решаване за регресия и сплайнове (splines)
Безнадзорно обучение
- Методи за кластериране: k-средни, k-медоиди, иерархично кластериране, SOMs
- Съкращаване на размерността: PCA, факторен анализ, SVD
- Мултидимензионално скалиране (multidimensional scaling)
Анализ на текстови данни
- Предварителна обработка и токенизиране на текст
- Модел "мешек от думи" (bag-of-words), стъпка на извивки, лематизация
- Анализ на мнения и честота на думи
- Визуализация на текстови данни с облаци от думи
Системи за препоръки
- Колаборативен филтриране, базиран на потребители и продукти (user-based and item-based)
- Проектиране и оценка на системи за препоръки
Майниране на асоциативни модели
- Често срещани елементи (frequent itemsets) и алгоритъм Apriori
- Анализ на пазарни кошнички и коефициент на подлова (lift ratio)
Детектция на аномалии
- Аналез на екстремни стойности (extreme value analysis)
- Методи базирани на разстояние и плотност (distance-based and density-based methods)
- Детектация на аномалии в многомерни данни
Кейс студи по машино обучение
- Разбиране на бизнес проблема
- Подготвка на данни и избор на характеристики (feature engineering)
- Избор на модел и настройка на параметри
- Оценка и представяне на откритията
- Внедряване
Обобщение и следващи стъпки
Изисквания
- Основно разбиране на статистиката и линейната алгебра
- Опознаване с концепциите за анализ на данни или бизнес интелидженс
- Някакъв опит в програмирането (по предпочитание Python или R) е препоръчителен
- Интерес към ученето за приложно машинно обучение за даннозависими проекти
Целева група
- Аналитици и учени на данни
- Статистици и научни специалисти
- Разработчици и ИТ професионалисти, които разглеждат инструменти за машинно обучение
- Всеки участващ в проекти на данните или предиктивния анализ
Отзиви от потребители (3)
Евен с пропускване на един ден поради срещи с клиенти, чувствам се, че разбирам много по-добре процесите и техниките, използвани в Machine Learning и когато да прилагам един подход вместо друг. Нашата задача сега е да практикуваме това, което сме научили, и да започнем да го прилагаме към нашата проблематична област.
Richard Blewett - Rock Solid Knowledge Ltd
Курс - Machine Learning – Data science
Машинен превод
Много харесвам, че обучението беше със фокус върху примери и кодиране. Мислех, че е невъзможно да се включи толкова много съдържание в три дни обучение, но се оказа, че съм грешна. Обучението покрива много теми и всичко беше направено с много подробност (особено настрояване на параметрите на модела - не очаквах, че ще има време за това, и бях много приятно изненадана).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Курс - Machine Learning – Data science
Машинен превод
Това показва много методи с предварително подготвени скриптове - много добре подготвени материали и лесно за проследяване
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Курс - Machine Learning – Data science
Машинен превод
 
                    