План на курса
Въведение
Инсталиране и конфигуриране на Dataiku Data Science Studio (DSS)
- Системни изисквания за Dataiku DSS
- Настройка на интеграции с Apache Hadoop и Apache Spark
- Конфигуриране на Dataiku DSS с уеб проксита
- Миграция от други платформи към Dataiku DSS
Обзор на възможностите и архитектурата на Dataiku DSS
- Основни обекти и графики, фундаментални за Dataiku DSS
- Какво е рецепта в Dataiku DSS?
- Видове набор от данни, поддържани от Dataiku DSS
Създаване на проект в Dataiku DSS
Определяне на набор от данни за свързване с ресурси за данни в Dataiku DSS
- Работа с DSS конектори и формати на файлове
- Стандартни DSS формати срещу Hadoop специфични формати
- Качване на файлове за проект в Dataiku DSS
Обзор на файловата система на сървъра в Dataiku DSS
Създаване и използване на управлявани папки
- DSS рецепта за сливане на папки
- Локални срещу не локални управлявани папки
Конструиране на набор от данни на файловата система, използвайки съдържанието на управлявани папки
- Извършване на почиствания с DSS кодова рецепта
Работа с набор от данни за метрики и вътрешни статистики
Въвеждане на рецептата за изтегляне на DSS за HTTP набор от данни
Преместване на SQL набор от данни и HDFS набор от данни с DSS
Подреждане на набор от данни в Dataiku DSS
- Подреждане при записване срещу подреждане при четене
Изследване и подготовка на визуализации за данни за проект в Dataiku DSS
Обзор на схемите на Dataiku, типовете съхранение и значението им
Извършване на почистване, нормализация и обогатяване на скриптове за данни в Dataiku DSS
Работа с интерфейса за графики на Dataiku DSS и типовете визуална агрегация
Използване на интерактивната функция за статистики на DSS
- Единомерен анализ срещу двумерен анализ
- Използване на инструмента за основен компонентен анализ (PCA) на DSS
Обзор на машинното обучение с Dataiku DSS
- Наблюдавано ML срещу ненаблюдавано ML
- Референции за алгоритми за ML на DSS и обработка на характеристики
- Дълбоко обучение с Dataiku DSS
Обзор на потока, извлечен от набор от данни и рецепти на DSS
Преобразуване на съществуващи набор от данни в DSS с визуални рецепти
Използване на DSS рецепти, базирани на код, дефиниран от потребителя
Оптимизиране на изследване и експериментиране с кодови блокноти на DSS
Написване на напреднали DSS визуализации и специални функции за преден край с Webapps
Работа с функцията за кодови отчета на Dataiku DSS
Споделяне на елементи на проект за данни и запознаване с таблото на DSS
Проектиране и пакетиране на проект в Dataiku DSS като повторно използвана приложение
Обзор на напреднали методи в Dataiku DSS
- Въвеждане на оптимизирано разделяне на набор от данни, използвайки DSS
- Извършване на специфични части за обработка на DSS през изчисления в контейнери на Kubernetes
Обзор на сътрудничеството и контрол на версиите в Dataiku DSS
Въвеждане на автоматизирани сценарии, метрики и проверки за тестване на проект на DSS
Разгръщане и актуализация на проект с автомационния възел на DSS и пакети
Работа с реални API в Dataiku DSS
- Допълнителни API и REST API в DSS
Анализ и прогнозиране на временни редове на Dataiku DSS
Осигуряване на проект в Dataiku DSS
- Управление на разрешенията на проект и авторизациите на таблото
- Въвеждане на напреднали опции за сигурност
Интегриране на Dataiku DSS с облака
Диагностика на проблеми
Резюме и заключение
Изисквания
- Опит с програмните езици Python, SQL и R
- Основни знания за обработка на данни с Apache Hadoop и Spark
- Разбиране на концепциите на машинно обучение и модели на данни
- Опит в статистически анализи и концепции на наука за данни
- Опит в визуализация и комунициране на данни
Целева група
- Инженери
- Научни работници по данни
- Аналитици по данни