План на курса
Въведение
Инсталиране и конфигуриране на Dataiku Data Science Studio (DSS)
- Системни изисквания за Dataiku DSS Настройване на интеграции на Apache Hadoop и Apache Spark Конфигуриране на Dataiku DSS с уеб проксита Мигриране от други платформи към Dataiku DSS
Преглед на функциите и архитектурата на Dataiku DSS
- Основни обекти и графики, основополагащи за Dataiku DSS Какво е рецепта в Dataiku DSS? Типове набори от данни, поддържани от Dataiku DSS
Създаване на Dataiku DSS проект
Дефиниране на набори от данни за свързване с ресурси от данни в Dataiku DSS
- Работа с DSS конектори и файлови формати Стандартни DSS формати срещу Hadoop-специфични формати Качване на файлове за Dataiku DSS проект
Преглед на сървърната файлова система в Dataiku DSS
Създаване и използване на управлявани папки
- Dataiku DSS рецепта за обединяване на папка Локални срещу нелокални управлявани папки
Конструиране на набор от данни на файловата система с помощта на съдържанието на управлявана папка
- Извършване на почистване с рецепта за DSS код
Работа с Metrics Dataset и Internal Stats Dataset
Внедряване на рецептата за изтегляне на DSS за HTTP набор от данни
Преместване на SQL набори от данни и HDFS набори от данни с помощта на DSS
Подреждане на набори от данни в Dataiku DSS
- Подреждане на писател срещу подреждане по време на четене
Проучване и подготовка на визуални данни за Dataiku DSS проект
Преглед на схемите на Dataiku, типовете съхранение и значенията
Извършване на скриптове за почистване, нормализиране и обогатяване на данни в Dataiku DSS
Работа с интерфейса на Dataiku DSS Charts и видовете визуални агрегации
Използване на интерактивната Statistics функция на DSS
- Едномерен анализ срещу двумерен анализ Използване на DSS инструмента за анализ на основните компоненти (PCA)
Преглед на Machine Learning с Dataiku DSS
- Контролиран ML срещу неконтролиран ML Референции за DSS ML Алгоритми и обработка на функции Deep Learning с Dataiku DSS
Преглед на потока, извлечен от DSS набори от данни и рецепти
Трансформиране на съществуващи набори от данни в DSS с визуални рецепти
Използване на DSS рецепти, базирани на дефиниран от потребителя код
Оптимизиране на изследването на кода и експериментирането с тетрадки с DSS код
Писане на разширени DSS визуализации и персонализирани Frontend функции с Webapps
Работа с Dataiku DSS Code Reports Feature
Споделяне на проекти за данни Element и запознаване с таблото за управление на DSS
Проектиране и опаковане на Dataiku DSS проект като приложение за многократна употреба
Преглед на усъвършенстваните методи в Dataiku DSS
- Внедряване на оптимизирано разделяне на набори от данни с помощта на DSS Изпълнение на специфични части за обработка на DSS чрез изчисления в Kubernetes контейнери
Преглед на Collaboration и контрол на версиите в Dataiku DSS
Внедряване на автоматизирани сценарии, показатели и проверки за тестване на проекти на DSS
Внедряване и актуализиране на проект с DSS Automation Node и Bundles
Работа с API в реално време в Dataiku DSS
- Допълнителни API и Rest API в DSS
Анализиране и Forecasting Dataiku DSS времеви редове
Защита на проект в Dataiku DSS
- Управление на разрешения за проекти и разрешения на таблото за управление Внедряване на разширени опции за сигурност
Интегриране на Dataiku DSS с облака
Отстраняване на неизправности
Обобщение и заключение
Изисквания
- Опит с програмните езици Python, SQL и R
- Основни познания за обработка на данни с Apache Hadoop и Spark
- Разбиране на концепции за машинно обучение и модели на данни
- Предистория в статистическите анализи и концепциите за наука за данни
- Опит с визуализиране и предаване на данни
Публика
- Инженери
- Учени по данни
- Анализатори на данни