План на курса

spark.mllib: типове данни, алгоритми и помощни програми

    Типове данни Основна статистика Обобщена статистика Корелации Стратифицирано вземане на извадка Тестване на хипотеза Поточно тестване на значимост Генериране на произволни данни
Линейни модели за класификация и регресия (SVM, логистична регресия, линейна регресия)
  • наивен Байес
  • дървета на решенията
  • ансамбли от дървета (Random Forests и градиентно подсилени дървета)
  • изотонична регресия
  • Съвместно филтриране с алтернативни най-малки квадрати (ALS)
  • Групиране на k-средни стойности
  • Гаусова смес
  • групиране на мощност итерация (PIC)
  • латентно разпределение на Дирихле (LDA)
  • разполовяващи k-средни
  • стрийминг k-средства
  • Разлагане на сингулярна стойност за намаляване на размерността (SVD)
  • анализ на главните компоненти (PCA)
  • Извличане и трансформиране на характеристики
  • Ръст на FP за често копаене на модели
  • правила на асоцииране
  • PrefixSpan
  • Метрики за оценка
  • Експортиране на PMML модел
  • Стохастичен градиентен спускане на оптимизация (разработчик).
  • BFGS с ограничена памет (L-BFGS)
  • spark.ml: API на високо ниво за тръбопроводи на ML
  • Общ преглед: оценители, трансформатори и тръбопроводи Извличане, трансформиране и избиране на функции Класификация и регресия Клъстериране Разширени теми

    Изисквания

    Познаване на едно от следните:

    • Java
    • Scala
    • Python
    • SparkR.
     35 Hours

    Брой участници



    Цена за участник

    Oтзиви от потребители (1)

    Свързани Kурсове

    Big Data Analytics in Health

    21 Hours

    Hadoop and Spark for Administrators

    35 Hours

    Magellan: Geospatial Analytics on Spark

    14 Hours

    Scaling Data Pipelines with Spark NLP

    14 Hours

    Свързани Kатегории