План на курса

Всяка сесия е от 2 часа

Ден-1: Сесия -1: Бизнес преглед за Big Data интелигентност в държавата

  • Кейси от NIH, DoE
  • Темпото на адаптация към Big Data в държавните агенции и как те се подготвят за бъдещата операция с бази данни
  • Широкомащабна приложимост в DoD, NSA, IRS, USDA и др.
  • Интерфейс със старите данни
  • Основно разбиране на технологиите за прогнозен анализ
  • Интегриране на данни и визуализация със табло
  • Маневрите с фалшификация
  • Генериране на бизнес правила за откриване на фалшификации
  • Откриване и профилиране на заплахи
  • Анализ на стойността при имплементация на Big Data

Ден-1: Сесия-2 : Въведение в Big Data-1

  • Основните характеристики на Big Data — обем, разнообразие, брзина и достоверност. Марка за обем.
  • Датови складове — статична схема, бавно развиващ се набор данни
  • Маркировани бази данни като Greenplum, Exadata, Teradata, Netezza, Vertica и др.
  • Решения базирани на Hadoop — без условия за структура на набора данни
  • Типичен шаблон: HDFS, MapReduce (обработка), извличане от HDFS
  • Батч — подхожда за аналитично/нелинейно
  • Обем: поток с данни CEP
  • Типичен избор — продукти CEP (например Infostreams, Apama, MarkLogic и др.)
  • Малко готови за производство — Storm/S4
  • NoSQL бази данни — (колонна и ключ-стойност): най-подхождащи като аналитично допълнение към датовия склад/база данни

Ден-1 : Сесия -3 : Въведение в Big Data-2

NoSQL решения

  • KV Store — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (иерархично) — GT.m, Cache
  • KV Store (пореден) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store — Gigaspaces, Coord, Apache River
  • Обектна база данни — ZopeDB, DB40, Shoal
  • Документарен склад — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-бази данни, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Широкостолбова база данни — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Разновидности на данни: Въведение в проблемите с чистенето на данни при Big Data

  • РДБС — статична структура/схема, не насърчава гъвкава, изследователска среда.
  • NoSQL — полуструктурирано, достатъчно структурирано за съхраняване на данни без точна схема преди запазването
  • Проблемите с чистенето на данните

Ден-1 : Сесия-4 : Въведение в Big Data-3: Hadoop

  • Кога да изберете Hadoop?
  • СТРУКТУРИРАНО — Предприемен датов склад/база данни може да съхранява огромни обеми данни (за цена), но налагат структура (не подхожда за активно изследване)
  • ПОЛУСТРУКТУРИРАНИ данни — трудно се постига с традиционните решения (склад/база)
  • Съхраняването на данни = голям усилия и статично дори след имплементацията
  • За разнообразие и обем на данните, обработени в товарителна хардуер — HADOOP
  • Компактен Х/У се изисква за създаването на кластера Hadoop

Въведение в Map Reduce/HDFS

  • MapReduce — дистрибуирано изчисление над множество сървъри
  • HDFS — прави данните налични локално за процеса на изчисления (с резерви)
  • Данни — могат да бъдат неструктурирани/без схема (в противоположност на РДБС)
  • Отговорността на разработчика е да даде смисъл на данните
  • Програмирането с MapReduce = работа с Java (за и против), ръчен зареждане на данни в HDFS

Ден-2: Сесия-1: Екосистема Big Data — Построение на Big Data ETL: светът на инструменти за Big Data — кой да използваме и кога?

  • Hadoop vs. други NoSQL решения
  • За интерактивен, случаен достъп до данни
  • Hbase (колонна ориентирана база данни) върху Hadoop
  • Случаен достъп до данни, но с наложени ограничения (до 1 PB)
  • Не подхожда за анализа ad-hoc, добра за логиране, броене, времеви ред
  • Sqoop — Импортиране от бази данни в Hive или HDFS (JDBC/ODBC достъп)
  • Flume — Стримерене на данни (например лог файлове) в HDFS

Ден-2: Сесия-2: Система за управление Big Data

  • Преместване на части, стартиране/събивания на изчислителни възли: ZooKeeper — За конфигуриране/координация/именуване на услуги
  • Сложна pipeline/workflow: Oozie — Управление на workflow, зависимости, последователност
  • Деплойране, конфигуриране, управление на кластери, апгрейд и др. (админ на системи): Ambari
  • В облак: Whirr

Ден-2: Сесия-3: Прогнозен анализ в бизнес интелигентност — 1: Основни техники и машиноспособности за BI:

  • Въведение в машинно обучение
  • Учене на класификационни техники
  • Байесовски прогноза — подготовка на трениращ файл
  • Подкрепена машина (SVM)
  • KNN p-Tree Алгебра и вертикално миниране
  • Невронни мрежи
  • Проблем с голям брой променливи в Big Data — Случайна гора (RF)
  • Проблем на автоматизация при Big Data — Много-моделен ансамбъл RF
  • Автоматизация чрез Soft10-M
  • Инструмент за анализа на текст — Treeminer
  • Гъвкаво обучение
  • Обучение с агенти
  • Разпределено обучение
  • Въведение в отворен код за прогнозен анализ: R, Rapidminer, Mahut

Ден-2: Сесия-4 Прогнозна екосистема — 2: Общи прогнозни аналитични проблеми в държавата

  • Аналитика на проникване
  • Визуализираща аналитика
  • Структуриран прогнозен анализ
  • Неструктуриран прогнозен анализ
  • Профилиране на заплахи/фалшификации/поставчици
  • Механизъм за препоръки
  • Откриване на модели
  • Откриване на правила/сценарии — провал, фалшификация, оптимизация
  • Откриване на коренна причина
  • Анализ на мнение
  • CRM аналитика
  • Мрежова аналитика
  • Анализ на текст
  • Технологически подкрепен преглед
  • Аналитика за фалшификации
  • Реално-временна аналитика

Ден-3 : Сесия-1 : Реално и масштабируемо анализиране върху Hadoop

  • Защо обикновените алгоритми за анализ не работят в Hadoop/HDFS
  • Apache Hama — за групово синхронно разпределено изчисление
  • Apache SPARK — за кластерно изчисление за реално-временна аналитика
  • Графични лаборатории на CMU2 — графично асинхронен подход към разпределено изчисление
  • KNN p-Алгебра на Treeminer за намалено хардверно разходи

Ден-3: Сесия-2: Инструменти за eDiscovery и forensics

  • eDiscovery върху Big Data vs. Стара данна — сравнение по цена и перформанси
  • Прогнозно кодиране и технологически подкрепен преглед (TAR)
  • Живо демонстрация на продукт TAR (vMiner) за разбираемост как работи TAR за по-бърз преглед
  • По-бързо индексиране чрез HDFS — брзина на данните
  • NLP или обработка на естествен език — различни техники и продукти с отворен код
  • eDiscovery в чужди езици — технологии за обработка на данни на чужд език

Ден-3 : Сесия 3: Big Data BI за киберсигурност — Разбиране на цялостните 360 градуса от бързото събирание на данни до идентификацията на заплахи

  • Разбиране на основи за сигурностен анализ — атакуващата повърхност, неправилна конфигурация на сигурността, защита на хостовете
  • Мрежова инфраструктура/голяма датапайп/Разговорен ETL за реално-временна аналитика
  • Прескриптивно vs. прогностично — Фиксирано правилно базирано vs. автоматично откриване на правила от метаданни

Ден-3: Сесия 4: Big Data в USDA: Приложение в земеделието

  • Въведение в IoT (Интернет на нещата) за земеделие — сензорно базирана Big Data и контрол
  • Въведение в спътниковото изображаване и неговото приложение в земеделието
  • Интегриране на сензорни и спътниково данни за плодородието на почвата, препоръки за култивация и прогноза
  • Страховка в земеделието и Big Data
  • Прогнозиране на загубите от сеч

Ден-4 : Сесия-1: Профил за предотвратяване на фалшификации BI от Big Data в държавата — Аналитика на фалшификации:

  • Основна класификация на аналитиката на фалшификации — правилно базирано vs. прогностично
  • Надзирани vs. недзирани машинни изучавания за откриване на модели на фалшификации
  • Фалшификация на поставчици/намаляване на проекти
  • Medicare и Medicaid фалшификации — техники за откриване на фалшификации при обработка на заявки
  • Фалшификации при компенсации за пътни разходи
  • IRS фалшификации при връщане на данъци
  • Кейси и живи демонстрации ще бъдат дадени там, където са налични данни.

Ден-4 : Сесия-2: Аналитика на социалните мрежи — Извличане и анализ на разузнаване

  • API за ETL Big Data за извличане на данни от социални мрежи
  • Текст, изображения, метаданни и видео
  • Аналитика за мнение от фидовете на социалните мрежи
  • Контекстно и неконтекстно филтриране на фидовете на социалните мрежи
  • Социална мрежа табло за интегрира на разнообразни социални мрежи
  • Автоматизирано профилиране на профилите в социалните мрежи
  • Живи демонстрации за всеки анализ ще бъдат дадени чрез инструмента Treeminer.

Ден-4 : Сесия-3: Аналитика на Big Data в изображения и видео потоци

  • Техники за съхраняване на изображения в Big Data — решения за съхранение на данни, превишуващи петабайтове
  • LTFS и LTO
  • GPFS-LTFS (Слоисто решение за съхранение на големи изображения)
  • Основи на аналитиката на изображения
  • Познаване на обекти
  • Сегментация на изображения
  • Отслежване на движение
  • 3-D реконструкция на изображения

Ден-4: Сесия-4: Приложения на Big Data в NIH:

  • Изпълзващи области на биоинформатиката
  • Метагеномика и проблемите с анализа на Big Data
  • Прогнозни анализа с Big Data за фармакогеномика, метаболомика и протеомика
  • Big Data в процесса на геномика надолу
  • Приложение на прогнозната анализа с Big Data в общественото здравеопазване

Табло за Big Data за бърз достъп до разнообразни данни и ниво на показване:

  • Интеграция на съществуващи приложни платформи с табло за Big Data
  • Управление на Big Data
  • Кейс студия на таблото за Big Data: Tableau и Pentaho
  • Използване на приложение за Big data за подпомагане на услугите с локация в държавата
  • Система за отслежване и управление

Ден-5 : Сесия-1: Как да обосновате имплементацията на Big Data BI в организация:

  • Дефиниране на ROI за имплементация на Big Data
  • Кейс студии за спестяване на времето на аналитиките за събиране и приготвяне на данни — увеличаване на продуктивността
  • Кейс студии за приход от спестяване на цената на лицензираните бази данни
  • Приход от услуги с локация
  • Спестяване от предотвратяването на фалшификации
  • Интегриран подход с изчислителна таблица за приблизително разходи и приход или спестявания от имплементацията на Big Data.

Ден-5 : Сесия-2: Поетапен метод за замяна на старата датова система с Big Data система:

  • Разбиране на практическа Roadmap за миграция към Big Data
  • Какво информация е важна преди архитектурирането на имплементацията на Big Data
  • Различните начини за изчисляване на обем, брзина, разнообразие и достоверност на данните
  • Как да оценете растежа на данните
  • Кейс студии

Ден-5: Сесия 4: Обзор на доставчиците на Big Data и обзор на техните продукти. Вопросно-отговорна сесия:

  • Accenture
  • APTEAN (бивш CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (бивш 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (част от EMC)

Изисквания

  • Основно познаване на бизнес операции и датови системи в държавата в техния домейн
  • Основни знания за SQL/Oracle или релационни бази данни
  • Основно разбиране на статистиката (на ниво таблица)
 35 часа

Брой участници


Цена за участник

Отзиви от потребители (1)

Предстоящи Курсове

Свързани Kатегории