План на курса

Всеки сесия е с продължителност 2 часа

Ден-1: Сесия -1: Бизнес обзор на защо Big Data и бизнес интелигентност в правителството.

  • Кейс студи от NIH, DoE
  • Степен на адаптация на Big Data в правителствени агенции и как те подготвят бъдещите си операции около предиктивна аналитика на Big Data
  • Обширна сфера на приложение в DoD, NSA, IRS, USDA и т.н.
  • Интегриране на Big Data с традиционни данни
  • Основно разбиране на технологиите, които позволяват предиктивна аналитика
  • Интеграция на данни и визуализация на дашборд
  • Управление на измами
  • Създаване на бизнес правила/обнаружение на измами
  • Обнаружение и профилиране на застрашения
  • Анализ на разход-приходи за имплементация на Big Data

Ден-1: Сесия-2: Введение в Big Data-1

  • Основни характеристики на Big Data: обем, разнообразие, скорост и истинност. МПП архитектура за обем.
  • Данни на съхранени данни – статична схема, бавно еволюиращи набор данни
  • МПП бази данни като Greenplum, Exadata, Teradata, Netezza, Vertica и др.
  • Решения базирани на Hadoop – няма ограничения за структурата на набора данни.
  • Типичен шаблон: HDFS, MapReduce (crunch), извличане от HDFS
  • Парчеви (batch) – подходящи за анализ/неинтерактивни
  • Обем: поток на данни CEP
  • Типични избори – CEP продукти (напр. Infostreams, Apama, MarkLogic и др.)
  • По-малко готови за производство – Storm/S4
  • NoSQL бази данни – (колонови и ключ-стойност): Най-подходящи като аналитичен допълнение към съхранени данни/бази данни

Ден-1: Сесия-3: Введение в Big Data-2

Решения NoSQL

  • Ключ-стойност съхранение (KV Store) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Ключ-стойност съхранение (KV Store) - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Ключ-стойност съхранение (Hierarchical) - GT.m, Cache
  • Ключ-стойност съхранение (Ordered) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Ключ-стойност кеш (KV Cache) - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Натрупване на данни (Tuple Store) - Gigaspaces, Coord, Apache River
  • Обекти бази данни - ZopeDB, DB40, Shoal
  • Документ съхранение - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Широко колоново съхранение - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Разнообразие на данните: Въведение в проблема с почистване на данни в Big Data

  • RDBMS – статична структура/схема, не подкрепя агилна, изследователска среда.
  • NoSQL – полуструктурирани, достатъчно структура за съхранение на данни без точна схема преди съхранение на данните
  • Проблеми с почистване на данни

Ден-1: Сесия-4: Введение в Big Data-3: Hadoop

  • Кога да изберете Hadoop?
  • СТРУКТУРИРАНИ - корпоративните съхранени данни/бази данни могат да съхраняват огромни данни (с цената), но налагат структура (не е добро за активна изследователска дейност)
  • Полуструктурирани данни – трудно е с традиционните решения (Данни на съхранени данни/бази данни)
  • Съхранение на данни = ОГРОМНА напора и статични чак и след имплементация
  • За разнообразие и обем на данни, обработени на комерсиално оборудване – HADOOP
  • Комерсиално оборудване е необходимо за създаване на Hadoop кластер

Въведение в Map Reduce /HDFS

  • MapReduce – разпределен изчислителен процес върху много сървъри
  • HDFS – прави данните достъпни локално за изчислителния процес (с дублиране)
  • Данни – могат да бъдат неструктурирани/без схема (в противоположност на RDBMS)
  • Отговорност на разработчика е да даде смисъл на данните
  • Програмиране на MapReduce = работа с Java (предности/недостатъци), ръчно зареждане на данни в HDFS

Ден-2: Сесия-1: Big Data екосистема-Създаване на Big Data ETL: вселената на Big Data инструменти – кой да използваш и когато?

  • Hadoop vs. други решения NoSQL
  • За интерактивен, случайен достъп до данни
  • Hbase (колонова база данни) върху Hadoop
  • Случайен достъп до данни, но ограничения се налагат (максимум 1 PB)
  • Не е добро за адиок анализ, добро за логиране, броячество, временни редове
  • Sqoop - Импорт от бази данни в Hive или HDFS (достъп JDBC/ODBC)
  • Flume – Поток на данни (напр. лог данни) в HDFS

Ден-2: Сесия-2: Система за управление на Big Data

  • Подвижни части, изчислителни възли старт/неуспех: ZooKeeper - за конфигурация/координация/услуги за наименование
  • Сложен поток/работен процес: Oozie – управление на работен процес, зависимости, верига
  • Разпространение, конфигурация, управление на кластера, обновяване и т.н. (системен администратор): Ambari
  • В облака: Whirr

Ден-2: Сесия-3: Предсказателна аналитика в бизнес интелигентност -1: Основни техники и бизнес интелигентност базирана на машинно обучение:

  • Въведение в машинно обучение
  • Учене на техники за класификация
  • Байесов предиктивни предсказания - подготовка на обучаващ файл
  • Поддържащи векторни машини
  • KNN p-деревна алгебра и вертикално минеране
  • Невронни мрежи
  • Големи проблеми с променливи данни в Big Data - Случайни гори (RF)
  • Автоматизиране на проблеми с Big Data – Многомоделни ансамбли RF
  • Автоматизация чрез Soft10-M
  • Аналитичен инструмент за текст - Treeminer
  • Агилно обучение
  • Обучение базирано на агенти
  • Разпределено обучение
  • Въведение в отворени инструменти за предиктивна аналитика: R, Rapidminer, Mahut

Ден-2: Сесия-4: Предсказателна аналитика екосистема-2: Често срещани проблеми с предиктивна аналитика в правителството.

  • Анализ на информация
  • Визуализация на анализ
  • Структурирана предиктивна аналитика
  • Неструктурирана предиктивна аналитика
  • Профилиране на застрашения/измами/добитък
  • Рекомендателен механизъм
  • Обнаружение на шаблони
  • Откриване на правила/сценарии – неудачи, измами, оптимизация
  • Откриване на основни причини
  • Анализ на настроения
  • Анализ на CRM
  • Анализ на мрежата
  • Анализ на текст
  • Технологично подпомагано прегледване
  • Анализ на измами
  • Ръчен анализ

Ден-3: Сесия-1: Ръчен и масово анализ върху Hadoop

  • Защо обикновените аналитични алгоритми не работят в Hadoop/HDFS
  • Apache Hama - за синхронно разпределен изчислителен процес с големи данни
  • Apache SPARK - за разпределени изчислителни задачи за ръчен анализ
  • CMU Graphics Lab2 - графичен асинхронен подход към разпределени изчислителни задачи
  • Подход KNN p-алгебра от Treeminer за намаляване на разходите за оборудване

Ден-3: Сесия-2: Инструменти за eDiscovery и криминалистика

  • eDiscovery върху Big Data vs. традиционни данни – сравнение на разходи и производителност
  • Предиктивно кодиране и технологично подпомагано прегледване (TAR)
  • Жив демонстрация на TAR продукт (vMiner) за по-бързо откриване
  • Бързо индексиране чрез HDFS – скорост на данните
  • НПЯ или обработка на естествен език – различни техники и отворени продукти
  • eDiscovery в чужди езици – технологии за обработка на чужди езици

Ден-3: Сесия-3: Big Data BI за киберсигурност –Разбиране на целия 360-градусов обзор на бързо събиране на данни до идентифициране на застрашения

  • Разбиране на основите на сигурностна аналитика - атакуваща повърхност, грешни конфигурации на сигурността, защита на хоста
  • Мрежова инфраструктура / Голяма данна тръба / Отговорен ETL за ръчен анализ
  • Предписано vs. предиктивно – Фиксирано правилно базирано vs. автоматично откриване на правила за застрашения от метаданни

Ден-3: Сесия-4: Big Data в USDA: Приложение в земеделието

  • Въведение в IoT (Интернет на нещата) за земеделие – сензорно базирани Big Data и контрол
  • Въведение в спътниковата имджинг и неговото приложение в земеделието
  • Интегриране на сензорни и изображени данни за плодородие на почвата, препоръки за култивиране и прогнози
  • Земеделие и осигуряване и Big Data
  • Прогнозиране на загуби на култури

Ден-4: Сесия-1: Превенция на измами от Big Data в правителството - анализ на измами:

  • Основна класификация на анализ на измами - базирана на правила vs. предиктивна аналитика
  • Наблюдавано vs. ненаблюдавано машинно обучение за откриване на шаблони на измами
  • Измама от добитък/прекомерно надценяване на проекти
  • Измама при Medicare и Medicaid - техники за откриване на измами за обработка на претенции
  • Измами при пътуване с отчет
  • Измами при връщане на данъци от IRS
  • Кейс студи и живи демонстрации ще бъдат дадени, където има данни.

Ден-4: Сесия-2: Аналитика на социалните медии - Събиране и анализ на информация

  • API за Big Data ETL за извличане на данни от социалните медии
  • Текст, изображение, метаданни и видео
  • Анализ на настроения от социалните медии
  • Контекстуално и неконтекстуално филтриране на социалните медии
  • Дашборд за социални медии за интеграция на различни социални медии
  • Автоматизирано профилиране на социални медии
  • Живи демонстрации на всяка аналитика ще бъдат дадени чрез инструмента Treeminer.

Ден-4: Сесия-3: Аналитика на Big Data в обработка на изображения и видео потокове

  • Техники за съхранение на изображения в Big Data - Решение за съхранение на данни, превишаващи петобайт
  • LTFS и LTO
  • GPFS-LTFS (Слоисто решение за съхранение на големи изображени данни)
  • Основи на аналитика на изображения
  • Разпознаване на обекти
  • Сегментация на изображения
  • Следване на движение
  • 3-D реконструкция на изображения

Ден-4: Сесия-4: Приложения на Big Data в NIH:

  • Нови области на биоинформатика
  • Метагеномика и проблеми с Big Data минеране
  • Предиктивна аналитика на Big Data за фармакогеномика, метаболомика и протеомика
  • Big Data в процесите на генетика в дъното на потока
  • Приложение на предиктивна аналитика на Big Data в общественото здраве

Дашборд за Big Data за бърз достъп до различни данни и отображаване:

  • Интеграция на съществуваща платформа за приложения с дашборд за Big Data
  • Управление на Big Data
  • Кейс студи на дашборд за Big Data: Tableau и Pentaho
  • Използвайте Big Data приложение за пускане на услуги, базирани на местоположение в правителството.
  • Система за следене и управление

Ден-5: Сесия-1: Как да оправдаете имплементацията на Big Data BI в организация:

  • Определяне на ROI за имплементация на Big Data
  • Кейс студи за спестяване на време за анализиране за събиране и подготовка на данни – увеличаване на продуктивност
  • Кейс студи за печалба от спестяване на разходи за лицензирани бази данни
  • Печалба от услуги, базирани на местоположение
  • Спестяване от предотвратяване на измами
  • Интегриран подход с електронни таблици за приблизителна оценка на разходи vs. печалба/спестяване от имплементация на Big Data.

Ден-5: Сесия-2: Постъпка по стъпка за заменяване на традиционни данни с Big Data Система:

  • Разбиране на практическата карта за миграция на Big Data
  • Каква важна информация е необходима преди архитектура на имплементация на Big Data
  • Какви са различните начини за изчисляване на обем, скорост, разнообразие и истинност на данни
  • Как да оцените растеж на данни
  • Кейс студи

Ден-5: Сесия-4: Преглед на доставчици на Big Data и преглед на техните продукти. Сесия Q/A:

  • Accenture
  • APTEAN (Със старо име CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Със старо име 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Част от EMC)

Изисквания

  • Основни познания за бизнес операции и системи за данни в Govt. в техния домейн
  • Основно разбиране на SQL/Oracle или релационна база данни
  • Основно разбиране на Statistics (на ниво електронна таблица)
 35 часа

Брой участници


Цена за участник

Отзиви от потребители (1)

Предстоящи Курсове

Свързани Kатегории