План на курса

Всяка сесия е 2 часа

Ден-1: Сесия -1: Общ бизнес преглед на защо Big Data Business Intelligence в Govt.

    Казуси от NIH, DoE Степен на адаптиране на големи данни в Govt. Агенции и как привеждат бъдещите си операции в съответствие с Big Data Predictive Analytics Област на широкомащабно приложение в DoD, NSA, IRS, USDA и др. управление Бизнес правило/ Генериране на откриване на измами Откриване на заплахи и профилиране Анализ на разходите и ползите за внедряване на Big Data

Ден-1: Сесия-2 : Представяне на Big Data-1

    Основни характеристики на Big Data-обем, разнообразие, скорост и достоверност. MPP архитектура за обем. Data Warehouses – статична схема, бавно развиващ се набор от данни MPP Бази данни като Greenplum, Exadata, Teradata, Netezza, Vertica и т.н. Решения, базирани на Hadoop – няма условия за структурата на набора от данни. Типичен модел : HDFS, MapReduce (crunch), извличане от HDFS Пакетно подходящ за аналитични/неинтерактивни томове : CEP поточно предаване на данни Типични избори – CEP продукти (напр. Infostreams, Apama, MarkLogic и др.) По-малко готови за производство – Storm/S4 NoSQL бази данни – (колона и ключ-стойност): Най-подходящ като аналитична добавка към хранилище/база данни

Ден-1 : Сесия -3 : Въведение в Big Data-2

НямаSQL решения

    KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (Йерархичен) - GT.m, Кеш KV Store (Поръчан) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Apache River Object Database - ZopeDB, DB40, Shoal Document Store - CouchDB, Cloudant , Couchbase, MongoDB, Jackrabbit, XML-бази данни, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Разновидности на данните: Въведение в Data Cleaning проблем в Big Data

    RDBMS – статична структура/схема, не насърчава гъвкава, изследователска среда. NoSQL – полуструктурирана, достатъчно структура за съхраняване на данни без точна схема преди съхраняване на данни Проблеми с почистването на данни

Ден-1 : Сесия-4 : Въведение в големи данни-3 : Hadoop

    Кога да изберете Hadoop? СТРУКТУРИРАНИ – Корпоративните хранилища/бази данни могат да съхраняват масивни данни (на цена), но налагат структура (не е добра за активно проучване) ПОЛУСТРУКТУРИРАНИ данни – трудно се прави с традиционните решения (DW/DB) Складиране на данни = ГОЛЯМО усилие и статично дори след внедряване За разнообразие и обем от данни, обработени със стандартен хардуер – HADOOP Commodity H/W е необходим за създаване на Hadoop клъстер

Въведение в Map Reduce /HDFS

    MapReduce – разпределете изчисленията върху множество сървъри HDFS – направете данните достъпни локално за изчислителния процес (с излишък) Данни – могат да бъдат неструктурирани/без схеми (за разлика от RDBMS) Отговорност на разработчиците за осмисляне на данните Programming MapReduce = работа с Java ( плюсове/против), ръчно зареждане на данни в HDFS

Ден-2: Сесия-1: Big Data Изграждане на екосистема Big Data ETL: вселена от Big Data Инструменти – кой да използвам и кога?

    Hadoop срещу други NoSQL решения За интерактивен произволен достъп до данни Hbase (база данни, ориентирана към колони) върху Hadoop Произволен достъп до данни, но наложени ограничения (макс. 1 PB) Не е добър за ad-hoc анализи, добър за регистриране, броене, времеви серии Sqoop - Импортиране от бази данни в Hive или HDFS (JDBC/ODBC достъп) Flume - Поточно предаване на данни (напр. регистрационни данни) в HDFS

Ден-2: Сесия-2: Система за големи данни Management.

    Движещи се части, изчислителни възли стартират/отказват: ZooKeeper - За услуги за конфигуриране/координиране/именуване Комплексен тръбопровод/работен поток: Oozie – управление на работния процес, зависимости, последователна верига Разполагане, конфигуриране, управление на клъстери, надграждане и т.н. (системен администратор) :Ambari In Cloud: Whirr

Ден-2: Сесия-3: Предсказуеми анализи в Business Intelligence -1: Основни техники и BI, базирани на машинно обучение:

    Въведение в машинното обучение Техники за класификация на обучението Bayesian Prediction-preparing training file Support Vector Machine KNN p-Tree Algebra & vertical mining Neural Network Big Data проблем с голяма променлива - Случайна гора (RF) Big Data Проблем с автоматизацията – RF автоматизация с множество модели чрез Soft10-M Текстов аналитичен инструмент-Treeminer Agile обучение Агентно базирано обучение Разпределено обучение Въведение в Инструменти с отворен код за прогнозен анализ: R, Rapidminer, Mahut

Ден-2: Сесия-4 Еко-система за предсказуем анализ-2: Общи проблеми с предсказуем анализ в Govt.

    Анализ на прозрения Анализ на визуализация Структуриран предсказуем анализ Неструктуриран предсказуем анализ Профилиране на Threat/fraudstar/vendor Recommendation Engine Pattern Detection Rule/Scenario discovery – неуспех, измама, оптимизация Откриване на първопричината Анализ на настроенията CRM анализ Анализ на мрежата Текстов анализ Технологично подпомаган преглед Анализ на измами Анализ в реално време

Ден-3: Сесия-1: Реално време и Scalable Analytic Over Hadoop

    Защо общите аналитични алгоритми се провалят в Hadoop/HDFS Apache Hama- за групово синхронно разпределено изчисление Apache SPARK- за клъстерно изчисление за аналитично CMU Graphics Lab2- Графично базиран асинхронен подход към разпределено изчисление Подход, базиран на KNN p-Algebra от Treeminer за намалено хардуерни разходи за работа

Ден-3: Сесия-2: Инструменти за електронно откриване и криминалистика

    eDiscovery над Big Data срещу наследени данни – сравнение на цена и производителност Предсказуемо кодиране и технологично подпомаган преглед (TAR) Демо на живо на Tar продукт (vMiner), за да разберете как TAR работи за по-бързо откриване По-бързо индексиране чрез HDFS – скорост на данните NLP или обработка на естествения език – различни техники и продукти с отворен код eDiscovery в чужди езици – технология за обработка на чужд език

Ден-3: Сесия 3: Big Data BI за Cyber Security – Разбиране на цели 360 градусови изгледи за бързо събиране на данни до идентифициране на заплахи

    Разбиране на основите на анализите на сигурността - повърхност за атаки, неправилно конфигуриране на сигурността, защити на хоста Мрежова инфраструктура/Голяма тръба за данни/Отговор ETL за анализ в реално време Предписващо срещу предсказващо – Базирано на фиксирани правила срещу автоматично откриване на правила за заплахи от метаданни

Ден-3: Сесия 4: Big Data в USDA: Приложение в селското стопанство

    Въведение в IoT (Интернет на нещата) за селско стопанство, базирано на сензори Big Data и контрол Въведение в сателитните изображения и тяхното приложение в селското стопанство Интегриране на сензорни и образни данни за плодородието на почвата, препоръки за култивиране и прогнозиране Земеделска застраховка и Big Data прогнозиране на загуби на култури

Ден-4: Сесия-1: BI за предотвратяване на измами от големи данни в Govt-Fraud analytic:

    Основна класификация на анализи на измами – базирани на правила срещу предсказуеми анализи Надзиравани срещу неконтролирани Машинно обучение за откриване на модели на измами Измами от доставчици/прекомерно таксуване за проекти Medicare и Medicaid измами – техники за откриване на измами за обработка на искове Измами с възстановяване на разходи за пътуване Измами с възстановяване на средства от IRS Казуси и демонстрация на живо ще се предоставят навсякъде, където има налични данни.

Ден-4: Сесия-2: Social Media Аналитично събиране и анализ на разузнавателна информация

    Big Data ETL API за извличане на данни от социални медии Текст, изображение, метаданни и видео Анализ на настроението от емисии в социалните медии Контекстно и неконтекстуално филтриране на емисии в социалните медии Social Media Табло за управление за интегриране на различни социални медии Автоматизирано профилиране на профила в социалните медии Демо на живо на всеки анализ ще бъде даден чрез Treeminer Tool.

Ден-4 : Сесия-3: Big Data Аналитичност в обработката на изображения и видео емисии

    Техники за съхранение на изображения в Big Data - Решение за съхранение на данни, надхвърлящи петабайти LTFS и LTO GPFS-LTFS (Решение за многослойно съхранение за големи данни от изображения) Основи на анализа на изображения Разпознаване на обекти Сегментиране на изображения Проследяване на движение 3-D реконструкция на изображения

Ден-4: Сесия-4: Big Data приложения в NIH:

    Нововъзникващи области на Bio-информатиката Мета-геномика и проблеми с извличането на големи данни Прогностичен анализ на големи данни за фармакогеномика, метаболомика и протеомика Големи данни в геномния процес надолу по веригата Приложение на предсказуем анализ на големи данни в общественото здраве

Big Data Табло за бърз достъп до различни данни и дисплей:

    Интегриране на съществуваща платформа за приложения с табло за управление на големи данни Управление на големи данни Казус от табло за управление на големи данни: Tableau и Pentaho Използвайте приложението Big Data за прокарване на базирани на местоположение услуги в Govt. Система за проследяване и управление

Ден-5: Сесия-1: Как да обосновем Big Data внедряването на BI в организация:

    Определяне на възвръщаемостта на инвестициите за Big Data внедряване Казуси за спестяване на време на анализатора за събиране и подготовка на данни – увеличаване на печалбата в производителността Казуси за печалба от спестяване на разходите за лицензирана база данни Печалба от услуги, базирани на местоположение Спестяване от предотвратяване на измами Интегриран подход на електронни таблици за изчислете прибл. разходи срещу печалби/спестявания от Big Data приходи.

Ден-5: Сесия-2: Стъпка по стъпка процедура за замяна на наследената система за данни на Big Data Система:

    Разбиране на практическата Big Data Пътна карта за миграция Каква е важната информация, необходима преди проектирането на Big Data внедряване Какви са различните начини за изчисляване на обем, скорост, разнообразие и достоверност на данните Как да оцените растежа на данните Казуси

Ден 5: Сесия 4: Преглед на Big Data доставчици и преглед на техните продукти. Q/A сесия:

    Accenture APTEAN (по-рано CDC софтуер) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (по-рано 10Gen) MU Sigma Netapp Opera Solutions Oracle Pentaho Platfora Qliktech Quantum Rackspace Revolution Analytics Salesforce SAP SAS Institute Sisense Software AG /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Софтуер Teradata Think Big Analytics Tidemark Systems Treeminer VMware (част от EMC)

Изисквания

  • Основни познания за бизнес операции и системи за данни в Govt. в техния домейн
  • Основно разбиране на SQL/Oracle или релационна база данни
  • Основно разбиране на Statistics (на ниво електронна таблица)
  35 Hours
 

Брой участници


Започва

Свършва


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Oтзиви от потребители (4)

Свързани Kурсове

Setting Up an IoT Gateway with ThingsBoard

  35 Hours

Свързани Kатегории