Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Всеки сесия е с продължителност 2 часа
Ден-1: Сесия -1: Бизнес обзор на защо Big Data и бизнес интелигентност в правителството.
- Кейс студи от NIH, DoE
- Степен на адаптация на Big Data в правителствени агенции и как те подготвят бъдещите си операции около предиктивна аналитика на Big Data
- Обширна сфера на приложение в DoD, NSA, IRS, USDA и т.н.
- Интегриране на Big Data с традиционни данни
- Основно разбиране на технологиите, които позволяват предиктивна аналитика
- Интеграция на данни и визуализация на дашборд
- Управление на измами
- Създаване на бизнес правила/обнаружение на измами
- Обнаружение и профилиране на застрашения
- Анализ на разход-приходи за имплементация на Big Data
Ден-1: Сесия-2: Введение в Big Data-1
- Основни характеристики на Big Data: обем, разнообразие, скорост и истинност. МПП архитектура за обем.
- Данни на съхранени данни – статична схема, бавно еволюиращи набор данни
- МПП бази данни като Greenplum, Exadata, Teradata, Netezza, Vertica и др.
- Решения базирани на Hadoop – няма ограничения за структурата на набора данни.
- Типичен шаблон: HDFS, MapReduce (crunch), извличане от HDFS
- Парчеви (batch) – подходящи за анализ/неинтерактивни
- Обем: поток на данни CEP
- Типични избори – CEP продукти (напр. Infostreams, Apama, MarkLogic и др.)
- По-малко готови за производство – Storm/S4
- NoSQL бази данни – (колонови и ключ-стойност): Най-подходящи като аналитичен допълнение към съхранени данни/бази данни
Ден-1: Сесия-3: Введение в Big Data-2
Решения NoSQL
- Ключ-стойност съхранение (KV Store) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Ключ-стойност съхранение (KV Store) - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Ключ-стойност съхранение (Hierarchical) - GT.m, Cache
- Ключ-стойност съхранение (Ordered) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Ключ-стойност кеш (KV Cache) - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Натрупване на данни (Tuple Store) - Gigaspaces, Coord, Apache River
- Обекти бази данни - ZopeDB, DB40, Shoal
- Документ съхранение - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Широко колоново съхранение - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Разнообразие на данните: Въведение в проблема с почистване на данни в Big Data
- RDBMS – статична структура/схема, не подкрепя агилна, изследователска среда.
- NoSQL – полуструктурирани, достатъчно структура за съхранение на данни без точна схема преди съхранение на данните
- Проблеми с почистване на данни
Ден-1: Сесия-4: Введение в Big Data-3: Hadoop
- Кога да изберете Hadoop?
- СТРУКТУРИРАНИ - корпоративните съхранени данни/бази данни могат да съхраняват огромни данни (с цената), но налагат структура (не е добро за активна изследователска дейност)
- Полуструктурирани данни – трудно е с традиционните решения (Данни на съхранени данни/бази данни)
- Съхранение на данни = ОГРОМНА напора и статични чак и след имплементация
- За разнообразие и обем на данни, обработени на комерсиално оборудване – HADOOP
- Комерсиално оборудване е необходимо за създаване на Hadoop кластер
Въведение в Map Reduce /HDFS
- MapReduce – разпределен изчислителен процес върху много сървъри
- HDFS – прави данните достъпни локално за изчислителния процес (с дублиране)
- Данни – могат да бъдат неструктурирани/без схема (в противоположност на RDBMS)
- Отговорност на разработчика е да даде смисъл на данните
- Програмиране на MapReduce = работа с Java (предности/недостатъци), ръчно зареждане на данни в HDFS
Ден-2: Сесия-1: Big Data екосистема-Създаване на Big Data ETL: вселената на Big Data инструменти – кой да използваш и когато?
- Hadoop vs. други решения NoSQL
- За интерактивен, случайен достъп до данни
- Hbase (колонова база данни) върху Hadoop
- Случайен достъп до данни, но ограничения се налагат (максимум 1 PB)
- Не е добро за адиок анализ, добро за логиране, броячество, временни редове
- Sqoop - Импорт от бази данни в Hive или HDFS (достъп JDBC/ODBC)
- Flume – Поток на данни (напр. лог данни) в HDFS
Ден-2: Сесия-2: Система за управление на Big Data
- Подвижни части, изчислителни възли старт/неуспех: ZooKeeper - за конфигурация/координация/услуги за наименование
- Сложен поток/работен процес: Oozie – управление на работен процес, зависимости, верига
- Разпространение, конфигурация, управление на кластера, обновяване и т.н. (системен администратор): Ambari
- В облака: Whirr
Ден-2: Сесия-3: Предсказателна аналитика в бизнес интелигентност -1: Основни техники и бизнес интелигентност базирана на машинно обучение:
- Въведение в машинно обучение
- Учене на техники за класификация
- Байесов предиктивни предсказания - подготовка на обучаващ файл
- Поддържащи векторни машини
- KNN p-деревна алгебра и вертикално минеране
- Невронни мрежи
- Големи проблеми с променливи данни в Big Data - Случайни гори (RF)
- Автоматизиране на проблеми с Big Data – Многомоделни ансамбли RF
- Автоматизация чрез Soft10-M
- Аналитичен инструмент за текст - Treeminer
- Агилно обучение
- Обучение базирано на агенти
- Разпределено обучение
- Въведение в отворени инструменти за предиктивна аналитика: R, Rapidminer, Mahut
Ден-2: Сесия-4: Предсказателна аналитика екосистема-2: Често срещани проблеми с предиктивна аналитика в правителството.
- Анализ на информация
- Визуализация на анализ
- Структурирана предиктивна аналитика
- Неструктурирана предиктивна аналитика
- Профилиране на застрашения/измами/добитък
- Рекомендателен механизъм
- Обнаружение на шаблони
- Откриване на правила/сценарии – неудачи, измами, оптимизация
- Откриване на основни причини
- Анализ на настроения
- Анализ на CRM
- Анализ на мрежата
- Анализ на текст
- Технологично подпомагано прегледване
- Анализ на измами
- Ръчен анализ
Ден-3: Сесия-1: Ръчен и масово анализ върху Hadoop
- Защо обикновените аналитични алгоритми не работят в Hadoop/HDFS
- Apache Hama - за синхронно разпределен изчислителен процес с големи данни
- Apache SPARK - за разпределени изчислителни задачи за ръчен анализ
- CMU Graphics Lab2 - графичен асинхронен подход към разпределени изчислителни задачи
- Подход KNN p-алгебра от Treeminer за намаляване на разходите за оборудване
Ден-3: Сесия-2: Инструменти за eDiscovery и криминалистика
- eDiscovery върху Big Data vs. традиционни данни – сравнение на разходи и производителност
- Предиктивно кодиране и технологично подпомагано прегледване (TAR)
- Жив демонстрация на TAR продукт (vMiner) за по-бързо откриване
- Бързо индексиране чрез HDFS – скорост на данните
- НПЯ или обработка на естествен език – различни техники и отворени продукти
- eDiscovery в чужди езици – технологии за обработка на чужди езици
Ден-3: Сесия-3: Big Data BI за киберсигурност –Разбиране на целия 360-градусов обзор на бързо събиране на данни до идентифициране на застрашения
- Разбиране на основите на сигурностна аналитика - атакуваща повърхност, грешни конфигурации на сигурността, защита на хоста
- Мрежова инфраструктура / Голяма данна тръба / Отговорен ETL за ръчен анализ
- Предписано vs. предиктивно – Фиксирано правилно базирано vs. автоматично откриване на правила за застрашения от метаданни
Ден-3: Сесия-4: Big Data в USDA: Приложение в земеделието
- Въведение в IoT (Интернет на нещата) за земеделие – сензорно базирани Big Data и контрол
- Въведение в спътниковата имджинг и неговото приложение в земеделието
- Интегриране на сензорни и изображени данни за плодородие на почвата, препоръки за култивиране и прогнози
- Земеделие и осигуряване и Big Data
- Прогнозиране на загуби на култури
Ден-4: Сесия-1: Превенция на измами от Big Data в правителството - анализ на измами:
- Основна класификация на анализ на измами - базирана на правила vs. предиктивна аналитика
- Наблюдавано vs. ненаблюдавано машинно обучение за откриване на шаблони на измами
- Измама от добитък/прекомерно надценяване на проекти
- Измама при Medicare и Medicaid - техники за откриване на измами за обработка на претенции
- Измами при пътуване с отчет
- Измами при връщане на данъци от IRS
- Кейс студи и живи демонстрации ще бъдат дадени, където има данни.
Ден-4: Сесия-2: Аналитика на социалните медии - Събиране и анализ на информация
- API за Big Data ETL за извличане на данни от социалните медии
- Текст, изображение, метаданни и видео
- Анализ на настроения от социалните медии
- Контекстуално и неконтекстуално филтриране на социалните медии
- Дашборд за социални медии за интеграция на различни социални медии
- Автоматизирано профилиране на социални медии
- Живи демонстрации на всяка аналитика ще бъдат дадени чрез инструмента Treeminer.
Ден-4: Сесия-3: Аналитика на Big Data в обработка на изображения и видео потокове
- Техники за съхранение на изображения в Big Data - Решение за съхранение на данни, превишаващи петобайт
- LTFS и LTO
- GPFS-LTFS (Слоисто решение за съхранение на големи изображени данни)
- Основи на аналитика на изображения
- Разпознаване на обекти
- Сегментация на изображения
- Следване на движение
- 3-D реконструкция на изображения
Ден-4: Сесия-4: Приложения на Big Data в NIH:
- Нови области на биоинформатика
- Метагеномика и проблеми с Big Data минеране
- Предиктивна аналитика на Big Data за фармакогеномика, метаболомика и протеомика
- Big Data в процесите на генетика в дъното на потока
- Приложение на предиктивна аналитика на Big Data в общественото здраве
Дашборд за Big Data за бърз достъп до различни данни и отображаване:
- Интеграция на съществуваща платформа за приложения с дашборд за Big Data
- Управление на Big Data
- Кейс студи на дашборд за Big Data: Tableau и Pentaho
- Използвайте Big Data приложение за пускане на услуги, базирани на местоположение в правителството.
- Система за следене и управление
Ден-5: Сесия-1: Как да оправдаете имплементацията на Big Data BI в организация:
- Определяне на ROI за имплементация на Big Data
- Кейс студи за спестяване на време за анализиране за събиране и подготовка на данни – увеличаване на продуктивност
- Кейс студи за печалба от спестяване на разходи за лицензирани бази данни
- Печалба от услуги, базирани на местоположение
- Спестяване от предотвратяване на измами
- Интегриран подход с електронни таблици за приблизителна оценка на разходи vs. печалба/спестяване от имплементация на Big Data.
Ден-5: Сесия-2: Постъпка по стъпка за заменяване на традиционни данни с Big Data Система:
- Разбиране на практическата карта за миграция на Big Data
- Каква важна информация е необходима преди архитектура на имплементация на Big Data
- Какви са различните начини за изчисляване на обем, скорост, разнообразие и истинност на данни
- Как да оцените растеж на данни
- Кейс студи
Ден-5: Сесия-4: Преглед на доставчици на Big Data и преглед на техните продукти. Сесия Q/A:
- Accenture
- APTEAN (Със старо име CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Със старо име 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Част от EMC)
Изисквания
- Основни познания за бизнес операции и системи за данни в Govt. в техния домейн
- Основно разбиране на SQL/Oracle или релационна база данни
- Основно разбиране на Statistics (на ниво електронна таблица)
35 часа
Отзиви от потребители (1)
Способността на обучителя да приведе курса в съответствие с изискванията на организацията, освен просто да предостави курса в името на неговото провеждане.
Masilonyane - Revenue Services Lesotho
Курс - Big Data Business Intelligence for Govt. Agencies
Машинен превод