Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Всяка сесия е от 2 часа
Ден-1: Сесия -1: Бизнес преглед за Big Data интелигентност в държавата
- Кейси от NIH, DoE
- Темпото на адаптация към Big Data в държавните агенции и как те се подготвят за бъдещата операция с бази данни
- Широкомащабна приложимост в DoD, NSA, IRS, USDA и др.
- Интерфейс със старите данни
- Основно разбиране на технологиите за прогнозен анализ
- Интегриране на данни и визуализация със табло
- Маневрите с фалшификация
- Генериране на бизнес правила за откриване на фалшификации
- Откриване и профилиране на заплахи
- Анализ на стойността при имплементация на Big Data
Ден-1: Сесия-2 : Въведение в Big Data-1
- Основните характеристики на Big Data — обем, разнообразие, брзина и достоверност. Марка за обем.
- Датови складове — статична схема, бавно развиващ се набор данни
- Маркировани бази данни като Greenplum, Exadata, Teradata, Netezza, Vertica и др.
- Решения базирани на Hadoop — без условия за структура на набора данни
- Типичен шаблон: HDFS, MapReduce (обработка), извличане от HDFS
- Батч — подхожда за аналитично/нелинейно
- Обем: поток с данни CEP
- Типичен избор — продукти CEP (например Infostreams, Apama, MarkLogic и др.)
- Малко готови за производство — Storm/S4
- NoSQL бази данни — (колонна и ключ-стойност): най-подхождащи като аналитично допълнение към датовия склад/база данни
Ден-1 : Сесия -3 : Въведение в Big Data-2
NoSQL решения
- KV Store — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (иерархично) — GT.m, Cache
- KV Store (пореден) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store — Gigaspaces, Coord, Apache River
- Обектна база данни — ZopeDB, DB40, Shoal
- Документарен склад — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-бази данни, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Широкостолбова база данни — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Разновидности на данни: Въведение в проблемите с чистенето на данни при Big Data
- РДБС — статична структура/схема, не насърчава гъвкава, изследователска среда.
- NoSQL — полуструктурирано, достатъчно структурирано за съхраняване на данни без точна схема преди запазването
- Проблемите с чистенето на данните
Ден-1 : Сесия-4 : Въведение в Big Data-3: Hadoop
- Кога да изберете Hadoop?
- СТРУКТУРИРАНО — Предприемен датов склад/база данни може да съхранява огромни обеми данни (за цена), но налагат структура (не подхожда за активно изследване)
- ПОЛУСТРУКТУРИРАНИ данни — трудно се постига с традиционните решения (склад/база)
- Съхраняването на данни = голям усилия и статично дори след имплементацията
- За разнообразие и обем на данните, обработени в товарителна хардуер — HADOOP
- Компактен Х/У се изисква за създаването на кластера Hadoop
Въведение в Map Reduce/HDFS
- MapReduce — дистрибуирано изчисление над множество сървъри
- HDFS — прави данните налични локално за процеса на изчисления (с резерви)
- Данни — могат да бъдат неструктурирани/без схема (в противоположност на РДБС)
- Отговорността на разработчика е да даде смисъл на данните
- Програмирането с MapReduce = работа с Java (за и против), ръчен зареждане на данни в HDFS
Ден-2: Сесия-1: Екосистема Big Data — Построение на Big Data ETL: светът на инструменти за Big Data — кой да използваме и кога?
- Hadoop vs. други NoSQL решения
- За интерактивен, случаен достъп до данни
- Hbase (колонна ориентирана база данни) върху Hadoop
- Случаен достъп до данни, но с наложени ограничения (до 1 PB)
- Не подхожда за анализа ad-hoc, добра за логиране, броене, времеви ред
- Sqoop — Импортиране от бази данни в Hive или HDFS (JDBC/ODBC достъп)
- Flume — Стримерене на данни (например лог файлове) в HDFS
Ден-2: Сесия-2: Система за управление Big Data
- Преместване на части, стартиране/събивания на изчислителни възли: ZooKeeper — За конфигуриране/координация/именуване на услуги
- Сложна pipeline/workflow: Oozie — Управление на workflow, зависимости, последователност
- Деплойране, конфигуриране, управление на кластери, апгрейд и др. (админ на системи): Ambari
- В облак: Whirr
Ден-2: Сесия-3: Прогнозен анализ в бизнес интелигентност — 1: Основни техники и машиноспособности за BI:
- Въведение в машинно обучение
- Учене на класификационни техники
- Байесовски прогноза — подготовка на трениращ файл
- Подкрепена машина (SVM)
- KNN p-Tree Алгебра и вертикално миниране
- Невронни мрежи
- Проблем с голям брой променливи в Big Data — Случайна гора (RF)
- Проблем на автоматизация при Big Data — Много-моделен ансамбъл RF
- Автоматизация чрез Soft10-M
- Инструмент за анализа на текст — Treeminer
- Гъвкаво обучение
- Обучение с агенти
- Разпределено обучение
- Въведение в отворен код за прогнозен анализ: R, Rapidminer, Mahut
Ден-2: Сесия-4 Прогнозна екосистема — 2: Общи прогнозни аналитични проблеми в държавата
- Аналитика на проникване
- Визуализираща аналитика
- Структуриран прогнозен анализ
- Неструктуриран прогнозен анализ
- Профилиране на заплахи/фалшификации/поставчици
- Механизъм за препоръки
- Откриване на модели
- Откриване на правила/сценарии — провал, фалшификация, оптимизация
- Откриване на коренна причина
- Анализ на мнение
- CRM аналитика
- Мрежова аналитика
- Анализ на текст
- Технологически подкрепен преглед
- Аналитика за фалшификации
- Реално-временна аналитика
Ден-3 : Сесия-1 : Реално и масштабируемо анализиране върху Hadoop
- Защо обикновените алгоритми за анализ не работят в Hadoop/HDFS
- Apache Hama — за групово синхронно разпределено изчисление
- Apache SPARK — за кластерно изчисление за реално-временна аналитика
- Графични лаборатории на CMU2 — графично асинхронен подход към разпределено изчисление
- KNN p-Алгебра на Treeminer за намалено хардверно разходи
Ден-3: Сесия-2: Инструменти за eDiscovery и forensics
- eDiscovery върху Big Data vs. Стара данна — сравнение по цена и перформанси
- Прогнозно кодиране и технологически подкрепен преглед (TAR)
- Живо демонстрация на продукт TAR (vMiner) за разбираемост как работи TAR за по-бърз преглед
- По-бързо индексиране чрез HDFS — брзина на данните
- NLP или обработка на естествен език — различни техники и продукти с отворен код
- eDiscovery в чужди езици — технологии за обработка на данни на чужд език
Ден-3 : Сесия 3: Big Data BI за киберсигурност — Разбиране на цялостните 360 градуса от бързото събирание на данни до идентификацията на заплахи
- Разбиране на основи за сигурностен анализ — атакуващата повърхност, неправилна конфигурация на сигурността, защита на хостовете
- Мрежова инфраструктура/голяма датапайп/Разговорен ETL за реално-временна аналитика
- Прескриптивно vs. прогностично — Фиксирано правилно базирано vs. автоматично откриване на правила от метаданни
Ден-3: Сесия 4: Big Data в USDA: Приложение в земеделието
- Въведение в IoT (Интернет на нещата) за земеделие — сензорно базирана Big Data и контрол
- Въведение в спътниковото изображаване и неговото приложение в земеделието
- Интегриране на сензорни и спътниково данни за плодородието на почвата, препоръки за култивация и прогноза
- Страховка в земеделието и Big Data
- Прогнозиране на загубите от сеч
Ден-4 : Сесия-1: Профил за предотвратяване на фалшификации BI от Big Data в държавата — Аналитика на фалшификации:
- Основна класификация на аналитиката на фалшификации — правилно базирано vs. прогностично
- Надзирани vs. недзирани машинни изучавания за откриване на модели на фалшификации
- Фалшификация на поставчици/намаляване на проекти
- Medicare и Medicaid фалшификации — техники за откриване на фалшификации при обработка на заявки
- Фалшификации при компенсации за пътни разходи
- IRS фалшификации при връщане на данъци
- Кейси и живи демонстрации ще бъдат дадени там, където са налични данни.
Ден-4 : Сесия-2: Аналитика на социалните мрежи — Извличане и анализ на разузнаване
- API за ETL Big Data за извличане на данни от социални мрежи
- Текст, изображения, метаданни и видео
- Аналитика за мнение от фидовете на социалните мрежи
- Контекстно и неконтекстно филтриране на фидовете на социалните мрежи
- Социална мрежа табло за интегрира на разнообразни социални мрежи
- Автоматизирано профилиране на профилите в социалните мрежи
- Живи демонстрации за всеки анализ ще бъдат дадени чрез инструмента Treeminer.
Ден-4 : Сесия-3: Аналитика на Big Data в изображения и видео потоци
- Техники за съхраняване на изображения в Big Data — решения за съхранение на данни, превишуващи петабайтове
- LTFS и LTO
- GPFS-LTFS (Слоисто решение за съхранение на големи изображения)
- Основи на аналитиката на изображения
- Познаване на обекти
- Сегментация на изображения
- Отслежване на движение
- 3-D реконструкция на изображения
Ден-4: Сесия-4: Приложения на Big Data в NIH:
- Изпълзващи области на биоинформатиката
- Метагеномика и проблемите с анализа на Big Data
- Прогнозни анализа с Big Data за фармакогеномика, метаболомика и протеомика
- Big Data в процесса на геномика надолу
- Приложение на прогнозната анализа с Big Data в общественото здравеопазване
Табло за Big Data за бърз достъп до разнообразни данни и ниво на показване:
- Интеграция на съществуващи приложни платформи с табло за Big Data
- Управление на Big Data
- Кейс студия на таблото за Big Data: Tableau и Pentaho
- Използване на приложение за Big data за подпомагане на услугите с локация в държавата
- Система за отслежване и управление
Ден-5 : Сесия-1: Как да обосновате имплементацията на Big Data BI в организация:
- Дефиниране на ROI за имплементация на Big Data
- Кейс студии за спестяване на времето на аналитиките за събиране и приготвяне на данни — увеличаване на продуктивността
- Кейс студии за приход от спестяване на цената на лицензираните бази данни
- Приход от услуги с локация
- Спестяване от предотвратяването на фалшификации
- Интегриран подход с изчислителна таблица за приблизително разходи и приход или спестявания от имплементацията на Big Data.
Ден-5 : Сесия-2: Поетапен метод за замяна на старата датова система с Big Data система:
- Разбиране на практическа Roadmap за миграция към Big Data
- Какво информация е важна преди архитектурирането на имплементацията на Big Data
- Различните начини за изчисляване на обем, брзина, разнообразие и достоверност на данните
- Как да оценете растежа на данните
- Кейс студии
Ден-5: Сесия 4: Обзор на доставчиците на Big Data и обзор на техните продукти. Вопросно-отговорна сесия:
- Accenture
- APTEAN (бивш CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (бивш 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (част от EMC)
Изисквания
- Основно познаване на бизнес операции и датови системи в държавата в техния домейн
- Основни знания за SQL/Oracle или релационни бази данни
- Основно разбиране на статистиката (на ниво таблица)
35 часа
Отзиви от потребители (1)
The ability of the trainer to align the course with the requirements of the organization other than just providing the course for the sake of delivering it.