План на курса

===== Ден 01 ===== Преглед на Big Data Business Intelligence for Criminal Intelligence Analysis

    Казуси от правоприлагащите органи - Предсказуема полиция Процент на приемане на големи данни в правоприлагащите агенции и как те привеждат бъдещата си работа в съответствие с големи данни Predictive Analytics Нововъзникващи технологични решения като сензори за огнестрелно оръжие, видео за наблюдение и социални медии Използване на технологията за големи данни за смекчаване на информация претоварване Взаимодействие с големи данни с наследени данни Основно разбиране на позволяващи технологии в прогнозния анализ Интегриране на данни и визуализация на табло за управление Управление на измами Бизнес правила и откриване на измами Откриване на заплахи и профилиране Анализ на разходите и ползите за внедряване на големи данни

Въведение в Big Data

    Основни характеристики на големите данни - обем, разнообразие, скорост и достоверност. MPP (Massively Parallel Processing) архитектура Data Warehouses – статична схема, бавно развиващ се набор от данни MPP бази данни: Greenplum, Exadata, Teradata, Netezza, Vertica и т.н. Решения, базирани на Hadoop – няма условия за структурата на набора от данни. Типичен модел : HDFS, MapReduce (crunch), извличане от HDFS Apache Spark за обработка на потоци Пакетно подходящ за аналитични/неинтерактивни обеми : CEP поточни данни Типични избори – CEP продукти (напр. Infostreams, Apama, MarkLogic и т.н.) По-малко готови за производство – Storm/S4 NoSQL бази данни – (колонна и ключ-стойност): Най-подходяща като аналитична добавка към склад за данни/база данни

Няма SQL решения

    KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (Йерархичен) - GT.m, Кеш KV Store (Поръчан) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Apache River Object Database - ZopeDB, DB40, Shoal Document Store - CouchDB, Cloudant , Couchbase, MongoDB, Jackrabbit, XML-бази данни, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Разновидности на данните: Въведение в Data Cleaning проблеми в Big Data

    RDBMS – статична структура/схема, не насърчава гъвкава, изследователска среда. NoSQL – полуструктуриран, достатъчно структура за съхраняване на данни без точна схема преди съхраняване на данни Проблеми с почистването на данни

Hadoop

    Кога да изберете Hadoop? СТРУКТУРИРАНИ – Корпоративните хранилища/бази данни могат да съхраняват масивни данни (на цена), но налагат структура (не е добра за активно проучване) ПОЛУСТРУКТУРИРАНИ данни – трудни за изпълнение с помощта на традиционни решения (DW/DB) Складиране на данни = ГОЛЯМО усилие и статично дори след внедряване За разнообразие и обем от данни, обработени със стандартен хардуер – HADOOP Commodity H/W е необходим за създаване на Hadoop клъстер

Въведение в Map Reduce /HDFS

    MapReduce – разпределете изчисленията върху множество сървъри HDFS – направете данните достъпни локално за изчислителния процес (с излишък) Данни – могат да бъдат неструктурирани/без схеми (за разлика от RDBMS) Отговорност на разработчиците за осмисляне на данните Programming MapReduce = работа с Java ( плюсове/против), ръчно зареждане на данни в HDFS

===== Ден 02 ===== Big Data Екосистема -- Изграждане Big Data ETL (Извличане, трансформиране, зареждане) -- Кои Big Data инструменти да използвате и кога?

    Hadoop срещу други NoSQL решения За интерактивен произволен достъп до данни Hbase (база данни, ориентирана към колони) върху Hadoop Произволен достъп до данни, но наложени ограничения (макс. 1 PB) Не е добър за ad-hoc анализи, добър за регистриране, броене, времеви серии Sqoop - Импортиране от бази данни в Hive или HDFS (JDBC/ODBC достъп) Flume - Поточно предаване на данни (напр. регистрационни данни) в HDFS

Big Data Management Система

    Движещи се части, изчислителни възли стартират/отказват: ZooKeeper - За услуги за конфигуриране/координиране/именуване Комплексен тръбопровод/работен поток: Oozie – управление на работния процес, зависимости, последователна верига Разполагане, конфигуриране, управление на клъстери, надграждане и т.н. (системен администратор) :Ambari In Cloud: Whirr

Predictive Analytics -- Фундаментални техники и базирано на машинно обучение бизнес разузнаване

    Въведение в машинното обучение Техники за класифициране на обучение Bayesian Prediction -- подготовка на файл за обучение Поддържаща векторна машина KNN p-Tree Алгебра и вертикално копаене Невронни мрежи Големи данни Проблем с големи променливи -- Произволна гора (RF) Големи данни Проблем с автоматизация - Многомоделен ансамбъл RF Автоматизация чрез Soft10-M Текстов аналитичен инструмент-Treeminer Agile обучение Обучение, базирано на агенти Разпределено обучение Въведение в инструментите с отворен код за прогнозен анализ: R, Python, Rapidminer, Mahut

Predictive Analytics Екосистема и нейното приложение в анализа на криминално разузнаване

    Технология и процес на разследване Анализ на прозрения Анализ на визуализация Структурирани предсказуеми анализи Неструктурирани предсказуеми анализи Threat/fraudstar/vendor profiling Recommendation Engine Pattern detection Rule/Scenario discovery – неуспех, измама, оптимизация Откриване на първопричината Анализ на настроенията CRM анализи Мрежови анализи Текстови анализи за получаване на информация от преписи, показания на свидетели, бърборене в интернет и др. Технологично подпомаган преглед Анализ на измами Анализ в реално време

===== Ден 03 ===== Реално време и Scalable Analytics през Hadoop

    Защо общите аналитични алгоритми се провалят в Hadoop/HDFS Apache Hama- за масово синхронно разпределено изчисление Apache SPARK- за клъстерно изчисление и аналитично CMU в реално време Graphics Lab2- Графично базиран асинхронен подход към разпределено изчисление KNN p -- Подход, базиран на алгебра от Treeminer за намалени хардуерни разходи за работа

Инструменти за електронно откриване и криминалистика

    eDiscovery over Big Data vs. Legacy data – сравнение на цена и производителност Предсказуемо кодиране и Technology Assisted Review (TAR) Демо на живо на vMiner за разбиране как TAR позволява по-бързо откриване По-бързо индексиране чрез HDFS – Скорост на данните NLP (Обработка на естествен език) – продукти и техники с отворен код eDiscovery на чужди езици -- технология за обработка на чужд език

Big Data BI за Cyber Security – Получаване на 360-градусов изглед, бързо събиране на данни и идентифициране на заплахи

    Разбиране на основите на анализите на сигурността -- повърхност за атака, неправилно конфигуриране на сигурността, защити на хоста Мрежова инфраструктура / Голям канал за данни / ETL за отговор за анализ в реално време Предписващо срещу предсказващо – Фиксирано правило, базирано срещу автоматично откриване на правила за заплахи от метаданни

Събиране на различни данни за анализ на криминално разузнаване

    Използване на IoT (Интернет на нещата) като сензори за улавяне на данни Използване на сателитни изображения за домашно наблюдение Използване на данни от наблюдение и изображения за идентифициране на престъпници Други технологии за събиране на данни - дронове, камери за тяло, системи за GPS маркиране и технология за термично изображение Комбиниране на автоматизирано извличане на данни с данни получени от информатори, разпити и изследвания Forecasting на престъпна дейност

===== Ден 04 ===== BI за предотвратяване на измами от Big Data в Анализ на измами

    Основна класификация на анализа на измами – базиран на правила срещу предсказуем анализ. Надзиравано или неконтролирано машинно обучение за откриване на модели на измами Business до бизнес измами, измами с медицински искове, застрахователни измами, укриване на данъци и пране на пари

Social Media Анализ -- Събиране и анализ на разузнавателна информация

    Как Social Media се използва от престъпници за организиране, набиране и планиране на Big Data ETL API за извличане на данни от социални медии Текст, изображение, метаданни и видео Анализ на настроението от емисии на социални медии Контекстно и неконтекстуално филтриране на емисии в социални медии Social Media Табло за управление за интегриране на различни социални медии Автоматизирано профилиране на профила в социалните медии Демонстрация на живо на всеки анализ ще бъде дадена чрез инструмента Treeminer

Big Data Анализ при обработка на изображения и видео емисии

    Техники за съхранение на изображения в Big Data -- Решение за съхранение на данни, надвишаващи петабайти LTFS (линейна лентова файлова система) и LTO (линейна лентова отворена система) GPFS-LTFS (обща паралелна файлова система - линейна лентова файлова система) -- многослойно решение за съхранение за Big данни за изображения Основи на анализа на изображенията Разпознаване на обекти Сегментиране на изображения Проследяване на движение Реконструкция на 3-D изображение

Bioметрики, ДНК и програми за идентификация от следващо поколение

    Отвъд снемане на пръстови отпечатъци и лицево разпознаване Разпознаване на говор, натискане на клавиш (анализ на модел на въвеждане на потребители) и CODIS (комбинирана система за индексиране на ДНК) Отвъд съпоставяне на ДНК: използване на съдебно ДНК фенотипиране за конструиране на лице от ДНК проби

Big Data Табло за бърз достъп до различни данни и дисплей:

    Интегриране на съществуваща платформа за приложения с табло за управление на големи данни Управление на големи данни Казус от табло за управление на големи данни: Tableau и Pentaho Използвайте приложението Big Data за прокарване на базирани на местоположение услуги в Govt. Система за проследяване и управление

===== Ден 05 ===== Как да обосновем Big Data внедряването на BI в една организация:

    Определяне на ROI (Return on Investment) за прилагане на казуси с големи данни за спестяване на време на анализатора при събиране и подготовка на данни – повишаване на производителността Печалба на приходите от по-ниски разходи за лицензиране на бази данни Печалба на приходи от базирани на местоположение услуги Спестяване на разходи от предотвратяване на измами Интегрирана електронна таблица подход за изчисляване на приблизителните разходи спрямо печалбите/спестяванията от приходите от внедряването на Big Data.

Процедура стъпка по стъпка за подмяна на наследена система за данни с Big Data система

    Big Data Пътна карта за миграция Каква критична информация е необходима преди архитектурата на Big Data система? Какви са различните начини за изчисляване на обема, скоростта, разнообразието и достоверността на данните Как да оценим растежа на данните Казуси от практиката

Преглед на Big Data доставчици и преглед на техните продукти.

    Accenture APTEAN (по-рано CDC софтуер) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (по-рано 10Gen) MU Sigma Netapp Opera Solutions Oracle Pentaho Platfora Qliktech Quantum Rackspace Revolution Analytics Salesforce SAP SAS Institute Sisense Software AG /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Софтуер Teradata Think Big Analytics Tidemark Systems Treeminer VMware (част от EMC)

Q/A сесия

Изисквания

  • Познаване на процесите на правоприлагане и системите за данни
  • Основно разбиране на SQL/Oracle или релационна база данни
  • Основно разбиране на статистиката (на ниво електронна таблица)
 35 Hours

Брой участници



Цена за участник

Oтзиви от потребители (4)

Свързани Kурсове

Data Analysis with Redash

14 Hours

Business Intelligence and Data Analysis with Metabase

14 Hours

QlikView for Business Users

7 Hours

QlikView for Developers

14 Hours

Google Sheets for Excel Users

14 Hours

Cognos 11

14 Hours

IBM Cognos Analytics

14 Hours

Alteryx Advanced

14 Hours

Alteryx for Data Analysis

7 Hours

Alteryx for Developers

14 Hours

Data Preparation with Alteryx

7 Hours

Algorithmic Trading with Python and R

14 Hours

Stata: Beginner to Advanced

14 Hours

Statistical Analysis with Stata and R

35 Hours

Cluster Analysis with R and SAS

14 Hours

Свързани Kатегории