План на курса

Подробна схема на обучение

  1. Въведение в Обработка на естествен език (NLP)
    • Разбиране на NLP
    • Рамки на NLP
    • Комерсиални приложения на NLP
    • Събиране на данни от интернет
    • Работа с различни API за получаване на текстови данни
    • Работа и съхранение на текстови корпуси - съхранение на съдържанието и релевантна метаданна
    • Предности на използването на курс за интензивно обучение Python и NLTK
  2. Практическо разбиране на корпус и набор данни
    • Защо ни е нужен корпус?
    • Анализ на корпус
    • Типове данни атрибути
    • Различни формати на файлове за корпуси
    • Подготовка на набор данни за приложения на NLP
  3. Разбиране на структурата на изречения
    • Компоненти на NLP
    • Разбиране на естествен език
    • Морфологичен анализ - стъбло, дума, токен, речови тагове
    • Синтаксичен анализ
    • Семантичен анализ
    • Работа с двосмислие
  4. Предварителна обработка на текстови данни
    • Корпус - суров текст
      • Токенизация на изречения
      • Стъбловане на суров текст
      • Лематизация на суров текст
      • Отстраняване на стоп-думи
    • Корпус - сурови изречения
      • Word токенизация
      • Word лематизация
    • Работа с матрици Термин-Документ/Документ-Термин
    • Токенизация на текст в n-грами и изречения
    • Практическа и персонализирана предварителна обработка
  5. Анализ на текстови данни
    • Основни характеристики на NLP
      • Парсери и парсинг
      • Означване на части на думата (POS) и означители
      • Разпознаване на именни сущности
      • N-грами
      • Торба с думи
    • Статистически характеристики на NLP
      • Концепции на линейна алгебра за NLP
      • Теория на вероятностите за NLP
      • TF-IDF
      • Векторизация
      • Кодиращи и декодиращи устройства
      • Нормализация
      • Вероятностни модели
    • Напредна инженерна работа с характеристики и NLP
      • Основи на word2vec
      • Компоненти на модела word2vec
      • Логика на модела word2vec
      • Разширение на концепцията за word2vec
      • Приложение на модела word2vec
    • Случаен пример: Приложение на торба с думи: автоматично резюмиране на текст с упростени и истински алгоритми на Луен
  6. Кластеризация, класификация и тематично моделиране на документи
    • Кластеризация на документи и миниране на шаблони (йерархична кластеризация, k-means, кластеризация и т.н.)
    • Сравняване и класифициране на документи с мерни величини TFIDF, Джакард и косинусна дистанция
    • Класифициране на документи с Naïve Bayes и Максимална ентропия
  7. Идентифициране на важни текстови Elements
    • Намаляване на размерност: Принципна компонентна анализа, Сингуларна стойностна декомпозиция, Неотрицателно матрично факторизиране
    • Тематично моделиране и информационно извличане с Латински семантичен анализ
  8. Извличане на сущности, Sentiment Analysis и напредна тематична работа
    • Позитивно vs. негативно: степен на настроение
    • Теория на отговорът на предмет
    • Означване на части на думата и приложенията му: намиране на хора, места и организации, споменати в текста
    • Напредна тематична работа: Латински Дирихлето разпределение
  9. Случаи
    • Извличане на неструктурирани отзиви на потребители
    • Класификация и визуализация на настроения на данни за продуктов отзив
    • Извличане на логове за търсене на шаблони за използване
    • Класификация на текст
    • Тематично моделиране

Изисквания

Знания и осведоменост по принципи на НЛП и оценка на приложението на ИИ в бизнеса
 21 Часа

Брой участници


Цена за участник

Oтзиви от потребители (1)

Предстоящи Курсове

Свързани Kатегории