План на курса

Detailed training outline

  1. Увод в NLP
    • Разбиране на NLP
    • NLP фреймворки
    • Комерсиални приложения на NLP
    • Извличане на данни от мрежата
    • Работа с различни API за извличане на текстови данни
    • Работа и съхраняване на текстови корпуси, запазване на съдържание и релевантна метаданна
    • Преймуществата от използването на Python и въведение в NLTK
  2. Практично разбиране на корпуса и набора от данни
    • Защо ни е необходим корпус?
    • Анализ на корпуса
    • Видове атрибути на данните
    • Различни формати за съхраняване на корпуси
    • Подготовка на набор от данни за NLP приложения
  3. Разбиране на структурата на предложенията
    • Компоненти на NLP
    • Природноезичен анализ
    • Морфологичен анализ - корени, думи, токени, частни маркировки
    • Синтактичен анализ
    • Семантичен анализ
    • Разрешаване на неясности
  4. Препроцесиране на текстовите данни
    • Корпус - суров текст
      • Токенизация на предложенията
      • Стеминг за суров текст
      • Лематизация на суров текст
      • Премахване на спиращите думи
    • Корпус - сурови предложения
      • Токенизация на думи
      • Лематизация на думи
    • Работа с матрици „Термин-Документ“/„Документ-Термин“
    • Токенизация на текст в n-грами и предложения
    • Практично и персонализирано препроцесиране
  5. Анализ на текстовите данни
    • Основни характеристики на NLP
      • Парсерите и парсинг
      • POS тагери и маркировки
      • Разпознаване на нарицателни съществени
      • N-грами
      • Меш за думи
    • Статистически характеристики на NLP
      • Основи на линейната алгебра за NLP
      • Вероятностна теория за NLP
      • TF-IDF
      • Векторизация
      • Енкодери и декодери
      • Нормализация
      • Вероятностни модели
    • Разширен извличане на характеристики и NLP
      • Основи на word2vec
      • Компоненти на модела word2vec
      • Логика на модела word2vec
      • Развитие на концепцията за word2vec
      • Приложение на модела word2vec
    • Кейс студи: Приложение на меша за думи: автоматично рефератогРАФИЯ с използване на упростената и истинската алгоритми на Лун
  6. Кластериране, класификация и тематично моделиране на документи
    • Кластериране на документи и извличане на образци (иерархично кластериране, k-means, кластериране и др.)
    • Сравняване и класификация на документи с TFIDF, Jaccard и разстояния по косинус
    • Класификация на документи с Naïve Bayes и Maximum Entropy
  7. Идентифициране на важни текстови елементи
    • Редуциране на размерността: Главен компонентен анализ, Сингуларна декомпозиция, неотрицателно матрично разлагане
    • Тематично моделиране и извличане на информация с Латентно семантичен анализ
  8. Извличане на ентитети, анализ на мненията и продължаващо тематично моделиране
    • Позитивен против негативен: степента на мнение
    • Теория за отговорите при тестовете
    • Маркировка на части речи и нейното приложение: намиране на хора, места и организации споменати в текста
    • Продължаващо тематично моделиране: Латентно Дирихлетово разпределение
  9. Кейс студии
    • Извличане на неструктурирани потребителски отзиви
    • Класификация и визуализация на данни от продуктните отзиви
    • Извличане на логовете за използването на търсачки
    • Класификация на текста
    • Тематично моделиране

Изисквания

Знание и осведоменост на принципите на НЛП и оценка на приложението на ИИ в бизнеса

 21 часа

Брой участници


Цена за участник

Отзиви от потребители (1)

Предстоящи Курсове

Свързани Kатегории