Свържете се с нас

Съдържание и теми, включени в курса

Подробен учебен план

  1. Въведение в NLP
    • Разбиране на NLP
    • NLP рамки
    • Търговски приложения на NLP
    • Скрейпинг на данни от уеб
    • Работа с различни API за извличане на текстови данни
    • Работа и съхраняване на текстови корпуси, запазване на съдържание и съответни метаданни
    • Предимства от използването на Python и ускорен курс по NLTK
  2. Практическо разбиране на корпус и набор от данни
    • Защо ни е необходим корпус?
    • Анализ на корпус
    • Видове атрибути на данните
    • Различни файлови формати за корпуси
    • Подготовка на набор от данни за NLP приложения
  3. Разбиране на структурата на изреченията
    • Компоненти на NLP
    • Разбиране на естествен език
    • Морфологичен анализ - основа, дума, токен, маркери за част на речта
    • Синтактичен анализ
    • Семантичен анализ
    • Справяне с двусмислие
  4. Предобработка на текстови данни
    • Корпус - необработен текст
      • Токенизация на изречения
      • Стеминг за необработен текст
      • Лематизация на необработен текст
      • Премахване на стоп думи
    • Корпус - необработени изречения
      • Токенизация на думи
      • Лематизация на думи
    • Работа с матрици Термин-Документ/Документ-Термин
    • Токенизация на текст в n-грами и изречения
    • Практическа и персонализирана предобработка
  5. Анализиране на текстови данни
    • Основни характеристики на NLP
      • Парсери и парсиране
      • POS тагиране и тагери
      • Разпознаване на именувани същности
      • N-грами
      • Bag of words
    • Статистически характеристики на NLP
      • Концепции на линейната алгебра за NLP
      • Вероятностна теория за NLP
      • TF-IDF
      • Векторизация
      • Енкодери и декодери
      • Нормализация
      • Вероятностни модели
    • Разширено инженерство на характеристики и NLP
      • Основи на word2vec
      • Компоненти на модела word2vec
      • Логика на модела word2vec
      • Разширение на концепцията word2vec
      • Приложение на модела word2vec
    • Казус: Приложение на bag of words: автоматично обобщаване на текст с използване на опростения и истинския алгоритъм на Luhn
  6. Клъстериране на документи, класификация и моделиране на теми
    • Клъстериране на документи и извличане на модели (йерархично клъстериране, k-means, клъстериране и т.н.)
    • Сравняване и класифициране на документи с използване на TF-IDF, Jaccard и косинусово разстояние
    • Класификация на документи с използване на Наивен Бейс и Максимална ентропия
  7. Идентифициране на важни текстови елементи
    • Намаляване на размерността: Анализ на главните компоненти, Сингулярно разлагане, неотрицателна матрична факторизация
    • Моделиране на теми и извличане на информация с помощта на Латентен семантичен анализ
  8. Извличане на същности, анализ на настроения и разширено моделиране на теми
    • Положително спрямо отрицателно: степен на настроение
    • Теория за отговора на елемента
    • Тагиране на част на речта и неговото приложение: намиране на хора, места и организации, споменати в текста
    • Разширено моделиране на теми: Латентно Дирихлево разпределение
  9. Казуси
    • Извличане на неструктурирани потребителски ревюта
    • Класификация на настроения и визуализация на данни от ревюта на продукти
    • Извличане на модели на използване от логове за търсене
    • Класификация на текст
    • Моделиране на теми

Изисквания

Познания и осъзнатост за принципите на NLP и разбиране на приложението на ИИ в бизнеса.

 21 Часа

Брой участници


Цена за участник

Отзиви от участници (1)

Предстоящи Курсове

Свързани Kатегории