План на курса

Въведение в Mistral мултимодални модели

  • Обзор на Mistral Medium и мултимодални възможности
  • OCR/документални модели и случаи на приложение
  • Интеграция с отворени екосистеми

OCR и визуални пиплайни

  • Основи на OCR с Mistral модели
  • Предобработка на изображения и сканирани документи
  • Извличане на структуриран текст от изображения

Разумяване на документи

  • Дизайн на NLP пиплайни за документи
  • Разпознаване на сущности, резюмиране и класификация
  • Междосъществени връзки между текстови и визуални данни

Приложения за търсене и знания

  • Системи за търсене на текстови и визуални данни
  • Създаване на семантично търсене с OCR изходи
  • Документални хранилища в предприятия

Помощни и интерактивни приложения

  • Дизайн на потребителски интерфейси за мултимодални асистенти
  • Приложения за достъпност (напр. визуално-текстов превод)
  • Инструменти за продуктивност в реалния свят

Производителност и оптимизация

  • Мащабиране на мултимодални пиплайни
  • Настройка на производителност при извличане на изводи
  • Оценяване на компромисите между точност и ефективност

Случаи на приложение и бъдещи направления

  • Приложения на мултимодална ИА в индустрията
  • Научни тенденции в OCR и документална ИА
  • Отговорна ИА при визуално-текстови задачи

Резюме и следващи стъпки

Изисквания

  • Разбиране на концепциите на обработка на естествен език
  • Опит с Python и ML фреймворкове
  • Знакомство с основата на компютърното зрение

Целева аудитория

  • Екипи за разработка на продукти
  • Иследователи на ML
  • Приложени ML инженери
 14 часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории