План на курса

Въведение в много-модална ИА

  • Какво е много-модална ИА?
  • Основни предизвикателства и приложения
  • Обзор на водещи много-модални модели

Обработка на текст и разбиране на естествен език

  • Използване на LLMs за текстови ИА агенти
  • Разбиране на инженерия на подсказки за много-модални задачи
  • Тонко настройване на текстови модели за специфични приложения

Разпознаване и генериране на изображения

  • Обработка на изображения с ИА: класификация, подкачване и разпознаване на обекти
  • Генерация на изображения с дифузионни модели (Stable Diffusion, DALLE)
  • Интеграция на данни за изображения с текстови модели

Обработка на говор и аудио

  • Разпознаване на говор с Whisper ASR
  • Техники за синтез на текст към говор (TTS)
  • Улучшаване на взаимодействието с потребителите с гласов ИА

Интеграция на много-модални входни данни

  • Създаване на ИА пиплайни за обработка на различни типове входни данни
  • Техники за фузиране за комбиниране на текст, изображения и говорни данни
  • Реални приложения на много-модални ИА агенти

Разработка на много-модални ИА агенти

  • Създаване на ИА решения, базирани на API за много-модални приложения
  • Оптимизиране на модели за производителност и масштабируемост
  • Най-добрите практики за разгръщане на много-модална ИА в производство

Етични разглеждания и бъдещи тенденции

  • Пристрастие и справедливост в много-модална ИА
  • Грижи за поверителността на много-модални данни
  • Бъдещи развития в много-модална ИА

Резюме и следващи стъпки

Изисквания

  • Разбиране на основните принципи на машинно обучение
  • Опит с програмиране на Python
  • Завършеност с дълбокообучаващи рамки (напр., TensorFlow, PyTorch)

Целева аудитория

  • Разработчици на изкуствен интелигент
  • Изследователи
  • Инженери за мултимедия
 21 часа

Брой участници


Цена за участник

Отзиви от потребители (1)

Предстоящи Курсове

Свързани Kатегории