Свържете се с нас

Съдържание и теми, включени в курса

Въведение в мултимодалния AI

  • Какво представлява мултимодалният AI?
  • Ключови предизвикателства и приложения
  • Преглед на водещите мултимодални модели

Обработка на текст и разбиране на естествен език

  • Използване на големи езикови модели (LLM) за текстови AI агенти
  • Разбиране на инженерството на промптове за мултимодални задачи
  • Фино настройване на текстови модели за специфични за домейна приложения

Разпознаване и генериране на изображения

  • Обработка на изображения с AI: класификация, описания и откриване на обекти
  • Генериране на изображения с дифузионни модели (Stable Diffusion, DALL·E)
  • Интегриране на данни от изображения с текстови модели

Обработка на реч и аудио

  • Разпознаване на реч с Whisper ASR
  • Техники за синтез на текст към реч (TTS)
  • Подобряване на потребителското взаимодействие с гласов AI

Интегриране на мултимодални входни данни

  • Изграждане на AI потоци за обработка на множество типове входни данни
  • Техники за сливане на данни от текст, изображения и реч
  • Реални приложения на мултимодални AI агенти

Внедряване на мултимодални AI агенти

  • Изграждане на мултимодални AI решения, управлявани чрез API
  • Оптимизиране на модели за производителност и мащабируемост
  • Най-добри практики за внедряване на мултимодален AI в продукционна среда

Етични съображения и бъдещи тенденции

  • Пристрастност и справедливост в мултимодалния AI
  • Загриженост за поверителността при мултимодални данни
  • Бъдещи развития в мултимодалния AI

Обобщение и следващи стъпки

Изисквания

  • Разбиране на основите на машинното обучение
  • Опит с програмиране на Python
  • Познаване на рамки за дълбоко обучение (напр. TensorFlow, PyTorch)

Аудитория

  • AI разработчици
  • Изследователи
  • Мултимедийни инженери
 21 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории