План на курса

Въведение в мултимодален AI и Ollama

  • Обзор на мултимодално обучение
  • Основни предизвикателства в интеграцията на визуално-езикова информация
  • Могъщности и архитектура на Ollama

Настройка на средата на Ollama

  • Инсталиране и настройка на Ollama
  • Работа с локално развертяване на модели
  • Интеграция на Ollama с Python и Jupyter

Работа с мултимодални входни данни

  • Интеграция на текст и изображения
  • Включване на аудио и структурирани данни
  • Проектиране на предобработващи пиплайни

Приложения за разбиране на документи

  • Извличане на структурирана информация от PDF и изображения
  • Комбиниране на OCR с езикови модели
  • Създаване на интелигентни потоки за анализ на документи

Визуално отговаряне на въпроси (VQA)

  • Настройка на набори данни и бенчмаркове за VQA
  • Обучение и оценка на мултимодални модели
  • Създаване на интерактивни приложения за VQA

Проектиране на мултимодални агенти

  • Принципи на проектиране на агенти с мултимодално размишляване
  • Комбиниране на възприемане, език и действие
  • Развертяване на агенти за реални сценарии

Авансована интеграция и оптимизация

  • Тонко настройка на мултимодални модели с Ollama
  • Оптимизиране на производителността на извличане на заключение
  • Разглеждане на въпросите за масовостта и развертяването

Резиме и следващи стъпки

Изисквания

  • Добре познание на концепциите за машинно обучение
  • Опит с дълбоко обучаващи рамки като PyTorch или TensorFlow
  • Знание за обработка на естествен език и компютърно зрение

Целева група

  • Инженери за машинно обучение
  • Изследователи в областта на изкуствения интелигент
  • Разработчици на продукти, интегриращи работи с визуално съдържание и текст
 21 часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории