Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Въведение в мултимодален AI и Ollama
- Обзор на мултимодално обучение
- Основни предизвикателства в интеграцията на визуално-езикова информация
- Могъщности и архитектура на Ollama
Настройка на средата на Ollama
- Инсталиране и настройка на Ollama
- Работа с локално развертяване на модели
- Интеграция на Ollama с Python и Jupyter
Работа с мултимодални входни данни
- Интеграция на текст и изображения
- Включване на аудио и структурирани данни
- Проектиране на предобработващи пиплайни
Приложения за разбиране на документи
- Извличане на структурирана информация от PDF и изображения
- Комбиниране на OCR с езикови модели
- Създаване на интелигентни потоки за анализ на документи
Визуално отговаряне на въпроси (VQA)
- Настройка на набори данни и бенчмаркове за VQA
- Обучение и оценка на мултимодални модели
- Създаване на интерактивни приложения за VQA
Проектиране на мултимодални агенти
- Принципи на проектиране на агенти с мултимодално размишляване
- Комбиниране на възприемане, език и действие
- Развертяване на агенти за реални сценарии
Авансована интеграция и оптимизация
- Тонко настройка на мултимодални модели с Ollama
- Оптимизиране на производителността на извличане на заключение
- Разглеждане на въпросите за масовостта и развертяването
Резиме и следващи стъпки
Изисквания
- Добре познание на концепциите за машинно обучение
- Опит с дълбоко обучаващи рамки като PyTorch или TensorFlow
- Знание за обработка на естествен език и компютърно зрение
Целева група
- Инженери за машинно обучение
- Изследователи в областта на изкуствения интелигент
- Разработчици на продукти, интегриращи работи с визуално съдържание и текст
21 часа