План на курса

Въведение в модели за вид-език

  • Обзор на VLM и техните роли в мултимодална AI
  • Популярни архитектури: CLIP, Flamingo, BLIP и т.н.
  • Приложения: търсене, описване, автономни системи, анализ на съдържанието

Подготовка на средата Fine-Tuning

  • Настройка на OpenCLIP и други библиотеки за VLM
  • Формати на данни за изображения-тестовни двойки
  • Предизвикателни пиплайни за обработка на видови и езикови входове

Fine-Tuning CLIP и подобни модели

  • Контрастна загуба и съвместни пространства за вградени данни
  • Практически: уточняване на CLIP на собствени данни
  • Работа с данни специфични за домейна и многоезични данни

Развити Fine-Tuning техники

  • Използване на LoRA и адаптерни методи за ефективност
  • Настройка на подсказки и инжектиране на визуални подсказки
  • Сравнение на нулев изстрел и уточнени оценки

Оценка и сравнение

  • Метрики за VLM: точност на извличане, BLEU, CIDEr, призов
  • Диагностика на визуално-тестовото съгласуване
  • Визуализация на пространства за вградени данни и грешни класификации

Разработка и приложение в реални приложения

  • Експортиране на модели за извод (TorchScript, ONNX)
  • Интегриране на VLM в пиплайни или API
  • Ресурсни разглежданя и масштабиране на модели

Случаи на приложение и приложени сценарии

  • Анализ на медии и модерация на съдържание
  • Търсене и извличане в е-комерс и цифрови библиотеки
  • Мултимодално взаимодействие в роботика и автономни системи

Резюме и следващи стъпки

Изисквания

  • Разбиране в дълбокото обучение за зрение и обработка на естествен език
  • Опит с PyTorch и трансформерни модели
  • Знание на мултимодални архитектури на модели

Целева аудитория

  • Инженери по компютърно зрение
  • Разработчици на изкуствен интелигент
 14 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории