План на курса

Въведение в масштабирането на Ollama

  • Архитектура на Ollama и фактори за масштабиране
  • Общи флашъчни точки в развертането за множество потребители
  • Наи-добри практики за готовност на инфраструктурата

Разпределяне на ресурси и оптимизация на GPU

  • Ефективни стратегии за използване на CPU/GPU
  • Разглеждане на памет и лентовия проток
  • Ограничения на ресурсите на ниво контейнери

Развертане с контейнери и Kubernetes

  • Контейнериране на Ollama с Docker
  • Запуск на Ollama в кластери на Kubernetes
  • Балансиране на натоварването и откриване на услуги

Автоматично масштабиране и пакетиране

  • Проектиране на политики за автоматично масштабиране на Ollama
  • Техники за пакетно извеждане на изводи за оптимизация на пропускателната способност
  • Забавеност срещу пропускателна способност

Оптимизация на забавеността

  • Профилиране на извеждането на изводи
  • Стратегии за кеширане и загряване на модели
  • Съкращаване на натоварването при I/O и комуникационните разходи

Мониторинг и наблюдаемост

  • Интегриране на Prometheus за метрики
  • Създаване на дашбордове с Grafana
  • Сигнализиране и реагиране на инциденти за инфраструктурата на Ollama

Управление на разходите и стратегии за масштабиране

  • Разпределяне на GPU с отчет за разходите
  • Разглеждане на облачни срещу онпрем развертане
  • Стратегии за устойчиво масштабиране

Резюме и следващи стъпки

Изисквания

  • Опит в управление на системи Linux
  • Разбиране в контейнеризация и оркестрация
  • Знакомство с развертането на модели за машинно обучение

Целева аудитория

  • Инженери по DevOps
  • Екипи за инфраструктура на ML
  • Инженери за надеждност на сайта
 21 часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории