Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Въведение в масштабирането на Ollama
- Архитектура на Ollama и фактори за масштабиране
- Общи флашъчни точки в развертането за множество потребители
- Наи-добри практики за готовност на инфраструктурата
Разпределяне на ресурси и оптимизация на GPU
- Ефективни стратегии за използване на CPU/GPU
- Разглеждане на памет и лентовия проток
- Ограничения на ресурсите на ниво контейнери
Развертане с контейнери и Kubernetes
- Контейнериране на Ollama с Docker
- Запуск на Ollama в кластери на Kubernetes
- Балансиране на натоварването и откриване на услуги
Автоматично масштабиране и пакетиране
- Проектиране на политики за автоматично масштабиране на Ollama
- Техники за пакетно извеждане на изводи за оптимизация на пропускателната способност
- Забавеност срещу пропускателна способност
Оптимизация на забавеността
- Профилиране на извеждането на изводи
- Стратегии за кеширане и загряване на модели
- Съкращаване на натоварването при I/O и комуникационните разходи
Мониторинг и наблюдаемост
- Интегриране на Prometheus за метрики
- Създаване на дашбордове с Grafana
- Сигнализиране и реагиране на инциденти за инфраструктурата на Ollama
Управление на разходите и стратегии за масштабиране
- Разпределяне на GPU с отчет за разходите
- Разглеждане на облачни срещу онпрем развертане
- Стратегии за устойчиво масштабиране
Резюме и следващи стъпки
Изисквания
- Опит в управление на системи Linux
- Разбиране в контейнеризация и оркестрация
- Знакомство с развертането на модели за машинно обучение
Целева аудитория
- Инженери по DevOps
- Екипи за инфраструктура на ML
- Инженери за надеждност на сайта
21 часа