Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Суверенитет на AI и локално разполагане на LLM
- Рискове при облачните LLM: задържане на данни, обучение върху входни данни, чужда юрисдикция.
- Архитектура на Ollama: сървър на моделите, регистър и съвместимо с OpenAI API.
- Сравнение с vLLM, llama.cpp и Text Generation Inference.
- Лицензиране на модели: условия на Llama, Mistral, Qwen и Gemma.
Инсталация и хардуерна конфигурация
- Инсталиране на Ollama в Linux с поддръжка на CUDA и ROCm.
- Аварийно възстановяване само за CPU и оптимизация на AVX/AVX2.
- Разгръщане чрез Docker и мапиране на трайно хранилище.
- Конфигурация с много GPU и стратегии за разпределяне на VRAM.
Управление на модели
- Изтегляне на модели от регистъра на Ollama: ollama pull llama3.
- Импортиране на GGUF модели от HuggingFace и TheBloke.
- Нива на квантизиране: компромиси между Q4_K_M, Q5_K_M и Q8_0.
- Преминаване между модели и ограничения за едновременно зареждане на модели.
Персонализирани Modelfiles
- Написване на синтаксис на Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Настройка на temperature, top_p и repeat_penalty.
- Инженерство на системни промптове за поведение, специфично за ролята.
- Създаване и публикуване на персонализирани модели в локалния регистър.
Интеграция на API
- Съвместимият с OpenAI крайна точка /v1/chat/completions.
- Отговорите в поток (streaming) и JSON режим.
- Интеграция с LangChain, LlamaIndex и персонализирани приложения.
- Удостоверяване и ограничаване на честотата на заявки чрез обратен прокси (reverse proxy).
Оптимизация на производителността
- Размер на контекстния прозорец и управление на KV кеша.
- Пакетно извличане и обработка на паралелни заявки.
- Разпределяне на CPU нишки и осведоменост за NUMA.
- Наблюдение на използването на GPU и напрежението в паметта.
Сигурност и съответствие
- Мрежова изолация за крайните точки на обслужване на модели.
- Филтриране на входните данни и тръбопроводи за умереност на изхода.
- Аудиторски записи на промпти и приключвания (completions).
- Произход на моделите и проверка на хаша.
Изисквания
- Средно ниво на администриране на Linux и контейнери.
- Разбиране на машинното обучение и трансформер моделите на високо ниво.
- Запознаване с REST API и JSON.
Целева аудитория
- AI инженери и разработчици, които заменят облачните LLM API.
- Организации със строга конфиденциалност на данните, която пречи на използването на облачни модели.
- Правителствени и отбранителни екипи, изискващи езикови модели, изолирани от мрежата (air-gapped).
14 Часове