Свържете се с нас

План на курса

Суверенитет на AI и локално разполагане на LLM

  • Рискове при облачните LLM: задържане на данни, обучение върху входни данни, чужда юрисдикция.
  • Архитектура на Ollama: сървър на моделите, регистър и съвместимо с OpenAI API.
  • Сравнение с vLLM, llama.cpp и Text Generation Inference.
  • Лицензиране на модели: условия на Llama, Mistral, Qwen и Gemma.

Инсталация и хардуерна конфигурация

  • Инсталиране на Ollama в Linux с поддръжка на CUDA и ROCm.
  • Аварийно възстановяване само за CPU и оптимизация на AVX/AVX2.
  • Разгръщане чрез Docker и мапиране на трайно хранилище.
  • Конфигурация с много GPU и стратегии за разпределяне на VRAM.

Управление на модели

  • Изтегляне на модели от регистъра на Ollama: ollama pull llama3.
  • Импортиране на GGUF модели от HuggingFace и TheBloke.
  • Нива на квантизиране: компромиси между Q4_K_M, Q5_K_M и Q8_0.
  • Преминаване между модели и ограничения за едновременно зареждане на модели.

Персонализирани Modelfiles

  • Написване на синтаксис на Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Настройка на temperature, top_p и repeat_penalty.
  • Инженерство на системни промптове за поведение, специфично за ролята.
  • Създаване и публикуване на персонализирани модели в локалния регистър.

Интеграция на API

  • Съвместимият с OpenAI крайна точка /v1/chat/completions.
  • Отговорите в поток (streaming) и JSON режим.
  • Интеграция с LangChain, LlamaIndex и персонализирани приложения.
  • Удостоверяване и ограничаване на честотата на заявки чрез обратен прокси (reverse proxy).

Оптимизация на производителността

  • Размер на контекстния прозорец и управление на KV кеша.
  • Пакетно извличане и обработка на паралелни заявки.
  • Разпределяне на CPU нишки и осведоменост за NUMA.
  • Наблюдение на използването на GPU и напрежението в паметта.

Сигурност и съответствие

  • Мрежова изолация за крайните точки на обслужване на модели.
  • Филтриране на входните данни и тръбопроводи за умереност на изхода.
  • Аудиторски записи на промпти и приключвания (completions).
  • Произход на моделите и проверка на хаша.

Изисквания

  • Средно ниво на администриране на Linux и контейнери.
  • Разбиране на машинното обучение и трансформер моделите на високо ниво.
  • Запознаване с REST API и JSON.

Целева аудитория

  • AI инженери и разработчици, които заменят облачните LLM API.
  • Организации със строга конфиденциалност на данните, която пречи на използването на облачни модели.
  • Правителствени и отбранителни екипи, изискващи езикови модели, изолирани от мрежата (air-gapped).
 14 Часове

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории