Свържете се с нас

План на курса

Инфраструктура като код за EXO

  • Преглед на модели за разгръщане на EXO: едно-възелови, много-възелови и RDMA кластери
  • Автоматизиране на инсталацията на зависимости (Xcode, uv, Node.js, Rust) чрез управление на конфигурациите
  • Използване на Nix flakes за възпроизводими изграждания на EXO и разработчески среди
  • Писане на Ansible playbooks или shell скриптове за автоматизирано разгръщане на кластери

Възпроизводими изграждания и интеграция на CI

  • Фиксиране на зависимости и изграждане на табло в CI пипelines
  • Изпълнение на димови тестове на EXO в GitHub Actions или изпълнители на GitLab CI
  • Създаване на златни образи и работни процеси за откат, базирани на снимки, за виртуални машини с macOS и Linux
  • Версиониране на персонализирани карти на модели заедно с кода на приложението

Автоматизиране на откриването на кластери и мрежата

  • Конфигуриране на mDNS и статичен DNS за надеждно откриване на възли на libp2p
  • Автоматизиране на създаването на мрежови профили и управлението на Thunderbolt бридж в macOS
  • Използване на персонализирани имена на пространства (EXO_LIBP2P_NAMESPACE) за отделяне на разработки, тестова и продуктивна среда
  • Правила за защитна стена и мрежова сегментация за среди с много най-наематели

Управление на съхранението и жизнения цикъл на моделите

  • Проектиране на стратегии за EXO_MODELS_DIRS и EXO_MODELS_READ_ONLY_DIRS
  • Монтиране на NFS или SAN шаринги като read-only хранилища на модели за бърза подготовка
  • Изхвърляне на остарели кешове и политики за задържане на версионираните тежести
  • Автоматизиране на предварителното изтегляне на модели и проверки за здраве преди актуализации

Мониториране и известия

  • Изпращане на дневници от EXO към централизирано дневниково решение (ELK, Loki или Splunk)
  • Изграждане на табла в Grafana от изхода на EXO_TRACING_ENABLED
  • Известия при промени в членството в кластера, събития OOM и скокове в латентността на изводите
  • Корелиране на телеметрията на оборудването на macmon със регресии в производителността на моделите

Актуализации, откат и възстановяване при бедствия

  • Подготвяне на двоични актуализации на EXO във възел канари преди масово разгръщане
  • Откат на ниво модели: превключване между квантувани версии без повторено изтегляне
  • Архивиране и възстановяване на състоянието на кластера, персонализираните имена на пространства и кеширани тежести
  • Документиране на ръководства за възстановяване за сценарии на пълно презареждане на кластера

Засилване на сигурността и съответствие

  • Прилагане на TLS на ниво reverse proxy (nginx, traefik) за таблото и API
  • Използване на ограничение на честотата на API и бели списъци с IP адреси за крайните точки на EXO
  • Изолиране на кластери с VLAN и политики на мрежа с нулева доверие
  • Аудит на достъпа и поддържане на инвентар на разпределените модели и версии

Изисквания

  • Опит с практики на DevOps (CI/CD, IaC, оркестрация на контейнери)
  • Знакомство с администриране на системи и управление на пакети в macOS или Linux
  • Разбиране на концепциите за мрежи, DNS и съхранение

Целева аудитория

  • Инженери по DevOps
  • Архитекти на инфраструктура
  • SRE (Site Reliability Engineers), отговорни за локални ИИ натоварвания
 21 Часове

Брой участници


Цена за участник

Отзиви от потребители (2)

Предстоящи Курсове

Свързани Kатегории