Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Инфраструктура като код за EXO
- Преглед на модели за разгръщане на EXO: едно-възелови, много-възелови и RDMA кластери
- Автоматизиране на инсталацията на зависимости (Xcode, uv, Node.js, Rust) чрез управление на конфигурациите
- Използване на Nix flakes за възпроизводими изграждания на EXO и разработчески среди
- Писане на Ansible playbooks или shell скриптове за автоматизирано разгръщане на кластери
Възпроизводими изграждания и интеграция на CI
- Фиксиране на зависимости и изграждане на табло в CI пипelines
- Изпълнение на димови тестове на EXO в GitHub Actions или изпълнители на GitLab CI
- Създаване на златни образи и работни процеси за откат, базирани на снимки, за виртуални машини с macOS и Linux
- Версиониране на персонализирани карти на модели заедно с кода на приложението
Автоматизиране на откриването на кластери и мрежата
- Конфигуриране на mDNS и статичен DNS за надеждно откриване на възли на libp2p
- Автоматизиране на създаването на мрежови профили и управлението на Thunderbolt бридж в macOS
- Използване на персонализирани имена на пространства (EXO_LIBP2P_NAMESPACE) за отделяне на разработки, тестова и продуктивна среда
- Правила за защитна стена и мрежова сегментация за среди с много най-наематели
Управление на съхранението и жизнения цикъл на моделите
- Проектиране на стратегии за EXO_MODELS_DIRS и EXO_MODELS_READ_ONLY_DIRS
- Монтиране на NFS или SAN шаринги като read-only хранилища на модели за бърза подготовка
- Изхвърляне на остарели кешове и политики за задържане на версионираните тежести
- Автоматизиране на предварителното изтегляне на модели и проверки за здраве преди актуализации
Мониториране и известия
- Изпращане на дневници от EXO към централизирано дневниково решение (ELK, Loki или Splunk)
- Изграждане на табла в Grafana от изхода на EXO_TRACING_ENABLED
- Известия при промени в членството в кластера, събития OOM и скокове в латентността на изводите
- Корелиране на телеметрията на оборудването на macmon със регресии в производителността на моделите
Актуализации, откат и възстановяване при бедствия
- Подготвяне на двоични актуализации на EXO във възел канари преди масово разгръщане
- Откат на ниво модели: превключване между квантувани версии без повторено изтегляне
- Архивиране и възстановяване на състоянието на кластера, персонализираните имена на пространства и кеширани тежести
- Документиране на ръководства за възстановяване за сценарии на пълно презареждане на кластера
Засилване на сигурността и съответствие
- Прилагане на TLS на ниво reverse proxy (nginx, traefik) за таблото и API
- Използване на ограничение на честотата на API и бели списъци с IP адреси за крайните точки на EXO
- Изолиране на кластери с VLAN и политики на мрежа с нулева доверие
- Аудит на достъпа и поддържане на инвентар на разпределените модели и версии
Изисквания
- Опит с практики на DevOps (CI/CD, IaC, оркестрация на контейнери)
- Знакомство с администриране на системи и управление на пакети в macOS или Linux
- Разбиране на концепциите за мрежи, DNS и съхранение
Целева аудитория
- Инженери по DevOps
- Архитекти на инфраструктура
- SRE (Site Reliability Engineers), отговорни за локални ИИ натоварвания
21 Часове
Отзиви от потребители (2)
Крейг беше изключително ангажиран с обучението, винаги осигурявайки, че объртаме внимание, адаптираше примерите към нашата дневна дейност и винаги даваше отговор, когато му зададем въпрос, дори ако информацията не беше включена в презентацията.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Курс - DevOps Foundation®
Машинен превод
Висок ниво на ангажираност и знания на треньора
Jacek - Softsystem
Курс - DevOps Engineering Foundation (DOEF)®
Машинен превод