Свържете се с нас

План на курса

Въведение в EXO и локалните AI кластери

  • Общ преглед на рамката EXO и екосистемата exo-explore
  • Сравнение на централизираното облачно извеждане срещу разпределеното локално извеждане
  • Архитектура: откриване на устройства чрез libp2p, MLX бекенд, табло и API слоеве
  • Хардуерни изисквания: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, споделено съхранение

Инсталиране на EXO върху macOS

  • Настройка на Xcode, Metal ToolChain и предварителните изисквания на macOS
  • Инсталиране на uv, Node.js, Rust nightly toolchain
  • Инсталиране на заключена форк версия на macmon за мониторинг на Apple Silicon
  • Клониране на хранилището и изграждане на таблото с npm
  • Изпълнение на EXO от изходния код и проверка на таблото на localhost:52415

Инсталиране на EXO върху Linux

  • Инсталиране на зависимостите чрез apt или Homebrew на Linux
  • Конфигуриране на uv, Node.js 18+ и Rust nightly
  • Изграждане на таблото и изпълнение на EXO само на CPU
  • Структура на директории: пътища на XDG Base Directory за конфигурация, данни, кеш и логи

Автоматично откриване на устройства и формиране на кластер

  • Разбиране на автоматичното откриване на база libp2p в мрежите на местната локация
  • Конфигуриране на персонализирани имена на пространства с EXO_LIBP2P_NAMESPACE за изолация на кластера
  • Проверка на членството във възлите в изгледа на кластера на таблото
  • Обработка на неуспехи в откриването и проблеми с мрежовата сегментация

Активиране на RDMA над Thunderbolt 5

  • Архитектура на RDMA и твърдението за 99-процентно намаляване на латентността
  • Активиране на RDMA в режима Recovery на macOS с rdma_ctl
  • Изисквания за кабели и ограничения на топологията на портите при Mac Studio
  • Съпоставяне на версиите на macOS между всички възли в кластера
  • Разрешаване на проблеми с откриването на RDMA и DHCP конфигурацията

Разгръщане на предни модели

  • Използване на таблото за зареждане и парче на DeepSeek v3.1, Qwen3-235B и семейството модели Llama
  • Преглед на местоположенията на екземпляри чрез крайната точка /instance/previews на API
  • Създаване на екземпляри на модели с pipeline или tensor-parallel sharding
  • Конфигуриране на персонализирани карти на модели от хъба HuggingFace

Мониторинг и разрешаване на проблеми

  • Четене на логовете на EXO и разбиране на разпределеното проследяване
  • Интерпретиране на здравето на кластера в изгледа на кластера на таблото
  • Диагностициране на неуспехи на работни възли и поведение при пресъединяване
  • Използване на EXO_TRACING_ENABLED за анализ на буталните точки на производителността

Поддръжка и актуализации на кластера

  • Актуализиране на двоичните файлове на EXO и процедурите за преизграждане на таблото
  • Миграция на кешовете на модели и управление на предварително изтеглени модели чрез NFS
  • Грижливо премахване на възли и преразпределение на товарите

Изисквания

  • Разбиране на основите на мрежата (IP, подмрежи, файрволи)
  • Опит с администриране на командния ред на macOS или Linux
  • Запознаване с управлението на пакетите на Python (pip/uv) и инструментите на Node.js

Целева аудитория

  • Системни администратори
  • DevOps инженери
  • Архитекти на AI инфраструктура, отговорни за внедряване на LLM на място
 21 Часове

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории