Свържете се с нас

План на курса

Основи за разгъваряне на Tencent Hunyuan в производствена среда

  • Общ преглед на сценарии за облуждане на модели на Tencent Hunyuan.
  • Производствени характеристики на големи и MoE модели.
  • Общи бутилни горла за латентност, пропускайки способност и разходи.
  • Дефиниране на цели на ниво услуга за задачите по инференция.

Архитектура на разгъваряне и поток на облуждане

  • Основни компоненти на производствената стек за инференция.
  • Избор между контейнерирано, локално и облаково разгъваряне.
  • Основи на зареждане на модели, руттиране на заявки и алтерация на GPU.
  • Проектиране за надеждност и оперативна простота.

Практическа оптимизация на латентността

  • Използване на оптимираните инференционни мениджъри като TensorRT, когато е приложимо.
  • Концепции за KV-кеш и praktična настройка на кеша.
  • Смяна на стартирането, разгряването и отговорното забавяне.
  • Измерване на времето до първия токен и скоростта за генериране на токени.

Пропускайки способност, групиране и ефективност на GPU

  • Стратегии за постоянно групиране и групиране на заявки.
  • Управление на конкуренцията и поведението на опашките.
  • Подобряване на използването на GPU, без да се вреди на потребителския опит.
  • Обработка на заявки с дълъг контекст и миксовани задачи.

Квантизация и контрол на разходите

  • Защо квантизацията е важна за облуждането в производствена среда.
  • Практически компромиси при FP16, INT8 и други общоприети опции за прецизност.
  • Балансиране на качеството на моделите, латентността и разходите за инфраструктура.
  • Създаване на прост списък за оптимизация на разходите.

Операции, мониторинг и преглед на готовност

  • Тригерс за автоскалирање при услуги за инференция.
  • Мониторинг на латентността, пропускайки способността, използването на кеша и здравето на GPU-то.
  • Основи за логване, уведомяване и отговор при инциденти.
  • Преглед на референтна разгъваряне и създаване на план за подобрения.

Изисквания

  • Основно разбиране на процесите по разгъваряне и инференция на големи модели за език.
  • Опит с контейнери, облак или локална инфраструктура и услуги базирани на API.
  • Работни познания за Python или системно инженерство.

Публика

  • Инженери по ML, които разгъват LLM в производствената среда.
  • Платформни инженери, отговорни за GPU-базирани услуги за инференция.
  • Архитекти на решенията, които проектират масштабируеми платформи за облуждане с ИИ.
 14 Часове

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории