Курс за обучение по NVIDIA GPU Programming - Extended
Този курс за обучение на живо, ръководен от инструктори, обхваща как да програмирате GPU за паралелни изчисления, как да използвате различни платформи, как да работите с платформата CUDA и нейните функции и как да изпълнявате различни техники за оптимизация с помощта на CUDA. Някои от приложенията включват дълбоко обучение, анализи, обработка на изображения и инженерни приложения.
План на курса
Въведение
Разбиране на основите на хетерогенната изчислителна методология
Защо паралелно изчисление? Разбиране на необходимостта от паралелни изчисления
Многоядрени процесори – архитектура и дизайн
Въведение в нишките, основите на нишките и основните понятия на паралела Programming
Разбиране на основите на GPU процесите за софтуерна оптимизация
OpenMP - стандарт за базиран на директиви паралел Programming
Практика / Демонстрация на различни програми на многоядрени машини
Въведение в GPU Компютинг
GPUs за паралелни изчисления
GPU Programming Модел
Практика / Демонстрация на различни програми на GPU
SDK, набор от инструменти и инсталиране на среда за GPU
Работа с различни библиотеки
Демонстрация на GPU и инструменти с примерни програми и OpenACC
Разбиране на модела CUDA Programming.
Изучаване на CUDA архитектурата
Проучване и настройка на среди за разработка CUDA
Работа с CUDA Runtime API
Разбиране на модела на паметта CUDA
Проучване на допълнителни функции на CUDA API
AccessЕфективно използване на глобална памет в CUDA: Глобална оптимизация на паметта
Оптимизиране на трансфера на данни в CUDA с помощта на CUDA потоци
Използване на споделена памет в CUDA
Разбиране и използване на атомарни операции и инструкции в CUDA
Казус от практиката: Основна цифрова обработка на изображения с CUDA
Работа с Multi-GPU Programming
Разширено хардуерно профилиране и семплиране на NVIDIA / CUDA
Използване на CUDA Dynamic Parallelism API за динамично стартиране на ядрото
Обобщение и заключение
Изисквания
- C Programming
- Linux GCC
Отворените курсове за обучение изискват 5+ участници.
Курс за обучение по NVIDIA GPU Programming - Extended - Booking
Курс за обучение по NVIDIA GPU Programming - Extended - Enquiry
NVIDIA GPU Programming - Extended - Консултантско запитване
Консултантско запитване
Oтзиви от потребители (1)
Обучаващи енергия и хумор.
Tadeusz Kaluba - Nokia Solutions and Networks Sp. z o.o.
Курс - NVIDIA GPU Programming - Extended
Машинен превод
Предстоящи Курсове
Свързани Kурсове
Developing AI Applications with Huawei Ascend and CANN
21 Часа- Настроят и конфигурират средата за разработка на CANN.
- Разработват AI приложения, използвайки MindSpore и CloudMatrix работни процеси.
- Оптимизират производителността на Ascend NPU, използвайки персонализирани оператори и тилинг.
- Разпределят модели в периферни или облачни среди.
- Интерактивна лекция и дискусия.
- Практическо използване на Huawei Ascend и инструменталния комплект CANN в примерни приложения.
- Упътвания за упражнения, фокусирани върху изграждането, обучението и разпределението на модели.
- За да поставите запрос за персонализирано обучение за този курс, базиран на вашата инфраструктура или данни, моля свържете се с нас за уредение.
AI Inference and Deployment with CloudMatrix
21 Часа- Използват КлудMatrix за пакетиране, развертане и предоставяне на модели.
- Конвертират и оптимизират модели за чипсетове Ascend.
- Настрояват пиплайни за задачи с инференс в реално време и в пакети.
- Мониторират развертане и настройват производителност в производствени условия.
- Интерактивни лекции и дискусии.
- Практическо използване на КлудMatrix с реални сценарии за развертане.
- Упътващи упражнения, фокусирани върху конвертиране, оптимизация и масштабируемост.
- За да поискате персонализирано обучение за този курс, базирано на вашата AI инфраструктура или облачна среда, моля свържете се с нас, за да организираме.
GPU Programming on Biren AI Accelerators
21 ЧасаCambricon MLU Development with BANGPy and Neuware
21 ЧасаCambricon MLUs (Machine Learning Units) are specialized AI chips optimized for inference and training in edge and datacenter scenarios.
This instructor-led, live training (online or onsite) is aimed at intermediate-level developers who wish to build and deploy AI models using the BANGPy framework and Neuware SDK on Cambricon MLU hardware.
By the end of this training, participants will be able to:
- Set up and configure the BANGPy and Neuware development environments.
- Develop and optimize Python- and C++-based models for Cambricon MLUs.
- Deploy models to edge and data center devices running Neuware runtime.
- Integrate ML workflows with MLU-specific acceleration features.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of BANGPy and Neuware for development and deployment.
- Guided exercises focused on optimization, integration, and testing.
Course Customization Options
- To request a customized training for this course based on your Cambricon device model or use case, please contact us to arrange.
Administration of CUDA
35 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към системни администратори на ниво начинаещи и ИТ специалисти, които желаят да инсталират, конфигурират, управляват и отстраняват проблеми в CUDA среди.
До края на това обучение участниците ще могат:
- Разберете архитектурата, компонентите и възможностите на CUDA.
- Инсталирайте и конфигурирайте CUDA среди.
- Управлявайте и оптимизирайте ресурсите на CUDA.
- Отстраняване на грешки и отстраняване на често срещани проблеми с CUDA.
GPU Programming with CUDA and Python
14 ЧасаТова инструкторско руководимо живо обучение в България (онлайн или наместно) е насочено към среднокоlescени разработчици, които искат да използват CUDA за построяване на Python приложения, работещи паралелно върху NVIDIA GPU.
До края на това обучение участниците ще могат:
- Да използват компилатора Numba за ускоряване на Python приложения, работещи на NVIDIA GPU.
- Да създават, компилират и стартират персонализирани CUDA ядра.
- Да управляват паметта на GPU.
- Да конвертират CPU-базирано приложение в приложение, ускорено от GPU.
Migrating CUDA Applications to Chinese GPU Architectures
21 ЧасаChinese GPU architectures such as Huawei Ascend, Biren, and Cambricon MLUs offer CUDA alternatives tailored for local AI and HPC markets.
This instructor-led, live training (online or onsite) is aimed at advanced-level GPU programmers and infrastructure specialists who wish to migrate and optimize existing CUDA applications for deployment on Chinese hardware platforms.
By the end of this training, participants will be able to:
- Evaluate compatibility of existing CUDA workloads with Chinese chip alternatives.
- Port CUDA codebases to Huawei CANN, Biren SDK, and Cambricon BANGPy environments.
- Compare performance and identify optimization points across platforms.
- Address practical challenges in cross-architecture support and deployment.
Format of the Course
- Interactive lecture and discussion.
- Hands-on code translation and performance comparison labs.
- Guided exercises focused on multi-GPU adaptation strategies.
Course Customization Options
- To request a customized training for this course based on your platform or CUDA project, please contact us to arrange.
GPU Programming with CUDA
28 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към разработчици от начинаещи до средно ниво, които желаят да използват CUDA за програмиране на NVIDIA GPU и да използват техния паралелизъм.
До края на това обучение участниците ще могат:
- Настройте среда за разработка, която включва CUDA Toolkit, код на NVIDIA GPU и Visual Studio.
- Създайте основна CUDA програма, която извършва добавяне на вектор върху GPU и извлича резултатите от паметта GPU.
- Използвайте CUDA API, за да правите заявки за информация за устройството, да разпределяте и освобождавате памет на устройството, да копирате данни между хост и устройство, да стартирате ядра и да синхронизирате нишки.
- Използвайте езика CUDA C/C++, за да напишете ядра, които се изпълняват на GPU и да манипулират данни.
- Използвайте вградени функции, променливи и библиотеки на CUDA за изпълнение на общи задачи и операции.
- Използвайте CUDA пространства на паметта, като глобални, споделени, постоянни и локални, за да оптимизирате трансфера на данни и достъпа до паметта.
- Използвайте модел за изпълнение на CUDA, за да контролирате нишките, блоковете и решетките, които определят паралелизма.
- Отстранявайте грешки и тествайте CUDA програми с помощта на инструменти като CUDA-GDB, CUDA-MEMCHECK и NVIDIA Nsight.
- Оптимизирайте програмите CUDA, като използвате техники като обединяване, кеширане, предварително извличане и профилиране.
97% удовлетвореност на клиентите.
GPU Programming with OpenCL
28 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към разработчици от начинаещи до средно ниво, които желаят да използват OpenCL за програмиране на хетерогенни устройства и да използват техния паралелизъм.
До края на това обучение участниците ще могат:
- Настройте среда за разработка, която включва OpenCL SDK, устройство, което поддържа OpenCL и Visual Studio код.
- Създайте основна OpenCL програма, която извършва векторно добавяне на устройството и извлича резултатите от паметта на устройството.
- Използвайте OpenCL API за запитване към информация за устройството, създаване на контексти, опашки с команди, буфери, ядра и събития.
- Използвайте OpenCL език C, за да напишете ядра, които се изпълняват на устройството и манипулират данни.
- Използвайте OpenCL вградени функции, разширения и библиотеки за изпълнение на общи задачи и операции.
- Използвайте OpenCL модели памет на хост и устройство, за да оптимизирате трансфера на данни и достъпа до паметта.
- Използвайте OpenCL модел за изпълнение, за да контролирате работните елементи, работните групи и ND-обхватите.
- Отстранявайте грешки и тествайте OpenCL програми с помощта на инструменти като CodeXL, Intel VTune и NVIDIA Nsight.
- Оптимизирайте OpenCL програми, като използвате техники като векторизация, разгръщане на цикъл, локална памет и профилиране.
GPU Programming - OpenCL vs CUDA vs ROCm
28 ЧасаТова водено от инструктор обучение на живо в България (онлайн или на място) е насочено към разработчици от начинаещи до средно ниво, които желаят да използват различни рамки за GPU програмиране и да сравняват техните характеристики, производителност и съвместимост.
До края на това обучение участниците ще могат:
- Настройте среда за разработка, която включва OpenCL SDK, CUDA Toolkit, ROCm платформа, устройство, което поддържа OpenCL, CUDA или ROCm и Visual Studio код.
- Създайте основна GPU програма, която извършва добавяне на вектори, използвайки OpenCL, CUDA и ROCm, и сравнете синтаксиса, структурата и изпълнението на всяка рамка.
- Използвайте съответните API, за да правите заявки за информация за устройството, да разпределяте и освобождавате памет на устройството, да копирате данни между хост и устройство, да стартирате ядра и да синхронизирате нишки.
- Използвайте съответните езици, за да напишете ядра, които се изпълняват на устройството и манипулират данни.
- Използвайте съответните вградени функции, променливи и библиотеки за изпълнение на общи задачи и операции.
- Използвайте съответните пространства на паметта, като глобална, локална, постоянна и частна, за да оптимизирате прехвърлянето на данни и достъпа до паметта.
- Използвайте съответните модели за изпълнение, за да контролирате нишките, блоковете и решетките, които определят паралелизма.
- Отстранявайте грешки и тествайте GPU програми с помощта на инструменти като CodeXL, CUDA-GDB, CUDA-MEMCHECK и NVIDIA Nsight.
- Оптимизирайте GPU програми, като използвате техники като обединяване, кеширане, предварително извличане и профилиране.
Performance Optimization on Ascend, Biren, and Cambricon
21 ЧасаAscend, Biren, and Cambricon are leading AI hardware platforms in China, each offering unique acceleration and profiling tools for production-scale AI workloads.
This instructor-led, live training (online or onsite) is aimed at advanced-level AI infrastructure and performance engineers who wish to optimize model inference and training workflows across multiple Chinese AI chip platforms.
By the end of this training, participants will be able to:
- Benchmark models on Ascend, Biren, and Cambricon platforms.
- Identify system bottlenecks and memory/compute inefficiencies.
- Apply graph-level, kernel-level, and operator-level optimizations.
- Tune deployment pipelines to improve throughput and latency.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of profiling and optimization tools on each platform.
- Guided exercises focused on practical tuning scenarios.
Course Customization Options
- To request a customized training for this course based on your performance environment or model type, please contact us to arrange.