G
enby!

18. Вычисления на GPU с помощью OpenCL — 2 | Параллельное программирование 2025

В этой лекции вы узнаете, как эффективно реализовать умножение матриц на GPU с использованием OpenCL. Мы начнем с базового подхода, сравним производительность CPU и GPU, а затем пошагово перейдём к оптимизированной версии с применением тайлового умножения и неупорядоченного исполнения команд. Также рассмотрим использование локальной памяти, barrier-синхронизацию и OpenCL-событий для максимального ускорения вычислений. Ну и поотлаживаем ошибки, куда без них. :) Практические задания и примеры кода доступны на моем гитхабе: https://github.com/alexey-malov/pc
Чтобы оставаться на связи в условиях блокировки Youtube в России подписывайтесь на мой Telegram-канал https://t.me/vivid_coding
Тайм-коды: 0:00 Разбираем классическое умножение матриц с прошлой лекции 5:07 Принцип тайлового умножения матриц 9:24 Ядро тайлового умножения матриц 22:41 Ускоряем вычисления за счёт неупорядоченного выполнения вычислений 25:15 События в OpenCL 32:09 Профилирование событий 35:09 Эксперименты с размером тайлов 41:12 Поиск и исправление бага в ядре умножения матриц 50:36 Продолжаем эксперименты с размером тайла В заставке использована композиция "Папа может в Си" музыкального коллектива "Научно-технический рэп" (https://vk.com/nii_rap)

Смотрите также