Высокопроизводительный инференс глубоких сетей на GPU с помощью TensorRT / Максим Милаков (NVidia)
Приглашаем на конференцию HighLoad++ 2025, которая пройдет 6 и 7 ноября в Москве! Программа, подробности и билеты по ссылке: https://highload.ru/moscow/2025
________ Презентация и тезисы: http://www.highload.ru/2016/abstracts...
Производительность инференса - одна из самых серьезных проблем при внедрении DL приложений, так как она определяет, какое впечатление от сервиса останется у конечного пользователя, а также какова будет цена внедрения этого продукта. Таким образом, для инференса важно быть высокопроизводительным и энергоэффективным. TensorRT автоматически оптимизирует обученную нейронную сеть для максимальной производительности, обеспечивая существенное ускорение по сравнению с обычными часто используемыми фреймворками.