Видео
Максим Афанасьев. Впихиваем невпихуемое: хостим несколько ML-сервисов на одной GPU

Максим Афанасьев. Впихиваем невпихуемое: хостим несколько ML-сервисов на одной GPU

Ждем вас на наших конференциях: 2 февраля 2024 - EkbPy 26-27 июля 2024 - PyCon Максим Афанасьев Data Scientist, Точка Впихиваем невпихуемое: хостим несколько ML-сервисов на одной GPU Порой в компании набирается некоторое количество сервисов с МЛ-моделями, которые по нагрузке еще не доросли до момента, когда под них нужна отдельная vGPU/GPU. Хочется их поселить на какой-нибудь ноде с одной видеокартой. Тогда приходится решать проблему конкурирования сервисов за ресурсы видеокарты, в особенности за видеопамять. В рамках доклада расскажу, как мы в Точке побороли эту проблему, зачем и как пришлось для этого патчить onnxruntime. Слушатель узнает о том, какие есть способы захостить на одной видеокарте несколько сервисов с машинкой, а также немного о том, как onnxruntime управляет памятью.

Максим Афанасьев. Впихиваем невпихуемое: хостим несколько ML-сервисов на одной GPU

Смотрите также