Арсен Гумин — Data Quality, или Как тестировать рекомендации
Ближайшая конференция — Heisenbug 2025 Autumn, 19—20 октября, Санкт-Петербург + online. Подробности и билеты: https://jrg.su/D6uGC9
— — Скачать презентацию с сайта Heisenbug — https://jrg.su/0IQBXU
Разбираем области, в которых мы хотим применять практики Data Quality (далее DQ) и решать проблемы с данными. Спикер рассказал о RecSys-платформе как о среде, в которой это можно развивать. Основная цель — понять, что данные нужно тестировать, качество данных не получается внедрять сверху и оно прямо влияет на стабильность дата-продуктов. Спикер рассказал, какие проблемы возникают при попытке создать «дата-продукты». Что такое «проблема с данными»? Чем оценка качества компонентов системы в классической разработке отличается от Data Science? Определил, что же такое DQ — как термин и как подход. Показал примеры внутри индустрии в качестве аргумента в защиту распространенности метода/подхода. Рассмотрел конкретный пример, чтобы убрать все оставшиеся непонимания, о чем это мы. Что нужно сделать, чтобы создать DQ-тест? Рассказал, как внедряли DQ в платформу. Какие проблемы встречали и что для себя решали. Что не взлетело, но казалось важным и востребованным. Как повышаем качество данных и оцениваем качество. Воркфлоу одного сценария. Какие бенефиты нам дает большое покрытие. Какие бенефиты бизнесу. Выводы.