Игорь Балюк — Как мы строим систему распределенного трейсинга, в которой можно терять данные
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— — Скачать презентацию с сайта SmartData — https://jrg.su/MGHs5C
Зачастую к системам обработки и доставки данных предъявляются строгие требования по надежности: все данные должны быть доставлены. В Авито строят систему сбора логов и распределенного трейсинга, которая обрабатывает более 15 миллионов событий в секунду от более 2 тысяч сервисов, и при этом можно терять данные! Спикер рассмотрел архитектуру этой системы. Рассказал про уловки, которыми мы можем пользоваться из-за отсутствия строгих гарантий. Как откинуть данные, если мы не хотим хранить все? И как понять, какие данные нужны? Как мы выстраиваем передачу данных в условиях отказа узлов и дата-центров? В докладе сконцентрировались на архитектуре этой системы и ее эволюции, но домен сбора трейсинга и логов тоже затронули. Технологии: пайплайны обработки данных на OpenTelemetry, всеми любимые Kafka и ClickHouse (плюс их синергия) и вероятностные потоковые алгоритмы.