G
enby!

Trino в Авито. Возможности CedrusData Catalog | Lakehouse Meetup

Trino в Авито спустя два года: от движка к аналитической экосистеме «Trino стал основой нашей аналитики, но сам по себе движок не делает платформу. Чтобы построить современный DWH, мы развивали все ключевые компоненты Lakehouse: высоконагруженное и масштабируемое хранилище, стабильный и функциональный каталог, управляемую инфраструктуру — и дорабатывали сам Trino для поддержки моделей вроде Data Vault. Сегодня наша платформа обрабатывает до 1 ПБ данных в день и обслуживает 300 активных пользователей. В этом докладе — практический опыт развития Lakehouse как системы: что пришлось строить вокруг Trino, и почему этого не избежать. Всё, что нужно знать, если вы собираетесь жить на Lakehouse.»‎ Дмитрий Рейман, Tech Lead в Analytics Platform, Авито CedrusData Catalog — Современный каталог для lakehouse-платформ «Каталог метаданных является центральным компонентом lakehouse-платформ, основанных на технологии Apache Iceberg. В докладе я рассказываю про CedrusData Catalog — бесплатный каталог метаданных для российского рынка. Рассмотрим основные возможности продукта: ролевая модель доступа, maintenance таблиц Iceberg, поддержка time-travel, ускорение аналитических запросов с помощью материализации повторяющихся вычислений, расширение возможностей каталога с помощью плагинов, работа с S3/HDFS/Ozone. Дальнейшие планы по развитию: fine-grained контроль доступа (маскирование, row-level security, ABAC), автоматическое обслуживание таблиц, продвинутый time-travel, расширенные метаданные для оптимизаторов движков, и другое.»‎ Владимир Озеров, Генеральный директор, Кверифай Лабс

Смотрите также