Apache Spark: SQL vs DSL. SQL это круто ...
Дмитрий Вертлиб Мы привыкли, что с помощью фреймворка распределённых вычислений и DSL можно эффективно обрабатывать данные. В докладе я расскажу, как с помощью Apache Iceberg и различных оптимизаций реализовать оптимальную обработку данных на SQL с минимальным количеством перемещений (шаффла) и использованием вероятностных структур данных. Также я приведу пример реализации на DSL и полный функциональный аналог на SQL