G
enby!

Мок-собеседование Data Engineer с объяснениями! S2E2 | rzv_de | March 2025

Погружаемся в роли интервьюера и кандидата. Теперь с объяснениями по ходу. Вторая проба пера, s2e2 получился лучше :) Как тебе формат? Делись в комментах Кандидат отлично подготовлен теоретически, чувствуется большой опыт. Считаю, что лычку сеньора сможет получить во многих компаниях. Если хочешь больше контента по инжинирингу данных от сеньора из индустрии -- подписывайся на авторский канал: https://t.me/rzv_de
Для записи на интервью пиши: https://t.me/razvodov_de_mentor
Менторство: https://rzvde.tilda.ws/
Материалы для самостоятельной подготовки и полезный чат: https://boosty.to/rzv_de
Делись с заинтересованными, если понравилось и хочешь ещё. Пиши, если чего-то не хватило и что-то нужно доработать. Обещанные типы окошек агрегации в стриминге: https://www.confluent.io/blog/windowi...
00:00 Про новый формат 02:10 Начало собеса, формат 03:05 Рассказ про опыт 09:28 Почему выбрали микросервисы для Kafka, а не Spark 12:00 Как отлаживал обработку стриминговых данных 12:53 Как устроен CI/CD 13:35 Про среды dev prod на Kubernetes 14:15 Тесты кода и данных на стриминге 15:57 Кто подготавливал тест кейсы и золотые датасеты 19:00 Агрегации в стриминге 20:24 Что определяет оффсет в кафке 24:10 Горизонтальное масштабирование записи в Kafka (ack) 29:15 Основные челленджи в распределённых системах 34:10 Разделение Compute и Storage 35:10 Scale up, scale down, scale ...? 36:16 Принцип локальности (узкие и широкие операции) 40:10 Как избежать shuffle для широких операций 42:35 Какие процессы в HDFS поддерживают фактор репликации 45:15 Erasure coding HDFS 46:05 Почему Data vault не стоит строить на HDFS 47:50 Через какие движки на HDFS можно с файлами работать как с таблицами 51:00 Как нарезать широкую таблицу на сателлиты в DV 56:10 SCD2 на 1й колонке или на 2х -- что больше биг дата 57:05 На что может влиять DE при оптимизации запросов 1:01:05 Проблема маленьких тасок в Airflow 01:03:28 === Технические шоколадки === 01:07:20 Рассуждения о способе решения SQL задачки 01:12:20 Вторая задачка SQL с решением 01:22:22 Вопросы к команде от кандидата -- Music license -- Haru by Roa | https://roa-music.com
Music promoted by https://www.chosic.com/free-music/all/
Creative Commons CC BY 3.0 https://creativecommons.org/licenses/...

Смотрите также